Esta é uma postagem de convidado de Andy Whittle, engenheiro principal de plataforma – Application & Reliability Frameworks no The Very Group.
At O próprio grupo, que opera o varejista digital Very, a segurança é uma prioridade no tratamento de dados para milhões de clientes. Parte de como o The Very Group protege e rastreia as operações de negócios é por meio do registro de atividades entre os sistemas de negócios (por exemplo, nos estágios de um pedido do cliente). É um requisito operacional crítico e permite ao The Very Group rastrear incidentes e identificar proativamente problemas e tendências. No entanto, isso pode significar o processamento de dados do cliente na forma de informações de identificação pessoal (PII) em relação a atividades como compras, devoluções, uso de opções de pagamento flexíveis e gerenciamento de contas.
Neste post, The Very Group mostra como eles usam Amazon Comprehend para adicionar mais uma camada de defesa automatizada sobre as políticas para projetar a modelagem de ameaças em todos os sistemas, para evitar que as PII sejam enviadas em dados de log para o Elasticsearch para indexação. O Amazon Comprehend é um serviço de processamento de linguagem natural (NLP) totalmente gerenciado e continuamente treinado que pode extrair informações sobre o conteúdo de um documento ou texto.
Visão geral da solução
O objetivo primordial da equipe de engenharia do The Very Group era impedir que quaisquer dados PII chegassem a documentos dentro do Elasticsearch. Para conseguir isso e automatizar a remoção de PII de milhões de registros identificados por dia, a equipe de engenharia do The Very Group criou um módulo de observabilidade de aplicativos no Terraform. Este módulo implementa uma solução de observabilidade, incluindo logs de aplicativos, monitoramento de desempenho de aplicativos (APM) e métricas. No módulo, a equipe usou o Amazon Comprehend para destacar PII nos dados de log com a opção de removê-los antes de enviar para o Elasticsearch.
O Amazon Comprehend foi identificado como parte de uma iniciativa interna de engenharia de plataforma para investigar como os serviços de IA da AWS podem ser usados para melhorar a eficiência e reduzir o risco em atividades comerciais repetitivas. A cultura do Very Group para aprender e experimentar significou que o Amazon Comprehend foi revisado quanto à aplicabilidade usando um aplicativo Java para aprender como ele funcionava com dados PII de teste. A equipe usou exemplos de código na documentação para acelerar a prova de conceito e rapidamente provou o potencial em um dia.
A equipe de engenharia desenvolveu um esquema demonstrando como um serviço de edição de PII poderia se integrar ao registro do The Very Group. Envolveu o desenvolvimento de um microsserviço para chame o Amazon Comprehend para detectar dados PII. A solução funcionou passando os dados de log do The Very Group por meio de uma instância do Logstash em execução no AWS Fargate, que limpa os dados usando outro serviço pii-logstash-redaction hospedado pelo Fargate com base em um aplicativo Spring Boot Java que faz chamadas para o Amazon Comprehend para remover PII. O diagrama a seguir ilustra essa arquitetura.
A solução do Very Group leva logs de Amazon CloudWatch e Serviço Amazon Elastic Container (Amazon ECS) e passa as versões limpas para o Elasticsearch para serem indexadas. Amazon Kinesis é usado na solução para capturar e armazenar logs por curtos períodos, com o Logstash baixando os logs a cada poucos segundos.
Os logs são originados em vários processos de negócios, incluindo pedidos, devoluções e serviços financeiros. Eles incluem logs de mais de 200 aplicativos do Amazon ECS em ambientes de teste e produção no Fargate que enviam logs para o Logstash. Outra fonte é AWS Lambda logs que são inseridos no Kinesis e, em seguida, inseridos no Logstash. Por fim, uma instância autônoma separada do Filebeat extrai a análise de log e os coloca no CloudWatch e, em seguida, no Logstash. O resultado é que muitas fontes de logs são extraídas ou enviadas para o Logstash e processadas pelo módulo Application Observability e Amazon Comprehend antes de serem armazenadas no Elasticsearch.
Um módulo separado do Terraform fornece toda a infraestrutura necessária para manter um serviço Logstash capaz de exportar logs de grupos de log do CloudWatch para o Elasticsearch por meio de um AWS PrivateLink VPC endpoint. O serviço Logstash também pode ser integrado ao Amazon ECS por meio de um configuração de log firelens, com o Amazon ECS estabelecendo conectividade em um Amazon Route 53 registro. A escalabilidade é integrada com o dimensionamento sob demanda do Kinesis (embora a equipe tenha começado com shards fixos, mas agora está mudando para uso sob demanda), e o Logstash é dimensionado com recursos adicionais Amazon Elastic Compute Nuvem (Amazon EC2) por trás de um NLB devido aos protocolos usados pelo Filebeat e permite que o Logstash extraia logs do Kinesis com mais eficiência.
Por fim, o serviço Logstash consiste em uma definição de tarefa contendo um contêiner Logstash e um contêiner de edição de PII, garantindo a remoção de PII antes da exportação para o Elasticsearch.
Resultados
A equipe de engenharia conseguiu construir e testar a solução em uma semana, sem precisar entender o aprendizado de máquina (ML) ou o funcionamento da IA, usando Orientação em vídeo do Amazon Comprehend, Documentação de referência da API e código de exemplo. Tendo demonstrado o valor comercial tão rapidamente, os proprietários de produtos comerciais começaram a desenvolver novos casos de uso para aproveitar o serviço. Algumas decisões tiveram que ser tomadas para viabilizar a solução. Embora a equipe de engenharia da plataforma soubesse que poderia redigir os dados, eles queriam interceptar os logs da solução atual (com base em um sidecar do Fluent Bit para redirecionar os logs para um endpoint). Eles decidiram adotar o Logstash para permitir a interceptação de campos de log por meio de pipelines para integração com seu serviço PII (composto pelo módulo Terraform e serviço Java).
A adoção do Logstash foi inicialmente feita sem problemas. As equipes de engenharia do Very Group agora estão usando o serviço diretamente por meio de um endpoint de API para colocar logs diretamente no Elasticsearch. Isso permitiu que eles mudassem seu endpoint do sidecar para o novo endpoint e o implementassem por meio do módulo Terraform. O único problema que a equipe teve foi nos testes iniciais que revelaram um problema de velocidade ao testar com cargas de pico de negociação. Isso foi superado por meio de ajustes no código Java.
O código a seguir mostra como o The Very Group usa o Amazon Comprehend para remover PII das mensagens de log. Ele detecta qualquer PII e cria uma lista de tipos de entidades a serem registradas. Para acelerar o desenvolvimento, o código foi retirado da documentação da AWS e adaptado para uso no serviço de aplicativo Java implantado no Fargate.
A captura de tela a seguir mostra a saída enviada ao Elasticsearch como parte do processo de edição de PII. O serviço gera 1 milhão de registros por dia, gerando um registro a cada edição.
A mensagem de log é redigida e o campo redacted_entities contém uma lista dos tipos de entidade encontrados na mensagem. Nesse caso, o exemplo encontrou um URL, mas poderia ter identificado qualquer tipo de dados PII amplamente baseado nos tipos integrados de PII. Um tipo de PII personalizado adicional para o número da conta do cliente foi adicionado por meio do Amazon Comprehend, mas não foi necessário até agora. As substituições no nível do esquadrão de engenharia estão documentadas no GitHub sobre como usá-las.
Conclusão
Este projeto permitiu ao The Very Group implementar uma solução rápida e simples para redigir PII confidenciais em logs. A equipe de engenharia adicionou mais flexibilidade, permitindo substituições de tipos de entidade, usando o Amazon Comprehend para fornecer flexibilidade para redigir PII com base nas necessidades de negócios. No futuro, a equipe de engenharia pretende treinar entidades individuais do Amazon Comprehend para redigir strings, como nossos IDs de cliente.
O resultado da solução é que o The Very Group tem liberdade para passar as toras sem precisar se preocupar. Ele impõe a política de não armazenar PII em logs, reduzindo assim o risco e melhorando a conformidade. Além disso, os metadados editados estão sendo informados à empresa por meio de um painel do Elasticsearch, permitindo alertas e outras ações.
Reserve um tempo para avaliar os serviços de IA/ML da AWS que sua organização ainda não usou e promova uma cultura de experimentação. Começar simples pode levar rapidamente a benefícios comerciais, assim como o The Very Group provou.
Sobre o autor
Andy Whittle é Engenheiro Principal de Plataforma – Frameworks de Aplicação e Confiabilidade no The Very Group, que opera a varejista digital Very com sede no Reino Unido. Andy ajuda a fornecer monitoramento de desempenho em todas as tribos da organização e tem um interesse particular em monitoramento, observabilidade e desempenho de aplicativos. Desde que ingressou na Very em 1998, Andy assumiu uma ampla variedade de funções, abrangendo gerenciamento de conteúdo e produção de catálogo, gerenciamento de estoque, suporte de produção, DevOps e Fusion Middleware. Nos últimos 4 anos, ele fez parte da equipe de engenharia da plataforma.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- Capaz
- Sobre
- acelerar
- Conta
- gerenciamento de contas
- em
- Açao Social
- atividades
- atividade
- adicionado
- Adicional
- adotar
- Adoção
- Vantagem
- AI
- Serviços de IA
- AI / ML
- Todos os Produtos
- Permitindo
- Apesar
- Amazon
- Amazon Comprehend
- Amazon EC2
- análise
- e
- Outro
- api
- Aplicação
- Aplicativos
- arquitetura
- automatizar
- Automatizado
- AWS
- em caminho duplo
- baseado
- antes
- atrás
- ser
- beneficiar
- entre
- Pouco
- construir
- construído
- construídas em
- negócio
- chamadas
- capaz
- capturar
- casas
- casos
- catálogo
- código
- compliance
- compreender
- Computar
- conceito
- Conectividade
- Recipiente
- contém
- conteúdo
- poderia
- cobertura
- criado
- cria
- crítico
- Cultura
- Atual
- cliente
- dados do cliente
- Clientes
- painel de instrumentos
- dados,
- dia
- decidido
- decisões
- Defesa
- entregar
- Demanda
- demonstraram
- demonstrando
- implantar
- implantado
- Design
- desenvolver
- desenvolvido
- em desenvolvimento
- Desenvolvimento
- digital
- diretamente
- documento
- documentação
- INSTITUCIONAIS
- down
- cada
- efetivamente
- eficiência
- permitir
- permite
- permitindo
- Ponto final
- engenheiro
- Engenharia
- assegurando
- entidades
- entidade
- ambientes
- estabelecendo
- exemplo
- exemplos
- experimentar
- extrato
- poucos
- campo
- Campos
- Finalmente
- financeiro
- serviços financeiros
- fixado
- Flexibilidade
- flexível
- seguinte
- formulário
- Promover
- encontrado
- enquadramentos
- Freedom
- da
- totalmente
- mais distante
- Além disso
- fusão
- futuro
- gera
- gerando
- GitHub
- meta
- Grupo
- Do grupo
- Locatário
- Visitante Mensagem
- Manipulação
- ter
- ajuda
- Destaques
- Como funciona o dobrador de carta de canal
- Como Negociar
- Contudo
- HTML
- HTTPS
- identificado
- identificar
- executar
- implementa
- melhorar
- melhorar
- in
- incluir
- Incluindo
- Individual
- INFORMAÇÕES
- Infraestrutura
- do estado inicial,
- inicialmente
- Iniciativa
- introspecção
- instância
- integrar
- integrado
- interesse
- interno
- investigar
- envolvido
- emitem
- IT
- Java
- juntando
- Rótulos
- língua
- largamente
- camada
- conduzir
- APRENDER
- aprendizagem
- Lista
- cargas
- procurando
- máquina
- aprendizado de máquina
- moldadas
- FAZ
- gerenciados
- de grupos
- muitos
- mensagem
- mensagens
- metadados
- Métrica
- milhão
- milhões
- ML
- modelagem
- Módulo
- monitoração
- mais
- natural
- Processamento de linguagem natural
- necessitando
- Cria
- Novo
- PNL
- número
- opera
- operando
- Operações
- Opção
- Opções
- ordem
- organização
- Superar
- predominante
- proprietários
- parte
- particular
- passes
- Passagem
- passado
- pagamento
- Pico
- atuação
- períodos
- Pessoalmente
- plataforma
- platão
- Inteligência de Dados Platão
- PlatãoData
- políticas
- Privacidade
- Publique
- potencial
- evitar
- Diretor
- Prévio
- prioridade
- privado
- problemas
- processo
- Processado
- processos
- em processamento
- Produto
- Produção
- projeto
- prova
- prova de conceito
- protocolos
- provou
- fornecer
- fornece
- puxando
- Pullover
- compras
- Empurrar
- empurrado
- colocar
- Coloca
- Links
- rapidamente
- registro
- registros
- redirecionar
- reduzir
- redução
- relação
- confiabilidade
- remoção
- remover
- removendo
- Informou
- solicitar
- requeridos
- requerimento
- resposta
- resultar
- varejista
- retorno
- Retorna
- Revelado
- Comentários
- Risco
- papéis
- Rota
- corrida
- AMPLIAR
- Escalas
- dimensionamento
- sem problemas
- segundo
- Protege
- segurança
- envio
- sensível
- serviço
- Serviços
- Baixo
- Shows
- simples
- desde
- So
- até aqui
- solução
- alguns
- fonte
- Fontes
- velocidade
- primavera
- bota de mola
- Estágio
- suporte
- autônoma
- começado
- Comece
- estoque
- loja
- armazenadas
- direto
- tal
- ajuda
- Interruptor
- sistemas
- Tire
- toma
- Tarefa
- Profissionais
- Terraform
- teste
- ensaio
- testes
- A
- deles
- assim
- ameaça
- Através da
- tempo
- para
- topo
- Traçar
- Trading
- treinado
- Training
- Tendências
- tipos
- Uk
- compreender
- URL
- Uso
- usar
- valor
- variedade
- via
- Vídeo
- querido
- semana
- qual
- Largo
- dentro
- sem
- trabalhou
- trabalhar
- anos
- investimentos
- zefirnet