Il s'agit d'un article invité d'Andy Whittle, ingénieur principal de la plate-forme - Cadres d'application et de fiabilité chez The Very Group.
At Le même groupe, qui exploite le détaillant numérique Very, la sécurité est une priorité absolue dans le traitement des données pour des millions de clients. Une partie de la façon dont The Very Group sécurise et suit les opérations commerciales se fait par la journalisation des activités entre les systèmes commerciaux (par exemple, à travers les étapes d'une commande client). Il s'agit d'une exigence opérationnelle essentielle qui permet à The Very Group de tracer les incidents et d'identifier de manière proactive les problèmes et les tendances. Cependant, cela peut signifier le traitement des données des clients sous la forme d'informations personnellement identifiables (PII) en relation avec des activités telles que les achats, les retours, l'utilisation d'options de paiement flexibles et la gestion de compte.
Dans cet article, The Very Group montre comment ils utilisent Amazon comprendre pour ajouter une couche supplémentaire de défense automatisée au-dessus des politiques afin de concevoir une modélisation des menaces dans tous les systèmes, afin d'empêcher que les informations personnelles soient envoyées dans les données de journal à Elasticsearch pour indexation. Amazon Comprehend est un service de traitement du langage naturel (NLP) entièrement géré et formé en continu qui peut extraire des informations sur le contenu d'un document ou d'un texte.
Présentation de la solution
L'objectif primordial de l'équipe d'ingénieurs de The Very Group était d'empêcher toute donnée PII d'atteindre les documents dans Elasticsearch. Pour ce faire et automatiser la suppression des PII de millions d'enregistrements identifiés par jour, l'équipe d'ingénierie de The Very Group a créé un module Application Observability dans Terraform. Ce module implémente une solution d'observabilité, y compris les journaux d'application, la surveillance des performances des applications (APM) et les métriques. Dans le module, l'équipe a utilisé Amazon Comprehend pour mettre en évidence les PII dans les données de journal avec la possibilité de les supprimer avant de les envoyer à Elasticsearch.
Amazon Comprehend a été identifié dans le cadre d'une initiative d'ingénierie de plate-forme interne pour étudier comment les services AWS AI peuvent être utilisés pour améliorer l'efficacité et réduire les risques dans les activités commerciales répétitives. La culture d'apprentissage et d'expérimentation de Very Group a signifié qu'Amazon Comprehend a été examiné pour son applicabilité à l'aide d'une application Java afin d'apprendre comment il fonctionnait avec les données PII de test. L'équipe a utilisé des exemples de code dans la documentation pour accélérer la preuve de concept et a rapidement prouvé le potentiel en une journée.
L'équipe d'ingénieurs a développé un schéma démontrant comment un service de rédaction de PII pourrait s'intégrer à la journalisation de The Very Group. Il s'agissait de développer un microservice pour appeler Amazon Comprehend pour détecter les données PII. La solution a fonctionné en transmettant les données de journal de The Very Group via une instance Logstash exécutée sur AWSFargate, qui nettoie les données à l'aide d'un autre service pii-logstash-redaction hébergé par Fargate basé sur une application Spring Boot Java qui appelle Amazon Comprehend pour supprimer les PII. Le schéma suivant illustre cette architecture.
La solution du groupe Very prend les journaux de Amazon Cloud Watch ainsi que Service de conteneur élastique Amazon (Amazon ECS) et transmet les versions nettoyées à Elasticsearch pour qu'elles soient indexées. Amazon Kinésis est utilisé dans la solution pour capturer et stocker les journaux pendant de courtes périodes, Logstash extrayant les journaux toutes les quelques secondes.
Les journaux proviennent de nombreux processus métier, y compris les commandes, les retours et les services financiers. Ils incluent les journaux de plus de 200 applications Amazon ECS dans les environnements de test et de production de Fargate qui envoient les journaux dans Logstash. Une autre source est AWS Lambda journaux extraits dans Kinesis, puis extraits dans Logstash. Enfin, une instance autonome distincte de Filebeat extrait l'analyse des journaux et les place dans CloudWatch, puis dans Logstash. Le résultat est que de nombreuses sources de journaux sont extraites ou poussées dans Logstash et traitées par le module Application Observability et Amazon Comprehend avant d'être stockées dans Elasticsearch.
Un module Terraform distinct fournit toute l'infrastructure requise pour mettre en place un service Logstash capable d'exporter les journaux des groupes de journaux CloudWatch vers Elasticsearch via un Lien privé AWS Point de terminaison de VPC. Le service Logstash peut également être intégré à Amazon ECS via un configuration du journal firelens, avec Amazon ECS établissant la connectivité sur un Amazon Route 53 enregistrer. L'évolutivité est intégrée avec la mise à l'échelle de Kinesis à la demande (bien que l'équipe ait commencé avec des fragments fixes, mais passe maintenant à une utilisation à la demande), et Logstash évolue avec des Cloud de calcul élastique Amazon (Amazon EC2) derrière un NLB en raison des protocoles utilisés par Filebeat et permet à Logstash d'extraire plus efficacement les journaux de Kinesis.
Enfin, le service Logstash consiste en une définition de tâche contenant un conteneur Logstash et un conteneur de rédaction de PII, garantissant la suppression des PII avant l'exportation vers Elasticsearch.
Résultats
L'équipe d'ingénieurs a pu construire et tester la solution en une semaine, sans avoir besoin de comprendre l'apprentissage automatique (ML) ou le fonctionnement de l'IA, en utilisant Guide vidéo Amazon Comprehend, Documentation de référence de l'APIet exemple de code. Ayant démontré une valeur commerciale si rapidement, les propriétaires de produits commerciaux ont commencé à développer de nouveaux cas d'utilisation pour tirer parti du service. Certaines décisions ont dû être prises pour permettre la solution. Bien que l'équipe d'ingénierie de la plate-forme sache qu'elle pouvait expurger les données, elle souhaitait intercepter les journaux de la solution actuelle (basée sur un sidecar Fluent Bit pour rediriger les journaux vers un point de terminaison). Ils ont décidé d'adopter Logstash pour permettre l'interception des champs de journaux via des pipelines à intégrer à leur service PII (comprenant le module Terraform et le service Java).
L'adoption de Logstash s'est d'abord faite de manière transparente. Les équipes d'ingénierie de Very Group utilisent désormais le service directement via un point de terminaison API pour mettre les journaux directement dans Elasticsearch. Cela leur a permis de basculer leur point de terminaison du side-car vers le nouveau point de terminaison et de le déployer via le module Terraform. Le seul problème rencontré par l'équipe provenait des tests initiaux qui ont révélé un problème de vitesse lors des tests avec des charges de trading de pointe. Cela a été surmonté grâce à des ajustements du code Java.
Le code suivant montre comment The Very Group utilise Amazon Comprehend pour supprimer les PII des messages de journal. Il détecte tout PII et crée une liste de types d'entités à enregistrer. Pour accélérer le développement, le code a été extrait de la documentation AWS et adapté pour être utilisé dans le service d'application Java déployé sur Fargate.
La capture d'écran suivante montre la sortie envoyée à Elasticsearch dans le cadre du processus de rédaction des PII. Le service génère 1 million d'enregistrements par jour, générant un enregistrement à chaque fois qu'une rédaction est effectuée.
Le message de journal est expurgé et le champ expurgé_entités contient une liste des types d'entité trouvés dans le message. Dans ce cas, l'exemple a trouvé une URL, mais il aurait pu identifier n'importe quel type de données PII en grande partie sur la base des types de PII intégrés. Un type de PII supplémentaire sur mesure pour le numéro de compte client a été ajouté via Amazon Comprehend, mais n'a pas été nécessaire jusqu'à présent. Les remplacements au niveau de l'équipe d'ingénierie sont documentés dans GitHub sur la façon de les utiliser.
Conclusion
Ce projet a permis à The Very Group de mettre en place une solution simple et rapide pour expurger les PII sensibles dans les logs. L'équipe d'ingénieurs a ajouté une flexibilité supplémentaire permettant des remplacements pour les types d'entités, en utilisant Amazon Comprehend pour fournir la flexibilité nécessaire pour expurger les PII en fonction des besoins de l'entreprise. À l'avenir, l'équipe d'ingénierie envisage de former des entités Amazon Comprehend individuelles pour supprimer des chaînes telles que nos identifiants client.
Le résultat de la solution est que The Very Group a la liberté de faire passer les journaux sans avoir à s'inquiéter. Il applique la politique de ne pas stocker les PII dans les journaux, réduisant ainsi les risques et améliorant la conformité. De plus, les métadonnées en cours de suppression sont signalées à l'entreprise via un tableau de bord Elasticsearch, permettant des alertes et d'autres actions.
Prenez le temps d'évaluer les services AWS AI/ML que votre organisation n'a pas encore utilisés et favorisez une culture d'expérimentation. Commencer simplement peut rapidement entraîner des avantages commerciaux, comme l'a prouvé The Very Group.
À propos de l’auteur
Andy White est ingénieur principal de plate-forme - cadres d'application et de fiabilité chez The Very Group, qui exploite le détaillant numérique britannique Very. Andy aide à assurer la surveillance des performances dans toutes les tribus de l'organisation et s'intéresse particulièrement à la surveillance, à l'observabilité et aux performances des applications. Depuis qu'il a rejoint Very en 1998, Andy a assumé une grande variété de rôles couvrant la gestion de contenu et la production de catalogues, la gestion des stocks, le support de production, DevOps et Fusion Middleware. Depuis 4 ans, il fait partie de l'équipe d'ingénierie de la plateforme.
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
- La source: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- Capable
- Qui sommes-nous
- accélérer
- Compte
- à la gestion des comptes
- à travers
- Action
- activités
- activité
- ajoutée
- Supplémentaire
- adopter
- Adoption
- Avantage
- AI
- Services d'IA
- AI / ML
- Tous
- Permettre
- Bien que
- Amazon
- Amazon comprendre
- Amazon EC2
- selon une analyse de l’Université de Princeton
- ainsi que
- Une autre
- api
- Application
- applications
- architecture
- automatiser
- Automatisation
- AWS
- RETOUR
- basé
- before
- derrière
- va
- profiter
- jusqu'à XNUMX fois
- Bit
- construire
- construit
- intégré
- la performance des entreprises
- Appels
- capable
- capturer
- maisons
- cas
- catalogue
- code
- conformité
- comprendre
- calcul
- concept
- Connectivité
- Contenant
- contient
- contenu
- pourriez
- couvrant
- créée
- crée des
- critique
- Culture
- Courant
- des clients
- données client
- Clients
- tableau de bord
- données
- journée
- décidé
- décisions
- Défense
- livrer
- Demande
- démontré
- démontrer
- déployer
- déployé
- Conception
- développer
- développé
- développement
- Développement
- numérique
- directement
- document
- Documentation
- INSTITUTIONNELS
- down
- chacun
- de manière efficace
- efficace
- permettre
- permet
- permettant
- Endpoint
- ingénieur
- ENGINEERING
- assurer
- entités
- entité
- environnements
- établissement
- exemple
- exemples
- expérience
- extrait
- few
- champ
- Des champs
- finalement
- la traduction de documents financiers
- services financiers
- fixé
- Flexibilité
- flexible
- Abonnement
- formulaire
- Accueillir
- trouvé
- cadres
- spirituelle
- de
- d’étiquettes électroniques entièrement
- plus
- En outre
- la fusion
- avenir
- génère
- générateur
- GitHub
- objectif
- Réservation de groupe
- Groupes
- GUEST
- Invité Message
- Maniabilité
- ayant
- aide
- Souligner
- Comment
- How To
- Cependant
- HTML
- HTTPS
- identifié
- identifier
- Mettre en oeuvre
- met en oeuvre
- améliorer
- l'amélioration de
- in
- comprendre
- Y compris
- individuel
- d'information
- Infrastructure
- initiale
- possible
- initiative
- perspicacité
- instance
- intégrer
- des services
- intérêt
- interne
- enquêter
- impliqué
- aide
- IT
- Java
- joindre
- Etiquettes
- langue
- principalement
- couche
- conduire
- APPRENTISSAGE
- apprentissage
- Liste
- charges
- recherchez-
- click
- machine learning
- LES PLANTES
- FAIT DU
- gérés
- gestion
- de nombreuses
- message
- messages
- Métadonnées
- Métrique
- million
- des millions
- ML
- la modélisation
- Module
- Stack monitoring
- PLUS
- Nature
- Traitement du langage naturel
- besoin
- Besoins
- Nouveauté
- nlp
- nombre
- exploite
- d'exploitation
- Opérations
- Option
- Options
- de commander
- organisation
- Overcome
- prioritaire
- propriétaires
- partie
- particulier
- passes
- En passant
- passé
- Paiement
- Courant
- performant
- périodes
- Personnellement
- plateforme
- Platon
- Intelligence des données Platon
- PlatonDonnées
- politiques
- politique
- Post
- défaillances
- empêcher
- Directeur
- Avant
- priorité
- Privé
- d'ouvrabilité
- processus
- Traité
- les process
- traitement
- Produit
- Vidéo
- Projet
- preuve
- preuve de concept
- protocoles
- prouvé
- fournir
- fournit
- tirant
- RÉSERVES
- achats
- Push
- Poussé
- mettre
- Puts
- Rapide
- vite.
- record
- Articles
- réorienter
- réduire
- réduire
- rapport
- fiabilité
- enlèvement
- supprimez
- enlever
- Signalé
- nécessaire
- conditions
- exigence
- réponse
- résultat
- détaillant
- retourner
- Retours
- Révélé
- examiné
- Analyse
- rôle
- Itinéraire
- pour le running
- Évolutivité
- Balance
- mise à l'échelle
- de façon transparente
- secondes
- Sécurise
- sécurité
- envoi
- sensible
- service
- Services
- Shorts
- Spectacles
- étapes
- depuis
- So
- jusqu'à présent
- sur mesure
- quelques
- Identifier
- Sources
- vitesse
- printemps
- botte à ressort
- étapes
- Utilisation d'un
- autonome
- j'ai commencé
- Commencez
- stock
- Boutique
- stockée
- droit
- tel
- Support
- Interrupteur
- Système
- Prenez
- prend
- Tâche
- équipe
- Terraform
- tester
- Essais
- tests
- La
- leur
- ainsi
- menace
- Avec
- fiable
- à
- top
- Tracer
- Commerce
- qualifié
- Formation
- Trends
- types
- Uk
- comprendre
- URL
- Utilisation
- utilisé
- Plus-value
- variété
- via
- Vidéo
- voulu
- semaine
- qui
- large
- dans les
- sans
- travaillé
- de travail
- années
- Votre
- zéphyrnet