Dies ist ein Gastbeitrag von Andy Whittle, Principal Platform Engineer – Application & Reliability Frameworks bei The Very Group.
At Die sehr Gruppe, die den digitalen Einzelhändler Very betreibt, hat die Sicherheit im Umgang mit Daten von Millionen von Kunden oberste Priorität. Ein Teil der Art und Weise, wie The Very Group Geschäftsabläufe sichert und nachverfolgt, ist die Aktivitätsprotokollierung zwischen Geschäftssystemen (z. B. über die Phasen einer Kundenbestellung hinweg). Dies ist eine kritische Betriebsanforderung und ermöglicht es The Very Group, Vorfälle zu verfolgen und Probleme und Trends proaktiv zu erkennen. Dies kann jedoch die Verarbeitung von Kundendaten in Form von personenbezogenen Daten (PII) im Zusammenhang mit Aktivitäten wie Einkäufen, Rückgaben, Nutzung flexibler Zahlungsoptionen und Kontoverwaltung bedeuten.
In diesem Beitrag zeigt The Very Group, wie sie es verwenden Amazon verstehen Hinzufügen einer weiteren automatisierten Verteidigungsebene zu Richtlinien, um Bedrohungsmodellierung in alle Systeme zu integrieren und zu verhindern, dass personenbezogene Daten in Protokolldaten zur Indexierung an Elasticsearch gesendet werden. Amazon Comprehend ist ein vollständig verwalteter und kontinuierlich trainierter Dienst zur Verarbeitung natürlicher Sprache (NLP), der Einblicke in den Inhalt eines Dokuments oder Textes gewinnen kann.
Lösungsübersicht
Das übergeordnete Ziel des Engineering-Teams von The Very Group war es, zu verhindern, dass PII-Daten Dokumente innerhalb von Elasticsearch erreichen. Um dies zu erreichen und die Entfernung von PII aus Millionen von identifizierten Datensätzen pro Tag zu automatisieren, hat das Engineering-Team von The Very Group ein Application Observability-Modul in Terraform erstellt. Dieses Modul implementiert eine Beobachtbarkeitslösung, einschließlich Anwendungsprotokollen, Anwendungsleistungsüberwachung (APM) und Metriken. Innerhalb des Moduls verwendete das Team Amazon Comprehend, um PII in Protokolldaten hervorzuheben, mit der Option, sie vor dem Senden an Elasticsearch zu entfernen.
Amazon Comprehend wurde als Teil einer internen Plattform-Engineering-Initiative identifiziert, um zu untersuchen, wie AWS-KI-Services verwendet werden können, um die Effizienz zu verbessern und das Risiko bei sich wiederholenden Geschäftsaktivitäten zu reduzieren. Die Lern- und Experimentierkultur der Very Group bedeutete, dass Amazon Comprehend mit einer Java-Anwendung auf Anwendbarkeit überprüft wurde, um zu erfahren, wie es mit Test-PII-Daten funktioniert. Das Team verwendete Codebeispiele in der Dokumentation, um den Machbarkeitsnachweis zu beschleunigen, und bewies schnell das Potenzial innerhalb eines Tages.
Das Engineering-Team entwickelte ein Schema, das zeigt, wie ein PII-Schwärzungsdienst in die Protokollierung von The Very Group integriert werden könnte. Es ging darum, einen Microservice zu entwickeln Rufen Sie Amazon Comprehend auf, um PII-Daten zu erkennen. Die Lösung funktionierte, indem die Protokolldaten von The Very Group durch eine laufende Logstash-Instanz geleitet wurden AWS Fargate, der die Daten mithilfe eines anderen von Fargate gehosteten pii-logstash-redaction-Dienstes bereinigt, der auf einer Spring Boot-Java-Anwendung basiert, die Amazon Comprehend aufruft, um PII zu entfernen. Das folgende Diagramm veranschaulicht diese Architektur.
Die Lösung von The Very Group nimmt Protokolle von Amazon CloudWatch und Amazon Elastic Container-Service (Amazon ECS) und übergibt bereinigte Versionen zur Indizierung an Elasticsearch. Amazon Kinesis wird in der Lösung verwendet, um Protokolle für kurze Zeiträume zu erfassen und zu speichern, wobei Logstash alle paar Sekunden Protokolle herunterzieht.
Protokolle werden aus vielen Geschäftsprozessen bezogen, darunter Bestellungen, Rücksendungen und Finanzdienstleistungen. Sie enthalten Protokolle von über 200 Amazon ECS-Apps aus Test- und Produktionsumgebungen in Fargate, die Protokolle in Logstash übertragen. Eine andere Quelle ist AWS Lambda Protokolle, die in Kinesis und dann in Logstash gezogen werden. Schließlich zieht eine separate eigenständige Instanz von Filebeat die Protokollanalyse und legt sie in CloudWatch und dann in Logstash ab. Das Ergebnis ist, dass viele Protokollquellen in Logstash gezogen oder gepusht und vom Application Observability-Modul und Amazon Comprehend verarbeitet werden, bevor sie in Elasticsearch gespeichert werden.
Ein separates Terraform-Modul stellt die gesamte Infrastruktur bereit, die erforderlich ist, um einen Logstash-Dienst einzurichten, der Protokolle aus CloudWatch-Protokollgruppen über ein exportieren kann AWS PrivateLink VPC-Endpunkt. Der Logstash-Dienst kann auch über a in Amazon ECS integriert werden Firelens-Protokollkonfiguration, wobei Amazon ECS die Verbindung über eine herstellt Amazon Route 53 Aufzeichnung. Die Skalierbarkeit ist mit der Kinesis-Skalierung nach Bedarf integriert (obwohl das Team mit festen Shards begann, jetzt aber auf die Nutzung nach Bedarf umsteigt), und Logstash skaliert mit zusätzlichen Amazon Elastic Compute-Cloud (Amazon EC2)-Instanzen hinter einem NLB aufgrund von Protokollen, die von Filebeat verwendet werden, und ermöglicht es Logstash, Protokolle effektiver aus Kinesis abzurufen.
Schließlich besteht der Logstash-Dienst aus einer Aufgabendefinition, die einen Logstash-Container und einen PII-Schwärzungscontainer enthält, der sicherstellt, dass PII vor dem Export an Elasticsearch entfernt werden.
Die Ergebnisse
Das Engineering-Team konnte die Lösung innerhalb einer Woche erstellen und testen, ohne maschinelles Lernen (ML) oder die Funktionsweise von KI verstehen zu müssen Amazon Comprehend-Videoanleitung, API-Referenzdokumentation und Beispielcode. Nachdem der Geschäftswert so schnell demonstriert wurde, haben die Geschäftsproduktbesitzer damit begonnen, neue Anwendungsfälle zu entwickeln, um den Service zu nutzen. Einige Entscheidungen mussten getroffen werden, um die Lösung zu ermöglichen. Obwohl das Plattform-Engineering-Team wusste, dass es die Daten redigieren konnte, wollte es die Protokolle von der aktuellen Lösung abfangen (basierend auf einem Fluent Bit-Sidecar, um Protokolle an einen Endpunkt umzuleiten). Sie entschieden sich für Logstash, um das Abfangen von Protokollfeldern über Pipelines zu ermöglichen, um sie in ihren PII-Dienst (bestehend aus dem Terraform-Modul und dem Java-Dienst) zu integrieren.
Die Einführung von Logstash verlief zunächst nahtlos. Die Engineering-Teams der Very Group nutzen den Service jetzt direkt über einen API-Endpunkt, um Protokolle direkt in Elasticsearch einzufügen. Dadurch konnten sie ihren Endpunkt vom Sidecar auf den neuen Endpunkt umstellen und ihn über das Terraform-Modul bereitstellen. Das einzige Problem, das das Team hatte, waren anfängliche Tests, die ein Geschwindigkeitsproblem beim Testen mit Spitzenhandelslasten aufzeigten. Dies wurde durch Anpassungen am Java-Code überwunden.
Der folgende Code zeigt, wie The Very Group Amazon Comprehend verwendet, um PII aus Protokollnachrichten zu entfernen. Es erkennt alle PII und erstellt eine Liste der aufzuzeichnenden Entitätstypen. Um die Entwicklung zu beschleunigen, wurde der Code aus der AWS-Dokumentation entnommen und für die Verwendung in dem auf Fargate bereitgestellten Java-Anwendungsdienst angepasst.
Der folgende Screenshot zeigt die Ausgabe, die als Teil des PII-Schwärzungsprozesses an Elasticsearch gesendet wird. Der Dienst generiert 1 Million Datensätze pro Tag, wobei jedes Mal, wenn eine Schwärzung vorgenommen wird, ein Datensatz generiert wird.
Die Protokollnachricht wird redigiert, und das Feld redacted_entities enthält eine Liste der in der Nachricht gefundenen Entitätstypen. In diesem Fall hat das Beispiel eine URL gefunden, aber es hätte jede Art von PII-Daten weitgehend basierend auf den integrierten PII-Typen identifizieren können. Ein zusätzlicher maßgeschneiderter PII-Typ für die Kundenkontonummer wurde über Amazon Comprehend hinzugefügt, wurde jedoch bisher nicht benötigt. Außerkraftsetzungen auf Engineering-Squad-Ebene sind in GitHub dokumentiert, wie sie verwendet werden.
Zusammenfassung
Dieses Projekt ermöglichte es The Very Group, eine schnelle und einfache Lösung zu implementieren, um vertrauliche personenbezogene Daten in Protokollen zu entfernen. Das Engineering-Team fügte weitere Flexibilität hinzu, die Überschreibungen für Entitätstypen ermöglichte, indem es Amazon Comprehend verwendete, um die Flexibilität zu bieten, PII basierend auf den Geschäftsanforderungen zu redigieren. In Zukunft prüft das Engineering-Team, einzelne Amazon Comprehend-Einheiten zu schulen, um Zeichenfolgen wie unsere Kunden-IDs zu redigieren.
Das Ergebnis der Lösung ist, dass The Very Group Protokolle ohne Bedenken weiterleiten kann. Es setzt die Richtlinie durch, keine PII in Protokollen zu speichern, wodurch das Risiko reduziert und die Compliance verbessert wird. Darüber hinaus werden geschwärzte Metadaten über ein Elasticsearch-Dashboard an das Unternehmen zurückgemeldet, wodurch Warnungen und weitere Maßnahmen ermöglicht werden.
Nehmen Sie sich Zeit, AWS AI/ML-Services zu bewerten, die Ihre Organisation noch nicht verwendet hat, und fördern Sie eine Kultur des Experimentierens. Einfach anzufangen kann schnell zu geschäftlichen Vorteilen führen, wie The Very Group bewiesen hat.
Über den Autor
Andy Whittle ist Principal Platform Engineer – Application & Reliability Frameworks bei The Very Group, die den in Großbritannien ansässigen digitalen Einzelhändler Very betreibt. Andy hilft bei der Leistungsüberwachung in den Tribes der Organisation und hat ein besonderes Interesse an Anwendungsüberwachung, Beobachtbarkeit und Leistung. Seit er 1998 zu Very kam, hat Andy eine Vielzahl von Funktionen übernommen, darunter Content Management und Katalogproduktion, Bestandsverwaltung, Produktionsunterstützung, DevOps und Fusion Middleware. In den letzten 4 Jahren war er Teil des Plattform-Engineering-Teams.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- Fähig
- Über uns
- beschleunigen
- Konto
- Kontoverwaltung
- über
- Action
- Aktivitäten
- Aktivität
- hinzugefügt
- Zusätzliche
- adoptieren
- Adoption
- Vorteil
- AI
- KI-Dienste
- AI / ML
- Alle
- Zulassen
- Obwohl
- Amazon
- Amazon verstehen
- Amazon EC2
- Analyse
- und
- Ein anderer
- Bienen
- Anwendung
- Apps
- Architektur
- automatisieren
- Automatisiert
- AWS
- Zurück
- basierend
- Bevor
- hinter
- Sein
- Nutzen
- zwischen
- Bit
- bauen
- erbaut
- eingebaut
- Geschäft
- Aufrufe
- fähig
- Erfassung
- Häuser
- Fälle
- Katalog
- Code
- Compliance
- begreifen
- Berechnen
- konzept
- Konnektivität
- Container
- enthält
- Inhalt
- könnte
- Abdeckung
- erstellt
- schafft
- kritischem
- KULTUR
- Strom
- Kunde
- Kundendaten
- Kunden
- Armaturenbrett
- technische Daten
- Tag
- entschieden
- Entscheidungen
- Militär
- Übergeben
- Demand
- weisen nach, dass
- demonstrieren
- einsetzen
- Einsatz
- Design
- entwickeln
- entwickelt
- Entwicklung
- Entwicklung
- digital
- Direkt
- Dokument
- Dokumentation
- Unterlagen
- nach unten
- jeder
- effektiv
- Effizienz
- ermöglichen
- ermöglicht
- ermöglichen
- Endpunkt
- Ingenieur
- Entwicklung
- Gewährleistung
- Entitäten
- Einheit
- Umgebungen
- Festlegung
- Beispiel
- Beispiele
- Experiment
- Extrakt
- wenige
- Feld
- Felder
- Endlich
- Revolution
- Finanzdienstleistungen
- fixiert
- Flexibilität
- flexibel
- Folgende
- unten stehende Formular
- Fördern
- gefunden
- Gerüste
- Freiheit
- für
- voll
- weiter
- Außerdem
- Verschmelzung
- Zukunft
- erzeugt
- Erzeugung
- GitHub
- Kundenziele
- Gruppe an
- Gruppen
- GUEST
- Guest Post
- Handling
- mit
- hilft
- Hervorheben
- Ultraschall
- Hilfe
- aber
- HTML
- HTTPS
- identifiziert
- identifizieren
- implementieren
- implementiert
- zu unterstützen,
- Verbesserung
- in
- das
- Einschließlich
- Krankengymnastik
- Information
- Infrastruktur
- Anfangs-
- anfänglich
- Initiative
- Einblick
- Instanz
- integrieren
- integriert
- Interesse
- intern
- untersuchen
- beteiligt
- Problem
- IT
- Javac
- Beitritt
- Etiketten
- Sprache
- weitgehend
- Schicht
- führen
- LERNEN
- lernen
- Liste
- Belastungen
- suchen
- Maschine
- Maschinelles Lernen
- gemacht
- MACHT
- verwaltet
- Management
- viele
- Nachricht
- Nachrichten
- Metadaten
- Metrik
- Million
- Millionen
- ML
- Modellieren
- Modul
- Überwachung
- mehr
- Natürliche
- Verarbeitung natürlicher Sprache
- benötigen
- Bedürfnisse
- Neu
- Nlp
- Anzahl
- arbeitet
- die
- Einkauf & Prozesse
- Option
- Optionen
- Auftrag
- Organisation
- Überwinden
- überschreiben
- Besitzer
- Teil
- besondere
- leitet
- Bestehen
- passt
- Zahlung
- Haupt
- Leistung
- Zeiträume
- Persönlich
- Plattform
- Plato
- Datenintelligenz von Plato
- PlatoData
- Politik durchzulesen
- Datenschutzrichtlinien
- Post
- Potenzial
- verhindern
- Principal
- Vor
- Prioritätsliste
- privat
- Probleme
- Prozessdefinierung
- Verarbeitet
- anpassen
- Verarbeitung
- Produkt
- Produktion
- Projekt
- Beweis
- Proof of Concept
- Protokolle
- erwies sich
- die
- bietet
- Ziehen
- Pullover
- Einkäufe
- Push
- geschoben
- setzen
- Versetzt
- Direkt
- schnell
- Rekord
- Aufzeichnungen
- umleiten
- Veteran
- Reduzierung
- Beziehung
- Zuverlässigkeit
- Entfernung
- entfernen
- Entfernen
- Berichtet
- Anforderung
- falls angefordert
- Anforderung
- Antwort
- Folge
- Einzelhändler
- Rückkehr
- Rückgabe
- Revealed
- bewertet
- Risiko
- Rollen
- Straße
- Laufen
- Skalierbarkeit
- Waage
- Skalierung
- nahtlos
- Sekunden
- Sichert
- Sicherheitdienst
- Sendung
- empfindlich
- Leistungen
- Short
- Konzerte
- Einfacher
- da
- So
- bis jetzt
- Lösung
- einige
- Quelle
- Quellen
- Geschwindigkeit
- Feder
- Federstiefel
- Stufen
- Stand
- standalone
- begonnen
- Beginnen Sie
- -bestands-
- speichern
- gelagert
- mit Stiel
- so
- Support
- Schalter
- Systeme und Techniken
- Nehmen
- nimmt
- Aufgabe
- Team
- Terraform
- Test
- Testen
- Tests
- Das
- ihr
- damit
- Bedrohung
- Durch
- Zeit
- zu
- Top
- Spur
- Trading
- trainiert
- Ausbildung
- Trends
- Typen
- Uk
- verstehen
- URL
- Anwendungsbereich
- -
- Wert
- Vielfalt
- Video
- wollte
- Woche
- welche
- breit
- .
- ohne
- gearbeitet
- arbeiten,
- Jahr
- Ihr
- Zephyrnet