Dit is een gastpost van Andy Whittle, Principal Platform Engineer – Application & Reliability Frameworks bij The Very Group.
At De zeer groep, die de digitale retailer Very exploiteert, heeft beveiliging een topprioriteit bij het verwerken van gegevens voor miljoenen klanten. Een deel van de manier waarop The Very Group de bedrijfsactiviteiten beveiligt en volgt, is door het loggen van activiteiten tussen bedrijfssystemen (bijvoorbeeld in de verschillende stadia van een klantorder). Het is een kritieke bedrijfsvereiste en stelt The Very Group in staat om incidenten op te sporen en proactief problemen en trends te identificeren. Dit kan echter betekenen dat klantgegevens worden verwerkt in de vorm van persoonlijk identificeerbare informatie (PII) met betrekking tot activiteiten zoals aankopen, retouren, gebruik van flexibele betalingsopties en accountbeheer.
In deze post laat The Very Group zien hoe ze gebruiken Amazon begrijpt het om een extra laag van geautomatiseerde verdediging toe te voegen bovenop beleid om bedreigingsmodellering in alle systemen te ontwerpen, om te voorkomen dat PII in loggegevens naar Elasticsearch wordt verzonden voor indexering. Amazon Comprehend is een volledig beheerde en continu getrainde natural language processing (NLP)-service die inzicht kan krijgen in de inhoud van een document of tekst.
Overzicht van de oplossing
Het belangrijkste doel voor het technische team van The Very Group was om te voorkomen dat PII-gegevens documenten binnen Elasticsearch bereiken. Om dit te bereiken en de verwijdering van PII uit miljoenen geïdentificeerde records per dag te automatiseren, heeft het technische team van The Very Group een Application Observability-module in Terraform gemaakt. Deze module implementeert een observatie-oplossing, inclusief applicatielogboeken, monitoring van applicatieprestaties (APM) en statistieken. Binnen de module gebruikte het team Amazon Comprehend om PII in loggegevens te markeren met de optie om deze te verwijderen voordat ze naar Elasticsearch werden verzonden.
Amazon Comprehend werd geïdentificeerd als onderdeel van een intern platformengineering-initiatief om te onderzoeken hoe AWS AI-services kunnen worden gebruikt om de efficiëntie te verbeteren en risico's bij repetitieve bedrijfsactiviteiten te verminderen. De cultuur van de Very Group om te leren en te experimenteren betekende dat Amazon Comprehend werd beoordeeld op toepasbaarheid met behulp van een Java-toepassing om te leren hoe het werkte met test-PII-gegevens. Het team gebruikte codevoorbeelden in de documentatie om de proof of concept te versnellen en snel het potentieel binnen een dag te bewijzen.
Het technische team ontwikkelde een schema dat laat zien hoe een PII-redactiedienst kan worden geïntegreerd met de logboekregistratie van The Very Group. Het betrof het ontwikkelen van een microservice naar bel Amazon Comprehend om PII-gegevens te detecteren. De oplossing werkte door de loggegevens van The Very Group door te geven via een lopende Logstash-instantie AWS Fargate, die de gegevens opschoont met behulp van een andere door Fargate gehoste pii-logstash-redaction-service op basis van een Spring Boot Java-toepassing die Amazon Comprehend aanroept om PII te verwijderen. Het volgende diagram illustreert deze architectuur.
De oplossing van The Very Group haalt logboeken uit Amazon Cloud Watch en Amazon Elastic Container-service (Amazon ECS) en geeft opgeschoonde versies door aan Elasticsearch om te worden geïndexeerd. Amazon Kinesis wordt in de oplossing gebruikt om logboeken voor korte perioden vast te leggen en op te slaan, waarbij Logstash elke paar seconden logboeken naar beneden trekt.
Logboeken zijn afkomstig uit de vele bedrijfsprocessen, waaronder bestellen, retourneren en financiële diensten. Ze bevatten logs van meer dan 200 Amazon ECS-apps in test- en prod-omgevingen in Fargate die logs naar Logstash pushen. Een andere bron is AWS Lambda logs die in Kinesis worden getrokken en vervolgens in Logstash worden getrokken. Ten slotte haalt een afzonderlijk stand-alone exemplaar van Filebeat loganalyse op en plaatst ze in CloudWatch en vervolgens in Logstash. Het resultaat is dat veel bronnen van logboeken in Logstash worden getrokken of gepusht en verwerkt door de Application Observability-module en Amazon Comprehend voordat ze worden opgeslagen in Elasticsearch.
Een aparte Terraform-module biedt alle infrastructuur die nodig is om een Logstash-service op te zetten die logboeken van CloudWatch-loggroepen kan exporteren naar Elasticsearch via een AWS PrivéLink VPC-eindpunt. De Logstash-service kan ook worden geïntegreerd met Amazon ECS via een firelens log configuratie, waarbij Amazon ECS connectiviteit tot stand brengt via een Amazon Route 53 dossier. Schaalbaarheid is ingebouwd met Kinesis-schaalbaarheid op aanvraag (hoewel het team begon met vaste shards, maar nu overschakelt naar gebruik op aanvraag), en Logstash schaalt uit met extra Amazon Elastic Compute-cloud (Amazon EC2) instanties achter een NLB vanwege protocollen die door Filebeat worden gebruikt en stelt Logstash in staat om logbestanden effectiever uit Kinesis te halen.
Ten slotte bestaat de Logstash-service uit een taakdefinitie die een Logstash-container en PII-redactiecontainer bevat, waardoor de verwijdering van PII wordt gegarandeerd voordat deze naar Elasticsearch wordt geëxporteerd.
Resultaten
Het technische team kon de oplossing binnen een week bouwen en testen, zonder dat het machine learning (ML) of de werking van AI hoefde te begrijpen, met behulp van Amazon Comprehend-videobegeleiding, API-referentiedocumentatie en voorbeeldcode. Nadat ze zo snel de bedrijfswaarde hebben aangetoond, zijn de eigenaren van zakelijke producten begonnen met het ontwikkelen van nieuwe use-cases om van de service te profiteren. Er moesten enkele beslissingen worden genomen om de oplossing mogelijk te maken. Hoewel het engineeringteam van het platform wist dat ze de gegevens konden redigeren, wilden ze de logs van de huidige oplossing onderscheppen (gebaseerd op een Fluent Bit-zijspan om logs om te leiden naar een eindpunt). Ze besloten Logstash te gebruiken om onderschepping van logvelden via pijplijnen mogelijk te maken om te integreren met hun PII-service (bestaande uit de Terraform-module en Java-service).
De adoptie van Logstash verliep aanvankelijk naadloos. De technische teams van de Very Group gebruiken de service nu rechtstreeks via een API-eindpunt om logboeken rechtstreeks in Elasticsearch te plaatsen. Hierdoor konden ze hun eindpunt overschakelen van het zijspan naar het nieuwe eindpunt en het implementeren via de Terraform-module. Het enige probleem dat het team had, waren de eerste tests die een snelheidsprobleem aan het licht brachten bij het testen met piekbelastingen. Dit is verholpen door aanpassingen in de Java-code.
De volgende code laat zien hoe The Very Group Amazon Comprehend gebruikt om PII uit logberichten te verwijderen. Het detecteert elke PII en maakt een lijst met entiteitstypen om op te nemen. Om de ontwikkeling te versnellen, is de code uit de AWS-documentatie gehaald en aangepast voor gebruik in de Java-toepassingsservice die op Fargate is geïmplementeerd.
De volgende schermafbeelding toont de uitvoer die naar Elasticsearch is verzonden als onderdeel van het PII-redactieproces. De service genereert 1 miljoen records per dag, waarbij elke keer dat er een redactie wordt uitgevoerd, een record wordt gegenereerd.
Het logbericht is geredigeerd en het veld redacted_entities bevat een lijst met de entiteitstypen die in het bericht zijn gevonden. In dit geval vond het voorbeeld een URL, maar het had elk type PII-gegevens kunnen identificeren, grotendeels gebaseerd op de ingebouwde typen PII. Een extra op maat gemaakt PII-type voor klantaccountnummer is toegevoegd via Amazon Comprehend, maar was tot nu toe niet nodig. Overrides op engineering-squadronniveau zijn gedocumenteerd in GitHub over hoe ze te gebruiken.
Conclusie
Dankzij dit project kon The Very Group een snelle en eenvoudige oplossing implementeren om gevoelige PII in logboeken te verwijderen. Het technische team voegde meer flexibiliteit toe waardoor entiteitstypen konden worden overschreven, waarbij Amazon Comprehend werd gebruikt om de flexibiliteit te bieden om PII te redigeren op basis van de zakelijke behoeften. In de toekomst onderzoekt het technische team individuele Amazon Comprehend-entiteiten om strings zoals onze klant-ID's te redigeren.
Het resultaat van de oplossing is dat The Very Group de vrijheid heeft om zorgeloos logs door te voeren. Het dwingt het beleid af om geen PII in logboeken op te slaan, waardoor risico's worden verminderd en naleving wordt verbeterd. Bovendien worden metagegevens die worden geredigeerd, via een Elasticsearch-dashboard aan het bedrijf gerapporteerd, waardoor waarschuwingen en verdere actie mogelijk worden.
Maak tijd vrij om AWS AI/ML-services te beoordelen die uw organisatie nog niet heeft gebruikt en stimuleer een experimenteercultuur. Eenvoudig beginnen kan snel leiden tot zakelijk voordeel, zoals The Very Group heeft bewezen.
Over de auteur
Andy Whittel is Principal Platform Engineer – Application & Reliability Frameworks bij The Very Group, die de Britse digitale retailer Very exploiteert. Andy helpt bij het leveren van prestatiebewaking binnen de stammen van de organisatie en heeft een bijzondere interesse in toepassingsbewaking, waarneembaarheid en prestaties. Sinds Andy in 1998 bij Very kwam werken, heeft hij een breed scala aan functies vervuld, waaronder contentbeheer en catalogusproductie, voorraadbeheer, productieondersteuning, DevOps en Fusion Middleware. De afgelopen 4 jaar maakte hij deel uit van het platform engineering team.
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
- Bron: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- in staat
- Over
- versnellen
- Account
- account management
- over
- Actie
- activiteiten
- activiteit
- toegevoegd
- Extra
- adopteren
- Adoptie
- Voordeel
- AI
- AI-diensten
- AI / ML
- Alles
- Het toestaan
- Hoewel
- Amazone
- Amazon begrijpt het
- Amazon EC2
- analyse
- en
- Nog een
- api
- Aanvraag
- apps
- architectuur
- automatiseren
- geautomatiseerde
- AWS
- terug
- gebaseerde
- vaardigheden
- achter
- wezen
- voordeel
- tussen
- Beetje
- bouw
- bebouwd
- ingebouwd
- bedrijfsdeskundigen
- oproepen
- in staat
- vangen
- geval
- gevallen
- catalogus
- code
- nakoming
- begrijpen
- Berekenen
- concept
- Connectiviteit
- Containers
- bevat
- content
- kon
- aan het bedekken
- aangemaakt
- creëert
- kritisch
- Culture
- Actueel
- klant
- klantgegevens
- Klanten
- dashboards
- gegevens
- dag
- beslist
- beslissingen
- Verdediging
- leveren
- Vraag
- gedemonstreerd
- demonstrating
- implementeren
- ingezet
- Design
- ontwikkelen
- ontwikkelde
- het ontwikkelen van
- Ontwikkeling
- digitaal
- direct
- document
- documentatie
- documenten
- beneden
- elk
- effectief
- doeltreffendheid
- in staat stellen
- maakt
- waardoor
- Endpoint
- ingenieur
- Engineering
- zorgen
- entiteiten
- entiteit
- omgevingen
- oprichting
- voorbeeld
- voorbeelden
- experiment
- extract
- weinig
- veld-
- Velden
- Tot slot
- financieel
- financiële diensten
- vast
- Flexibiliteit
- flexibel
- volgend
- formulier
- Bevorderen
- gevonden
- frameworks
- Vrijheid
- oppompen van
- geheel
- verder
- Bovendien
- fusie
- toekomst
- genereert
- het genereren van
- GitHub
- doel
- Groep
- Groep
- Gast
- Gast Bericht
- Behandeling
- met
- helpt
- Markeer
- Hoe
- How To
- Echter
- HTML
- HTTPS
- geïdentificeerd
- identificeren
- uitvoeren
- gereedschap
- verbeteren
- het verbeteren van
- in
- omvatten
- Inclusief
- individueel
- informatie
- Infrastructuur
- eerste
- eerste
- initiatief
- inzicht
- instantie
- integreren
- geïntegreerde
- belang
- intern
- onderzoeken
- betrokken zijn
- kwestie
- IT
- Java
- aansluiting
- labels
- taal
- grotendeels
- lagen
- leiden
- LEARN
- leren
- Lijst
- ladingen
- op zoek
- machine
- machine learning
- gemaakt
- MERKEN
- beheerd
- management
- veel
- Bericht
- berichten
- Metadata
- Metriek
- miljoen
- miljoenen
- ML
- modellering
- Module
- Grensverkeer
- meer
- Naturel
- Natural Language Processing
- nodig
- behoeften
- New
- nlp
- aantal
- exploiteert
- werkzaam
- Operations
- Keuze
- Opties
- bestellen
- organisatie
- Overwinnen
- dwingend
- eigenaren
- deel
- bijzonder
- passes
- Voorbijgaand
- verleden
- betaling
- Hoogtepunt
- prestatie
- periodes
- Persoonlijk
- platform
- Plato
- Plato gegevensintelligentie
- PlatoData
- beleidsmaatregelen door te lezen.
- beleidsmaatregelen
- Post
- potentieel
- voorkomen
- Principal
- Voorafgaand
- prioriteit
- privaat
- problemen
- Verwerkt
- processen
- verwerking
- Product
- productie
- project
- bewijs
- proof of concept voor
- protocollen
- bewezen
- zorgen voor
- biedt
- trekken
- Truien
- aankopen
- Duwen
- geduwd
- zetten
- puts
- Quick
- snel
- record
- archief
- redirect
- verminderen
- vermindering
- relatie
- betrouwbaarheid
- verwijdering
- verwijderen
- het verwijderen van
- gemeld
- te vragen
- nodig
- vereiste
- antwoord
- resultaat
- kleinhandelaar
- terugkeer
- Retourneren
- Revealed
- beoordeeld
- Risico
- rollen
- weg
- lopend
- Schaalbaarheid
- balans
- scaling
- naadloos
- seconden
- Beveiligt
- veiligheid
- verzending
- gevoelig
- service
- Diensten
- Bermuda's
- Shows
- Eenvoudig
- sinds
- So
- dusver
- oplossing
- sommige
- bron
- bronnen
- snelheid
- voorjaar
- veerboot
- stadia
- staan
- standalone
- gestart
- Start
- voorraad
- shop
- opgeslagen
- recht
- dergelijk
- ondersteuning
- Stap over voor slechts
- Systems
- Nemen
- neemt
- Taak
- team
- Terraform
- proef
- Testen
- testen
- De
- hun
- daarbij
- bedreiging
- Door
- niet de tijd of
- naar
- top
- Opsporen
- Handel
- getraind
- Trainingen
- Trends
- types
- Uk
- begrijpen
- URL
- Gebruik
- .
- waarde
- variëteit
- via
- Video
- gezocht
- week
- welke
- breed
- binnen
- zonder
- werkte
- werkzaam
- jaar
- Your
- zephyrnet