Detta är gästinlägg av Andy Whittle, Principal Platform Engineer – Application & Reliability Frameworks på The Very Group.
At The Very Group, som driver digital återförsäljare Säkerhet är mycket hög prioritet vid hantering av data för miljontals kunder. En del av hur The Very Group säkrar och spårar affärsverksamheten är genom aktivitetsloggning mellan affärssystem (till exempel över stadierna av en kundorder). Det är ett kritiskt operativt krav och gör det möjligt för The Very Group att spåra incidenter och proaktivt identifiera problem och trender. Detta kan dock innebära behandling av kunddata i form av personligt identifierbar information (PII) i samband med aktiviteter som köp, returer, användning av flexibla betalningsalternativ och kontohantering.
I det här inlägget visar The Very Group hur de använder Amazon Comprehend att lägga till ytterligare ett lager av automatiskt försvar utöver policyer för att designa hotmodellering i alla system, för att förhindra att PII skickas i loggdata till Elasticsearch för indexering. Amazon Comprehend är en fullt hanterad och kontinuerligt utbildad NLP-tjänst (natural language processing) som kan extrahera insikter om innehållet i ett dokument eller en text.
Översikt över lösningen
Det övergripande målet för The Very Groups ingenjörsteam var att förhindra PII-data från att nå dokument inom Elasticsearch. För att åstadkomma detta och automatisera borttagning av PII från miljontals identifierade poster per dag, skapade The Very Groups ingenjörsteam en Application Observability-modul i Terraform. Den här modulen implementerar en observerbarhetslösning, inklusive applikationsloggar, övervakning av applikationsprestanda (APM) och mätvärden. Inom modulen använde teamet Amazon Comprehend för att markera PII i loggdata med möjligheten att ta bort det innan det skickades till Elasticsearch.
Amazon Comprehend identifierades som en del av ett internt plattformsutvecklingsinitiativ för att undersöka hur AWS AI-tjänster kan användas för att förbättra effektiviteten och minska riskerna i repetitiva affärsaktiviteter. Very Groups kultur att lära sig och experimentera innebar att Amazon Comprehend granskades för tillämplighet med hjälp av en Java-applikation för att lära sig hur det fungerade med test PII-data. Teamet använde kodexempel i dokumentationen för att påskynda proof of concept och visade snabbt potential inom en dag.
Ingenjörsteamet utvecklade ett schema som visar hur en PII-redaktionstjänst kan integreras med The Very Groups loggning. Det innebar att utveckla en mikrotjänst för att ring Amazon Comprehend för att upptäcka PII-data. Lösningen fungerade genom att skicka The Very Groups loggdata genom en Logstash-instans som kördes på AWS Fargate, som rensar data med en annan Fargate-värd pii-logstash-redaction-tjänst baserad på en Spring Boot Java-applikation som ringer till Amazon Comprehend för att ta bort PII. Följande diagram illustrerar denna arkitektur.
Very Groups lösning tar loggar från amazoncloudwatch och Amazon Elastic Container Service (Amazon ECS) och skickar rensade versioner till Elasticsearch för att indexeras. Amazon Kinesis används i lösningen för att fånga och lagra stockar under korta perioder, med Logstash som drar ner stockar med några sekunders mellanrum.
Loggar hämtas från många affärsprocesser, inklusive beställningar, returer och finansiella tjänster. De inkluderar loggar från över 200 Amazon ECS-appar över test- och prodmiljöer i Fargate som skjuter in loggar till Logstash. En annan källa är AWS Lambda stockar som dras in i Kinesis och sedan dras in i Logstash. Slutligen, en separat fristående instans av Filebeat drar logganalys och som placerar dem i CloudWatch och sedan i Logstash. Resultatet är att många källor till loggar dras eller skjuts in i Logstash och bearbetas av Application Observability-modulen och Amazon Comprehend innan de lagras i Elasticsearch.
En separat Terraform-modul tillhandahåller all infrastruktur som krävs för att stå upp en Logstash-tjänst som kan exportera loggar från CloudWatch-logggrupper till Elasticsearch via en AWS PrivateLink VPC-slutpunkt. Logstash-tjänsten kan också integreras med Amazon ECS via en firelens loggkonfiguration, med Amazon ECS som upprättar anslutning över en Amazon väg 53 spela in. Skalbarhet är inbyggd med Kinesis-skalning på begäran (även om teamet började med fasta skärvor, men nu byter till on-demand-användning), och Logstash skalas ut med ytterligare Amazon Elastic Compute Cloud (Amazon EC2) instanser bakom en NLB på grund av protokoll som används av Filebeat och gör det möjligt för Logstash att mer effektivt dra loggar från Kinesis.
Slutligen består Logstash-tjänsten av en uppgiftsdefinition som innehåller en Logstash-behållare och PII-redaktionsbehållare, vilket säkerställer att PII tas bort innan export till Elasticsearch.
Resultat
Ingenjörsteamet kunde bygga och testa lösningen inom en vecka, utan att behöva förstå maskininlärning (ML) eller hur AI fungerar, med Amazon Comprehend videovägledning, API referensdokumentationoch exempelkod. Efter att ha visat affärsvärde så snabbt har företagsproduktägarna börjat utveckla nya användningsfall för att dra nytta av tjänsten. Vissa beslut måste fattas för att möjliggöra lösningen. Även om plattformsingenjörsteamet visste att de kunde redigera data, ville de fånga upp loggarna från den nuvarande lösningen (baserat på en Fluent Bit sidovagn för att omdirigera loggar till en slutpunkt). De bestämde sig för att använda Logstash för att möjliggöra avlyssning av loggfält genom pipelines för att integreras med deras PII-tjänst (som omfattar Terraform-modulen och Java-tjänsten).
Antagandet av Logstash skedde från början sömlöst. Very Groups ingenjörsgrupper använder nu tjänsten direkt via en API-slutpunkt för att lägga loggar direkt i Elasticsearch. Detta har gjort det möjligt för dem att byta sin ändpunkt från sidovagnen till den nya ändpunkten och distribuera den genom Terraform-modulen. Det enda problemet teamet hade var från inledande tester som avslöjade ett hastighetsproblem vid testning med toppbelastningar. Detta övervanns genom justeringar av Java-koden.
Följande kod visar hur The Very Group använder Amazon Comprehend för att ta bort PII från loggmeddelanden. Den upptäcker alla PII och skapar en lista över entitetstyper att spela in. För att påskynda utvecklingen togs koden från AWS-dokumentationen och anpassades för användning i Java-applikationstjänsten utplacerad på Fargate.
Följande skärmdump visar utdata som skickas till Elasticsearch som en del av PII-redigeringsprocessen. Tjänsten genererar 1 miljon poster per dag, vilket genererar ett rekord varje gång en redigering görs.
Loggmeddelandet redigeras, och fältet redacted_entities innehåller en lista över de entitetstyper som finns i meddelandet. I det här fallet hittade exemplet en URL, men det kunde ha identifierat vilken typ av PII-data som helst baserat på de inbyggda typerna av PII. En ytterligare skräddarsydd PII-typ för kundkontonummer lades till genom Amazon Comprehend, men har inte behövts hittills. Åsidosättningar på teknisk truppnivå dokumenteras i GitHub om hur man använder dem.
Slutsats
Detta projekt gjorde det möjligt för The Very Group att implementera en snabb och enkel lösning för att redigera känslig PII i loggar. Ingenjörsteamet lade till ytterligare flexibilitet som möjliggjorde åsidosättningar för entitetstyper, med hjälp av Amazon Comprehend för att ge flexibiliteten att redigera PII baserat på affärsbehoven. I framtiden undersöker ingenjörsteamet att utbilda enskilda Amazon Comprehend-enheter för att redigera strängar som våra kund-ID:n.
Resultatet av lösningen är att The Very Group har frihet att lägga igenom loggar utan att behöva oroa sig. Den upprätthåller policyn att inte ha PII lagrad i loggar, vilket minskar risken och förbättrar efterlevnaden. Dessutom rapporteras metadata som redigeras tillbaka till verksamheten via en Elasticsearch-instrumentpanel, vilket möjliggör varningar och ytterligare åtgärder.
Ta dig tid att utvärdera AWS AI/ML-tjänster som din organisation inte har använt ännu och främja en experimenterande kultur. Att börja enkelt kan snabbt leda till affärsnytta, precis som The Very Group bevisade.
Om författaren
Andy Whittle är Principal Platform Engineer – Application & Reliability Frameworks på The Very Group, som driver den brittiska digitala återförsäljaren Very. Andy hjälper till att leverera prestandaövervakning över organisationens stammar och har ett särskilt intresse av applikationsövervakning, observerbarhet och prestanda. Sedan han började på Very 1998, har Andy åtagit sig en mängd olika roller som täcker innehållshantering och katalogproduktion, lagerhantering, produktionssupport, DevOps och Fusion Middleware. Under de senaste fyra åren har han varit en del av plattformsingenjörsteamet.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- Able
- Om oss
- accelerera
- Konto
- kontohantering
- tvärs
- Handling
- aktiviteter
- aktivitet
- lagt till
- Annat
- anta
- Antagande
- Fördel
- AI
- AI-tjänster
- AI / ML
- Alla
- tillåta
- Även
- amason
- Amazon Comprehend
- Amazon EC2
- analys
- och
- Annan
- api
- Ansökan
- appar
- arkitektur
- automatisera
- Automatiserad
- AWS
- tillbaka
- baserat
- innan
- bakom
- Där vi får lov att vara utan att konstant prestera,
- fördel
- mellan
- Bit
- SLUTRESULTAT
- byggt
- inbyggd
- företag
- Samtal
- kapabel
- fånga
- Vid
- fall
- katalog
- koda
- Efterlevnad
- förstå
- Compute
- begrepp
- Anslutningar
- Behållare
- innehåller
- innehåll
- kunde
- beläggning
- skapas
- skapar
- kritisk
- kultur
- Aktuella
- kund
- konsument data
- Kunder
- instrumentbräda
- datum
- dag
- beslutade
- beslut
- Försvar
- leverera
- Efterfrågan
- demonstreras
- demonstrera
- distribuera
- utplacerade
- Designa
- utveckla
- utvecklade
- utveckla
- Utveckling
- digital
- direkt
- dokumentera
- dokumentation
- dokument
- ner
- varje
- effektivt
- effektivitet
- möjliggöra
- möjliggör
- möjliggör
- Slutpunkt
- ingenjör
- Teknik
- säkerställa
- enheter
- enhet
- miljöer
- upprättandet
- exempel
- exempel
- experimentera
- extrahera
- få
- fält
- Fält
- Slutligen
- finansiella
- finansiella tjänster
- fixerad
- Flexibilitet
- flexibel
- efter
- formen
- Foster
- hittade
- ramar
- Frihet
- från
- fullständigt
- ytterligare
- Vidare
- sammansmältning
- framtida
- genererar
- generera
- GitHub
- Målet
- Grupp
- Gruppens
- Gäst
- gäst inlägg
- Arbetsmiljö
- har
- hjälper
- Markera
- Hur ser din drömresa ut
- How To
- Men
- html
- HTTPS
- identifierade
- identifiera
- genomföra
- redskap
- förbättra
- förbättra
- in
- innefattar
- Inklusive
- individuellt
- informationen
- Infrastruktur
- inledande
- initialt
- Initiativ
- insikt
- exempel
- integrera
- integrerade
- intresse
- inre
- undersöka
- involverade
- fråga
- IT
- java
- sammanfogning
- Etiketter
- språk
- till stor del
- lager
- leda
- LÄRA SIG
- inlärning
- Lista
- laster
- du letar
- Maskinen
- maskininlärning
- gjord
- GÖR
- förvaltade
- ledning
- många
- meddelande
- meddelanden
- metadata
- Metrics
- miljon
- miljoner
- ML
- modellering
- Modulerna
- övervakning
- mer
- Natural
- Naturlig språkbehandling
- behöver
- behov
- Nya
- nlp
- antal
- fungerar
- drift
- Verksamhet
- Alternativet
- Tillbehör
- beställa
- organisation
- Övervinna
- tvingande
- ägare
- del
- särskilt
- passerar
- Förbi
- Tidigare
- betalning
- Topp
- prestanda
- perioder
- Personligen
- plattform
- plato
- Platon Data Intelligence
- PlatonData
- Strategier
- policy
- Inlägg
- potentiell
- förhindra
- Principal
- Innan
- prioritet
- privat
- problem
- process
- Bearbetad
- processer
- bearbetning
- Produkt
- Produktion
- projektet
- bevis
- bevis på koncept
- protokoll
- visat
- ge
- ger
- dra
- Drar
- inköp
- Tryck
- sköt
- sätta
- Puts
- Snabbt
- snabbt
- post
- register
- dirigera om
- minska
- reducerande
- förhållande
- tillförlitlighet
- avlägsnande
- ta bort
- bort
- Rapporterad
- begära
- Obligatorisk
- krav
- respons
- resultera
- återförsäljare
- avkastning
- återgår
- avslöjade
- Granskad
- Risk
- roller
- Rutt
- rinnande
- skalbarhet
- skalor
- skalning
- sömlöst
- sekunder
- säkrar
- säkerhet
- skicka
- känslig
- service
- Tjänster
- Kort
- Visar
- Enkelt
- eftersom
- So
- än så länge
- lösning
- några
- Källa
- Källor
- fart
- vår
- vårstövel
- stadier
- stå
- fristående
- igång
- Starta
- lager
- lagra
- lagras
- rakt
- sådana
- stödja
- Växla
- System
- Ta
- tar
- uppgift
- grupp
- Terraform
- testa
- Testning
- tester
- Smakämnen
- deras
- vari
- hot
- Genom
- tid
- till
- topp
- Trace
- Handel
- tränad
- Utbildning
- Trender
- typer
- Uk
- förstå
- URL
- Användning
- användning
- värde
- mängd
- via
- Video
- ville
- vecka
- som
- bred
- inom
- utan
- arbetade
- arbetssätt
- år
- Din
- zephyrnet