Dette er gæsteindlæg af Andy Whittle, Principal Platform Engineer – Application & Reliability Frameworks hos The Very Group.
At Very Group, som driver digital detailhandler Meget, sikkerhed er en topprioritet ved håndtering af data for millioner af kunder. En del af, hvordan The Very Group sikrer og sporer forretningsdrift, er gennem aktivitetslogning mellem forretningssystemer (for eksempel på tværs af stadierne af en kundeordre). Det er et kritisk driftskrav og gør det muligt for The Very Group at spore hændelser og proaktivt identificere problemer og tendenser. Dette kan dog betyde behandling af kundedata i form af personlig identificerbar information (PII) i forhold til aktiviteter som køb, returnering, brug af fleksible betalingsmuligheder og kontostyring.
I dette indlæg viser The Very Group, hvordan de bruger Amazon Comprehend at tilføje et yderligere lag af automatiseret forsvar oven på politikker for at designe trusselsmodellering i alle systemer, for at forhindre PII i at blive sendt i logdata til Elasticsearch til indeksering. Amazon Comprehend er en fuldt administreret og kontinuerligt trænet NLP-tjeneste (natural language processing), der kan udtrække indsigt om indholdet af et dokument eller en tekst.
Oversigt over løsning
Det overordnede mål for The Very Groups ingeniørteam var at forhindre PII-data i at nå dokumenter i Elasticsearch. For at opnå dette og automatisere fjernelse af PII fra millioner af identificerede poster om dagen, oprettede The Very Groups ingeniørteam et Application Observability-modul i Terraform. Dette modul implementerer en observerbarhedsløsning, inklusive applikationslogfiler, overvågning af applikationsydelse (APM) og metrikker. Inden for modulet brugte teamet Amazon Comprehend til at fremhæve PII i logdata med mulighed for at fjerne det, før det blev sendt til Elasticsearch.
Amazon Comprehend blev identificeret som en del af et internt platformsingeniørinitiativ for at undersøge, hvordan AWS AI-tjenester kan bruges til at forbedre effektiviteten og reducere risikoen i gentagne forretningsaktiviteter. Very Groups kultur for at lære og eksperimentere betød, at Amazon Comprehend blev gennemgået for anvendelighed ved hjælp af en Java-applikation for at lære, hvordan den fungerede med test PII-data. Holdet brugte kodeeksempler i dokumentationen for at fremskynde proof of concept og viste hurtigt potentiale inden for en dag.
Ingeniørteamet udviklede et skema, der demonstrerer, hvordan en PII-redaktionstjeneste kunne integreres med The Very Groups logning. Det indebar at udvikle en mikroservice til ring til Amazon Comprehend for at opdage PII-data. Løsningen fungerede ved at sende The Very Groups logdata gennem en Logstash-instans, der kørte på AWS Fargate, som renser dataene ved hjælp af en anden Fargate-hostet pii-logstash-redaction-tjeneste baseret på en Spring Boot Java-applikation, der foretager opkald til Amazon Comprehend for at fjerne PII. Følgende diagram illustrerer denne arkitektur.
Very Groups løsning tager log fra amazoncloudwatch , Amazon Elastic Container Service (Amazon ECS) og sender rensede versioner til Elasticsearch for at blive indekseret. Amazon Kinesis bruges i løsningen til at fange og opbevare logs i korte perioder, hvor Logstash trækker logs ned med få sekunders mellemrum.
Logfiler hentes på tværs af de mange forretningsprocesser, herunder bestilling, returnering og finansielle tjenester. De inkluderer logfiler fra over 200 Amazon ECS-apps på tværs af test- og produktmiljøer i Fargate, der skubber logfiler ind i Logstash. En anden kilde er AWS Lambda logs, der trækkes ind i Kinesis og derefter trækkes ind i Logstash. Endelig trækker en separat selvstændig forekomst af Filebeat loganalyse, og det sætter dem ind i CloudWatch og derefter i Logstash. Resultatet er, at mange kilder til logfiler trækkes eller skubbes ind i Logstash og behandles af Application Observability-modulet og Amazon Comprehend, før de gemmes i Elasticsearch.
Et separat Terraform-modul giver al den infrastruktur, der kræves for at opbygge en Logstash-tjeneste, der er i stand til at eksportere logfiler fra CloudWatch-loggrupper til Elasticsearch via en AWS PrivateLink VPC-endepunkt. Logstash-tjenesten kan også integreres med Amazon ECS via en firelens log konfiguration, hvor Amazon ECS etablerer forbindelse over en Amazonrute 53 optage. Skalerbarhed er indbygget med Kinesis-skalering efter behov (selvom holdet startede med faste shards, men nu skifter til on-demand-brug), og Logstash skalerer ud med yderligere Amazon Elastic Compute Cloud (Amazon EC2) instanser bag en NLB på grund af protokoller brugt af Filebeat og gør det muligt for Logstash at trække logfiler mere effektivt fra Kinesis.
Endelig består Logstash-tjenesten af en opgavedefinition, der indeholder en Logstash-container og PII-redaktionscontainer, der sikrer fjernelse af PII før eksport til Elasticsearch.
Resultater
Ingeniørteamet var i stand til at bygge og teste løsningen inden for en uge uden at behøve at forstå maskinlæring (ML) eller AIs virkemåde ved hjælp af Amazon Comprehend videovejledning, API reference dokumentationog eksempel kode. Efter at have demonstreret forretningsværdi så hurtigt, er virksomhedens produktejere begyndt at udvikle nye use cases for at drage fordel af tjenesten. Nogle beslutninger skulle træffes for at muliggøre løsningen. Selvom platformsingeniørteamet vidste, at de kunne redigere dataene, ønskede de at opsnappe logfilerne fra den aktuelle løsning (baseret på en Fluent Bit-sidevogn for at omdirigere logfiler til et slutpunkt). De besluttede at anvende Logstash for at muliggøre aflytning af logfelter gennem pipelines for at integrere med deres PII-tjeneste (bestående af Terraform-modulet og Java-tjenesten).
Indførelsen af Logstash blev oprindeligt udført problemfrit. Very Group-ingeniørholdene bruger nu tjenesten direkte gennem et API-slutpunkt til at lægge logfiler direkte ind i Elasticsearch. Dette har givet dem mulighed for at skifte deres endepunkt fra sidevognen til det nye endepunkt og implementere det gennem Terraform-modulet. Det eneste problem, holdet havde, var fra indledende test, der afslørede et hastighedsproblem, når de testede med spidsbelastninger. Dette blev overvundet gennem justeringer af Java-koden.
Følgende kode viser, hvordan The Very Group bruger Amazon Comprehend til at fjerne PII fra logmeddelelser. Den registrerer enhver PII og opretter en liste over enhedstyper, der skal optages. For at fremskynde udviklingen blev koden taget fra AWS-dokumentationen og tilpasset til brug i Java-applikationstjenesten, der er installeret på Fargate.
Følgende skærmbillede viser output sendt til Elasticsearch som en del af PII-redaktionsprocessen. Tjenesten genererer 1 million poster om dagen, og genererer en rekord hver gang der foretages en redigering.
Logmeddelelsen er redigeret, og feltet redacted_entities indeholder en liste over de enhedstyper, der findes i meddelelsen. I dette tilfælde fandt eksemplet en URL, men det kunne have identificeret enhver type PII-data, hovedsagelig baseret på de indbyggede typer PII. En ekstra skræddersyet PII-type til kundekontonummer blev tilføjet gennem Amazon Comprehend, men har ikke været nødvendig indtil videre. Tilsidesættelser på ingeniørholdsniveau er dokumenteret i GitHub om, hvordan man bruger dem.
Konklusion
Dette projekt gjorde det muligt for The Very Group at implementere en hurtig og enkel løsning til at redigere følsomme PII i logfiler. Ingeniørteamet tilføjede yderligere fleksibilitet, hvilket muliggjorde tilsidesættelser af enhedstyper, ved at bruge Amazon Comprehend til at give fleksibiliteten til at redigere PII baseret på forretningsbehovene. I fremtiden undersøger ingeniørteamet at træne individuelle Amazon Comprehend-enheder til at redigere strenge såsom vores kunde-id'er.
Resultatet af løsningen er, at The Very Group har frihed til at lægge logs igennem uden at skulle bekymre sig. Det håndhæver politikken om ikke at have PII gemt i logfiler, hvilket reducerer risikoen og forbedrer compliance. Desuden bliver metadata, der redigeres, rapporteret tilbage til virksomheden gennem et Elasticsearch-dashboard, hvilket muliggør advarsler og yderligere handling.
Giv dig tid til at vurdere AWS AI/ML-tjenester, som din organisation endnu ikke har brugt, og fremme en eksperimenterende kultur. At starte enkelt kan hurtigt føre til forretningsmæssige fordele, ligesom The Very Group beviste.
Om forfatteren
Andy Whittle er Principal Platform Engineer – Application & Reliability Frameworks hos The Very Group, som driver den britiske digitalforhandler Very. Andy hjælper med at levere præstationsovervågning på tværs af organisationens stammer og har en særlig interesse i applikationsovervågning, observerbarhed og ydeevne. Siden han kom til Very i 1998, har Andy påtaget sig en bred vifte af roller, der dækker indholdsstyring og katalogproduktion, lagerstyring, produktionssupport, DevOps og Fusion Middleware. I de sidste 4 år har han været en del af platformsingeniørteamet.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. Adgang her.
- Kilde: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- I stand
- Om
- fremskynde
- Konto
- kontoadministration
- tværs
- Handling
- aktiviteter
- aktivitet
- tilføjet
- Yderligere
- vedtage
- Vedtagelse
- Fordel
- AI
- AI-tjenester
- AI / ML
- Alle
- tillade
- Skønt
- Amazon
- Amazon Comprehend
- Amazon EC2
- analyse
- ,
- En anden
- api
- Anvendelse
- apps
- arkitektur
- automatisere
- Automatiseret
- AWS
- tilbage
- baseret
- før
- bag
- være
- gavner det dig
- mellem
- Bit
- bygge
- bygget
- indbygget
- virksomhed
- Opkald
- stand
- fange
- tilfælde
- tilfælde
- katalog
- kode
- Compliance
- forstå
- Compute
- Konceptet
- Connectivity
- Container
- indeholder
- indhold
- kunne
- dækker
- oprettet
- skaber
- kritisk
- Medarbejder kultur
- Nuværende
- kunde
- kundedata
- Kunder
- instrumentbræt
- data
- dag
- besluttede
- afgørelser
- Forsvar
- levere
- Efterspørgsel
- demonstreret
- demonstrerer
- indsætte
- indsat
- Design
- udvikle
- udviklet
- udvikling
- Udvikling
- digital
- direkte
- dokumentet
- dokumentation
- dokumenter
- ned
- hver
- effektivt
- effektivitet
- muliggøre
- muliggør
- muliggør
- Endpoint
- ingeniør
- Engineering
- sikring
- enheder
- enhed
- miljøer
- oprettelse
- eksempel
- eksempler
- eksperiment
- ekstrakt
- få
- felt
- Fields
- Endelig
- finansielle
- finansielle tjenesteydelser
- fast
- Fleksibilitet
- fleksibel
- efter
- formular
- Foster
- fundet
- rammer
- Frihed
- fra
- fuldt ud
- yderligere
- Endvidere
- fusion
- fremtiden
- genererer
- generere
- GitHub
- mål
- gruppe
- Gruppens
- Gæst
- gæst Indlæg
- Håndtering
- have
- hjælper
- Fremhæv
- Hvordan
- How To
- Men
- HTML
- HTTPS
- identificeret
- identificere
- gennemføre
- redskaber
- Forbedre
- forbedring
- in
- omfatter
- Herunder
- individuel
- oplysninger
- Infrastruktur
- initial
- i første omgang
- initiativ
- indsigt
- instans
- integrere
- integreret
- interesse
- interne
- undersøge
- involverede
- spørgsmål
- IT
- Java
- sammenføjning
- Etiketter
- Sprog
- vid udstrækning
- lag
- føre
- LÆR
- læring
- Liste
- belastninger
- leder
- maskine
- machine learning
- lavet
- maerker
- lykkedes
- ledelse
- mange
- besked
- beskeder
- Metadata
- Metrics
- million
- millioner
- ML
- modellering
- Moduler
- overvågning
- mere
- Natural
- Natural Language Processing
- behøve
- behov
- Ny
- NLP
- nummer
- opererer
- drift
- Produktion
- Option
- Indstillinger
- ordrer
- organisation
- Overvind
- tvingende
- ejere
- del
- særlig
- gennemløb
- Passing
- forbi
- betaling
- Peak
- ydeevne
- perioder
- Personligt
- perron
- plato
- Platon Data Intelligence
- PlatoData
- politikker
- politik
- Indlæg
- potentiale
- forhindre
- Main
- Forud
- prioritet
- private
- problemer
- behandle
- Behandlet
- Processer
- forarbejdning
- Produkt
- produktion
- projekt
- bevis
- Bevis for koncept
- protokoller
- bevist
- give
- giver
- trækker
- Sweatre & trøjer
- indkøb
- Skub ud
- skubbet
- sætte
- sætter
- Hurtig
- hurtigt
- optage
- optegnelser
- omdirigere
- reducere
- reducere
- relation
- pålidelighed
- fjernelse
- Fjern
- fjernelse
- rapporteret
- anmode
- påkrævet
- krav
- svar
- resultere
- detailhandler
- afkast
- afkast
- Revealed
- revideret
- Risiko
- roller
- R
- kører
- Skalerbarhed
- skalaer
- skalering
- problemfrit
- sekunder
- Sikrer
- sikkerhed
- afsendelse
- følsom
- tjeneste
- Tjenester
- Kort
- Shows
- Simpelt
- siden
- So
- indtil nu
- løsninger
- nogle
- Kilde
- Kilder
- hastighed
- forår
- forårstøvle
- etaper
- stå
- standalone
- påbegyndt
- Starter
- bestand
- butik
- opbevaret
- lige
- sådan
- support
- Kontakt
- Systemer
- Tag
- tager
- Opgaver
- hold
- terraform
- prøve
- Test
- tests
- deres
- derved
- trussel
- Gennem
- tid
- til
- top
- Trace
- Trading
- uddannet
- Kurser
- Tendenser
- typer
- Uk
- forstå
- URL
- Brug
- brug
- værdi
- række
- via
- video
- ønskede
- uge
- som
- bred
- inden for
- uden
- arbejdede
- arbejder
- år
- Din
- zephyrnet