Dette er gjesteinnlegg av Andy Whittle, Principal Platform Engineer – Application & Reliability Frameworks hos The Very Group.
At The Very Group, som driver digital forhandler Veldig, sikkerhet er en toppprioritet i håndtering av data for millioner av kunder. En del av hvordan The Very Group sikrer og sporer forretningsdrift er gjennom aktivitetslogging mellom forretningssystemer (for eksempel på tvers av stadier av en kundeordre). Det er et kritisk driftskrav og gjør det mulig for The Very Group å spore hendelser og proaktivt identifisere problemer og trender. Dette kan imidlertid bety behandling av kundedata i form av personlig identifiserbar informasjon (PII) i forhold til aktiviteter som kjøp, returer, bruk av fleksible betalingsmåter og kontoadministrasjon.
I dette innlegget viser The Very Group hvordan de bruker Amazon Comprehend å legge til et ytterligere lag med automatisert forsvar på toppen av policyer for å designe trusselmodellering i alle systemer, for å forhindre at PII sendes i loggdata til Elasticsearch for indeksering. Amazon Comprehend er en fullstendig administrert og kontinuerlig trent NLP-tjeneste (natural language processing) som kan trekke ut innsikt om innholdet i et dokument eller en tekst.
Oversikt over løsning
Det overordnede målet for The Very Groups ingeniørteam var å forhindre PII-data fra å nå dokumenter i Elasticsearch. For å oppnå dette og automatisere fjerning av PII fra millioner av identifiserte poster per dag, opprettet The Very Groups ingeniørteam en Application Observability-modul i Terraform. Denne modulen implementerer en observerbarhetsløsning, inkludert applikasjonslogger, applikasjonsytelsesovervåking (APM) og beregninger. Innenfor modulen brukte teamet Amazon Comprehend for å fremheve PII i loggdata med muligheten til å fjerne det før det ble sendt til Elasticsearch.
Amazon Comprehend ble identifisert som en del av et internt plattformprosjekteringsinitiativ for å undersøke hvordan AWS AI-tjenester kan brukes til å forbedre effektiviteten og redusere risikoen ved repeterende forretningsaktiviteter. Very Groups kultur for å lære og eksperimentere betydde at Amazon Comprehend ble vurdert for anvendelighet ved å bruke en Java-applikasjon for å lære hvordan den fungerte med test PII-data. Teamet brukte kodeeksempler i dokumentasjonen for å fremskynde proof of concept og viste raskt potensial i løpet av en dag.
Ingeniørteamet utviklet et skjema som viser hvordan en PII-redaksjonstjeneste kan integreres med The Very Groups logging. Det innebar å utvikle en mikrotjeneste til ring Amazon Comprehend for å oppdage PII-data. Løsningen fungerte ved å sende The Very Groups loggdata gjennom en Logstash-instans som kjørte på AWS Fargate, som renser dataene ved å bruke en annen Fargate-vertsbasert pii-logstash-redaction-tjeneste basert på en Spring Boot Java-applikasjon som ringer til Amazon Comprehend for å fjerne PII. Følgende diagram illustrerer denne arkitekturen.
Very Groups løsning tar logger fra Amazon CloudWatch og Amazon Elastic Container Service (Amazon ECS) og sender rensede versjoner til Elasticsearch for å bli indeksert. Amazon Kinesis brukes i løsningen for å fange opp og lagre logger i korte perioder, med Logstash som trekker logger ned med noen sekunders mellomrom.
Logger hentes på tvers av de mange forretningsprosessene, inkludert bestilling, returer og finansielle tjenester. De inkluderer logger fra over 200 Amazon ECS-apper på tvers av test- og produktmiljøer i Fargate som skyver logger inn i Logstash. En annen kilde er AWS Lambda logger som trekkes inn i Kinesis og deretter trekkes inn i Logstash. Til slutt, en separat frittstående forekomst av Filebeat trekker logganalyse og som setter dem inn i CloudWatch og deretter inn i Logstash. Resultatet er at mange kilder til logger trekkes eller skyves inn i Logstash og behandles av Application Observability-modulen og Amazon Comprehend før de lagres i Elasticsearch.
En separat Terraform-modul gir all infrastrukturen som kreves for å stå opp en Logstash-tjeneste som er i stand til å eksportere logger fra CloudWatch-logggrupper til Elasticsearch via en AWS PrivateLink VPC-endepunkt. Logstash-tjenesten kan også integreres med Amazon ECS via en firelens loggkonfigurasjon, med Amazon ECS som etablerer tilkobling over en Amazon Route 53 ta opp. Skalerbarhet er innebygd med Kinesis-skalering på forespørsel (selv om teamet startet med faste shards, men går nå over til on-demand-bruk), og Logstash skalerer ut med ytterligere Amazon Elastic Compute Cloud (Amazon EC2) forekomster bak en NLB på grunn av protokoller brukt av Filebeat og gjør det mulig for Logstash å mer effektivt trekke logger fra Kinesis.
Til slutt består Logstash-tjenesten av en oppgavedefinisjon som inneholder en Logstash-beholder og PII-redaksjonsbeholder, som sikrer fjerning av PII før eksport til Elasticsearch.
Resultater
Ingeniørteamet var i stand til å bygge og teste løsningen i løpet av en uke, uten å måtte forstå maskinlæring (ML) eller virkemåten til AI, ved å bruke Amazon Comprehend videoveiledning, API-referansedokumentasjonog eksempel kode. Etter å ha vist forretningsverdi så raskt, har bedriftsprodukteierne begynt å utvikle nye bruksområder for å dra nytte av tjenesten. Noen beslutninger måtte tas for å muliggjøre løsningen. Selv om plattformingeniørteamet visste at de kunne redigere dataene, ønsket de å fange opp loggene fra den gjeldende løsningen (basert på en Fluent Bit-sidevogn for å omdirigere logger til et endepunkt). De bestemte seg for å ta i bruk Logstash for å muliggjøre avskjæring av loggfelt gjennom rørledninger for å integrere med deres PII-tjeneste (som består av Terraform-modulen og Java-tjenesten).
Adopsjonen av Logstash ble opprinnelig gjort sømløst. Very Group-ingeniørgruppene bruker nå tjenesten direkte gjennom et API-endepunkt for å sette logger rett inn i Elasticsearch. Dette har gjort det mulig for dem å bytte endepunkt fra sidevognen til det nye endepunktet og distribuere det gjennom Terraform-modulen. Det eneste problemet teamet hadde var fra innledende tester som avslørte et hastighetsproblem ved testing med topp handelsbelastning. Dette ble overvunnet gjennom justeringer av Java-koden.
Følgende kode viser hvordan The Very Group bruker Amazon Comprehend for å fjerne PII fra loggmeldinger. Den oppdager enhver PII og lager en liste over enhetstyper som skal registreres. For å akselerere utviklingen ble koden hentet fra AWS-dokumentasjonen og tilpasset for bruk i Java-applikasjonstjenesten utplassert på Fargate.
Følgende skjermbilde viser utdataene sendt til Elasticsearch som en del av PII-redaksjonsprosessen. Tjenesten genererer 1 million poster per dag, og genererer en rekord hver gang en redaksjon foretas.
Loggmeldingen er redigert, og feltet redacted_entities inneholder en liste over enhetstypene som finnes i meldingen. I dette tilfellet fant eksemplet en URL, men det kunne ha identifisert alle typer PII-data, hovedsakelig basert på de innebygde typene PII. En ekstra skreddersydd PII-type for kundekontonummer ble lagt til gjennom Amazon Comprehend, men har ikke vært nødvendig så langt. Overstyringer på ingeniørgruppenivå er dokumentert i GitHub om hvordan du bruker dem.
konklusjonen
Dette prosjektet tillot The Very Group å implementere en rask og enkel løsning for å redigere sensitiv PII i logger. Ingeniørteamet la til ytterligere fleksibilitet som tillot overstyringer for enhetstyper, ved å bruke Amazon Comprehend for å gi fleksibiliteten til å redigere PII basert på forretningsbehovene. I fremtiden ser ingeniørteamet på å trene individuelle Amazon Comprehend-enheter for å redigere strenger som kunde-ID-ene våre.
Resultatet av løsningen er at The Very Group har frihet til å legge inn logger uten å måtte bekymre seg. Den håndhever policyen om ikke å ha PII lagret i logger, og reduserer dermed risiko og forbedrer samsvar. Videre blir metadata som redigeres rapportert tilbake til virksomheten gjennom et Elasticsearch-dashbord, som muliggjør varsler og ytterligere handling.
Ta deg tid til å vurdere AWS AI/ML-tjenester som organisasjonen din ikke har brukt ennå, og fremme en eksperimenteringskultur. Å starte enkelt kan raskt føre til forretningsfordeler, akkurat som The Very Group beviste.
om forfatteren
Andy Whittle er Principal Platform Engineer – Application & Reliability Frameworks hos The Very Group, som driver den britiske digitale forhandleren Very. Andy hjelper til med å levere ytelsesovervåking på tvers av organisasjonens stammer, og har en spesiell interesse i applikasjonsovervåking, observerbarhet og ytelse. Siden han begynte i Very i 1998, har Andy påtatt seg en rekke roller som dekker innholdsadministrasjon og katalogproduksjon, lagerstyring, produksjonsstøtte, DevOps og Fusion Middleware. De siste 4 årene har han vært en del av plattformingeniørteamet.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- I stand
- Om oss
- akselerere
- Logg inn
- kontoadministrasjon
- tvers
- Handling
- Aktiviteter
- aktivitet
- la til
- Ytterligere
- adoptere
- Adopsjon
- Fordel
- AI
- AI-tjenester
- AI / ML
- Alle
- tillate
- Selv
- Amazon
- Amazon Comprehend
- Amazon EC2
- analyse
- og
- En annen
- api
- Søknad
- apps
- arkitektur
- automatisere
- Automatisert
- AWS
- tilbake
- basert
- før du
- bak
- være
- nytte
- mellom
- Bit
- bygge
- bygget
- innebygd
- virksomhet
- Samtaler
- stand
- fangst
- saken
- saker
- katalog
- kode
- samsvar
- fatte
- Beregn
- konsept
- Tilkobling
- Container
- inneholder
- innhold
- kunne
- dekker
- opprettet
- skaper
- kritisk
- Kultur
- Gjeldende
- kunde
- kunde Data
- Kunder
- dashbord
- dato
- dag
- besluttet
- avgjørelser
- Forsvar
- leverer
- Etterspørsel
- demonstrert
- demonstrere
- utplassere
- utplassert
- utforming
- utvikle
- utviklet
- utvikle
- Utvikling
- digitalt
- direkte
- dokument
- dokumentasjon
- dokumenter
- ned
- hver enkelt
- effektivt
- effektivitet
- muliggjøre
- muliggjør
- muliggjør
- Endpoint
- ingeniør
- Ingeniørarbeid
- sikrer
- enheter
- enhet
- miljøer
- etablere
- eksempel
- eksempler
- eksperiment
- trekke ut
- Noen få
- felt
- Felt
- Endelig
- finansiell
- finansielle tjenester
- fikset
- fleksibilitet
- fleksibel
- etter
- skjema
- Foster
- funnet
- rammer
- Frihet
- fra
- fullt
- videre
- Dess
- fusjon
- framtid
- genererer
- genererer
- GitHub
- mål
- Gruppe
- Gruppens
- Gjest
- gjest innlegg
- Håndtering
- å ha
- hjelper
- Uthev
- Hvordan
- Hvordan
- Men
- HTML
- HTTPS
- identifisert
- identifisere
- iverksette
- redskaper
- forbedre
- bedre
- in
- inkludere
- Inkludert
- individuelt
- informasjon
- Infrastruktur
- innledende
- i utgangspunktet
- Initiative
- innsikt
- f.eks
- integrere
- integrert
- interesse
- intern
- undersøke
- involvert
- utstedelse
- IT
- Java
- sammenføyning
- etiketter
- Språk
- i stor grad
- lag
- føre
- LÆRE
- læring
- Liste
- laster
- ser
- maskin
- maskinlæring
- laget
- GJØR AT
- fikk til
- ledelse
- mange
- melding
- meldinger
- metadata
- Metrics
- millioner
- millioner
- ML
- modellering
- Moduler
- overvåking
- mer
- Naturlig
- Natural Language Processing
- trenger
- behov
- Ny
- nlp
- Antall
- opererer
- drift
- Drift
- Alternativ
- alternativer
- rekkefølge
- organisasjon
- Overcome
- overordnet
- eiere
- del
- Spesielt
- passerer
- Passerer
- Past
- betaling
- Topp
- ytelse
- perioder
- personlig
- plattform
- plato
- Platon Data Intelligence
- PlatonData
- Politikk
- politikk
- Post
- potensiell
- forebygge
- Principal
- Før
- prioritet
- privat
- problemer
- prosess
- Bearbeidet
- Prosesser
- prosessering
- Produkt
- Produksjon
- prosjekt
- bevis
- proof of concept
- protokoller
- beviste
- gi
- gir
- trekke
- Trekker
- kjøp
- Skyv
- presset
- sette
- setter
- Rask
- raskt
- rekord
- poster
- omdirigere
- redusere
- redusere
- forhold
- pålitelighet
- fjerning
- fjerne
- fjerne
- rapportert
- anmode
- påkrevd
- behov
- svar
- resultere
- forhandler
- retur
- avkastning
- Avslørt
- anmeldt
- Risiko
- roller
- Rute
- rennende
- skalerbarhet
- vekter
- skalering
- sømløst
- sekunder
- sikrer
- sikkerhet
- sending
- sensitive
- tjeneste
- Tjenester
- Kort
- Viser
- Enkelt
- siden
- So
- så langt
- løsning
- noen
- kilde
- Kilder
- fart
- vår
- vårstøvel
- stadier
- stå
- stående
- startet
- Start
- lager
- oppbevare
- lagret
- rett
- slik
- støtte
- Bytte om
- Systemer
- Ta
- tar
- Oppgave
- lag
- terra
- test
- Testing
- tester
- De
- deres
- derved
- trussel
- Gjennom
- tid
- til
- topp
- Trace
- trading
- trent
- Kurs
- Trender
- typer
- Uk
- forstå
- URL
- bruk
- bruke
- verdi
- variasjon
- av
- video
- ønsket
- uke
- hvilken
- bred
- innenfor
- uten
- arbeidet
- arbeid
- år
- Din
- zephyrnet