Questo è un guest post di Andy Whittle, Principal Platform Engineer – Application & Reliability Frameworks presso The Very Group.
At Lo stesso gruppo, che gestisce il rivenditore digitale Very, la sicurezza è una priorità assoluta nella gestione dei dati per milioni di clienti. Parte del modo in cui The Very Group protegge e tiene traccia delle operazioni aziendali è attraverso la registrazione delle attività tra i sistemi aziendali (ad esempio, attraverso le fasi di un ordine del cliente). È un requisito operativo critico e consente a The Very Group di tracciare gli incidenti e identificare in modo proattivo problemi e tendenze. Tuttavia, ciò può comportare l'elaborazione dei dati dei clienti sotto forma di informazioni di identificazione personale (PII) in relazione ad attività quali acquisti, resi, utilizzo di opzioni di pagamento flessibili e gestione dell'account.
In questo post, The Very Group mostra come usano Amazon Comprehend per aggiungere un ulteriore livello di difesa automatizzata oltre alle policy per progettare la modellazione delle minacce in tutti i sistemi, per impedire che le informazioni personali vengano inviate nei dati di registro a Elasticsearch per l'indicizzazione. Amazon Comprehend è un servizio di elaborazione del linguaggio naturale (NLP) completamente gestito e continuamente addestrato che può estrarre informazioni sul contenuto di un documento o di un testo.
Panoramica della soluzione
L'obiettivo principale per il team di ingegneri di The Very Group era impedire a qualsiasi dato PII di raggiungere i documenti all'interno di Elasticsearch. Per raggiungere questo obiettivo e automatizzare la rimozione delle PII da milioni di record identificati al giorno, il team di ingegneri di The Very Group ha creato un modulo Application Observability in Terraform. Questo modulo implementa una soluzione di osservabilità, inclusi i registri delle applicazioni, il monitoraggio delle prestazioni delle applicazioni (APM) e le metriche. All'interno del modulo, il team ha utilizzato Amazon Comprehend per evidenziare le PII all'interno dei dati di log con la possibilità di rimuoverle prima dell'invio a Elasticsearch.
Amazon Comprehend è stato identificato come parte di un'iniziativa di ingegneria della piattaforma interna per indagare su come utilizzare i servizi AI di AWS per migliorare l'efficienza e ridurre i rischi nelle attività aziendali ripetitive. La cultura di apprendimento e sperimentazione di Very Group ha fatto sì che Amazon Comprehend fosse rivisto per verificarne l'applicabilità utilizzando un'applicazione Java per apprendere come funzionava con i dati PII di prova. Il team ha utilizzato esempi di codice nella documentazione per accelerare la prova del concetto e ha dimostrato rapidamente il potenziale in un giorno.
Il team di ingegneri ha sviluppato uno schema che dimostra come un servizio di redazione di PII potrebbe integrarsi con la registrazione di The Very Group. Ha comportato lo sviluppo di un microservizio per chiama Amazon Comprehend per rilevare i dati PII. La soluzione ha funzionato passando i dati di registro di The Very Group attraverso un'istanza di Logstash in esecuzione AWS Fargate, che pulisce i dati utilizzando un altro servizio pii-logstash-redaction ospitato da Fargate basato su un'applicazione Spring Boot Java che effettua chiamate ad Amazon Comprehend per rimuovere le informazioni personali. Il diagramma seguente illustra questa architettura.
La soluzione di Very Group prende i log da Amazon Cloud Watch ed Servizio di container elastici Amazon (Amazon ECS) e passa le versioni ripulite a Elasticsearch per l'indicizzazione. Cinesi amazzonica viene utilizzato nella soluzione per acquisire e archiviare i log per brevi periodi, con Logstash che estrae i log ogni pochi secondi.
I log provengono da numerosi processi aziendali, inclusi ordini, resi e servizi finanziari. Includono i log di oltre 200 app Amazon ECS negli ambienti di test e produzione in Fargate che inviano i log a Logstash. Un'altra fonte è AWS Lambda log che vengono inseriti in Kinesis e quindi inseriti in Logstash. Infine, un'istanza autonoma separata di Filebeat estrae l'analisi dei log e li inserisce in CloudWatch e quindi in Logstash. Il risultato è che molte fonti di log vengono estratte o inserite in Logstash ed elaborate dal modulo Application Observability e Amazon Comprehend prima di essere archiviate in Elasticsearch.
Un modulo Terraform separato fornisce tutta l'infrastruttura necessaria per creare un servizio Logstash in grado di esportare i log dai gruppi di log di CloudWatch in Elasticsearch tramite un Collegamento privato AWS Punto finale VPC. Il servizio Logstash può anche essere integrato con Amazon ECS tramite a configurazione del registro firelens, con Amazon ECS che stabilisce la connettività su un Amazon percorso 53 disco. La scalabilità è integrata con il ridimensionamento su richiesta di Kinesis (sebbene il team abbia iniziato con shard fissi, ma ora stia passando all'utilizzo su richiesta) e Logstash scala con ulteriori Cloud di calcolo elastico di Amazon (Amazon EC2) dietro un NLB grazie ai protocolli utilizzati da Filebeat e consente a Logstash di estrarre i log in modo più efficace da Kinesis.
Infine, il servizio Logstash è costituito da una definizione di attività contenente un contenitore Logstash e un contenitore di redazione PII, garantendo la rimozione delle PII prima dell'esportazione in Elasticsearch.
Risultati
Il team di ingegneri è stato in grado di creare e testare la soluzione entro una settimana, senza la necessità di comprendere l'apprendimento automatico (ML) o il funzionamento dell'IA, utilizzando Guida video di Amazon Comprehend, Documentazione di riferimento dell'APIe codice di esempio. Dopo aver dimostrato così rapidamente il valore aziendale, i proprietari dei prodotti aziendali hanno iniziato a sviluppare nuovi casi d'uso per sfruttare il servizio. Alcune decisioni dovevano essere prese per consentire la soluzione. Sebbene il team di ingegneri della piattaforma sapesse di poter redigere i dati, voleva intercettare i log dalla soluzione attuale (basata su un sidecar Fluent Bit per reindirizzare i log a un endpoint). Hanno deciso di adottare Logstash per consentire l'intercettazione dei campi di log tramite pipeline da integrare con il loro servizio PII (che comprende il modulo Terraform e il servizio Java).
L'adozione di Logstash è stata inizialmente eseguita senza problemi. Le squadre di ingegneri di Very Group stanno ora utilizzando il servizio direttamente tramite un endpoint API per inserire i log direttamente in Elasticsearch. Ciò ha consentito loro di trasferire il proprio endpoint dal sidecar al nuovo endpoint e di distribuirlo tramite il modulo Terraform. L'unico problema riscontrato dal team è stato dai test iniziali che hanno rivelato un problema di velocità durante i test con carichi di trading di picco. Questo è stato superato attraverso modifiche al codice Java.
Il codice seguente mostra in che modo The Very Group utilizza Amazon Comprehend per rimuovere le informazioni personali dai messaggi di registro. Rileva qualsiasi PII e crea un elenco di tipi di entità da registrare. Per accelerare lo sviluppo, il codice è stato preso dalla documentazione AWS e adattato per l'uso nel servizio applicativo Java distribuito su Fargate.
Lo screenshot seguente mostra l'output inviato a Elasticsearch come parte del processo di redazione delle PII. Il servizio genera 1 milione di record al giorno, generando un record ogni volta che viene effettuata una redazione.
Il messaggio di log viene redatto e il campo redacted_entities contiene un elenco dei tipi di entità trovati nel messaggio. In questo caso, l'esempio ha trovato un URL, ma avrebbe potuto identificare qualsiasi tipo di dati PII in gran parte basati sui tipi incorporati di PII. Un ulteriore tipo di PII su misura per il numero di account del cliente è stato aggiunto tramite Amazon Comprehend, ma finora non è stato necessario. Le sostituzioni a livello di squadra di ingegneri sono documentate in GitHub su come usarle.
Conclusione
Questo progetto ha permesso a The Very Group di implementare una soluzione rapida e semplice per oscurare le PII sensibili nei log. Il team di ingegneri ha aggiunto ulteriore flessibilità consentendo l'override dei tipi di entità, utilizzando Amazon Comprehend per fornire la flessibilità necessaria per redigere le PII in base alle esigenze aziendali. In futuro, il team di ingegneri sta esaminando la formazione di singole entità Amazon Comprehend per redigere stringhe come i nostri ID cliente.
Il risultato della soluzione è che The Very Group ha la libertà di inserire i registri senza doversi preoccupare. Applica la politica di non avere informazioni personali memorizzate nei registri, riducendo così i rischi e migliorando la conformità. Inoltre, i metadati redatti vengono segnalati all'azienda tramite un dashboard Elasticsearch, consentendo avvisi e ulteriori azioni.
Dedica del tempo alla valutazione dei servizi AWS AI/ML che la tua organizzazione non ha ancora utilizzato e promuovi una cultura della sperimentazione. Iniziare in modo semplice può portare rapidamente a vantaggi aziendali, proprio come ha dimostrato The Very Group.
L'autore
Andy Whittle è Principal Platform Engineer – Application & Reliability Frameworks presso The Very Group, che gestisce il rivenditore digitale Very con sede nel Regno Unito. Andy aiuta a fornire il monitoraggio delle prestazioni tra le tribù dell'organizzazione e ha un interesse particolare per il monitoraggio, l'osservabilità e le prestazioni delle applicazioni. Da quando è entrato a far parte di Very nel 1998, Andy ha ricoperto un'ampia varietà di ruoli che coprono la gestione dei contenuti e la produzione di cataloghi, la gestione delle scorte, il supporto alla produzione, DevOps e Fusion Middleware. Negli ultimi 4 anni ha fatto parte del team di ingegneri della piattaforma.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- capace
- Chi siamo
- accelerare
- Il mio account
- gestione contabile
- operanti in
- Action
- attività
- attività
- aggiunto
- aggiuntivo
- adottare
- Adozione
- Vantaggio
- AI
- Servizi di intelligenza artificiale
- AI / ML
- Tutti
- Consentire
- Sebbene il
- Amazon
- Amazon Comprehend
- Amazon EC2
- .
- ed
- Un altro
- api
- Applicazioni
- applicazioni
- architettura
- automatizzare
- Automatizzata
- AWS
- precedente
- basato
- prima
- dietro
- essendo
- beneficio
- fra
- Po
- costruire
- costruito
- incassato
- affari
- Bandi
- capace
- catturare
- Custodie
- casi
- catalogo
- codice
- conformità
- comprendere
- Calcolare
- concetto
- Connettività
- Contenitore
- contiene
- contenuto
- potuto
- copertura
- creato
- crea
- critico
- Cultura
- Corrente
- cliente
- dati dei clienti
- Clienti
- cruscotto
- dati
- giorno
- deciso
- decisioni
- Difesa
- consegnare
- Richiesta
- dimostrato
- dimostrando
- schierare
- schierato
- Design
- sviluppare
- sviluppato
- in via di sviluppo
- Mercato
- digitale
- direttamente
- documento
- documentazione
- documenti
- giù
- ogni
- in maniera efficace
- efficienza
- enable
- Abilita
- consentendo
- endpoint
- ingegnere
- Ingegneria
- assicurando
- entità
- entità
- ambienti
- stabilire
- esempio
- Esempi
- esperimento
- estratto
- pochi
- campo
- campi
- Infine
- finanziario
- servizi finanziari
- fisso
- Flessibilità
- flessibile
- i seguenti
- modulo
- Favorire
- essere trovato
- quadri
- La libertà
- da
- completamente
- ulteriormente
- Inoltre
- fusione
- futuro
- genera
- la generazione di
- GitHub
- scopo
- Gruppo
- Gruppo
- GUEST
- Ospite Messaggio
- Manovrabilità
- avendo
- aiuta
- Highlight
- Come
- Tutorial
- Tuttavia
- HTML
- HTTPS
- identificato
- identificare
- realizzare
- attrezzi
- competenze
- miglioramento
- in
- includere
- Compreso
- individuale
- informazioni
- Infrastruttura
- inizialmente
- inizialmente
- iniziativa
- intuizione
- esempio
- integrare
- integrato
- interesse
- interno
- indagare
- coinvolto
- problema
- IT
- Java
- accoppiamento
- per il tuo brand
- Lingua
- maggiormente
- strato
- portare
- IMPARARE
- apprendimento
- Lista
- carichi
- cerca
- macchina
- machine learning
- fatto
- FA
- gestito
- gestione
- molti
- messaggio
- messaggi
- Metadati
- Metrica
- milione
- milioni
- ML
- modellismo
- Moduli
- monitoraggio
- Scopri di più
- Naturale
- Elaborazione del linguaggio naturale
- che necessitano di
- esigenze
- New
- nlp
- numero
- opera
- operativo
- Operazioni
- Opzione
- Opzioni
- minimo
- organizzazione
- Superare
- sovrascrivendo
- proprietari
- parte
- particolare
- Passi
- Di passaggio
- passato
- Pagamento
- Corrente di
- performance
- periodi
- Personalmente
- piattaforma
- Platone
- Platone Data Intelligence
- PlatoneDati
- Termini e Condizioni
- politica
- Post
- potenziale
- prevenire
- Direttore
- Precedente
- priorità
- un bagno
- problemi
- processi
- Elaborato
- i processi
- lavorazione
- Prodotto
- Produzione
- progetto
- prova
- prova del concetto
- protocolli
- dimostrato
- fornire
- fornisce
- traino
- Maglioni
- acquisti
- Spingi
- spinto
- metti
- mette
- Presto
- rapidamente
- record
- record
- reindirizzare
- ridurre
- riducendo
- relazione
- problemi di
- rimozione
- rimuovere
- rimozione
- Segnalati
- richiesta
- necessario
- requisito
- risposta
- colpevole
- rivenditore
- ritorno
- problemi
- Rivelato
- rivisto
- Rischio
- ruoli
- strada
- running
- Scalabilità
- bilancia
- scala
- senza soluzione di continuità
- secondo
- Protegge
- problemi di
- invio
- delicata
- servizio
- Servizi
- Corti
- Spettacoli
- Un'espansione
- da
- So
- finora
- soluzione
- alcuni
- Fonte
- fonti
- velocità
- primavera
- stivale primaverile
- tappe
- stare in piedi
- standalone
- iniziato
- Di partenza
- azione
- Tornare al suo account
- memorizzati
- dritto
- tale
- supporto
- Interruttore
- SISTEMI DI TRATTAMENTO
- Fai
- prende
- Task
- team
- Terraform
- test
- Testing
- test
- I
- loro
- in tal modo
- minaccia
- Attraverso
- tempo
- a
- top
- Traccia
- Trading
- allenato
- Training
- tendenze
- Tipi di
- Uk
- capire
- URL
- Impiego
- uso
- APPREZZIAMO
- varietà
- via
- Video
- ricercato
- settimana
- quale
- largo
- entro
- senza
- lavorato
- lavoro
- anni
- Trasferimento da aeroporto a Sharm
- zefiro