Oggi, informazioni personali identificabili (PII) è ovunque. Le informazioni personali si trovano nelle e-mail, nei messaggi lenti, nei video, nei PDF e così via. Si riferisce a qualsiasi dato o informazione che può essere utilizzata per identificare un individuo specifico. Le PII sono di natura sensibile e includono vari tipi di dati personali, come nome, informazioni di contatto, numeri di identificazione, informazioni finanziarie, informazioni mediche, dati biometrici, data di nascita e così via.
Trovare e oscurare le PII è essenziale per salvaguardare la privacy, garantire la sicurezza dei dati, rispettare leggi e regolamenti e mantenere la fiducia con clienti e parti interessate. È una componente fondamentale delle moderne pratiche di gestione dei dati e di sicurezza informatica. Ma trovare informazioni personali nel pantano di dati elettronici può rappresentare una sfida per un’organizzazione. Queste sfide sorgono a causa dell’enorme volume e varietà di dati, frammentazione dei dati, crittografia, condivisione dei dati, contenuti dinamici, falsi positivi e negativi, comprensione del contesto, complessità legali, vincoli di risorse, dati in evoluzione, contenuti generati dagli utenti e minacce adattive. Tuttavia, l’incapacità di rilevare e oscurare accuratamente le informazioni personali può portare a gravi conseguenze per le organizzazioni. Le conseguenze potrebbero comprendere sanzioni legali, azioni legali, danni alla reputazione, costi di violazione dei dati, indagini normative, interruzioni operative, erosione della fiducia e sanzioni.
Nell'ordinamento giuridico, la discovery è il procedimento legale che disciplina il diritto di ottenere e l'obbligo di produrre argomenti non privilegiati rilevanti per le pretese o le difese di qualsiasi parte in un contenzioso. La scoperta elettronica, nota anche come eDiscovery, è l'aspetto elettronico dell'identificazione, della raccolta e della produzione di informazioni archiviate elettronicamente (ESI) in risposta a una richiesta di produzione in una causa o un'indagine. In ambito legale, è spesso necessario identificare, raccogliere e produrre ESI durante una causa o un'indagine. Se le organizzazioni hanno a che fare con eDiscovery per controversie sulle risposte a mandati di comparizione, probabilmente sono preoccupate di condividere accidentalmente le informazioni personali. Molte organizzazioni, tra cui agenzie governative, distretti scolastici e professionisti legali, affrontano la sfida di rilevare e oscurare le informazioni personali in modo accurato e su larga scala. Soprattutto se fanno parte di un gruppo governativo, oscurare le PII attraverso il Freedom of Information Act e il Digital Services Act è fondamentale per proteggere la privacy individuale, garantire il rispetto delle leggi sulla protezione dei dati, prevenire il furto di identità e mantenere la fiducia e la trasparenza nel governo e nel digitale. Servizi. Trova un equilibrio tra trasparenza e privacy, mitigando al contempo i rischi legali e di sicurezza.
Le organizzazioni possono cercare informazioni personali utilizzando metodi quali ricerca di parole chiave, corrispondenza di modelli, strumenti di prevenzione della perdita di dati, apprendimento automatico (ML), analisi di metadati, software di classificazione dei dati, riconoscimento ottico dei caratteri (OCR), rilevamento delle impronte digitali dei documenti e crittografia.
Ora parte della piattaforma di eDiscovery basata sull'intelligenza artificiale di Reveal, Logiccull è una soluzione self-service che consente ai professionisti legali di elaborare, rivedere, etichettare e produrre documenti elettronici come parte di una causa o di un'indagine. Questa offerta unica aiuta gli avvocati a scoprire informazioni preziose relative alla questione in questione riducendo i costi, accelerando le risoluzioni e mitigando i rischi.
In questo post, gli esperti di Reveal mostrano come hanno utilizzato Amazon Comprehend nella pipeline di elaborazione dei documenti per rilevare e oscurare singole parti di PII. Amazon Comprehend è un servizio di elaborazione del linguaggio naturale (NLP) completamente gestito e con formazione continua in grado di estrarre informazioni dettagliate sul contenuto di un documento o testo. Puoi utilizzare le funzionalità di Amazon Comprehend ML per rilevare e oscurare le informazioni personali nelle e-mail dei clienti, nei ticket di supporto, nelle recensioni dei prodotti, nei social media e altro ancora.
Panoramica della soluzione
L'obiettivo generale del team tecnico è rilevare e oscurare le informazioni personali da milioni di documenti legali per i propri clienti. Utilizzando la soluzione Logikcull di Reveal, il team di ingegneri ha implementato due processi, ovvero il rilevamento delle PII di primo passaggio e il rilevamento e la redazione delle PII di secondo passaggio. Questa soluzione a due passaggi è stata resa possibile utilizzando il file ContienePiiEntità ed Rileva EntitàPii API.
Rilevamento PII di primo passaggio
L'obiettivo del rilevamento PII di primo passaggio è trovare i documenti che potrebbero contenere PII.
- Gli utenti caricano i file su cui desiderano eseguire il rilevamento e la redazione delle PII tramite il sito Web pubblico di Logikcull in una cartella di progetto. Questi file possono essere sotto forma di documenti Office, file .pdf, e-mail o file .zip contenente tutti i tipi di file supportati.
- Logikcull memorizza queste cartelle di progetto in modo sicuro all'interno di un file Servizio di archiviazione semplice Amazon (Amazon S3) secchio. I file passano quindi attraverso la pipeline di elaborazione massicciamente parallela di Logikcull ospitata su Amazon Elastic Compute Cloud (Amazon EC2), che elabora i file, estrae i metadati e genera artefatti in formato testo per la revisione dei dati. La pipeline di elaborazione di Logikcull supporta l'estrazione di testo per un'ampia varietà di moduli e file, inclusi file audio e video.
- Una volta che i file sono disponibili in formato testo, Logikcull passa il testo di input insieme al modello linguistico, ovvero l'inglese, tramite Amazon Comprehend effettuando il ContienePiiEntità Chiamata API. I server della pipeline di elaborazione ospitati su Amazon EC2 costituiscono Amazon Comprehend
ContainsPiiEntities
Chiamata API passando i parametri della richiesta come testo e codice lingua. ILContainsPiiEntities
La chiamata API analizza il testo di input per la presenza di PII e restituisce le etichette dei tipi di entità PII identificati, come nome, indirizzo, numero di conto bancario o numero di telefono. La risposta API include anche un punteggio di confidenza che indica il livello di confidenza che Amazon Comprehend ha assegnato alla precisione del rilevamento. Il punteggio di confidenza ha un valore compreso tra 0 e 1, dove 1 indica una confidenza del 100%. Logikcull utilizza questo punteggio di confidenza per assegnare il tag PII rilevato ai documenti. Logikcull assegna questo tag solo ai documenti che hanno un punteggio di confidenza superiore a 0.75. - I documenti con tag PII rilevati vengono inseriti nel cluster di indici di ricerca di Logikcull affinché gli utenti possano identificare rapidamente i documenti che contengono entità PII.
Rilevamento e redazione delle PII di secondo passaggio
Il processo di rilevamento PII di primo passaggio restringe l'ambito del set di dati identificando quali documenti contengono informazioni PII. Ciò accelera il processo di rilevamento delle PII e riduce anche il costo complessivo. L'obiettivo del rilevamento PII del secondo passaggio è identificare le singole istanze di PII e oscurarle dai documenti contrassegnati nel primo passaggio.
- Gli utenti cercano documenti tramite il sito Web di Logikcull che contiene informazioni personali utilizzando la funzionalità di filtri di ricerca avanzata di Logikcull.
- La richiesta viene gestita dai server delle applicazioni Logikcull ospitati su Amazon EC2 e i server comunicano con il cluster dell'indice di ricerca per trovare i documenti.
- I server delle applicazioni Logikcull sono in grado di identificare le singole istanze delle PII effettuando il file Rileva EntitàPii Chiamata API. I server effettuano la chiamata API passando il testo e la lingua dei documenti di input. IL
DetectPiiEntities
L'azione API controlla il testo di input per individuare entità che contengono PII. Per ciascuna entità, la risposta fornisce il tipo di entità, dove inizia e finisce il testo dell'entità e il livello di fiducia che Amazon Comprehend ha nel suo rilevamento. - Gli utenti selezionano quindi le entità specifiche che desiderano oscurare utilizzando l'interfaccia web di Logikcull. Il server delle applicazioni invia queste richieste alla pipeline di elaborazione di Logikcull. Quello che segue è uno screenshot di un PDF caricato nell'applicazione Logikcull. Dallo screenshot seguente, puoi vedere che sono state evidenziate diverse entità PII come nome, indirizzo, numero di telefono, indirizzo e-mail e così via.
- La redazione delle PII viene applicata in modo sicuro all'interno della pipeline di elaborazione di Logikcull utilizzando la logica aziendale personalizzata. Dallo screenshot che segue, puoi vedere che gli utenti possono selezionare tipi di entità PII specifici o tutti i tipi di entità PII che desiderano oscurare e quindi, con un clic di un singolo pulsante, oscurare tutte le informazioni PII.
Risultati
Logikcull, una tecnologia Reveal, elabora attualmente oltre 20 milioni di documenti ogni settimana ed è stata in grado di restringere l'ambito di rilevamento utilizzando il ContainsPiiEntities
API e visualizzare singole istanze di entità PII ai propri clienti utilizzando l' DetectPiiEntities
API.
"Con Amazon Comprehend, Logikcull è stata in grado di implementare rapidamente potenti funzionalità NLP in una frazione del tempo che una soluzione personalizzata avrebbe richiesto."
– Steve Newhouse, vicepresidente del prodotto per Logikcull.
Conclusione
Amazon Comprehend consente alla tecnologia Logikcull di Reveal di eseguire il rilevamento delle PII su larga scala a un costo relativamente basso utilizzando Amazon Comprehend. IL ContainsPiiEntities
L'API viene utilizzata per eseguire una scansione iniziale di milioni di documenti. IL DetectPiiEntities
L'API viene utilizzata per eseguire un'analisi dettagliata di migliaia di documenti e identificare singole parti di PII nei loro documenti.
Dai un'occhiata a tutti i file Funzionalità di comprensione di Amazon. Prova le funzionalità e inviaci feedback tramite il Forum AWS per Amazon Comprehend o tramite i soliti contatti del supporto AWS.
Informazioni sugli autori
Aman Tiwari è un General Solutions Architect che lavora con le vendite commerciali mondiali presso AWS. Lavora con i clienti nel segmento Digital Native Business e li aiuta a progettare soluzioni innovative, resilienti ed economicamente vantaggiose utilizzando i servizi AWS. Ha conseguito un master in Reti di telecomunicazioni presso la Northeastern University. Fuori dal lavoro gli piace giocare a tennis sull'erba e leggere libri.
Jeff Newburn è un Senior Software Engineering Manager alla guida del team di Data Engineering presso Logikcull – A Reveal Technology. Supervisiona le iniziative relative ai dati dell'azienda, inclusi data warehouse, visualizzazioni, analisi e apprendimento automatico. Con esperienza nello sviluppo e nella gestione in aree che vanno dal ride sharing ai sistemi dati, gli piace guidare team di brillanti ingegneri verso prodotti entusiasmanti.
Søren Blond Daugaard è un ingegnere del personale nel team di ingegneria dei dati presso Logikcull – A Reveal Technology. Implementa soluzioni AI e ML altamente scalabili nel prodotto Logikcull, consentendo ai nostri clienti di svolgere il proprio lavoro in modo più efficiente e con maggiore precisione. La sua esperienza abbraccia pipeline di dati, sistemi basati sul Web e sistemi di apprendimento automatico.
Kevin Lufkin è un ingegnere software senior nel team di ingegneria della ricerca presso Logikcull – A Reveal Technology, dove si concentra sullo sviluppo di funzionalità rivolte ai clienti e relative alla ricerca. La sua vasta esperienza in UI/UX è completata da un background nello sviluppo web full-stack, con una forte attenzione nel dare vita alle visioni dei prodotti.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
- PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
- PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
- Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/how-reveals-logikcull-used-amazon-comprehend-to-detect-and-redact-pii-from-legal-documents-at-scale/
- :ha
- :È
- :Dove
- $ SU
- 1
- 10
- 100
- 11
- 14
- 15%
- 150
- 20
- 7
- 75
- a
- capace
- WRI
- Il mio account
- precisione
- con precisione
- Legge
- Action
- adattabile
- indirizzo
- Avanzate
- agenzie
- AI
- AI-alimentato
- Tutti
- consente
- lungo
- anche
- Amazon
- Amazon Comprehend
- Amazon EC2
- Amazon Web Services
- tra
- an
- .
- analitica
- analisi
- ed
- in qualsiasi
- api
- API
- Applicazioni
- applicazioni
- applicato
- SONO
- aree
- sorgere
- AS
- aspetto
- addetto
- At
- Audio
- disponibile
- AWS
- sfondo
- Equilibrio
- Banca
- conto bancario
- BE
- stato
- sotto
- fra
- biometrico
- nascita
- Libri
- violazione
- brillante
- Portare
- affari
- ma
- pulsante
- by
- chiamata
- Materiale
- funzionalità
- Challenge
- sfide
- carattere
- riconoscimento del personaggio
- classificazione
- clicca
- Cloud
- Cluster
- codice
- raccogliere
- Raccolta
- Società
- complessità
- conformità
- componente
- comprendere
- Calcolare
- interessato
- fiducia
- Conseguenze
- vincoli
- contatti
- contatti
- contenere
- contiene
- contenuto
- contestuale
- continuamente
- Costo
- costo effettivo
- Costi
- critico
- cruciale
- Attualmente
- costume
- Custom-built
- cliente
- Clienti
- Cybersecurity
- danno
- dati
- violazione di dati
- Perdita di dati
- gestione dei dati
- protezione dati
- la sicurezza dei dati
- condivisione dei dati
- Data
- trattare
- Laurea
- schierare
- Design
- dettagliati
- individuare
- rilevato
- rivelazione
- in via di sviluppo
- Mercato
- diverso
- digitale
- servizi digitali
- scopri
- scoperta
- Dsiplay
- Rottura
- do
- documento
- documenti
- dominio
- giù
- dovuto
- durante
- dinamico
- ogni
- in modo efficiente
- o
- Elettronico
- elettronicamente
- consentendo
- circondare
- crittografia
- finisce
- ingegnere
- Ingegneria
- Ingegneri
- Inglese
- assicurando
- entità
- entità
- particolarmente
- essential
- ovunque
- evoluzione
- coinvolgenti
- esperienza
- competenza
- esperti
- estensivo
- estratto
- estrazione
- estratti
- Faccia
- di fronte
- Fallimento
- falso
- caratteristica
- Caratteristiche
- Federale
- feedback
- Compila il
- File
- filtri
- finanziario
- informazioni finanziarie
- Trovate
- ricerca
- Fingerprinting
- Nome
- Focus
- si concentra
- i seguenti
- segue
- Nel
- modulo
- formato
- forme
- frazione
- frammentazione
- La libertà
- da
- completamente
- Generale
- genera
- Dare
- scopo
- governo
- Enti Pubblici
- agenzie governative
- Gruppo
- cura
- Avere
- he
- aiuta
- superiore
- Evidenziato
- vivamente
- il suo
- detiene
- ospitato
- Come
- Tuttavia
- HTML
- HTTPS
- Identificazione
- identificato
- identificare
- identificazione
- Identità
- if
- implementato
- attrezzi
- in
- inclusi
- Compreso
- Index
- indica
- individuale
- informazioni
- inizialmente
- iniziative
- creativi e originali
- ingresso
- interno
- intuizione
- Interfaccia
- ai miglioramenti
- indagine
- IT
- SUO
- jpg
- conosciuto
- per il tuo brand
- Lingua
- grandi
- Legislazione
- Leggi e regolamenti
- querela
- cause
- portare
- principale
- apprendimento
- Legale
- Livello
- Vita
- piace
- Contenzioso
- logica
- Guarda
- spento
- Basso
- macchina
- machine learning
- fatto
- Mantenere
- make
- Fare
- gestito
- gestione
- direttore
- molti
- massicciamente
- master
- corrispondenza
- Importanza
- Media
- medicale
- messaggi
- Metadati
- metodi
- forza
- milione
- milioni
- attenuante
- mitigazione dei rischi
- ML
- modello
- moderno
- Scopri di più
- Nome
- cioè
- stretto
- nativo
- Naturale
- Elaborazione del linguaggio naturale
- Natura
- negativi
- reti
- nlp
- Northeastern University
- numero
- numeri
- obbligo
- ottenere
- OCR
- of
- offerta
- Office
- di frequente
- on
- esclusivamente
- operativa
- riconoscimento ottico dei caratteri
- or
- organizzazione
- organizzazioni
- nostro
- al di fuori
- ancora
- complessivo
- globale
- Parallel
- parametri
- parte
- passare
- Passi
- Di passaggio
- Cartamodello
- per cento
- Eseguire
- cronologia
- dati personali
- telefono
- pezzi
- conduttura
- piattaforma
- Platone
- Platone Data Intelligence
- PlatoneDati
- gioco
- possibile
- Post
- potente
- pratiche
- Precisione
- presenza
- presenti
- prevenzione
- Frodi
- Privacy
- probabilmente
- processi
- i processi
- lavorazione
- produrre
- produzione
- Prodotto
- Recensioni prodotto
- Produzione
- Prodotti
- Scelto dai professionisti
- progetto
- proteggere
- protezione
- fornisce
- la percezione
- rapidamente
- rapidamente
- Lettura
- riconoscimento
- riduce
- riducendo
- si riferisce
- normativa
- normativo
- relazionato
- relativamente
- pertinente
- reputazione
- richiesta
- richieste
- necessario
- elastico
- risorsa
- risposta
- risposte
- problemi
- rivelare
- recensioni
- Recensioni
- VIAGGIO
- destra
- rischi
- Correre
- salvaguardare
- tranquillamente
- vendite
- sanzioni
- scalabile
- Scala
- scansione
- di moto
- portata
- Punto
- Cerca
- Ricerche
- Secondo
- in modo sicuro
- problemi di
- rischi per la sicurezza
- vedere
- segmento
- Fai da te
- inviare
- invia
- anziano
- delicata
- server
- Server
- servizio
- Servizi
- grave
- compartecipazione
- vetrina
- Un'espansione
- singolo
- allentato
- So
- Social
- Social Media
- Software
- Software Engineer
- Ingegneria del software
- soluzione
- Soluzioni
- tensione
- campate
- specifico
- velocità
- STAFF
- stakeholder
- Steve
- conservazione
- memorizzati
- negozi
- Scioperi
- forte
- citazione
- tale
- supporto
- supportato
- supporti
- sistema
- SISTEMI DI TRATTAMENTO
- TAG
- team
- le squadre
- Tecnologia
- telecomunicazioni
- testo
- che
- Il
- furto
- loro
- Li
- poi
- Strumenti Bowman per analizzare le seguenti finiture:
- di
- questo
- migliaia
- minacce
- Attraverso
- biglietti
- tempo
- a
- strumenti
- allenato
- Trasparenza
- Affidati ad
- prova
- seconda
- Digitare
- Tipi di
- e una comprensione reciproca
- unico
- Università
- caricato
- us
- uso
- utilizzato
- utenti
- usa
- utilizzando
- solito
- Prezioso
- APPREZZIAMO
- varietà
- vario
- Fisso
- Video
- Video
- visioni
- volume
- vp
- volere
- Prima
- sito web
- Sviluppo Web
- servizi web
- Web-basata
- Sito web
- settimana
- quale
- while
- largo
- con
- Lavora
- lavoro
- lavori
- In tutto il mondo
- sarebbe
- Tu
- Trasferimento da aeroporto a Sharm
- zefiro
- Codice postale