Vandaag de dag, persoonlijk identificeerbare informatie (PII) is overal. PII bevindt zich in e-mails, late berichten, video's, pdf's, enzovoort. Het verwijst naar alle gegevens of informatie die kunnen worden gebruikt om een specifiek individu te identificeren. PII is gevoelig van aard en omvat verschillende soorten persoonlijke gegevens, zoals naam, contactgegevens, identificatienummers, financiële informatie, medische informatie, biometrische gegevens, geboortedatum, enzovoort.
Het vinden en redigeren van PII is essentieel voor het waarborgen van de privacy, het waarborgen van gegevensbeveiliging, het naleven van wet- en regelgeving en het behouden van vertrouwen bij klanten en belanghebbenden. Het is een cruciaal onderdeel van modern databeheer en cyberbeveiligingspraktijken. Maar het vinden van PII in het moeras van elektronische gegevens kan een uitdaging vormen voor een organisatie. Deze uitdagingen ontstaan als gevolg van de enorme hoeveelheid en verscheidenheid aan gegevens, gegevensfragmentatie, encryptie, het delen van gegevens, dynamische inhoud, valse positieven en negatieven, contextueel begrip, juridische complexiteit, beperkte middelen, evoluerende gegevens, door gebruikers gegenereerde inhoud en adaptieve bedreigingen. Het niet nauwkeurig detecteren en redigeren van PII kan echter ernstige gevolgen hebben voor organisaties. De gevolgen kunnen juridische sancties, rechtszaken, reputatieschade, kosten voor datalekken, onderzoeken naar regelgeving, verstoring van de bedrijfsvoering, erosie van vertrouwen en sancties omvatten.
In het juridische systeem is ontdekking het juridische proces dat het recht regelt om niet-bevoorrechte zaken te verkrijgen en te produceren die relevant zijn voor de claims of verdedigingen van een partij in rechtszaken. Elektronische ontdekking, ook bekend als eDiscovery, is het elektronische aspect van het identificeren, verzamelen en produceren van elektronisch opgeslagen informatie (ESI) als reactie op een verzoek om productie in een rechtszaak of onderzoek. In het juridische domein is het vaak nodig om ESI te identificeren, verzamelen en produceren tijdens een rechtszaak of onderzoek. Als organisaties te maken hebben met eDiscovery voor rechtszaken over dagvaardingsreacties, maken ze zich waarschijnlijk zorgen over het per ongeluk delen van PII. Veel organisaties, waaronder overheidsinstanties, schooldistricten en juridische professionals, worden geconfronteerd met de uitdaging om PII nauwkeurig op schaal te detecteren en te redigeren. Vooral als ze deel uitmaken van een overheidsgroep, is het redigeren van PII via de Freedom of Information Act en de Digital Services Act van cruciaal belang voor het beschermen van de individuele privacy, het waarborgen van de naleving van gegevensbeschermingswetten, het voorkomen van identiteitsdiefstal en het behouden van vertrouwen en transparantie in de overheid en de digitale wereld. Diensten. Het zorgt voor een evenwicht tussen transparantie en privacy en beperkt tegelijkertijd de juridische en veiligheidsrisico's.
Organisaties kunnen naar PII zoeken met behulp van methoden zoals zoeken op trefwoorden, patroonmatching, tools voor het voorkomen van gegevensverlies, machine learning (ML), metadata-analyse, software voor gegevensclassificatie, optische tekenherkenning (OCR), documentvingerafdrukken en encryptie.
Nu onderdeel van het AI-aangedreven eDiscovery-platform van Reveal, Logistiek is een selfservice-oplossing waarmee juridische professionals elektronische documenten kunnen verwerken, beoordelen, taggen en produceren als onderdeel van een rechtszaak of onderzoek. Dit unieke aanbod helpt advocaten waardevolle informatie te ontdekken die verband houdt met de onderhavige zaak, terwijl de kosten worden verlaagd, oplossingen worden versneld en risico's worden beperkt.
In dit bericht laten Reveal-experts zien hoe ze dit gebruikten Amazon begrijpt het in hun documentverwerkingspijplijn om individuele stukjes PII te detecteren en te redigeren. Amazon Comprehend is een volledig beheerde en continu getrainde dienst voor natuurlijke taalverwerking (NLP) die inzicht kan verkrijgen over de inhoud van een document of tekst. U kunt de mogelijkheden van Amazon Comprehend ML gebruiken om PII in e-mails van klanten, ondersteuningstickets, productrecensies, sociale media en meer te detecteren en te redigeren.
Overzicht van de oplossing
Het overkoepelende doel van het technische team is het detecteren en redigeren van PII uit miljoenen juridische documenten voor hun klanten. Met behulp van de Logikcull-oplossing van Reveal implementeerde het technische team twee processen, namelijk first-pass PII-detectie en second-pass PII-detectie en redactie. Deze tweegangenoplossing werd mogelijk gemaakt door gebruik te maken van de Bevat PiiEntities en DetectPiiEntiteiten API's.
First pass PII-detectie
Het doel van first-pass PII-detectie is het vinden van de documenten die mogelijk PII bevatten.
- Gebruikers uploaden de bestanden waarop ze PII-detectie en redactie willen uitvoeren via de openbare website van Logikcull naar een projectmap. Deze bestanden kunnen de vorm hebben van kantoordocumenten, pdf-bestanden, e-mails of een zip-bestand met alle ondersteunde bestandstypen.
- Logikcull slaat deze projectmappen veilig op in een Eenvoudige opslagservice van Amazon (Amazon S3) emmer. De bestanden passeren vervolgens de massaal parallelle verwerkingspijplijn van Logikcull waarop wordt gehost Amazon Elastic Compute Cloud (Amazon EC2), dat de bestanden verwerkt, de metagegevens extraheert en artefacten in tekstformaat genereert voor gegevensbeoordeling. De verwerkingspijplijn van Logikcull ondersteunt tekstextractie voor een grote verscheidenheid aan formulieren en bestanden, waaronder audio- en videobestanden.
- Nadat de bestanden beschikbaar zijn in tekstformaat, geeft Logikcull de invoertekst samen met het taalmodel, dat Engels is, door via Amazon Comprehend door de Bevat PiiEntities API-oproep. De verwerkingspijplijnservers die op Amazon EC2 worden gehost, maken Amazon Comprehend
ContainsPiiEntities
API-aanroep door de aanvraagparameters door te geven als tekst- en taalcode. DeContainsPiiEntities
API-aanroep analyseert invoertekst op de aanwezigheid van PII en retourneert de labels van geïdentificeerde PII-entiteitstypen, zoals naam, adres, bankrekeningnummer of telefoonnummer. Het API-antwoord bevat ook een betrouwbaarheidsscore die het vertrouwensniveau aangeeft dat Amazon Comprehend heeft toegekend aan de detectienauwkeurigheid. De betrouwbaarheidsscore heeft een waarde tussen 0 en 1, waarbij 1 staat voor 100 procent vertrouwen. Logikcull gebruikt deze betrouwbaarheidsscore om de tag PII gedetecteerd aan de documenten toe te wijzen. Logikcull wijst deze tag alleen toe aan documenten die een betrouwbaarheidsscore van meer dan 0.75 hebben. - Met PII gedetecteerde getagde documenten worden ingevoerd in het zoekindexcluster van Logikcull, zodat gebruikers snel documenten kunnen identificeren die PII-entiteiten bevatten.
Second-pass PII-detectie en redactie
Het first-pass PII-detectieproces beperkt de reikwijdte van de dataset door te identificeren welke documenten PII-informatie bevatten. Dit versnelt het PII-detectieproces en verlaagt ook de totale kosten. Het doel van de PII-detectie bij de tweede doorgang is om de individuele exemplaren van PII te identificeren en deze te redigeren uit de getagde documenten in de eerste doorgang.
- Gebruikers zoeken naar documenten via de website van Logikcull die PII bevatten met behulp van de geavanceerde zoekfilterfunctie van Logikcull.
- Het verzoek wordt afgehandeld door de applicatieservers van Logikcull die worden gehost op Amazon EC2 en de servers communiceren met het zoekindexcluster om de documenten te vinden.
- De Logikcull-applicatieservers kunnen de individuele exemplaren van PII identificeren door de DetectPiiEntiteiten API-oproep. De servers voeren de API-aanroep uit door de tekst en taal van invoerdocumenten door te geven. De
DetectPiiEntities
API-actie inspecteert de invoertekst op entiteiten die PII bevatten. Voor elke entiteit geeft het antwoord het entiteitstype, waar de entiteitstekst begint en eindigt, en het niveau van vertrouwen dat Amazon Comprehend heeft bij de detectie ervan. - De gebruikers selecteren vervolgens de specifieke entiteiten die ze willen redigeren met behulp van de webinterface van Logikcull. De applicatieserver stuurt deze verzoeken naar de verwerkingspijplijn van Logikcull. Het volgende is een screenshot van een PDF die is geüpload naar de toepassing van Logikcull. Uit de onderstaande schermafbeelding kunt u zien dat verschillende PII-entiteiten, zoals naam, adres, telefoonnummer, e-mailadres, enzovoort, zijn gemarkeerd.
- De PII-redactie wordt veilig toegepast binnen de verwerkingspijplijn van Logikcull met behulp van aangepaste bedrijfslogica. Uit de onderstaande schermafbeelding kunt u zien dat gebruikers specifieke PII-entiteitstypen kunnen selecteren of alle PII-entiteitstypen die ze willen redigeren en vervolgens met één klik op een enkele knop alle PII-informatie kunnen redigeren.
Resultaten
Logikcull, een Reveal-technologie, verwerkt momenteel meer dan 20 miljoen documenten per week en kon de reikwijdte van de detectie beperken met behulp van de ContainsPiiEntities
API en individuele exemplaren van PII-entiteiten aan hun klanten weergeven met behulp van de DetectPiiEntities
API.
“Met Amazon Comprehend heeft Logikcull snel krachtige NLP-mogelijkheden kunnen inzetten in een fractie van de tijd die een op maat gemaakte oplossing nodig zou hebben gehad.”
– Steve Newhouse, VP Product voor Logikcull.
Conclusie
Amazon begrijpt het maakt het mogelijk dat de Logikcull-technologie van Reveal PII-detectie op grote schaal uitvoert tegen relatief lage kosten met behulp van Amazon Comprehend. De ContainsPiiEntities
API wordt gebruikt om een eerste scan van miljoenen documenten uit te voeren. De DetectPiiEntities
API wordt gebruikt om een gedetailleerde analyse van duizenden documenten uit te voeren en individuele PII-stukken in hun documenten te identificeren.
Bekijk alle Amazon Comprehend-functies. Probeer de functies eens uit en stuur ons feedback via de AWS-forum voor Amazon Comprehend of via uw gebruikelijke AWS-ondersteuningscontacten.
Over de auteurs
Aman Tiwari is een General Solutions Architect die werkt voor Worldwide Commercial Sales bij AWS. Hij werkt met klanten in het Digital Native Business-segment en helpt hen bij het ontwerpen van innovatieve, veerkrachtige en kosteneffectieve oplossingen met behulp van AWS-services. Hij heeft een masterdiploma in telecommunicatienetwerken behaald aan de Northeastern University. Buiten zijn werk speelt hij graag tennis en leest hij graag boeken.
Jeff Newburn is een Senior Software Engineering Manager die leiding geeft aan het Data Engineering-team bij Logikcull – A Reveal Technology. Hij houdt toezicht op de data-initiatieven van het bedrijf, waaronder datawarehouses, visualisaties, analyses en machine learning. Met ervaring op het gebied van ontwikkeling en beheer op gebieden van het delen van ritten tot datasystemen, leidt hij graag teams van briljante ingenieurs tot opwindende producten.
Søren Blond Daugaard is een Staff Engineer in het Data Engineering-team van Logikcull – A Reveal Technology. Hij implementeert zeer schaalbare AI- en ML-oplossingen in het Logikcull-product, waardoor onze klanten hun werk efficiënter en met hogere precisie kunnen doen. Zijn expertise omvat datapijplijnen, webgebaseerde systemen en machine learning-systemen.
Kevin Lufkin is Senior Software Engineer in het Search Engineering-team van Logikcull – A Reveal Technology, waar hij zich richt op het ontwikkelen van klantgerichte en zoekgerelateerde functies. Zijn uitgebreide expertise op het gebied van UI/UX wordt aangevuld door een achtergrond in full-stack webontwikkeling, met een sterke focus op het tot leven brengen van productvisies.
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
- PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
- PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
- Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
- Bron: https://aws.amazon.com/blogs/machine-learning/how-reveals-logikcull-used-amazon-comprehend-to-detect-and-redact-pii-from-legal-documents-at-scale/
- : heeft
- :is
- :waar
- $UP
- 1
- 10
- 100
- 11
- 14
- 15%
- 150
- 20
- 7
- 75
- a
- in staat
- Over
- Account
- nauwkeurigheid
- nauwkeurig
- Handelen
- Actie
- adaptieve
- adres
- vergevorderd
- agentschappen
- AI
- AI-powered
- Alles
- toestaat
- langs
- ook
- Amazone
- Amazon begrijpt het
- Amazon EC2
- Amazon Web Services
- onder
- an
- analyse
- analytics
- analyseert
- en
- elke
- api
- APIs
- Aanvraag
- toepassingen
- toegepast
- ZIJN
- gebieden
- ontstaan
- AS
- verschijning
- toegewezen
- At
- audio
- Beschikbaar
- AWS
- achtergrond
- Balance
- Bank
- bankrekening
- BE
- geweest
- onder
- tussen
- biometrische
- geboorte
- Boeken
- overtreding
- briljant
- Bringing
- bedrijfsdeskundigen
- maar
- by
- Bellen
- CAN
- mogelijkheden
- uitdagen
- uitdagingen
- karakter
- tekenherkenning
- vorderingen
- classificatie
- Klik
- Cloud
- TROS
- code
- verzamelen
- Het verzamelen van
- commercieel
- Bedrijf
- complexiteit
- nakoming
- bestanddeel
- begrijpen
- Berekenen
- betrokken
- vertrouwen
- Gevolgen
- beperkingen
- contact
- contacten
- bevatten
- bevat
- content
- contextual
- doorlopend
- Kosten
- kostenefficient
- Kosten
- kritisch
- cruciaal
- Op dit moment
- gewoonte
- Custom-built
- klant
- Klanten
- Cybersecurity
- schade
- gegevens
- datalek
- Data Loss
- gegevensbeheer
- gegevensbescherming
- gegevensbeveiliging
- het delen van gegevens
- Datum
- omgang
- Mate
- implementeren
- Design
- gedetailleerd
- opsporen
- gedetecteerd
- Opsporing
- het ontwikkelen van
- Ontwikkeling
- anders
- digitaal
- digitale diensten
- Onthul Nu
- ontdekking
- Display
- Ontwrichting
- do
- document
- documenten
- domein
- beneden
- twee
- gedurende
- dynamisch
- elk
- efficiënt
- beide
- elektronisch
- elektronisch
- e-mails
- waardoor
- omvatten
- encryptie
- eindigt
- ingenieur
- Engineering
- Ingenieurs
- Engels
- zorgen
- entiteiten
- entiteit
- vooral
- essentieel
- overal
- evoluerende
- opwindend
- ervaring
- expertise
- deskundigen
- uitgebreid
- extract
- extractie
- extracten
- Gezicht
- naar
- Storing
- vals
- Kenmerk
- Voordelen
- Fed
- feedback
- Dien in
- Bestanden
- filters
- financieel
- financiële informatie
- VIND DE PLEK DIE PERFECT VOOR JOU IS
- het vinden van
- Fingerprinting
- Voornaam*
- Focus
- richt
- volgend
- volgt
- Voor
- formulier
- formaat
- formulieren
- fractie
- fragmentatie
- Vrijheid
- oppompen van
- geheel
- Algemeen
- genereert
- Geven
- doel
- regerend
- Overheid
- overheidsinstellingen
- Groep
- hand
- Hebben
- he
- helpt
- hoger
- Gemarkeerd
- zeer
- zijn
- houdt
- gehost
- Hoe
- Echter
- HTML
- HTTPS
- Identificatie
- geïdentificeerd
- identificeren
- het identificeren van
- Identiteit
- if
- geïmplementeerd
- gereedschap
- in
- omvat
- Inclusief
- index
- geeft aan
- individueel
- informatie
- eerste
- initiatieven
- innovatieve
- invoer
- binnen
- inzicht
- Interface
- in
- onderzoek
- IT
- HAAR
- jpg
- bekend
- labels
- taal
- Groot
- Wetten
- Wet en regelgeving
- proces
- rechtszaken
- leiden
- leidend
- leren
- Juridisch
- Niveau
- Life
- als
- Procesvoering
- logica
- Kijk
- uit
- Laag
- machine
- machine learning
- gemaakt
- Het handhaven
- maken
- maken
- beheerd
- management
- manager
- veel
- massief
- master's
- matching
- Materie
- Media
- medisch
- berichten
- Metadata
- methoden
- macht
- miljoen
- miljoenen
- verzachtende
- risico's beperken
- ML
- model
- Modern
- meer
- naam
- namelijk
- smal
- inheemse
- Naturel
- Natural Language Processing
- NATUUR
- negatieven
- netwerken
- nlp
- Northeastern University
- aantal
- nummers
- verplichting
- verkrijgen
- OCR
- of
- het aanbieden van
- Kantoor
- vaak
- on
- Slechts
- operationele
- optische tekenherkenning
- or
- organisatie
- organisaties
- onze
- buiten
- over
- totaal
- overkoepelende
- Parallel
- parameters
- deel
- passeren
- passes
- Voorbijgaand
- Patronen
- procent
- Uitvoeren
- persoonlijk
- persoonlijke gegevens
- phone
- stukken
- pijpleiding
- platform
- Plato
- Plato gegevensintelligentie
- PlatoData
- spelen
- mogelijk
- Post
- krachtige
- praktijken
- precisie
- aanwezigheid
- presenteren
- het voorkomen van
- het voorkomen
- privacy
- waarschijnlijk
- processen
- verwerking
- produceren
- producerende
- Product
- Product-reviews
- productie
- Producten
- professionals
- project
- beschermen
- bescherming
- biedt
- publiek
- snel
- snel
- lezing
- erkenning
- vermindert
- vermindering
- verwijst
- reglement
- regelgevers
- verwant
- relatief
- relevante
- reputatie
- te vragen
- verzoeken
- nodig
- veerkrachtig
- hulpbron
- antwoord
- reacties
- Retourneren
- onthullen
- beoordelen
- Recensies
- Rijden
- rechts
- risico's
- lopen
- vrijwaring
- veilig
- verkoop
- sancties
- schaalbare
- Scale
- aftasten
- School
- omvang
- partituur
- Ontdek
- zoekopdrachten
- Tweede
- vast
- veiligheid
- veiligheidsrisico's
- zien
- segment
- Zelfbediening
- sturen
- verzendt
- senior
- gevoelig
- server
- Servers
- service
- Diensten
- streng
- delen
- showcase
- Eenvoudig
- single
- speling
- So
- Social
- social media
- Software
- Software Engineer
- software engineering
- oplossing
- Oplossingen
- overspannen
- overspanningen
- specifiek
- snelheden
- Medewerkers
- stakeholders
- Steve
- mediaopslag
- opgeslagen
- winkels
- Stakingen
- sterke
- Dagvaarden
- dergelijk
- ondersteuning
- ondersteunde
- steunen
- system
- Systems
- TAG
- team
- teams
- Technologie
- telecommunicatie
- tekst
- dat
- De
- diefstal
- hun
- Ze
- harte
- Deze
- ze
- dit
- duizenden kosten
- bedreigingen
- Door
- tickets
- niet de tijd of
- naar
- tools
- getraind
- Transparantie
- Trust
- proberen
- twee
- type dan:
- types
- begrip
- unieke
- universiteit-
- geüpload
- us
- .
- gebruikt
- gebruikers
- toepassingen
- gebruik
- gebruikelijk
- waardevol
- waarde
- variëteit
- divers
- groot
- Video
- Video's
- visies
- volume
- vp
- willen
- was
- web
- Webontwikkeling
- webservices
- Web-based
- Website
- week
- welke
- en
- breed
- Met
- Mijn werk
- werkzaam
- Bedrijven
- wereldwijd
- zou
- You
- Your
- zephyrnet
- Postcode