Heute, persönlich identifizierbare Informationen (PII) ist überall. PII sind in E-Mails, Slack-Nachrichten, Videos, PDFs usw. enthalten. Damit sind alle Daten oder Informationen gemeint, die zur Identifizierung einer bestimmten Person genutzt werden können. PII sind sensibler Natur und umfassen verschiedene Arten personenbezogener Daten, wie z. B. Name, Kontaktinformationen, Identifikationsnummern, Finanzinformationen, medizinische Informationen, biometrische Daten, Geburtsdatum usw.
Das Auffinden und Bearbeiten personenbezogener Daten ist für den Schutz der Privatsphäre, die Gewährleistung der Datensicherheit, die Einhaltung von Gesetzen und Vorschriften und die Aufrechterhaltung des Vertrauens bei Kunden und Interessengruppen von entscheidender Bedeutung. Es ist ein wichtiger Bestandteil moderner Datenverwaltungs- und Cybersicherheitspraktiken. Doch das Auffinden personenbezogener Daten im Sumpf elektronischer Daten kann für ein Unternehmen eine Herausforderung darstellen. Diese Herausforderungen entstehen durch das enorme Datenvolumen und die Datenvielfalt, Datenfragmentierung, Verschlüsselung, Datenaustausch, dynamische Inhalte, falsch positive und negative Ergebnisse, Kontextverständnis, rechtliche Komplexität, Ressourcenbeschränkungen, sich entwickelnde Daten, benutzergenerierte Inhalte und adaptive Bedrohungen. Wenn personenbezogene Daten jedoch nicht genau erkannt und bearbeitet werden, kann dies schwerwiegende Folgen für Unternehmen haben. Zu den Folgen können rechtliche Strafen, Klagen, Reputationsschäden, Kosten für Datenschutzverletzungen, behördliche Untersuchungen, Betriebsunterbrechungen, Vertrauensverlust und Sanktionen gehören.
Im Rechtssystem ist die Offenlegung der rechtliche Prozess, der das Recht auf Erhalt und die Verpflichtung zur Vorlage nichtprivilegierter Sachverhalte regelt, die für die Ansprüche oder Verteidigungen einer Partei in einem Rechtsstreit relevant sind. Unter Electronic Discovery, auch bekannt als eDiscovery, versteht man den elektronischen Aspekt der Identifizierung, Sammlung und Erstellung elektronisch gespeicherter Informationen (ESI) als Reaktion auf eine Anfrage zur Herausgabe in einem Rechtsstreit oder einer Untersuchung. Im juristischen Bereich ist es häufig erforderlich, ESI während eines Rechtsstreits oder einer Untersuchung zu identifizieren, zu sammeln und vorzulegen. Wenn Unternehmen bei Rechtsstreitigkeiten zu Vorladungsantworten mit eDiscovery zu tun haben, sind sie wahrscheinlich besorgt, dass personenbezogene Daten versehentlich weitergegeben werden könnten. Viele Organisationen, darunter Regierungsbehörden, Schulbezirke und Rechtsexperten, stehen vor der Herausforderung, personenbezogene Daten in großem Maßstab genau zu erkennen und zu bereinigen. Insbesondere wenn sie Teil einer Regierungsgruppe sind, ist die Schwärzung personenbezogener Daten durch den Freedom of Information Act und den Digital Services Act von entscheidender Bedeutung, um die Privatsphäre des Einzelnen zu schützen, die Einhaltung von Datenschutzgesetzen sicherzustellen, Identitätsdiebstahl zu verhindern und das Vertrauen und die Transparenz in der Regierung und im digitalen Bereich aufrechtzuerhalten Dienstleistungen. Es stellt ein Gleichgewicht zwischen Transparenz und Datenschutz her und mindert gleichzeitig rechtliche und Sicherheitsrisiken.
Unternehmen können mithilfe von Methoden wie Stichwortsuche, Mustervergleich, Tools zur Verhinderung von Datenverlust, maschinellem Lernen (ML), Metadatenanalyse, Datenklassifizierungssoftware, optischer Zeichenerkennung (OCR), Dokument-Fingerprinting und Verschlüsselung nach PII suchen.
Jetzt Teil der KI-gestützten eDiscovery-Plattform von Reveal, Logikcull ist eine Self-Service-Lösung, die es Juristen ermöglicht, elektronische Dokumente im Rahmen eines Rechtsstreits oder einer Untersuchung zu verarbeiten, zu prüfen, zu kennzeichnen und zu erstellen. Dieses einzigartige Angebot hilft Anwälten dabei, wertvolle Informationen im Zusammenhang mit der jeweiligen Angelegenheit zu finden und gleichzeitig Kosten zu senken, Lösungen zu beschleunigen und Risiken zu mindern.
In diesem Beitrag stellen Reveal-Experten vor, wie sie es verwendet haben Amazon verstehen in ihrer Dokumentenverarbeitungspipeline, um einzelne PII-Teile zu erkennen und zu schwärzen. Amazon Comprehend ist ein vollständig verwalteter und kontinuierlich geschulter NLP-Dienst (Natural Language Processing), der Einblicke in den Inhalt eines Dokuments oder Textes gewinnen kann. Sie können die ML-Funktionen von Amazon Comprehend nutzen, um personenbezogene Daten in Kunden-E-Mails, Support-Tickets, Produktbewertungen, sozialen Medien und mehr zu erkennen und zu bereinigen.
Lösungsübersicht
Das übergeordnete Ziel des Ingenieurteams besteht darin, personenbezogene Daten aus Millionen von Rechtsdokumenten für seine Kunden zu erkennen und zu bereinigen. Mithilfe der Logikcull-Lösung von Reveal implementierte das Ingenieurteam zwei Prozesse, nämlich die PII-Erkennung im ersten Durchgang und die PII-Erkennung und -Schwärzung im zweiten Durchgang. Diese Zwei-Pass-Lösung wurde durch die Verwendung von ermöglicht Enthält PiiEntities und DetectPiiEntities APIs.
PII-Erkennung im ersten Durchgang
Das Ziel der PII-Erkennung im ersten Durchgang besteht darin, die Dokumente zu finden, die PII enthalten könnten.
- Benutzer laden die Dateien, für die sie eine PII-Erkennung und -Schwärzung durchführen möchten, über die öffentliche Website von Logikcull in einen Projektordner hoch. Diese Dateien können in Form von Office-Dokumenten, PDF-Dateien, E-Mails oder einer ZIP-Datei vorliegen, die alle unterstützten Dateitypen enthält.
- Logikcull speichert diese Projektordner sicher in einem Einfacher Amazon-Speicherdienst (Amazon S3) Eimer. Die Dateien durchlaufen dann die massiv parallele Verarbeitungspipeline von Logikcull, die auf gehostet wird Amazon Elastic Compute Cloud (Amazon EC2), das die Dateien verarbeitet, die Metadaten extrahiert und Artefakte im Textformat zur Datenüberprüfung generiert. Die Verarbeitungspipeline von Logikcull unterstützt die Textextraktion für eine Vielzahl von Formularen und Dateien, einschließlich Audio- und Videodateien.
- Nachdem die Dateien im Textformat verfügbar sind, leitet Logikcull den Eingabetext zusammen mit dem Sprachmodell, das Englisch ist, durch Amazon Comprehend weiter, indem es das erstellt Enthält PiiEntities API-Aufruf. Die auf Amazon EC2 gehosteten Verarbeitungspipeline-Server machen Amazon Comprehend
ContainsPiiEntities
API-Aufruf durch Übergabe der Anforderungsparameter als Text und Sprachcode. DerContainsPiiEntities
Der API-Aufruf analysiert den Eingabetext auf das Vorhandensein von PII und gibt die Bezeichnungen der identifizierten PII-Entitätstypen zurück, z. B. Name, Adresse, Bankkontonummer oder Telefonnummer. Die API-Antwort enthält auch einen Konfidenzwert, der den Grad der Konfidenz angibt, den Amazon Comprehend der Erkennungsgenauigkeit zugewiesen hat. Der Konfidenzwert hat einen Wert zwischen 0 und 1, wobei 1 100 Prozent Konfidenz bedeutet. Logikcull verwendet diesen Konfidenzwert, um den Dokumenten das Tag „PII erkannt“ zuzuweisen. Logikcull weist dieses Tag nur Dokumenten zu, die einen Konfidenzwert von über 0.75 haben. - Mit PII erkannte, mit Tags versehene Dokumente werden in den Suchindex-Cluster von Logikcull eingespeist, damit ihre Benutzer Dokumente, die PII-Entitäten enthalten, schnell identifizieren können.
PII-Erkennung und -Schwärzung im zweiten Durchgang
Der PII-Erkennungsprozess im ersten Durchgang schränkt den Umfang des Datensatzes ein, indem er identifiziert, welche Dokumente PII-Informationen enthalten. Dies beschleunigt den PII-Erkennungsprozess und reduziert auch die Gesamtkosten. Das Ziel der PII-Erkennung im zweiten Durchgang besteht darin, die einzelnen PII-Instanzen zu identifizieren und sie aus den getaggten Dokumenten im ersten Durchgang zu entfernen.
- Benutzer suchen über die Website von Logikcull nach Dokumenten, die PII enthalten, indem sie die erweiterte Suchfilterfunktion von Logikcull verwenden.
- Die Anfrage wird von den Anwendungsservern von Logikcull bearbeitet, die auf gehostet werden Amazon EC2 und die Server kommunizieren mit dem Suchindex-Cluster, um die Dokumente zu finden.
- Die Logikcull-Anwendungsserver sind in der Lage, die einzelnen PII-Instanzen zu identifizieren, indem sie die DetectPiiEntities API-Aufruf. Die Server führen den API-Aufruf durch, indem sie den Text und die Sprache der Eingabedokumente übergeben. Der
DetectPiiEntities
Die API-Aktion überprüft den Eingabetext auf Entitäten, die personenbezogene Daten enthalten. Für jede Entität liefert die Antwort den Entitätstyp, wo der Entitätstext beginnt und endet, sowie den Grad der Zuverlässigkeit, den Amazon Comprehend bei seiner Erkennung hat. - Anschließend wählen die Benutzer über die Weboberfläche von Logikcull die spezifischen Entitäten aus, die sie schwärzen möchten. Der Anwendungsserver sendet diese Anfragen an die Verarbeitungspipeline von Logikcull. Das Folgende ist ein Screenshot einer PDF-Datei, die in die Anwendung von Logikcull hochgeladen wurde. Auf dem folgenden Screenshot können Sie sehen, dass verschiedene PII-Entitäten wie Name, Adresse, Telefonnummer, E-Mail-Adresse usw. hervorgehoben wurden.
- Die PII-Redaktion wird mithilfe benutzerdefinierter Geschäftslogik sicher in der Verarbeitungspipeline von Logikcull angewendet. Aus dem folgenden Screenshot können Sie ersehen, dass Benutzer entweder bestimmte PII-Entitätstypen oder alle PII-Entitätstypen auswählen können, die sie schwärzen möchten, und dann mit einem Klick auf eine einzige Schaltfläche alle PII-Informationen schwärzen können.
Die Ergebnisse
Logikcull, eine Reveal-Technologie, verarbeitet derzeit über 20 Millionen Dokumente pro Woche und konnte den Erkennungsumfang mithilfe von eingrenzen ContainsPiiEntities
API und zeigen Sie ihren Kunden einzelne Instanzen von PII-Entitäten an, indem Sie die verwenden DetectPiiEntities
API.
„Mit Amazon Comprehend war Logikcull in der Lage, leistungsstarke NLP-Funktionen schnell und in einem Bruchteil der Zeit bereitzustellen, die eine maßgeschneiderte Lösung benötigt hätte.“
– Steve Newhouse, Vizepräsident für Produkt bei Logikcull.
Zusammenfassung
Amazon verstehen ermöglicht es der Logikcull-Technologie von Reveal, mithilfe von Amazon Comprehend die PII-Erkennung in großem Maßstab und zu relativ geringen Kosten durchzuführen. Der ContainsPiiEntities
Die API wird verwendet, um einen ersten Scan von Millionen von Dokumenten durchzuführen. Der DetectPiiEntities
Die API wird verwendet, um eine detaillierte Analyse von Tausenden von Dokumenten durchzuführen und einzelne PII-Teile in ihren Dokumenten zu identifizieren.
Sieh dir all die an Amazon Comprehend-Funktionen. Probieren Sie die Funktionen aus und senden Sie uns Feedback über das AWS-Forum für Amazon Comprehend oder über Ihre üblichen AWS-Support-Kontakte.
Über die Autoren
Aman Tiwari ist ein General Solutions Architect und arbeitet im weltweiten kommerziellen Vertrieb bei AWS. Er arbeitet mit Kunden im Digital Native Business-Segment zusammen und hilft ihnen bei der Entwicklung innovativer, belastbarer und kostengünstiger Lösungen mithilfe von AWS-Services. Er hat einen Master-Abschluss in Telekommunikationsnetzwerken von der Northeastern University. Außerhalb der Arbeit spielt er gerne Rasentennis und liest Bücher.
Jeff Newburn ist Senior Software Engineering Manager und leitet das Data Engineering-Team bei Logikcull – A Reveal Technology. Er überwacht die Dateninitiativen des Unternehmens, einschließlich Data Warehouses, Visualisierungen, Analysen und maschinelles Lernen. Mit Erfahrung in der Entwicklung und im Management in Bereichen von Fahrgemeinschaften bis hin zu Datensystemen hat er Freude daran, Teams aus brillanten Ingenieuren zu spannenden Produkten zu führen.
Søren Blond Daugaard ist Staff Engineer im Data Engineering-Team bei Logikcull – A Reveal Technology. Er implementiert hochskalierbare KI- und ML-Lösungen in das Logikcull-Produkt und ermöglicht unseren Kunden so, ihre Arbeit effizienter und präziser zu erledigen. Seine Expertise umfasst Datenpipelines, webbasierte Systeme und maschinelle Lernsysteme.
Kevin Lufkin ist Senior Software Engineer im Search Engineering-Team von Logikcull – A Reveal Technology, wo er sich auf die Entwicklung kundenorientierter und suchbezogener Funktionen konzentriert. Sein umfassendes Fachwissen im Bereich UI/UX wird durch einen Hintergrund in der Full-Stack-Webentwicklung ergänzt, mit einem starken Fokus darauf, Produktvisionen zum Leben zu erwecken.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
- PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
- PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
- PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/how-reveals-logikcull-used-amazon-comprehend-to-detect-and-redact-pii-from-legal-documents-at-scale/
- :hast
- :Ist
- :Wo
- $UP
- 1
- 10
- 100
- 11
- 14
- 15%
- 150
- 20
- 7
- 75
- a
- Fähig
- Über Uns
- Konto
- Genauigkeit
- genau
- Handlung
- Action
- adaptiv
- Adresse
- advanced
- Agenturen
- AI
- AI-powered
- Alle
- erlaubt
- entlang
- ebenfalls
- Amazon
- Amazon verstehen
- Amazon EC2
- Amazon Web Services
- unter
- an
- Analyse
- Analytik
- Analysen
- und
- jedem
- Bienen
- APIs
- Anwendung
- Anwendungen
- angewandt
- SIND
- Bereiche
- entstehen
- AS
- Aussehen
- zugewiesen
- At
- Audio-
- verfügbar
- AWS
- Hintergrund
- Balance
- Bank
- Bankkonto
- BE
- war
- unten
- zwischen
- biometrisch
- Geburt
- Bücher
- Verletzung
- brillant
- Bringing
- Geschäft
- aber
- Taste im nun erscheinenden Bestätigungsfenster nun wieder los.
- by
- rufen Sie uns an!
- CAN
- Fähigkeiten
- challenges
- Herausforderungen
- Charakter
- Zeichenerkennung
- aus aller Welt
- Einstufung
- klicken Sie auf
- Cloud
- Cluster
- Code
- sammeln
- Das Sammeln
- kommerziell
- Unternehmen
- Komplexität
- Compliance
- Komponente
- begreifen
- Berechnen
- betroffen
- Vertrauen
- Folgen
- Einschränkungen
- Kontakt
- Kontakte
- enthalten
- enthält
- Inhalt
- kontextuelle
- ständig
- Kosten
- kostengünstiger
- Kosten
- kritischem
- wichtig
- Zur Zeit
- Original
- Kundenspezifische
- Kunde
- Kunden
- Internet-Sicherheit
- Organschäden
- technische Daten
- Datenmissbrauch
- Data Loss
- Datenmanagement
- Datenschutz
- Datensicherheit
- Datenübertragung
- Datum
- Behandlung
- Grad
- einsetzen
- Design
- detailliert
- entdecken
- erkannt
- Entdeckung
- Entwicklung
- Entwicklung
- anders
- digital
- digital services
- entdeckt,
- Entdeckung
- Display
- Störung
- do
- Dokument
- Unterlagen
- Domain
- nach unten
- zwei
- im
- dynamisch
- jeder
- effizient
- entweder
- elektronisch
- elektronisch
- E-Mails
- ermöglichen
- umfassen
- Verschlüsselung
- endet
- Ingenieur
- Entwicklung
- Ingenieure
- Englisch
- Gewährleistung
- Entitäten
- Einheit
- insbesondere
- essential
- überall
- sich entwickelnden
- unterhaltsame Programmpunkte
- ERFAHRUNGEN
- Expertise
- Experten
- umfangreiche
- Extrakt
- Extraktion
- KONZENTRAT
- Gesicht
- zugewandt
- Scheitern
- falsch
- Merkmal
- Eigenschaften
- Fed
- Feedback
- Reichen Sie das
- Mappen
- Filter
- Revolution
- Finanzinformation
- Finden Sie
- Suche nach
- Fingerprinting
- Vorname
- Setzen Sie mit Achtsamkeit
- konzentriert
- Folgende
- folgt
- Aussichten für
- unten stehende Formular
- Format
- Formen
- Fraktion
- Zersplitterung
- Freiheit
- für
- voll
- Allgemeines
- erzeugt
- ABSICHT
- Kundenziele
- regieren
- der Regierung
- Regierungsbehörden
- Gruppe an
- Pflege
- Haben
- he
- hilft
- höher
- Besondere
- hoch
- seine
- hält
- gehostet
- Ultraschall
- aber
- HTML
- HTTPS
- Login
- identifiziert
- identifizieren
- Identifizierung
- Identitätsschutz
- if
- umgesetzt
- implementiert
- in
- Dazu gehören
- Einschließlich
- Index
- zeigt
- Krankengymnastik
- Information
- Anfangs-
- Initiativen
- innovativ
- Varianten des Eingangssignals:
- innerhalb
- Einblick
- Schnittstelle
- in
- Untersuchung
- IT
- SEINE
- jpg
- bekannt
- Etiketten
- Sprache
- grosse
- Gesetze
- Gesetze und Richtlinien
- Klage
- Klagen
- führen
- führenden
- lernen
- Rechtlich
- Niveau
- Lebensdauer
- Gefällt mir
- Rechtsstreit
- Logik
- aussehen
- Verlust
- Sneaker
- Maschine
- Maschinelles Lernen
- gemacht
- Aufrechterhaltung
- um
- Making
- verwaltet
- Management
- Manager
- viele
- massiv
- Meister
- Abstimmung
- Materie
- Medien
- sowie medizinische
- Nachrichten
- Metadaten
- Methoden
- könnte
- Million
- Millionen
- mildernd
- Risiken mindern
- ML
- Modell
- modern
- mehr
- Name
- nämlich
- schmal
- nativen
- Natürliche
- Verarbeitung natürlicher Sprache
- Natur
- Negative
- Netzwerke
- Nlp
- Northeastern University
- Anzahl
- Zahlen
- Verpflichtung
- erhalten
- OCR
- of
- bieten
- Office
- vorgenommen,
- on
- einzige
- Betriebs-
- optische Zeichenerkennung
- or
- Organisation
- Organisationen
- UNSERE
- aussen
- übrig
- Gesamt-
- übergreifend
- Parallel
- Parameter
- Teil
- passieren
- leitet
- Bestehen
- Schnittmuster
- Prozent
- Ausführen
- persönliche
- Daten
- Telefon
- Stücke
- Pipeline
- Plattform
- Plato
- Datenintelligenz von Plato
- PlatoData
- spielend
- möglich
- Post
- größte treibende
- Praktiken
- Präzision
- Präsenz
- Gegenwart
- Verhütung
- abwehr
- Datenschutz
- wahrscheinlich
- Prozessdefinierung
- anpassen
- Verarbeitung
- produziert
- Herstellung
- Produkt
- Produktrezensionen
- Produktion
- Produkte
- Profis
- Projekt
- Schutz
- Sicherheit
- bietet
- Öffentlichkeit
- schnell
- schnell
- Lesebrillen
- Anerkennung
- reduziert
- Reduzierung
- bezieht sich
- Vorschriften
- Regulierungsbehörden
- bezogene
- verhältnismäßig
- relevant
- Ruf
- Anforderung
- Zugriffe
- falls angefordert
- federnde
- Ressourcen
- Antwort
- Antworten
- Rückgabe
- zeigen
- Überprüfen
- Bewertungen
- Biken
- Recht
- Risiken
- Führen Sie
- Sicherung
- sicher
- Vertrieb
- Sanktionen
- skalierbaren
- Skalieren
- Scan
- Schule
- Umfang
- Ergebnis
- Suche
- Suchbegriffe
- Zweite
- sicher
- Sicherheitdienst
- Sicherheitsrisiken
- sehen
- Segment
- Selbstbedienung
- senden
- sendet
- Senior
- empfindlich
- Server
- Fertige Server
- Lösungen
- schwer
- ,,teilen"
- Vitrine
- Einfacher
- Single
- locker
- So
- Social Media
- Social Media
- Software
- Software IngenieurIn
- Softwareentwicklung
- Lösung
- Lösungen
- überspannend
- überspannt
- spezifisch
- Geschwindigkeiten
- Unser Team
- Stakeholder
- Steve
- Lagerung
- gelagert
- Läden
- Strikes
- stark
- Vorladung
- so
- Support
- Unterstützte
- Unterstützt
- System
- Systeme und Techniken
- TAG
- Team
- Teams
- Technologie
- Telekommunikation
- Text
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- Diebstahl
- ihr
- Sie
- dann
- Diese
- vom Nutzer definierten
- fehlen uns die Worte.
- Tausende
- Bedrohungen
- Durch
- Tickets
- Zeit
- zu
- Werkzeuge
- trainiert
- Transparenz
- Vertrauen
- versuchen
- XNUMX
- tippe
- Typen
- Verständnis
- einzigartiges
- Universität
- hochgeladen
- us
- -
- benutzt
- Nutzer
- verwendet
- Verwendung von
- üblich
- wertvoll
- Wert
- Vielfalt
- verschiedene
- riesig
- Video
- Videos
- Visionen
- Volumen
- vp
- wollen
- wurde
- Netz
- Web-Entwicklung
- Web-Services
- Webbasiert
- Webseite
- Woche
- welche
- während
- breit
- mit
- Arbeiten
- arbeiten,
- Werk
- Das weltweit
- würde
- Du
- Ihr
- Zephyrnet
- PLZ