Ma személyazonosító adatok (PII) mindenhol ott van. A személyazonosításra alkalmas adatok megtalálhatók e-mailekben, laza üzenetekben, videókban, PDF-fájlokban stb. Minden olyan adatra vagy információra vonatkozik, amely egy adott személy azonosítására használható. A személyazonosításra alkalmas adatok érzékeny jellegűek, és különféle típusú személyes adatokat tartalmaznak, mint például a név, elérhetőségi adatok, azonosító számok, pénzügyi információk, egészségügyi adatok, biometrikus adatok, születési dátum stb.
A személyes adatok megkeresése és szerkesztése elengedhetetlen a magánélet védelme, az adatbiztonság szavatolása, a törvények és előírások betartása, valamint az ügyfelek és az érdekelt felek iránti bizalom fenntartása szempontjából. A modern adatkezelési és kiberbiztonsági gyakorlatok kritikus eleme. De a személyes adatok megtalálása az elektronikus adatok halmaza között kihívásokat jelenthet egy szervezet számára. Ezek a kihívások az adatok hatalmas mennyisége és sokfélesége, az adatok töredezettsége, titkosítása, adatmegosztása, dinamikus tartalmak, téves pozitívumok és negatívumok, kontextusmegértés, jogi bonyolultságok, erőforrás-korlátok, változó adatok, felhasználók által generált tartalom és adaptív fenyegetések miatt merülnek fel. A személyazonosításra alkalmas adatok pontos észlelésének és szerkesztésének elmulasztása azonban súlyos következményekkel járhat a szervezetek számára. A következmények lehetnek jogi szankciók, perek, jó hírnév károsodása, adatszivárgás költségei, szabályozási vizsgálatok, működési zavarok, bizalomerózió és szankciók.
A jogrendszerben a feltárás az a jogi eljárás, amely a megszerzéshez való jogot és a nem privilegizált ügy előterjesztésének kötelezettségét szabályozza bármely fél peres követelése vagy védekezése szempontjából. Az elektronikus felfedezés, más néven eDiscovery az elektronikusan tárolt információk (ESI) azonosításának, gyűjtésének és előállításának elektronikus aspektusa egy perben vagy nyomozásban benyújtott kérelemre válaszul. A jogi területen gyakran szükség van az ESI azonosítására, összegyűjtésére és előállítására egy per vagy vizsgálat során. Ha a szervezetek az eDiscovery szolgáltatással foglalkoznak az idézésekre adott válaszokkal kapcsolatos peres ügyekben, akkor valószínűleg attól tartanak, hogy véletlenül megosztanak személyes adatokat. Számos szervezet, köztük a kormányzati ügynökségek, az iskolai körzetek és a jogi szakemberek szembesülnek azzal a kihívással, hogy a személyazonosításra alkalmas adatokat pontosan, nagy mennyiségben észleljék és szerkeszthessék. Különösen, ha egy kormányzati csoporthoz tartoznak, a személyazonosításra alkalmas adatok törlése az információszabadságról és a digitális szolgáltatásokról szóló törvényen keresztül kulcsfontosságú az egyének magánéletének védelme, az adatvédelmi törvények betartása, a személyazonosság-lopás megakadályozása, valamint a kormányzat és a digitális szolgáltatások iránti bizalom és átláthatóság fenntartása szempontjából. szolgáltatások. Egyensúlyt teremt az átláthatóság és a magánélet között, miközben csökkenti a jogi és biztonsági kockázatokat.
A szervezetek olyan módszerekkel kereshetnek személyazonosításra alkalmas információkat, mint a kulcsszókeresés, mintaegyeztetés, adatvesztés-megelőzési eszközök, gépi tanulás (ML), metaadatelemzés, adatosztályozó szoftver, optikai karakterfelismerés (OCR), dokumentum-ujjlenyomat-vétel és titkosítás.
Mostantól a Reveal mesterséges intelligenciával működő eDiscovery platformjának része, Logikcull egy önkiszolgáló megoldás, amely lehetővé teszi a jogi szakemberek számára elektronikus dokumentumok feldolgozását, áttekintését, címkézését és előállítását per vagy nyomozás részeként. Ez az egyedülálló ajánlat segít az ügyvédeknek értékes információkat felfedezni az adott üggyel kapcsolatban, miközben csökkenti a költségeket, felgyorsítja a határozathozatalt és csökkenti a kockázatokat.
Ebben a bejegyzésben a Reveal szakértői bemutatják, hogyan használták Amazon Comprehend dokumentumfeldolgozási folyamatában az egyes személyazonosításra alkalmas adatok észlelésére és szerkesztésére. Az Amazon Comprehend egy teljesen felügyelt és folyamatosan képzett természetes nyelvi feldolgozási (NLP) szolgáltatás, amely betekintést nyerhet egy dokumentum vagy szöveg tartalmába. Használhatja az Amazon Comprehend ML képességeit az ügyfél e-mailekben, a támogatási jegyekben, a termékismertetőkben, a közösségi médiában és egyebekben található személyazonosításra alkalmas adatok észlelésére és törlésére.
A megoldás áttekintése
A mérnöki csapat átfogó célja, hogy ügyfeleik számára jogi dokumentumok millióiból azonosítsák és eltávolítsák a személyes adatokat. A Reveal Logikcull megoldásával a mérnökcsapat két folyamatot hajtott végre, nevezetesen az első lépéses személyazonosításra alkalmas adatok észlelését és a második lépéses személyazonosító adatok észlelését és szerkesztését. Ezt a kétmenetes megoldást a ContainsPiiEntities és a DetectPiiEntities API-k.
Első lépéses személyazonosító adatok észlelése
Az első lépéses személyazonosításra alkalmas adatok észlelésének célja, hogy megtalálja azokat a dokumentumokat, amelyek személyazonosításra alkalmas adatokat tartalmazhatnak.
- A felhasználók a Logikcull nyilvános webhelyén keresztül feltöltik azokat a fájlokat, amelyeken személyazonosításra alkalmas adatok észlelését és szerkesztését szeretnék végrehajtani, egy projektmappába. Ezek a fájlok lehetnek irodai dokumentumok, .pdf fájlok, e-mailek vagy az összes támogatott fájltípust tartalmazó .zip fájl.
- A Logikcull ezeket a projektmappákat biztonságosan tárolja egy Amazon Simple Storage Service (Amazon S3) vödör. A fájlok ezután áthaladnak a Logikcull masszívan párhuzamos feldolgozási folyamatán Amazon Elastic Compute Cloud (Amazon EC2), amely feldolgozza a fájlokat, kibontja a metaadatokat, és szöveges formátumú műtermékeket generál az adatok áttekintésére. A Logikcull feldolgozó folyamata támogatja az űrlapok és fájlok széles skálájának szövegkivonását, beleértve az audio- és videofájlokat is.
- Miután a fájlok szöveges formátumban elérhetővé váltak, a Logikcull a bemeneti szöveget a nyelvi modellel, amely az angol, átadja az Amazon Comprehenden keresztül úgy, hogy a ContainsPiiEntities API hívás. Az Amazon EC2-n tárolt feldolgozó csővezeték-szerverek teszik az Amazon Comprehend-et
ContainsPiiEntities
API-hívás a kérelem paramétereinek szövegként és nyelvi kódként történő átadásával. AContainsPiiEntities
Az API-hívás elemzi a bemeneti szöveget a személyazonosításra alkalmas adatok jelenlétére vonatkozóan, és visszaadja az azonosított személyazonosításra alkalmas entitástípusok címkéit, például a nevet, címet, bankszámlaszámot vagy telefonszámot. Az API-válasz egy megbízhatósági pontszámot is tartalmaz, amely azt jelzi, hogy az Amazon Comprehend milyen megbízhatósági szintet rendelt az észlelési pontossághoz. A megbízhatósági pontszám 0 és 1 közötti, az 1 pedig 100 százalékos megbízhatóságot jelent. A Logikcull ezt a megbízhatósági pontszámot használja a PII Detected címkéhez a dokumentumokhoz. A Logikcull csak olyan dokumentumokhoz rendeli hozzá ezt a címkét, amelyek megbízhatósági pontszáma 0.75 felett van. - Az észlelt személyazonosításra alkalmas címkézett dokumentumok a Logikcull keresési indexfürtjébe kerülnek, hogy a felhasználók gyorsan azonosítsák a személyazonosításra alkalmas entitásokat tartalmazó dokumentumokat.
Második lépéses személyazonosító adatok észlelése és szerkesztése
Az első lépésben végzett személyazonosításra alkalmas azonosítási folyamat leszűkíti az adatkészlet hatókörét azáltal, hogy azonosítja, mely dokumentumok tartalmaznak személyazonosításra alkalmas információkat. Ez felgyorsítja a személyazonosság-azonosító észlelési folyamatot, és csökkenti a teljes költséget is. A második lépésben végzett személyazonosításra alkalmas azonosítás célja, hogy azonosítsa a személyazonosításra alkalmas adatok egyedi példányait, és kivonja azokat a címkézett dokumentumokból az első lépésben.
- A felhasználók olyan dokumentumokat keresnek a Logikcull webhelyén keresztül, amelyek személyazonosításra alkalmas adatokat tartalmaznak a Logikcull speciális keresési szűrői funkciójával.
- A kérést a Logikcull alkalmazáskiszolgálói kezelik Amazon EC2 és a kiszolgálók kommunikálnak a keresési indexfürttel a dokumentumok megtalálása érdekében.
- A Logikcull alkalmazásszerverek képesek azonosítani a személyazonosításra alkalmas adatok egyedi példányait azáltal, hogy a DetectPiiEntities API hívás. A szerverek az API-hívást a bemeneti dokumentumok szövegének és nyelvének átadásával hajtják végre. A
DetectPiiEntities
Az API-művelet ellenőrzi a bemeneti szöveget, hogy vannak-e olyan entitások, amelyek személyazonosításra alkalmas adatokat tartalmaznak. A válasz minden entitás esetében megadja az entitás típusát, ahol az entitásszöveg kezdődik és végződik, valamint az Amazon Comprehend által az észlelés során biztosított megbízhatósági szintet. - A felhasználók ezután kiválasztják azokat a konkrét entitásokat, amelyeket szerkeszteni szeretnének a Logikcull webes felületén. Az alkalmazáskiszolgáló elküldi ezeket a kéréseket a Logikcull feldolgozó folyamatának. A következő egy képernyőkép a Logikcull alkalmazásába feltöltött PDF-ről. Az alábbi képernyőképen láthatja, hogy a különböző személyazonosításra alkalmas entitások (például név, cím, telefonszám, e-mail cím stb.) kiemeltek.
- A személyazonosításra alkalmas adatok szerkesztése biztonságosan alkalmazható a Logikcull feldolgozási folyamatában egyéni üzleti logika használatával. A következő képernyőképen láthatja, hogy a felhasználók kiválaszthatnak bizonyos személyazonosításra alkalmas entitástípusokat vagy az összes személyazonosításra alkalmas entitástípust, amelyet szerkeszteni szeretnének, majd egyetlen gombnyomással szerkeszthetik az összes személyazonosításra alkalmas információt.
Eredmények
A Logikcull, a Reveal technológia jelenleg több mint 20 millió dokumentumot dolgoz fel hetente, és képes volt leszűkíteni az észlelési hatókört a ContainsPiiEntities
API-t, és a személyazonosításra alkalmas entitások egyedi példányait jeleníthetik meg ügyfeleiknek a segítségével DetectPiiEntities
API.
„Az Amazon Comprehend segítségével a Logikcull képes volt gyorsan bevetni a nagy teljesítményű NLP-képességeket az idő töredéke alatt, mint amennyi időre egy egyedi gyártású megoldáshoz kellett volna.”
– Steve Newhouse, a Logikcull termékért felelős alelnöke.
Következtetés
Amazon Comprehend lehetővé teszi a Reveal Logikcull technológiája számára, hogy az Amazon Comprehend segítségével viszonylag alacsony költséggel, nagy léptékben futtasson személyazonosításra alkalmas azonosítást. A ContainsPiiEntities
Az API-t több millió dokumentum kezdeti vizsgálatára használják. A DetectPiiEntities
Az API segítségével több ezer dokumentum részletes elemzését futtathatja, és azonosíthatja a dokumentumaikban szereplő egyes személyazonosításra alkalmas információkat.
Vessen egy pillantást az összes Az Amazon Comprehend szolgáltatásai. Próbálja ki a funkciókat, és küldjön visszajelzést a következőn keresztül AWS fórum az Amazon Comprehend számára, vagy a szokásos AWS-támogatási elérhetőségein keresztül.
A szerzőkről
Aman Tiwari általános megoldások építésze, az AWS világméretű kereskedelmi értékesítésével foglalkozik. A Digital Native Business szegmens ügyfeleivel dolgozik, és segít nekik innovatív, rugalmas és költséghatékony megoldásokat tervezni az AWS-szolgáltatások segítségével. A Northeastern University távközlési hálózatok szakán szerzett mesterfokozatot. Munkán kívül szívesen gyeppályás teniszt játszik és könyveket olvas.
Jeff Newburn Senior Software Engineering Manager a Logikcull – A Reveal Technology adatmérnöki csapatának vezetője. Felügyeli a vállalat adatkezdeményezéseit, beleértve az adattárházakat, a vizualizációkat, az elemzéseket és a gépi tanulást. A fuvarmegosztástól az adatrendszerekig terjedő fejlesztési és irányítási tapasztalattal rendelkezik, és élvezi a briliáns mérnökökből álló csapatok vezetését az izgalmas termékekig.
Søren Szőke Daugaard személyzeti mérnök a Logikcull – A Reveal Technology adatmérnöki csapatában. A Logikcull termékébe rendkívül méretezhető mesterséges intelligencia és ML megoldásokat épít be, így ügyfeleink hatékonyabban és precízebben végezhetik munkájukat. Szakértelme adatvezetékekre, webalapú rendszerekre és gépi tanulási rendszerekre terjed ki.
Kevin Lufkin Senior Software Engineer a Logikcull – A Reveal Technology keresőmérnöki csapatában, ahol az ügyfelekkel való szembenézésre és a kereséshez kapcsolódó funkciók fejlesztésére összpontosít. Az UI/UX területén szerzett kiterjedt szakértelmét a full-stack webfejlesztési háttér egészíti ki, nagy hangsúlyt fektetve a termékvíziók életre keltésére.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/how-reveals-logikcull-used-amazon-comprehend-to-detect-and-redact-pii-from-legal-documents-at-scale/
- :van
- :is
- :ahol
- $ UP
- 1
- 10
- 100
- 11
- 14
- 15%
- 150
- 20
- 7
- 75
- a
- Képes
- Rólunk
- Fiók
- pontosság
- pontosan
- törvény
- Akció
- adaptív
- cím
- fejlett
- ügynökségek
- AI
- AI-hajtású
- Minden termék
- lehetővé teszi, hogy
- mentén
- Is
- amazon
- Amazon Comprehend
- Amazon EC2
- Az Amazon Web Services
- között
- an
- elemzés
- analitika
- elemzések
- és a
- bármilyen
- api
- API-k
- Alkalmazás
- alkalmazások
- alkalmazott
- VANNAK
- területek
- felmerülhet
- AS
- megjelenés
- kijelölt
- At
- hang-
- elérhető
- AWS
- háttér
- Egyenleg
- Bank
- bankszámla
- BE
- óta
- lent
- között
- biometrikus
- születés
- Könyvek
- megsértése
- ragyogó
- Bringing
- üzleti
- de
- gomb
- by
- hívás
- TUD
- képességek
- kihívás
- kihívások
- karakter
- karakter felismerés
- követelések
- besorolás
- kettyenés
- felhő
- Fürt
- kód
- gyűjt
- Gyűjtő
- kereskedelmi
- Társaságé
- bonyodalmak
- teljesítés
- összetevő
- megért
- Kiszámít
- az érintett
- bizalom
- Következmények
- korlátok
- kapcsolat
- Kapcsolatok
- tartalmaz
- tartalmaz
- tartalom
- szövegre vonatkozó
- folyamatosan
- Költség
- költséghatékony
- kiadások
- kritikai
- kritikus
- Jelenleg
- szokás
- Külön rendelésre készült
- vevő
- Ügyfelek
- Kiberbiztonság
- kár
- dátum
- adatok megsértése
- adatvesztés
- adatkezelés
- adat védelem
- adatbiztonság
- adatmegosztás
- találka
- foglalkozó
- Fok
- telepíteni
- Design
- részletes
- kimutatására
- észlelt
- Érzékelés
- fejlesztése
- Fejlesztés
- különböző
- digitális
- digitális szolgáltatások
- felfedez
- felfedezés
- kijelző
- Zavar
- do
- dokumentum
- dokumentumok
- domain
- le-
- két
- alatt
- dinamikus
- minden
- eredményesen
- bármelyik
- Elektronikus
- elektronikusan
- e-mailek
- lehetővé téve
- felölel
- titkosítás
- vége
- mérnök
- Mérnöki
- Mérnökök
- Angol
- biztosítása
- Szervezetek
- egység
- különösen
- alapvető
- mindenhol
- fejlődik
- izgalmas
- tapasztalat
- szakvélemény
- szakértők
- kiterjedt
- kivonat
- kitermelés
- kivonatok
- Arc
- néző
- Kudarc
- hamis
- Funkció
- Jellemzők
- Fed
- Visszacsatolás
- filé
- Fájlok
- Szűrők
- pénzügyi
- pénzügyi információ
- Találjon
- megtalálása
- fingerprinting
- vezetéknév
- Összpontosít
- koncentrál
- következő
- következik
- A
- forma
- formátum
- formák
- töredék
- szilánkosodás
- szabadság
- ból ből
- teljesen
- általános
- generál
- Ad
- cél
- irányító
- Kormány
- kormányzati szervek
- Csoport
- kéz
- Legyen
- he
- segít
- <p></p>
- Kiemelt
- nagyon
- övé
- tart
- házigazdája
- Hogyan
- azonban
- HTML
- HTTPS
- Azonosítás
- azonosított
- azonosítani
- azonosító
- Identitás
- if
- végre
- munkagépek
- in
- magában foglalja a
- Beleértve
- index
- jelzi
- egyéni
- információ
- kezdetben
- kezdeményezések
- újító
- bemenet
- belső
- Insight
- Felület
- bele
- vizsgálat
- IT
- ITS
- jpg
- ismert
- Címkék
- nyelv
- nagy
- törvények
- Törvények és rendeletek
- per
- perek
- vezet
- vezető
- tanulás
- Jogi
- szint
- élet
- mint
- Pereskedés
- logika
- néz
- le
- Elő/Utó
- gép
- gépi tanulás
- készült
- fenntartása
- csinál
- Gyártás
- sikerült
- vezetés
- menedzser
- sok
- masszívan
- mester
- egyező
- Anyag
- Média
- orvosi
- üzenetek
- Metaadatok
- mód
- esetleg
- millió
- Több millió
- enyhítő
- a kockázatok csökkentése
- ML
- modell
- modern
- több
- név
- ugyanis
- keskeny
- bennszülött
- Természetes
- Természetes nyelvi feldolgozás
- Természet
- negatívok
- hálózatok
- NLP
- Northeastern University
- szám
- számok
- kötelezettség
- szerez
- OCR
- of
- felajánlás
- Office
- gyakran
- on
- csak
- operatív
- optikai karakter felismerés
- or
- szervezet
- szervezetek
- mi
- kívül
- felett
- átfogó
- átfogó
- Párhuzamos
- paraméterek
- rész
- elhalad
- bérletek
- Múló
- Mintás
- százalék
- Teljesít
- személyes
- személyes adat
- telefon
- darabok
- csővezeték
- emelvény
- Plató
- Platón adatintelligencia
- PlatoData
- játék
- lehetséges
- állás
- erős
- gyakorlat
- Pontosság
- jelenlét
- be
- megakadályozása
- Megelőzés
- magánélet
- valószínűleg
- folyamat
- Folyamatok
- feldolgozás
- gyárt
- termelő
- Termékek
- termék vélemények
- Termelés
- Termékek
- tehetséges alkalmazottal
- program
- védelme
- védelem
- biztosít
- nyilvános
- gyorsan
- gyorsan
- Olvasás
- elismerés
- csökkenti
- csökkentő
- kifejezés
- előírások
- szabályozók
- összefüggő
- viszonylag
- hírnév
- kérni
- kéri
- kötelező
- rugalmas
- forrás
- válasz
- válaszok
- Visszatér
- mutatják
- Kritika
- Vélemények
- Lovagol
- jobb
- kockázatok
- futás
- megóvása
- biztosan
- értékesítés
- Szankciók
- skálázható
- Skála
- beolvasás
- Iskola
- hatálya
- pontszám
- Keresés
- keresések
- Második
- biztosan
- biztonság
- biztonsági kockázatok
- lát
- részes
- Önkiszolgáló
- küld
- küld
- idősebb
- érzékeny
- szerver
- Szerverek
- szolgáltatás
- Szolgáltatások
- szigorú
- megosztás
- kirakat
- Egyszerű
- egyetlen
- laza
- So
- Közösség
- Közösségi média
- szoftver
- Software Engineer
- szoftverfejlesztés
- megoldások
- Megoldások
- feszültség
- ível
- különleges
- sebesség
- Személyzet
- érdekeltek
- Steve
- tárolás
- memorizált
- árnyékolók
- Strikes
- erős
- Idézés
- ilyen
- támogatás
- Támogatott
- Támogatja
- rendszer
- Systems
- TAG
- csapat
- csapat
- Technológia
- távközlés
- szöveg
- hogy
- A
- lopás
- azok
- Őket
- akkor
- Ezek
- ők
- ezt
- ezer
- fenyegetések
- Keresztül
- jegyek
- idő
- nak nek
- szerszámok
- kiképzett
- Átláthatóság
- Bízzon
- megpróbál
- kettő
- típus
- típusok
- megértés
- egyedi
- egyetemi
- feltöltve
- us
- használ
- használt
- Felhasználók
- használ
- segítségével
- szokásos
- Értékes
- érték
- fajta
- különféle
- Hatalmas
- videó
- Videók
- jövőképek
- kötet
- vp
- akar
- volt
- háló
- webfejlesztés
- webes szolgáltatások
- web-alapú
- weboldal
- hét
- ami
- míg
- széles
- val vel
- Munka
- dolgozó
- művek
- világszerte
- lenne
- te
- A te
- zephyrnet
- Postai irányítószám