Täna isikuandmeid (PII) on kõikjal. PII-d on meilides, aeglases sõnumites, videotes, PDF-ides jne. See viitab mis tahes andmetele või teabele, mida saab kasutada konkreetse isiku tuvastamiseks. PII on olemuselt delikaatne ja sisaldab erinevat tüüpi isikuandmeid, nagu nimi, kontaktandmed, isikukoodid, finantsteave, meditsiiniline teave, biomeetrilised andmed, sünniaeg jne.
PII leidmine ja redigeerimine on oluline privaatsuse kaitsmiseks, andmete turvalisuse tagamiseks, seaduste ja määruste järgimiseks ning klientide ja sidusrühmade usalduse säilitamiseks. See on tänapäevase andmehalduse ja küberturvalisuse tavade kriitiline komponent. Kuid PII leidmine elektrooniliste andmete hulgast võib organisatsioonile väljakutseid esitada. Need väljakutsed tekivad andmete suure hulga ja mitmekesisuse, andmete killustatuse, krüptimise, andmete jagamise, dünaamilise sisu, valepositiivsete ja negatiivsete, konteksti mõistmise, juriidilise keerukuse, ressursipiirangute, arenevate andmete, kasutajate loodud sisu ja adaptiivsete ohtude tõttu. Suutmatus isikuandmete tuvastamise ja redigeerimise täpseks tuvastamiseks ja redigeerimiseks võib aga organisatsioonidele kaasa tuua tõsiseid tagajärgi. Tagajärjed võivad hõlmata juriidilisi karistusi, kohtuasju, maine kahjustamist, andmete rikkumisega seotud kulusid, regulatiivseid uurimisi, tööhäireid, usalduse vähenemist ja sanktsioone.
Õigussüsteemis on avastamine õiguslik protsess, mis reguleerib õigust saada ja kohustust esitada mitteprivilegeeritud asju, mis on seotud mis tahes poole nõuete või vastuväidetega kohtuvaidluses. Elektrooniline avastus, mida tuntakse ka kui eDiscovery, on elektrooniliselt salvestatud teabe (ESI) tuvastamise, kogumise ja tootmise elektrooniline aspekt vastuseks kohtuasjas või uurimises esitatavale taotlusele. Õigusvaldkonnas on sageli nõutav kohtuasja või uurimise käigus ESI tuvastamine, kogumine ja koostamine. Kui organisatsioonid tegelevad eDiscoveryga kohtukutse vastustega seotud kohtuvaidlustes, on nad tõenäoliselt mures isikuandmete juhusliku jagamise pärast. Paljud organisatsioonid, sealhulgas valitsusasutused, koolipiirkonnad ja juristid, seisavad silmitsi väljakutsega tuvastada ja redigeerida isikut tõendavat infot täpselt mastaabis. Eriti kui nad kuuluvad valitsuskontserni, on isikuandmete teabe redigeerimine teabevabaduse seaduse ja digiteenuste seaduse kaudu ülioluline üksikisiku privaatsuse kaitsmiseks, andmekaitseseaduste järgimise tagamiseks, identiteedivarguste ärahoidmiseks ning usalduse ja läbipaistvuse säilitamiseks valitsuse ja digitaalvaldkonnas. teenuseid. See loob tasakaalu läbipaistvuse ja privaatsuse vahel, vähendades samal ajal õigus- ja turvariske.
Organisatsioonid saavad isikut tuvastada, kasutades selliseid meetodeid nagu märksõnaotsing, mustrite sobitamine, andmekao vältimise tööriistad, masinõpe (ML), metaandmete analüüs, andmete klassifitseerimise tarkvara, optiline märgituvastus (OCR), dokumendi sõrmejälgede võtmine ja krüpteerimine.
Nüüd on see osa Reveali tehisintellektil töötavast eDiscovery platvormist, Logikcull on iseteeninduslahendus, mis võimaldab juriidilistel spetsialistidel kohtuasja või uurimise käigus töödelda, üle vaadata, sildistada ja toota elektroonilisi dokumente. See ainulaadne pakkumine aitab advokaatidel avastada käsitletava asjaga seotud väärtuslikku teavet, vähendades samal ajal kulusid, kiirendades lahendusi ja maandades riske.
Selles postituses tutvustavad Reveali eksperdid, kuidas nad kasutasid Amazoni mõistmine oma dokumenditöötlusprotsessis, et tuvastada ja redigeerida üksikuid isikuandmete tuvastamise osi. Amazon Comprehend on täielikult hallatav ja pidevalt koolitatud loomuliku keele töötlemise (NLP) teenus, mis võimaldab saada ülevaate dokumendi või teksti sisust. Saate kasutada Amazon Comprehend ML-i võimalusi, et tuvastada ja redigeerida PII-d klientide meilides, tugipiletites, tooteülevaadetes, sotsiaalmeedias ja mujal.
Ülevaade lahendusest
Insenerimeeskonna üldeesmärk on tuvastada ja redigeerida klientide isikuandmete tuvastamist miljonitest juriidilistest dokumentidest. Kasutades Reveali Logikculli lahendust, rakendas inseneride meeskond kaks protsessi, nimelt esimese läbimise PII tuvastamise ja teise läbimise PII tuvastamise ja redigeerimise. See kahekäiguline lahendus sai võimalikuks, kasutades Sisaldab PiiEntities ja Tuvasta PiiEntities API-d.
Esimese läbimise PII tuvastamine
Esimese läbimise isikuandmete tuvastamise eesmärk on leida dokumendid, mis võivad sisaldada isikut tuvastavat teavet.
- Kasutajad laadivad Logikculli avaliku veebisaidi kaudu projekti kausta üles failid, mille puhul nad soovivad PII tuvastamist ja redigeerimist. Need failid võivad olla kontoridokumentide, pdf-failide, meilide või kõiki toetatud failitüüpe sisaldava ZIP-failina.
- Logikcull salvestab need projektikaustad turvaliselt Amazon Simple Storage Service (Amazon S3) ämber. Seejärel läbivad failid Logikculli massiliselt paralleelset töötlemiskonveieri, mida hostitakse Amazon Elastic Compute Cloud (Amazon EC2), mis töötleb faile, ekstraheerib metaandmeid ja genereerib andmete ülevaatamiseks tekstivormingus artefakte. Logikculli töötlemiskonveier toetab mitmesuguste vormide ja failide, sealhulgas heli- ja videofailide teksti ekstraheerimist.
- Kui failid on tekstivormingus saadaval, edastab Logikcull sisendteksti koos keelemudeliga, milleks on inglise keel, Amazon Comprehendi kaudu, tehes Sisaldab PiiEntities API kõne. Amazon EC2-s hostitud töötlemiskonveieriserverid muudavad Amazon Comprehendi
ContainsPiiEntities
API-kõne, edastades päringu parameetrid teksti- ja keelekoodina. TheContainsPiiEntities
API-kutse analüüsib sisendteksti isikuandmete tuvastamiseks ja tagastab tuvastatud isikut tõendavate üksuste tüüpide sildid, nagu nimi, aadress, pangakonto number või telefoninumber. API vastus sisaldab ka usaldusskoori, mis näitab usalduse taset, mille Amazon Comprehend on määranud tuvastamise täpsusele. Usaldusväärsuse skoor on vahemikus 0 kuni 1, kusjuures 1 tähistab 100 protsenti. Logikcull kasutab seda usaldusskoori, et määrata dokumentidele silt PII tuvastatud. Logikcull määrab selle sildi ainult dokumentidele, mille usaldusskoor on üle 0.75. - PII Tuvastatud märgistatud dokumendid suunatakse Logikculli otsinguindeksi klastrisse, et nende kasutajad saaksid kiiresti tuvastada isikut tuvastavaid isikuandmeid sisaldavaid dokumente.
Teise käigu PII tuvastamine ja redigeerimine
Esimese läbimise isikuandmete tuvastamise protsess kitsendab andmestiku ulatust, tuvastades, millised dokumendid sisaldavad isikut tuvastavat teavet. See kiirendab isikuandmete tuvastamise protsessi ja vähendab ka üldkulusid. Teise läbimise isikuandmete tuvastamise eesmärk on tuvastada isikuandmete üksikjuhtumid ja eemaldada need esimesel läbimisel märgistatud dokumentidest.
- Kasutajad otsivad dokumente Logikculli veebisaidi kaudu, mis sisaldab isikut tuvastavat teavet, kasutades Logikculli täpsemate otsingufiltrite funktsiooni.
- Päringut haldavad Logikculli rakenduseserverid, mida hostitakse Amazon EC2 ja serverid suhtlevad dokumentide leidmiseks otsinguindeksi klastriga.
- Logikculli rakendusserverid suudavad tuvastada isikuandmete üksikjuhtumeid, tehes Tuvasta PiiEntities API kõne. Serverid teevad API-kõne, edastades sisenddokumentide teksti ja keele. The
DetectPiiEntities
API toiming kontrollib sisendteksti PII-d sisaldavate üksuste jaoks. Iga olemi puhul annab vastus olemi tüübi, kus olemi tekst algab ja lõpeb, ning usaldusväärsuse taseme, mida Amazon Comprehend oma tuvastamisel omab. - Seejärel valivad kasutajad Logikculli veebiliidese abil konkreetsed olemid, mida nad tahavad redigeerida. Rakenduste server saadab need päringud Logikculli töötlemiskonveierile. Järgmine on Logikculli rakendusse üles laaditud PDF-i ekraanipilt. Allolevalt ekraanipildilt näete, et esile on tõstetud erinevad isikuandmete tuvastamise üksused, nagu nimi, aadress, telefoninumber, e-posti aadress jne.
- PII redigeerimist rakendatakse turvaliselt Logikculli töötlemiskonveieri sees, kasutades kohandatud äriloogikat. Järgmisel ekraanipildil on näha, et kasutajad saavad valida kas konkreetsed PII-olemitüübid või kõik PII-olemitüübid, mida nad tahavad redigeerida, ja seejärel ühe nupuvajutusega kogu PII-teabe redigeerida.
Tulemused
Logikcull, Reveali tehnoloogia, töötleb praegu igal nädalal üle 20 miljoni dokumendi ja suutis tuvastamise ulatust kitsendada, kasutades ContainsPiiEntities
API ja kuvada oma klientidele isikuandmete tuvastamise üksuste üksikuid eksemplare, kasutades DetectPiiEntities
API.
"Amazon Comprehendiga on Logikcull suutnud kiiresti kasutusele võtta võimsad NLP-võimalused murdosa ajast, kui kohandatud lahendus oleks nõudnud."
– Steve Newhouse, Logikculli tooteosakonna asepresident.
Järeldus
Amazoni mõistmine võimaldab Reveali Logikculli tehnoloogial Amazon Comprehendi abil suhteliselt madalate kuludega suures mahus PII tuvastamist käivitada. The ContainsPiiEntities
API-t kasutatakse miljonite dokumentide esmaseks skannimiseks. The DetectPiiEntities
API-t kasutatakse tuhandete dokumentide üksikasjalikuks analüüsiks ja nende dokumentides üksikute isikuandmete tuvastamiseks.
Heitke pilk kõigile Amazon Comprehendi funktsioonid. Proovige funktsioone ja saatke meile tagasisidet kas kaudu AWS foorum Amazon Comprehendi jaoks või tavaliste AWS-i tugikontaktide kaudu.
Autoritest
Aman Tiwari on üldlahenduste arhitekt, kes töötab AWS-is ülemaailmse kaubandusliku müügiga. Ta töötab klientidega Digital Native Business segmendis ja aitab neil AWS-i teenuseid kasutades kavandada uuenduslikke, vastupidavaid ja kulutõhusaid lahendusi. Tal on magistrikraad Telekommunikatsioonivõrkude alal Kirdeülikoolist. Töövälisel ajal meeldib talle murutennist mängida ja raamatuid lugeda.
Jeff Newburn on tarkvaratehnika vanemjuht, kes juhib ettevõtte Logikcull – A Reveal Technology andmetehnika meeskonda. Ta jälgib ettevõtte andmealgatusi, sealhulgas andmeladusid, visualiseerimisi, analüütikat ja masinõpet. Omades arendus- ja juhtimiskogemusi alates sõidujagamisest kuni andmesüsteemideni, naudib ta suurepäraste inseneride meeskondade juhtimist põnevate toodeteni.
Søren Blond Daugaard on Logikculli – A Reveal Technology andmetehnika meeskonna personaliinsener. Ta juurutab Logikculli tootesse väga skaleeritavad AI- ja ML-lahendused, mis võimaldavad meie klientidel teha oma tööd tõhusamalt ja suurema täpsusega. Tema teadmised hõlmavad andmetorusid, veebipõhiseid süsteeme ja masinõppesüsteeme.
Kevin Lufkin on Logikcull – A Reveal Technology otsingutehnika meeskonna vanemtarkvarainsener, kus ta keskendub klientidele suunatud ja otsinguga seotud funktsioonide arendamisele. Tema laiaulatuslikke teadmisi kasutajaliidese/UX-i vallas täiendab täieliku veebiarenduse taust, keskendudes tugevalt tootevisioonide elluviimisele.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/how-reveals-logikcull-used-amazon-comprehend-to-detect-and-redact-pii-from-legal-documents-at-scale/
- :on
- :on
- : kus
- $ UP
- 1
- 10
- 100
- 11
- 14
- 15%
- 150
- 20
- 7
- 75
- a
- Võimalik
- MEIST
- konto
- täpsus
- täpselt
- tegu
- tegevus
- adaptiivne
- aadress
- edasijõudnud
- asutused
- AI
- Tehisintellekti toega
- Materjal: BPA ja flataatide vaba plastik
- võimaldab
- mööda
- Ka
- Amazon
- Amazoni mõistmine
- Amazon EC2
- Amazon Web Services
- vahel
- an
- analüüs
- analytics
- analüüse
- ja
- mistahes
- API
- API-liidesed
- taotlus
- rakendused
- rakendatud
- OLEME
- valdkondades
- tekkima
- AS
- aspekt
- määratud
- At
- heli-
- saadaval
- AWS
- tagapõhi
- Saldo
- Pank
- pangakonto
- BE
- olnud
- alla
- vahel
- biomeetriline
- sünd
- Raamatud
- rikkumine
- hiilgav
- Toomine
- äri
- kuid
- nupp
- by
- helistama
- CAN
- võimeid
- väljakutse
- väljakutseid
- iseloom
- tegelase äratundmine
- nõuete
- klassifikatsioon
- klõps
- Cloud
- Cluster
- kood
- koguma
- Kollektsioneerimine
- kaubandus-
- Ettevõtte omad
- keerukust
- Vastavus
- komponent
- mõista
- Arvutama
- mures
- usaldus
- Tagajärjed
- piiranguid
- kontakt
- sidemed
- sisaldama
- sisaldab
- sisu
- kontekstuaalne
- pidevalt
- Maksma
- kuluefektiivne
- kulud
- kriitiline
- otsustav
- Praegu
- tava
- Valmistatud tellimuse järgi
- klient
- Kliendid
- Küberturvalisus
- kahju
- andmed
- andmete rikkumist
- andmete kadu
- andmehaldus
- andmekaitse
- andmekaitse
- andmete jagamine
- kuupäev
- tegelema
- Kraad
- juurutada
- Disain
- üksikasjalik
- avastama
- tuvastatud
- Detection
- arenev
- & Tarkvaraarendus
- erinev
- digitaalne
- digitaalteenused
- avastama
- avastus
- Ekraan
- Katkestus
- do
- dokument
- dokumendid
- domeen
- alla
- kaks
- ajal
- dünaamiline
- iga
- tõhusalt
- kumbki
- Elektrooniline
- elektrooniliselt
- kirju
- võimaldades
- hõlmab
- krüpteerimist
- lõppeb
- insener
- Inseneriteadus
- Inseneride
- Inglise
- tagades
- üksuste
- üksus
- eriti
- oluline
- kõikjal
- areneb
- põnev
- kogemus
- teadmised
- ekspertide
- ulatuslik
- väljavõte
- kaevandamine
- Väljavõtted
- nägu
- ees
- ebaedu
- vale
- tunnusjoon
- FUNKTSIOONID
- Toidetud
- tagasiside
- fail
- Faile
- Filtrid
- finants-
- finantsinfo
- leidma
- leidmine
- Sõrmejälgi
- esimene
- Keskenduma
- keskendub
- Järel
- järgneb
- eest
- vorm
- formaat
- vormid
- murdosa
- killustatus
- Vabadus
- Alates
- täielikult
- Üldine
- genereerib
- Andma
- eesmärk
- valitsev
- Valitsus
- valitsusasutused
- Grupp
- käsi
- Olema
- he
- aitab
- rohkem
- Esiletõstetud
- kõrgelt
- tema
- omab
- võõrustas
- Kuidas
- aga
- HTML
- HTTPS
- Identifitseerimine
- tuvastatud
- identifitseerima
- identifitseerimiseks
- Identity
- if
- rakendatud
- tööriistad
- in
- hõlmab
- Kaasa arvatud
- indeks
- näitab
- eraldi
- info
- esialgne
- algatused
- uuenduslik
- sisend
- sees
- ülevaade
- Interface
- sisse
- uurimine
- IT
- ITS
- jpg
- teatud
- Labels
- keel
- suur
- Seadused
- Seadused ja määrused
- kohtuasi
- Menetluses
- viima
- juhtivate
- õppimine
- Õigus
- Tase
- elu
- nagu
- kohtuasi
- loogika
- Vaata
- kaotus
- Madal
- masin
- masinõpe
- tehtud
- säilitamine
- tegema
- Tegemine
- juhitud
- juhtimine
- juht
- palju
- massiliselt
- meistrid
- sobitamine
- küsimus
- Meedia
- meditsiini-
- kirjad
- Metaandmed
- meetodid
- võib
- miljon
- miljonid
- leevendav
- riskide maandamine
- ML
- mudel
- Kaasaegne
- rohkem
- nimi
- nimelt
- kitsas
- emakeelena
- Natural
- Natural Language Processing
- loodus
- negatiivid
- võrgustikud
- nlp
- Kirde Ülikool
- number
- numbrid
- kohustus
- saama
- OCR
- of
- pakkumine
- Office
- sageli
- on
- ainult
- töökorras
- optiline märkide tuvastamine
- or
- organisatsioon
- organisatsioonid
- meie
- väljaspool
- üle
- üldine
- kõikehõlmav
- Parallel
- parameetrid
- osa
- sooritama
- möödub
- Mööduv
- Muster
- protsent
- täitma
- isiklik
- isiklikud andmed
- telefon
- tükki
- torujuhe
- inimesele
- Platon
- Platoni andmete intelligentsus
- PlatoData
- mängimine
- võimalik
- post
- võimas
- tavad
- Täpsus
- olemasolu
- esitada
- ennetada
- Ennetamine
- privaatsus
- tõenäoliselt
- protsess
- Protsessid
- töötlemine
- tootma
- tootmine
- Toode
- Toote kommentaarid
- Produktsioon
- Toodet
- spetsialistid
- projekt
- kaitsta
- kaitse
- annab
- avalik
- kiiresti
- kiiresti
- Lugemine
- tunnustamine
- vähendab
- vähendamine
- viitab
- määrused
- regulatiivne
- seotud
- suhteliselt
- asjakohane
- maine
- taotleda
- Taotlusi
- nõutav
- vetruv
- ressurss
- vastus
- vastuste
- Tulu
- avalduma
- läbi
- Arvustused
- Sõitma
- õige
- riskide
- jooks
- kaitsmine
- ohutult
- müük
- Sanktsioonid
- skaalautuvia
- Skaala
- skaneerida
- Kool
- ulatus
- skoor
- Otsing
- otsingud
- Teine
- kindlalt
- turvalisus
- turvariskid
- vaata
- segment
- Iseteenindus
- saatma
- saadab
- vanem
- tundlik
- server
- Serverid
- teenus
- Teenused
- raske
- jagamine
- presentatsioon
- lihtne
- ühekordne
- nõrk
- So
- sotsiaalmeedia
- Sotsiaalse meedia
- tarkvara
- Tarkvara insener
- tarkvaraarendus
- lahendus
- Lahendused
- Pinge
- ulatub
- konkreetse
- kiirused
- Personal
- huvirühmad
- Steve
- ladustamine
- ladustatud
- kauplustes
- Streigid
- tugev
- Kohtukutse
- selline
- toetama
- Toetatud
- Toetab
- süsteem
- süsteemid
- TAG
- meeskond
- meeskonnad
- Tehnoloogia
- telekommunikatsioon
- tekst
- et
- .
- vargus
- oma
- Neile
- SIIS
- Need
- nad
- see
- tuhandeid
- ähvardused
- Läbi
- piletid
- aeg
- et
- töövahendid
- koolitatud
- läbipaistvus
- Usalda
- püüdma
- kaks
- tüüp
- liigid
- mõistmine
- ainulaadne
- Ülikool
- laetud
- us
- kasutama
- Kasutatud
- Kasutajad
- kasutusalad
- kasutamine
- tavaline
- väärtuslik
- väärtus
- sort
- eri
- suur
- Video
- Videod
- visioone
- maht
- vp
- tahan
- oli
- web
- Veebidisain
- veebiteenused
- Veebipõhine
- veebisait
- nädal
- mis
- kuigi
- lai
- koos
- Töö
- töö
- töötab
- ülemaailmne
- oleks
- sa
- Sinu
- sephyrnet
- Tõmblukk