Peaaegu reaalajas andmete ja ülevaate edastamine võimaldab ettevõtetel kiiresti reageerida oma klientide vajadustele. Reaalajas andmed võivad pärineda erinevatest allikatest, sealhulgas sotsiaalmeediast, asjade Interneti-seadmetest, infrastruktuuri jälgimisest, kõnekeskuse monitooringust ja muust. Mitmest allikast sissevõetavate andmete laiuse ja sügavuse tõttu otsivad ettevõtted lahendusi oma klientide privaatsuse kaitsmiseks ja tundlike andmete juurdepääsu eest lõppsüsteemidest. Varem pidite toetuma isikut tuvastava teabe (PII) reeglimootoritele, mis võisid märgistada valepositiivseid tulemusi või andmetest ilma jääda, või pidite looma ja hooldama kohandatud masinõppe (ML) mudeleid, et tuvastada isikut tuvastav teave teie voogesituse andmetes. Samuti pidite rakendama ja hooldama nende mootorite või mudelite toetamiseks vajalikku infrastruktuuri.
Selle protsessi sujuvamaks muutmiseks ja kulude vähendamiseks võite kasutada Amazoni mõistmine, loomuliku keele töötlemise (NLP) teenus, mis kasutab ML-i, et leida struktureerimata tekstist teadmisi ja seoseid, nagu inimesed, kohad, tunded ja teemad. Nüüd saate kasutada Amazon Comprehend ML-i võimalusi, et tuvastada ja redigeerida PII-d klientide meilides, tugipiletites, tooteülevaadetes, sotsiaalmeedias ja mujal. ML kogemus pole vajalik. Näiteks saate enne dokumentide indekseerimist analüüsida tugipileteid ja teadmisteartikleid, et tuvastada PII-üksused ja redigeerida teksti. Pärast seda on dokumendid PII-üksustest vabad ja kasutajad saavad andmeid tarbida. PII-üksuste redigeerimine aitab teil kaitsta oma kliendi privaatsust ning järgida kohalikke seadusi ja eeskirju.
Sellest postitusest saate teada, kuidas rakendada Amazon Comprehendit oma voogedastusarhitektuuridesse, et redigeerida PII-üksuseid peaaegu reaalajas, kasutades Amazon Kinesis Data Firehose koos AWS Lambda.
See postitus keskendub andmete eemaldamisele valitud väljadelt, mis sisestatakse voogedastusarhitektuuri, kasutades Kinesis Data Firehose'i, kus soovite luua, salvestada ja hooldada andmete täiendavaid tuletiskoopiaid lõppkasutajate või järgnevate rakenduste tarbimiseks. Kui kasutate Amazon Kinesise andmevood või teil on muid kasutusjuhtumeid väljaspool isikuandmete muutmist, vaadake Tõlkige, redigeerige ja analüüsige voogesituse andmeid, kasutades SQL-i funktsioone Amazon Kinesis Data Analyticsi, Amazon Translate'i ja Amazon Comprehendiga, kus näitame, kuidas saate seda kasutada Amazon Kinesis Data Analytics Studio powered by Apache Zeppelin ja Apache Flash voogesituse andmete tekstiväljade interaktiivseks analüüsimiseks, tõlkimiseks ja redigeerimiseks.
Lahenduse ülevaade
Järgmisel joonisel on näidisarhitektuur voogesituse andmete reaalajas PII redigeerimiseks, kasutades Amazoni lihtne salvestusteenus (Amazon S3), Kinesis Data Firehose'i andmete teisendus, Amazoni mõistmineja AWS Lambda. Lisaks kasutame AWS SDK Pythoni jaoks (Boto3) lambda funktsioonide jaoks. Nagu diagrammil näidatud, sisaldab S3 töötlemata ämber redigeerimata andmeid ja redigeeritud S3 kopp sisaldab redigeeritud andmeid pärast Amazon Comprehendi kasutamist DetectPiiEntities
API lambda funktsiooni sees.
Kaasatud kulud
Lisaks Kinesis Data Firehose'i, Amazon S3 ja Lambda kuludele tekitab see lahendus Amazon Comprehendi kasutuskulusid. Teie makstav summa on PII-d ja Lambda-funktsiooni poolt töödeldud tähemärke sisaldavate kirjete koguarvu tegur. Lisateabe saamiseks vaadake Amazon Kinesis Data Firehose'i hinnakujundus, Amazon Comprehend Pricingja AWS lambda hinnakujundus.
Oletame näiteks, et teil on 10,000 500 logikirjet ja võtmeväärtus, millest soovite isikut tuvastada, on 10,000 tähemärki. 50 XNUMX logikirjest tuvastatakse XNUMX, et need sisaldavad isikut tuvastavat teavet. Kulude üksikasjad on järgmised:
Sisaldab PII kulu:
- Iga võtme väärtuse suurus = 500 tähemärki (1 ühik = 100 tähemärki)
- Ühikute arv (100 tähemärki) kirje kohta (minimaalne arv on 3 ühikut) = 5
- Ühikuid kokku = 10,000 5 (kirjet) x 1 (ühikut kirje kohta) x 50,000 (Amazon Comprehendi päringud kirje kohta) = XNUMX XNUMX
- Ühiku hind = 0.000002 dollarit
- Kogukulu isikuandmete tuvastamise logikirjete tuvastamiseks ContainsPiiEntities API abil = 0.1 $ [50,000 0.000002 ühikut x XNUMX $]
Redigeeri PII kulu:
- PII-d sisaldavad ühikud kokku = 50 (kirjet) x 5 (ühikut kirje kohta) x 1 (Amazon Comprehendi päringud kirje kohta) = 250
- Ühiku hind = 0.0001 dollarit
- PII asukoha tuvastamise kogukulu DetectPiiEntities API abil = [ühikute arv] x [ühiku hind] = 250 x 0.0001 $ = 0.025 $
Identifitseerimise ja redigeerimise kogukulu:
- Kogukulu: 0.1 dollarit (kinnitamine, kui väli sisaldab isikut tuvastavat teavet) + 0.025 dollarit (isikut sisaldavate väljade redigeerimine) = 0.125 dollarit
Juurutage lahendus AWS CloudFormationiga
Selle postituse jaoks pakume AWS CloudFormation voogesituse andmete redigeerimine šabloon, mis sisaldab juurutamise kõiki üksikasju, et võimaldada korduvat juurutamist. Juurutamisel loob see mall kaks S3 ämbrit: üks Amazon Kinesis Data Generatorist (KDG) sisse võetud töötlemata näidisandmete salvestamiseks ja teine redigeeritud andmete salvestamiseks. Lisaks loob see Kinesis Data Firehose'i edastusvoo koos DirectPUT
sisendiks ja Lambda funktsioon, mis kutsub Amazon Comprehendi Sisaldab PiiEntities ja Tuvasta PiiEntities API isikuandmete tuvastamiseks ja redigeerimiseks. Lambda funktsioon tugineb kasutaja sisendile keskkonnamuutujates, et määrata kindlaks, milliseid võtmeväärtusi tuleb isikuandmete tuvastamiseks kontrollida.
Selle lahenduse lambda funktsioonil on kasuliku koormuse suurus piiratud 100 KB-ni. Kui antakse kasulik koormus, mille tekst on suurem kui 100 KB, jätab Lambda funktsioon selle vahele.
Lahenduse juurutamiseks toimige järgmiselt.
- Käivitage CloudFormationi virn USA idaosas (N. Virginia)
us-east-1
: - Sisestage virna nimi ja jätke muud parameetrid vaikeväärtustele
- valima Tunnistan, et AWS CloudFormation võib luua kohandatud nimedega IAM-i ressursse.
- Vali Loo virn.
Juurutage ressursse käsitsi
Kui eelistate AWS CloudFormationi kasutamise asemel arhitektuuri käsitsi luua, täitke selles jaotises toodud juhised.
Looge S3 ämbrid
Looge oma S3 ämbrid järgmiste sammudega.
- Amazon S3 konsoolil valige Kopad navigeerimispaanil.
- Vali Loo ämber.
- Looge oma toorandmete jaoks üks salp ja üks redigeeritud andmete jaoks.
- Märkige üles äsja loodud ämbrite nimed.
Looge lambda funktsioon
Lambda funktsiooni loomiseks ja juurutamiseks toimige järgmiselt.
- Valige Lambda konsoolil Loo funktsioon.
- Vali Autor nullist.
- eest Funktsiooni nimi, sisenema
AmazonComprehendPII-Redact
. - eest Runtime, vali Python 3.9.
- eest Arhitektuurvalige x86_64.
- eest Täitmise rollvalige Looge Lambda lubadega uus roll.
- Pärast funktsiooni loomist sisestage järgmine kood:
- Vali juurutada.
- Valige navigeerimispaanil Seadistamine.
- Liigu Keskkonnamuutujad.
- Vali Edit.
- eest Võti, sisenema
keys
. - eest Väärtus, sisestage koma ja tühikuga eraldatud võtmeväärtused, millest soovite isikut tuvastada. Näiteks sisestage
Tweet1
,Tweet2
kui kasutate selle postituse järgmises jaotises esitatud näidistesti andmeid. - Vali Säästa.
- Liigu Üldine konfiguratsioon.
- Vali Edit.
- Muuda väärtust Aegumine kuni 1 minutini.
- Vali Säästa.
- Liigu Õigused.
- Valige alt rolli nimi Täitmise roll.
Teid suunatakse aadressile AWS-i identiteedi- ja juurdepääsuhaldus (IAM) konsool. - eest Lisa õigused, vali Manustage eeskirjad.
- sisene
Comprehend
otsinguribale ja valige reegelComprehendFullAccess
. - Vali Manustage eeskirjad.
Looge Firehose'i kohaletoimetamise voog
Firehose'i edastusvoo loomiseks toimige järgmiselt.
- Kinesis Data Firehose'i konsoolil valige Loo kohaletoimetamise voog.
- eest allikasvalige Otsene PUT.
- eest sihtpunktvalige Amazon S3.
- eest Kohaletoimetamise voo nimi, sisenema
ComprehendRealTimeBlog
. - alla Muutke lähtekirjed AWS Lambda abilvalige lubatud.
- eest AWS lambda funktsioon, sisestage loodud funktsiooni ARN või sirvige funktsioonini
AmazonComprehendPII-Redact
. - eest Buffer Size, määrake väärtuseks 1 MB.
- eest Puhvri intervalljätke 60 sekundiks.
- alla Sihtkoha seaded, valige redigeeritud andmete jaoks loodud S3-salv.
- alla Backup Seaded, valige toorkirjete jaoks loodud S3-salv.
- alla Luba, looge või värskendage IAM-roll või valige olemasolev roll, millel on õiged õigused.
- Vali Loo kohaletoimetamise voog.
Rakendage andmete voogesituse lahendust koos Kinesise andmegeneraatoriga
Saate kasutada Kinesise andmegeneraatorit (KDG), et sisestada näidisandmed Kinesis Data Firehose'i ja testida lahendust. Selle protsessi lihtsustamiseks pakume Lambda funktsiooni ja CloudFormationi malli loomiseks Amazon Cognito kasutajale ja määrake KDG kasutamiseks sobivad õigused.
- Kohta Amazon Kinesise andmegeneraatori leht, vali Looge CloudFormationiga Cognito kasutaja.Teid suunatakse virna loomiseks AWS CloudFormationi konsooli.
- Sisestage kasutajanimi ja parool kasutajale, kellega KDG-sse sisse logite.
- Jätke muud sätted vaikeseadetele ja looge oma virn.
- Kohta Väljundid valige KDG kasutajaliidese link.
- Sisestage sisselogimiseks oma kasutajanimi ja parool.
Saatke testikirjed ja kinnitage redigeerimine Amazon S3-s
Lahenduse testimiseks toimige järgmiselt.
- Logige sisse eelmises etapis loodud KDG URL-ile.
- Valige piirkond, kus AWS CloudFormationi virn juurutati.
- eest Voog/edastusvoog, valige enda loodud edastusvoog (kui kasutasite malli, on sellel vorming
accountnumber-awscomprehend-blog
). - Jätke muud seaded nende vaikeseadetele.
- Kirjemalli jaoks saate luua oma testid või kasutada järgmist malli. Kui kasutate testimiseks allolevaid näidisandmeid, peaksid teil olema keskkonnamuutujad värskendatud
AmazonComprehendPII-Redact
Lambda funktsioonTweet1
,Tweet2
. Kui juurutatakse CloudFormationi kaudu, värskendage keskkonnamuutujaidTweet1
,Tweet2
loodud lambda funktsiooni sees. Näidistesti andmed on allpool: - Vali Andmete saatmineja oodake mõni sekund, kuni kirjed teie voogu saadetakse.
- Mõne sekundi pärast peatage KDG generaator ja kontrollige, kas S3 ämbrites on tarnitud faile.
Järgmine on S3 töötlemata ämbri toorandmete näide:
Järgmine on redigeeritud S3 ämbri redigeeritud andmete näide:
Tundlik teave on redigeeritud kirjadest eemaldatud, tagades kindlustunde, et saate neid andmeid lõppsüsteemidega jagada.
Korista ära
Kui olete selle lahendusega katsetamise lõpetanud, puhastage oma ressursid, kasutades AWS CloudFormationi konsooli, et kustutada kõik selles näites juurutatud ressursid. Kui järgisite käsitsi juhiseid, peate kaks ämbrit käsitsi kustutama AmazonComprehendPII-Redact
funktsioon ComprehendRealTimeBlog
oja, logirühma jaoks ComprehendRealTimeBlog
voog ja kõik loodud IAM-rollid.
Järeldus
See postitus näitas teile, kuidas integreerida PII redigeerimine oma peaaegu reaalajas voogedastusarhitektuuri ja lühendada andmetöötluse aega, tehes redigeerimise lennu ajal. Selle stsenaariumi korral edastate redigeeritud andmed oma lõppkasutajatele ja andmejärve administraator kaitseb töötlemata ämbri hilisemaks kasutamiseks. Samuti saate Amazon Comprehendiga luua täiendava töötluse, et tuvastada tooni või meeleolu, tuvastada andmetes olevad olemid ja klassifitseerida iga sõnum.
Esitasime selle postituse osana iga teenuse jaoks individuaalsed sammud ja lisasime ka CloudFormationi malli, mis võimaldab teil oma kontol vajalikke ressursse varustada. Seda malli tuleks kasutada ainult kontseptsiooni tõendamiseks või testimise stsenaariumide jaoks. Vaadake arendaja juhendeid Amazoni mõistmine, Lambdaja Kinesis Data Firehose mis tahes teenusepiirangute jaoks.
PII tuvastamise ja redigeerimise alustamiseks vt isikut tuvastav teave (PII). Selle postituse näidisarhitektuuri abil saate Kinesis Data Firehose'i andmete teisenduse abil integreerida mis tahes Amazon Comprehend API-d peaaegu reaalajas andmetega. Lisateavet selle kohta, mida saate Kinesis Data Firehose'i peaaegu reaalajas andmetega luua, vaadake Amazon Kinesis Data Firehose'i arendaja juhend. See lahendus on saadaval kõigis AWS-i piirkondades, kus on saadaval Amazon Comprehend ja Kinesis Data Firehose.
Autoritest
Joe Morotti on Amazon Web Servicesi (AWS) lahenduste arhitekt, kes aitab ettevõtte kliente kogu USA keskläänes. Ta on täitnud mitmesuguseid tehnilisi rolle ja naudib kliendi kunsti võimalikkuse näitamist. Vabal ajal veedab ta perega kvaliteetaega uusi kohti uurides ja oma spordimeeskonna sooritust üle analüüsides
Sriharsh Adari on Amazon Web Servicesi (AWS) vanemlahenduste arhitekt, kus ta aitab klientidel töötada äritulemustest tagasi, et arendada AWS-is uuenduslikke lahendusi. Aastate jooksul on ta aidanud mitmeid kliente andmeplatvormide ümberkujundamisel tööstuse vertikaalsetes valdkondades. Tema põhiteadmiste hulka kuuluvad tehnoloogiastrateegia, andmeanalüüs ja andmeteadus. Vabal ajal meeldib talle tennist mängida, telesaateid vaadata ja Tablat mängida.
- AI
- ai kunst
- ai kunsti generaator
- on robot
- Amazon kinesis
- analytics
- tehisintellekti
- tehisintellekti sertifikaat
- tehisintellekt panganduses
- tehisintellekti robot
- tehisintellekti robotid
- tehisintellekti tarkvara
- AWS-i masinõpe
- blockchain
- plokiahela konverents ai
- coingenius
- vestluslik tehisintellekt
- krüptokonverents ai
- dall's
- sügav õpe
- google ai
- Keskmine (200)
- Kinesis Data Firehose
- masinõpe
- Platon
- plato ai
- Platoni andmete intelligentsus
- Platoni mäng
- PlatoData
- platogaming
- skaala ai
- süntaks
- sephyrnet