Kuidas hinnata sünteetiliste andmete kvaliteeti – mõõtmine täpsuse, kasulikkuse ja privaatsuse vaatenurgast PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kuidas hinnata sünteetiliste andmete kvaliteeti – mõõtmine täpsuse, kasulikkuse ja privaatsuse vaatenurgast

Üha enam andmekesksemas maailmas peavad ettevõtted keskenduma nii väärtusliku füüsilise teabe kogumisele kui ka sellise teabe genereerimisele, mida nad vajavad, kuid mida ei saa kergesti tabada. Juurdepääs andmetele, reguleerimine ja vastavus on analüütika ja tehisintellekti (AI) innovatsiooni jaoks üha suurem hõõrdumise allikas.

Kõrgelt reguleeritud sektorites, nagu finantsteenused, tervishoid, bioteadused, autotööstus, robootika ja tootmine, on probleem veelgi suurem. See takistab süsteemi kavandamist, andmete jagamist (sisemine ja väline), monetiseerimist, analüütikat ja masinõpet (ML).

Sünteetilised andmed on tööriist, mis lahendab paljusid andmeprobleeme, eriti tehisintellekti ja analüüsiprobleeme, nagu privaatsuse kaitse, eeskirjade järgimine, juurdepääsetavus, andmete nappus ja eelarvamus. See hõlmab ka andmete jagamist ja andmeteni jõudmise aega (ja seega ka turule jõudmiseks kuluvat aega).

Sünteetilised andmed genereeritakse algoritmiliselt. See peegeldab lähteandmete statistilisi omadusi ja mustreid. Kuid oluline on, et see ei sisalda tundlikke, privaatseid ega isikuandmepunkte.

Esitate sünteetiliste andmete kohta küsimusi ja saate samad vastused, mis tegelikest andmetest.

Meie varasem postitus, demonstreerisime, kuidas kasutada võistlevaid võrgustikke, nagu Generative Adversarial Networks (GANS), et luua tabelipõhiseid andmekogumeid, et tõhustada krediidipettuste mudelite koolitust.

Selleks, et ettevõtte sidusrühmad saaksid oma ML- ja analüütikaprojektide jaoks sünteetilisi andmeid kasutusele võtta, on oluline mitte ainult tagada, et loodud sünteetilised andmed vastavad eesmärgile ja eeldatavatele järgnevatele rakendustele, vaid ka selleks, et nad saaksid mõõta ja demonstreerida loodud andmed.

Seoses kasvavate juriidiliste ja eetiliste kohustustega privaatsuse säilitamisel on sünteetiliste andmete üheks tugevaks küljeks võime eemaldada sünteesi käigus tundlikku ja originaalset teavet. Seetõttu vajame lisaks kvaliteedile ka mõõdikuid, et hinnata privaatse teabe lekete riski, kui neid on, ja hinnata, kas genereerimisprotsess ei ole algandmete meeldejätmine ega kopeerimine.

Kõige selle saavutamiseks saame sünteetiliste andmete kvaliteedi kaardistada dimensioonideks, mis aitavad kasutajatel, huvirühmadel ja meil genereeritud andmeid paremini mõista.

Sünteetiliste andmete kvaliteedi hindamise kolm mõõdet

Loodud sünteetilisi andmeid mõõdetakse kolme põhidimensiooni alusel:

  1. Truudus
  2. Kasulikkus
  3. Privaatsus

Need on mõned küsimused mis tahes loodud sünteetiliste andmete kohta, millele peaks vastama sünteetiliste andmete kvaliteediaruanne.

  • Kui sarnased on need sünteetilised andmed võrreldes algse treeningkomplektiga?
  • Kui kasulikud on need sünteetilised andmed meie allavoolu rakenduste jaoks?
  • Kas algsetest treeningandmetest on sünteetilistesse andmetesse lekkinud mingit teavet?
  • Kas meie mudel on tahtmatult sünteesinud andmeid, mida peetakse reaalses maailmas tundlikuks (muudsetest andmekogumitest, mida mudeli treenimiseks ei kasutata)?

Mõõdikud, mis tõlgivad kõiki neid dimensioone lõppkasutajate jaoks, on mõnevõrra paindlikud. Lõppude lõpuks võivad genereeritavad andmed jaotuse, suuruse ja käitumise poolest erineda. Neid peaks olema ka lihtne mõista ja tõlgendada.

Lõppkokkuvõttes peavad mõõdikud olema täielikult andmepõhised ega nõua eelnevaid teadmisi ega domeenispetsiifilist teavet. Kui aga kasutaja soovib rakendada konkreetse ärivaldkonna jaoks kehtivaid konkreetseid reegleid ja piiranguid, peaks ta saama need sünteesiprotsessi käigus määratleda, et veenduda domeenispetsiifilise täpsuse täitmises.

Vaatleme kõiki neid mõõdikuid üksikasjalikumalt järgmistes jaotistes.

Mõõdikud truuduse mõistmiseks

Igas andmeteaduse projektis peame mõistma, kas teatud valimipopulatsioon on meie lahendatava probleemi jaoks asjakohane. Samuti peame genereeritud sünteetiliste andmete asjakohasuse hindamise protsessis hindama neid truudus võrreldes originaaliga.

Nende mõõdikute visuaalne esitus muudab nende mõistmise lihtsamaks. Võiksime illustreerida, kas peeti kinni kategooriate kardinaalsusest ja suhtarvust, säilitati seosed erinevate muutujate vahel jne.

Andmete visualiseerimine ei aita mitte ainult hinnata sünteetiliste andmete kvaliteeti, vaid sobib andmete paremaks mõistmiseks ka andmeteaduse elutsükli ühe esialgse etapina.

Sukeldume üksikasjalikumalt mõnda täpsuse mõõdikut.

Uurimuslikud statistilised võrdlused

Uurimusliku statistilise võrdluse raames uuritakse algsete ja sünteetiliste andmekogumite omadusi, kasutades peamisi statistilisi meetmeid, nagu keskmine, mediaan, standardhälve, erinevad väärtused, puuduvad väärtused, miinimumid, maksimumid, pidevate tunnuste kvartiili vahemikud ja arv. kirjeid kategooria kohta, puuduvad väärtused kategooria kohta ja enamus esinevaid märke kategooriaatribuutide jaoks.

See võrdlus tuleks läbi viia algse kinnipidamise andmestiku ja sünteetiliste andmete vahel. See hindamine näitab, kas võrreldavad andmekogumid on statistiliselt sarnased. Kui need pole nii, siis saame aru, millised funktsioonid ja meetmed erinevad. Kui märkate olulist erinevust, peaksite kaaluma sünteetiliste andmete ümberõpetamist ja taastamist erinevate parameetritega.

See test toimib esmase sõelumisena, et veenduda, et sünteetilised andmed on algse andmekogumi suhtes piisavalt truuduses ja võivad seetõttu läbida rangema testimise.

Histogrammi sarnasuse skoor

Histogrammi sarnasuse skoor mõõdab iga funktsiooni sünteetiliste ja algsete andmekogumite marginaalseid jaotusi.

Sarnasusskoor piirdub nulli ja ühega, kusjuures skoor üks näitab, et sünteetilised andmejaotused kattuvad ideaalselt algandmete jaotustega.

Ühele lähedane skoor annaks kasutajatele kindlustunde, et hoidmisandmestik ja sünteetiline andmestik on statistiliselt sarnased.

Vastastikune infoskoor

Vastastikune teabeskoor mõõdab kahe tunnuse, numbrilise või kategoorilise, vastastikust sõltuvust, mis näitab, kui palju teavet on võimalik saada ühe tunnuse kohta, jälgides teist.

Vastastikune teave võib mõõta mittelineaarseid seoseid, pakkudes põhjalikumat arusaama sünteetiliste andmete kvaliteedist, kuna see võimaldab meil mõista muutuja suhete säilimise ulatust.

Skoor üks näitab, et tunnuste vastastikune sõltuvus on sünteetilistes andmetes suurepäraselt fikseeritud.

Korrelatsiooniskoor

Korrelatsiooniskoor mõõdab, kui hästi on algse andmekogumi korrelatsioonid sünteetilistesse andmetesse salvestatud.

Kahe või enama veeru vahelised korrelatsioonid on ML-rakenduste jaoks äärmiselt olulised, mis aitavad avastada seoseid funktsioonide ja sihtmuutuja vahel ning luua hästi koolitatud mudeli.

Korrelatsiooniskoor piirdub nulli ja ühega, kusjuures skoor üks näitab, et korrelatsioonid on ideaalselt sobitatud.

Erinevalt struktureeritud tabeliandmetest, millega me tavaliselt andmetega seotud probleemide korral kokku puutume, on teatud tüüpi struktureeritud andmetel konkreetne käitumine, kus varasemad vaatlused võivad mõjutada järgmist vaatlust. Neid nimetatakse aegridadeks või järjestikusteks andmeteks – näiteks andmekogum, mis sisaldab toatemperatuuri igatunniseid mõõtmisi.

Selline käitumine tähendab, et on vaja määratleda teatud mõõdikud, mis suudavad konkreetselt mõõta nende aegridade andmestike kvaliteeti

Autokorrelatsiooni ja osalise autokorrelatsiooni skoor

Kuigi autokorrelatsioon sarnaneb korrelatsiooniga, näitab autokorrelatsioon aegrea suhet selle praeguses väärtuses, kuna see on seotud selle varasemate väärtustega. Eelmiste ajavahede mõjude eemaldamine annab osalise autokorrelatsiooni. Seetõttu mõõdab autokorrelatsiooni skoor, kui hästi on sünteetilised andmed algse andmestiku olulisi autokorrelatsioone või osalisi korrelatsioone tabanud.

Mõõdikud kasulikkuse mõistmiseks

Nüüd oleme võib-olla statistiliselt aru saanud, et sünteetilised andmed on sarnased algse andmekogumiga. Lisaks peame hindama ka seda, kui hästi sünteesitud andmestik suudab lahendada tavalisi andmeteaduse probleeme, kui seda treenitakse mitme ML-algoritmiga.

Kasutades järgmist kasulikkus mõõdikutega, püüame luua kindlustunde, et suudame algandmete toimimise osas tegelikkuses saavutada ka allavoolu rakenduste jõudlust.

Ennustusskoor

Sünteetiliste andmete jõudlust võrreldes algsete tegelike andmetega saab mõõta ML-mudelite abil. Allavoolu mudeli skoor kajastab sünteetiliste andmete kvaliteeti, võrreldes nii sünteetiliste kui ka algsete andmekogumitega koolitatud ja algsest andmekogumist kinnipeetud testimisandmetega kinnitatud ML-mudelite jõudlust. See annab a Treeni sünteetilise testi tegelik tulemus (TSTR). ja Treenige Real Test Real (TRTR) skoor vastavalt.

TSTR, TRTR hinded ja funktsiooni tähtsuse skoor (autori pilt)

Skoor sisaldab laia valikut kõige usaldusväärsemaid ML-algoritme nii regressiooni- kui ka klassifitseerimisülesannete jaoks. Mitme klassifikaatori ja regressori kasutamine tagab, et skoor on enamiku algoritmide puhul üldistatavam, nii et sünteetilisi andmeid võidakse tulevikus kasulikuks pidada.

Lõpuks, kui TSTR-skoor ja TRTR-skoor on võrreldavad, näitab see, et sünteetilistel andmetel on kvaliteet, mida saab kasutada tõhusate ML-mudelite koolitamiseks reaalsete rakenduste jaoks.

Funktsiooni tähtsuse skoor

Ennustusskooriga tugevalt seotud funktsioonide olulisuse (FI) skoor laiendab seda, lisades TSTR- ja TRTR-skooridele tõlgendatavuse.

F1 skoor võrdleb saadud funktsiooni tähtsusjärjestuse muutusi ja stabiilsust prognoosiskooriga. Sünteetilist andmekogumit peetakse väga kasulikuks, kui see annab funktsioonide tähtsuse järjekorra algsete tegelike andmetega.

QScore

Veendumaks, et meie äsja loodud andmete põhjal koolitatud mudel annaks samadele küsimustele samad vastused kui algandmetega koolitatud mudel, kasutame Qscore'i. See mõõdab sünteetiliste andmete allavoolu jõudlust, käivitades nii sünteetilistes kui ka algsetes (ja hoidmisandmetes) palju juhuslikel koondamispõhiseid päringuid.

Mõte seisneb selles, et mõlemad päringud peaksid andma sarnaseid tulemusi.

Kõrge QScore tagab, et päringu- ja koondamistoiminguid kasutavad allavoolurakendused suudavad pakkuda peaaegu võrdset väärtust algse andmestiku omaga.

Mõõdikud privaatsuse mõistmiseks

koos privaatsus juba kehtivate eeskirjade järgi on eetiline kohustus ja juriidiline nõue tagada tundliku teabe kaitse.

Enne seda, kui neid sünteetilisi andmeid saab vabalt jagada ja allavoolu rakendustes kasutada, peame kaaluma privaatsusmõõdikuid, mis aitavad sidusrühmadel mõista, kus on loodud sünteetilised andmed võrreldes algandmetega lekkinud teabe ulatuse osas. Lisaks peame tegema kriitilisi otsuseid selle kohta, kuidas sünteetilisi andmeid saab jagada ja kasutada.

Täpne mänguskoor

Privaatsuse otsene ja intuitiivne hindamine on otsida sünteetiliste kirjete hulgast tegelike andmete koopiaid. Täpse vaste skoor arvestab sünteetilisest komplektist leitud tõeliste rekordite arvu.

Skoor peaks olema null, mis näitab, et sünteetilistes andmetes puudub tegelik teave. See mõõdik toimib enne täiendavate privaatsusmõõdikute hindamist sõelumismehhanismina.

Naabrite privaatsusskoor

Lisaks mõõdab naabrite privaatsusskoor sünteetiliste kirjete suhet, mis võivad olla tegelike kirjetega liiga sarnased. See tähendab, et kuigi need ei ole otsesed koopiad, on need potentsiaalsed privaatsuse lekkepunktid ja kasuliku teabe allikad järelduste tegemiseks.

Skoor arvutatakse sünteetiliste andmete põhjal, mis kattusid algsete andmetega, suuremõõtmelise lähinaabrite otsinguga.

Liikmelisuse järeldusskoor

Andmeteaduse elutsüklis, kui mudel on koolitatud, ei vaja see enam juurdepääsu koolitusnäidistele ja võib teha ennustusi nähtamatute andmete põhjal. Samamoodi saab meie puhul pärast süntesaatori mudeli väljaõpetamist luua sünteetiliste andmete näidiseid, ilma et oleks vaja algandmeid.

Rünnakutüübi kaudu, mida nimetatakse "liikmelisuse järeldamise rünnak", võivad ründajad proovida paljastada andmeid, mida kasutati sünteetiliste andmete loomiseks, ilma et neil oleks juurdepääs algandmetele. Selle tulemuseks on privaatsuse kompromiss.

Liikmelisuse järelduse skoor mõõdab liikmelisuse järeldamise rünnaku õnnestumise tõenäosust.

liikmelisuse järelduse skoor

Madal skoor viitab võimalikule järeldusele, et konkreetne kirje oli sünteetiliste andmete loomiseni viinud koolitusandmestiku liige. Teisisõnu võivad rünnakud järeldada üksikkirje üksikasju, kahjustades sellega privaatsust.

Kõrge liikmelisuse järelduse skoor näitab, et ründaja ei suuda tõenäoliselt kindlaks teha, kas konkreetne kirje oli osa sünteetiliste andmete loomiseks kasutatud algsest andmekogumist. See tähendab ka seda, et sünteetiliste andmete kaudu ei kahjustatud ühegi üksikisiku teavet.

Hoidmise kontseptsioon

Oluline hea tava, mida peame järgima, on veenduda, et sünteetilised andmed on piisavalt üldised ega sobiks üle algandmetega, mille põhjal neid õpetati. Tüüpilises andmeteaduse voos jätame ML-mudelite (nt Random Foresti klassifikaatori) loomisel kõrvale katseandmed, koolitame mudeleid koolitusandmete abil ja hindame nähtamatute testandmete põhjal mõõdikuid.

Sarnaselt jätame sünteetiliste andmete puhul kõrvale algandmete valimi – mida üldiselt nimetatakse kinnipeetavateks andmeteks või nähtamatuteks kinnipeetud testandmeteks – ja hindame loodud sünteetilisi andmeid kinnipeetava andmekogumi suhtes.

Säilitusandmekogum peaks olema algandmete esitus, kuid seda pole sünteetiliste andmete loomisel näha. Seetõttu on ülioluline, et originaali ja sünteetiliste andmekogumite võrdlemisel oleksid kõikide mõõdikute jaoks sarnased hinded.

Kui saadakse sarnased hinded, saame kindlaks teha, et sünteetilised andmepunktid ei ole algsete andmepunktide meeldejätmise tulemus, säilitades samal ajal sama täpsuse ja kasulikkuse.

Lõplik mõtted

Maailm hakkab mõistma sünteetiliste andmete strateegilist tähtsust. Andmeteadlaste ja andmegeneraatoritena on meie kohus luua usaldust sünteetiliste andmete vastu, mida genereerime, ja veenduda, et sellel on eesmärk.

Sünteetilised andmed on muutumas andmeteaduse arendamise tööriistakomplekti kohustuslikuks osaks. MIT Technology Review on märkida sünteetilised andmed on üks 2022. aasta läbimurdetehnoloogiaid. Me ei kujutaks ette suurepärase väärtusega tehisintellekti mudelite loomist ilma sünteetiliste andmeteta, väidab Gartner.

Järgi McKinsey, sünteetilised andmed minimeerivad kulusid ja takistusi, mis teil muidu oleks algoritmide väljatöötamisel või andmetele juurdepääsu hankimisel.

Sünteetiliste andmete genereerimine seisneb järgnevate rakenduste tundmises ja sünteetiliste andmete kvaliteedi erinevate dimensioonide vaheliste kompromisside mõistmises.

kokkuvõte

Sünteetiliste andmete kasutajana on oluline määratleda selle kasutusjuhtumi kontekst, mille jaoks iga sünteetiliste andmete näidist tulevikus kasutatakse. Nii nagu pärisandmete puhul, sõltub ka sünteetiliste andmete kvaliteet kavandatavast kasutusjuhtumist ja sünteesimiseks valitud parameetritest.

Näiteks on sünteetilistes andmetes kõrvalekallete hoidmine algandmetes kasulik pettuste tuvastamise kasutusjuhtumi puhul. Siiski ei ole see kasulik tervishoiuteenuste kasutamisel, kui on probleeme privaatsusega, kuna kõrvalekalded võivad üldiselt olla teabe lekkimine.

Lisaks on truuduse, kasulikkuse ja privaatsuse vahel kompromiss. Andmeid ei saa kõigi kolme jaoks korraga optimeerida. Need mõõdikud võimaldavad sidusrühmadel seada prioriteediks iga kasutusjuhtumi jaoks olulise ja hallata loodud sünteetiliste andmete ootusi.

Lõppkokkuvõttes, kui näeme iga mõõdiku väärtusi ja kui need vastavad ootustele, võivad sidusrühmad olla kindlad lahendustes, mida nad sünteetiliste andmete põhjal loovad.

Struktureeritud sünteetiliste andmete kasutusjuhtumid hõlmavad laia rakendusala alates tarkvaraarenduse katseandmetest kuni sünteetiliste kontrollvarrede loomiseni kliinilistes uuringutes.

Pöörduge nende võimaluste uurimiseks või looge väärtuse demonstreerimiseks PoC.


Kuidas hinnata sünteetiliste andmete kvaliteeti – mõõtmine täpsuse, kasulikkuse ja privaatsuse vaatenurgast PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Faris Haddad on Data & Insightsi juht AABG Strategic Pursuits meeskonnas. Ta aitab ettevõtetel edukalt andmepõhiseks muutuda.

Ajatempel:

Veel alates AWS-i masinõpe