How To Evaluate The Quality Of The Synthetic Data – Measuring From The Perspective Of Fidelity, Utility, And Privacy

Ponovno objavil Platon

Spremljevalci: 0

V svetu, ki je vedno bolj osredotočen na podatke, se morajo podjetja osredotočiti na zbiranje dragocenih fizičnih informacij in ustvarjanje informacij, ki jih potrebujejo, a jih ne morejo preprosto zajeti. Dostop do podatkov, ureditev in skladnost so vedno večji vir trenj za inovacije v analitiki in umetni inteligenci (AI).

Za visoko regulirane sektorje, kot so finančne storitve, zdravstvo, znanosti o življenju, avtomobilizem, robotika in proizvodnja, je težava še večja. Povzroča ovire pri oblikovanju sistema, izmenjavi podatkov (notranji in zunanji), monetizaciji, analitiki in strojnem učenju (ML).

Sintetični podatki so orodje, ki obravnava številne podatkovne izzive, zlasti vprašanja umetne inteligence in analitike, kot so varstvo zasebnosti, skladnost s predpisi, dostopnost, pomanjkanje podatkov in pristranskost. To vključuje tudi izmenjavo podatkov in čas do podatkov (in s tem čas do trženja).

Sintetični podatki so algoritemsko ustvarjeni. Odraža statistične lastnosti in vzorce iz izvornih podatkov. Pomembno pa je, da ne vsebuje občutljivih, zasebnih ali osebnih podatkovnih točk.

Postavljate vprašanja o sintetičnih podatkih in dobite enake odgovore, kot bi jih dobili iz resničnih podatkov.

V našem prejšnja objava, prikazali smo, kako uporabiti kontradiktorna omrežja, kot so Generative Adversarial Networks (GANS), za ustvarjanje tabelarnih podatkovnih nizov za izboljšanje usposabljanja modela kreditnih goljufij.

Za poslovne deležnike, da sprejmejo sintetične podatke za svoje ML in analitične projekte, je nujno zagotoviti ne samo, da bodo ustvarjeni sintetični podatki ustrezali namenu in pričakovanim nadaljnjim aplikacijam, ampak tudi, da lahko merijo in dokazujejo kakovost ustvarjene podatke.

Z naraščajočimi pravnimi in etičnimi obveznostmi pri ohranjanju zasebnosti je ena od prednosti sintetičnih podatkov zmožnost odstranitve občutljivih in izvirnih informacij med njihovo sintezo. Zato poleg kakovosti potrebujemo meritve za oceno tveganja uhajanja zasebnih informacij, če sploh, in oceno, da proces generiranja ni »zapomnitev« ali kopiranje katerega koli izvirnega podatka.

Da bi dosegli vse to, lahko kakovost sintetičnih podatkov preslikamo v dimenzije, ki uporabnikom, deležnikom in nam pomagajo bolje razumeti ustvarjene podatke.

Tri dimenzije ocene kakovosti sintetičnih podatkov

Ustvarjeni sintetični podatki se merijo glede na tri ključne razsežnosti:

Zvestoba
Utility
Zasebnost

To je nekaj vprašanj o vseh ustvarjenih sintetičnih podatkih, na katera bi moralo odgovoriti poročilo o kakovosti sintetičnih podatkov:

Kako podobni so ti sintetični podatki v primerjavi s prvotnim nizom usposabljanj?
Kako uporabni so ti sintetični podatki za naše nadaljnje aplikacije?
Ali so iz prvotnih podatkov o usposabljanju v sintetične podatke ušle kakšne informacije?
Ali je naš model nenamerno sintetiziral kakršne koli podatke, ki v resničnem svetu veljajo za občutljive (iz drugih nizov podatkov, ki se ne uporabljajo za usposabljanje modela)?

Meritve, ki prevedejo vsako od teh dimenzij za končne uporabnike, so nekoliko prilagodljive. Navsezadnje se lahko podatki, ki jih je treba ustvariti, razlikujejo glede na porazdelitev, velikost in obnašanje. Prav tako morajo biti enostavni za razumevanje in interpretacijo.

Konec koncev morajo meritve v celoti temeljiti na podatkih in ne zahtevajo nobenega predznanja ali informacij, specifičnih za domeno. Vendar, če želi uporabnik uporabiti posebna pravila in omejitve, ki veljajo za določeno poslovno domeno, jih mora imeti možnost definirati med postopkom sinteze, da se prepriča, da je izpolnjena zvestoba, specifična za domeno.

Vsako od teh meritev si podrobneje ogledamo v naslednjih razdelkih.

Meritve za razumevanje zvestobe

V vsakem projektu podatkovne znanosti moramo razumeti, ali je določena vzorčna populacija pomembna za problem, ki ga rešujemo. Podobno moramo za postopek ocenjevanja ustreznosti ustvarjenih sintetičnih podatkov oceniti glede na zvestoba v primerjavi z izvirnikom.

Vizualne predstavitve teh meritev olajšajo njihovo razumevanje. Lahko bi ponazorili, ali sta bili upoštevani kardinalnost in razmerje kategorij, ohranjene korelacije med različnimi spremenljivkami ipd.

Vizualizacija podatkov ne pomaga samo pri ocenjevanju kakovosti sintetičnih podatkov, ampak je tudi eden od začetnih korakov v življenjskem ciklu znanosti o podatkih za boljše razumevanje podatkov.

Poglobimo se v nekatere meritve zvestobe bolj podrobno.

Raziskovalne statistične primerjave

Znotraj raziskovalnih statističnih primerjav se značilnosti izvirnih in sintetičnih naborov podatkov raziskujejo z uporabo ključnih statističnih mer, kot so povprečje, mediana, standardni odklon, različne vrednosti, manjkajoče vrednosti, minimumi, maksimumi, razponi kvartilov za zvezne značilnosti in število zapisov na kategorijo, manjkajoče vrednosti na kategorijo in največkrat pojavljajočih se znakov za kategorične atribute.

To primerjavo je treba opraviti med izvirnim naborom podatkov o zadržanju in sintetičnimi podatki. Ta ocena bi pokazala, ali so primerjani nizi podatkov statistično podobni. Če niso, potem bomo razumeli, katere funkcije in ukrepi so drugačni. Razmislite o ponovnem usposabljanju in regeneraciji sintetičnih podatkov z različnimi parametri, če opazite pomembno razliko.

Ta preizkus deluje kot začetni pregled, s katerim se zagotovi, da so sintetični podatki razumno zvestobe izvirnemu naboru podatkov in so zato lahko koristno podvrženi strožjemu testiranju.

Rezultat podobnosti histograma

Rezultat podobnosti histograma meri obrobne porazdelitve sintetičnih in izvirnih podatkovnih nizov vsake značilnosti.

Ocena podobnosti je omejena med nič in ena, pri čemer ocena ena pomeni, da se distribucije sintetičnih podatkov popolnoma prekrivajo s porazdelitvami izvirnih podatkov.

Rezultat blizu ena bi uporabnikom dal zaupanje, da sta nabor zadržanih podatkov in sintetični nabor podatkov statistično podobna.

Ocena medsebojnega informiranja

Rezultat vzajemne informacije meri medsebojno odvisnost dveh značilnosti, numeričnih ali kategoričnih, in kaže, koliko informacij je mogoče pridobiti iz ene značilnosti z opazovanjem druge.

Medsebojne informacije lahko merijo nelinearne odnose, kar zagotavlja celovitejše razumevanje kakovosti sintetičnih podatkov, saj nam omogoča razumevanje obsega ohranjanja odnosov spremenljivk.

Ocena ena pomeni, da je bila medsebojna odvisnost med značilnostmi popolnoma zajeta v sintetičnih podatkih.

Rezultat korelacije

Rezultat korelacije meri, kako dobro so bile korelacije v izvirnem naboru podatkov zajete v sintetičnih podatkih.

Korelacije med dvema ali več stolpci so izjemno pomembne za aplikacije ML, ki pomagajo odkriti razmerja med funkcijami in ciljno spremenljivko ter pomagajo ustvariti dobro usposobljen model.

Rezultat korelacije je omejen med nič in ena, pri čemer rezultat ena pomeni, da so se korelacije popolnoma ujemale.

Za razliko od strukturiranih tabelaričnih podatkov, s katerimi se običajno srečujemo pri težavah s podatki, imajo nekatere vrste strukturiranih podatkov posebno vedenje, kjer imajo pretekla opazovanja verjetnost, da bodo vplivala na naslednje opazovanje. Ti so znani kot časovni nizi ali zaporedni podatki – na primer nabor podatkov z urnimi meritvami sobne temperature.

To vedenje pomeni, da je treba definirati določene meritve, ki lahko posebej merijo kakovost teh naborov podatkov časovnih vrst

Rezultat avtokorelacije in delne avtokorelacije

Čeprav je podobna korelaciji, avtokorelacija prikazuje razmerje med časovno vrsto pri njeni trenutni vrednosti, kot je povezana z njenimi prejšnjimi vrednostmi. Odstranitev učinkov prejšnjih časovnih zamikov prinese delno avtokorelacijo. Zato rezultat avtokorelacije meri, kako dobro so sintetični podatki zajeli pomembne avtokorelacije ali delne korelacije iz izvirnega nabora podatkov.

Meritve za razumevanje uporabnosti

Zdaj smo morda statistično spoznali, da so sintetični podatki podobni izvirnemu naboru podatkov. Poleg tega moramo oceniti tudi, kako dobro se sintetizirani nabor podatkov obnese pri pogostih problemih znanosti o podatkih, ko se usposablja na več algoritmih ML.

Z uporabo naslednjega pripomoček metrike, želimo zgraditi zaupanje, da lahko dejansko dosežemo zmogljivost nadaljnjih aplikacij glede na to, kako so delovali izvirni podatki.

Rezultat napovedi

Merjenje učinkovitosti sintetičnih podatkov v primerjavi z izvirnimi realnimi podatki je mogoče izvesti z modeli ML. Rezultat modela na nižji stopnji zajame kakovost sintetičnih podatkov s primerjavo uspešnosti modelov ML, usposobljenih na sintetičnih in izvirnih naborih podatkov ter potrjenih na zadržanih podatkih testiranja iz izvirnega nabora podatkov. To zagotavlja a Train Synthetic Test Real (TSTR) rezultat in Train Real Test Real (TRTR) rezultat oz.

Rezultati TSTR, TRTR in ocena pomembnosti značilnosti (slika avtorja)

Rezultat vključuje široko paleto najbolj zaupanja vrednih algoritmov ML za naloge regresije ali klasifikacije. Uporaba več klasifikatorjev in regresorjev zagotavlja, da je rezultat bolj posplošljiv v večini algoritmov, tako da se sintetični podatki lahko štejejo za uporabne v prihodnosti.

Na koncu, če sta rezultat TSTR in rezultat TRTR primerljivi, to pomeni, da imajo sintetični podatki kakovost, ki se uporablja za usposabljanje učinkovitih modelov ML za aplikacije v resničnem svetu.

Ocena pomembnosti značilnosti

Rezultat pomembnosti lastnosti (FI), ki je zelo povezan z rezultatom napovedi, ga razširi z dodajanjem interpretabilnosti rezultatom TSTR in TRTR.

Rezultat F1 primerja spremembe in stabilnost vrstnega reda pomembnosti značilnosti, pridobljenega z rezultatom napovedi. Sintetični nabor podatkov velja za visoko uporabnega, če daje enak vrstni red pomembnosti značilnosti kot izvirni resnični podatki.

QScore

Da bi zagotovili, da bo model, usposobljen na naših na novo ustvarjenih podatkih, dal enake odgovore na ista vprašanja kot model, usposobljen na podlagi izvirnih podatkov, uporabljamo Qscore. To meri nadaljnjo zmogljivost sintetičnih podatkov z izvajanjem številnih naključnih poizvedb, ki temeljijo na združevanju, na sintetičnih in izvirnih (in zadržanih) naborih podatkov.

Ideja je, da bi morali obe poizvedbi vrniti podobne rezultate.

Visok QScore zagotavlja, da lahko nadaljnje aplikacije, ki uporabljajo poizvedovanje in operacije združevanja, zagotovijo skoraj enako vrednost kot izvirni nabor podatkov.

Meritve za razumevanje zasebnosti

z zasebnost predpisi, ki že veljajo, je etična obveznost in pravna zahteva zagotoviti, da so občutljivi podatki zaščiteni.

Preden lahko te sintetične podatke prosto delimo in uporabimo za nadaljnje aplikacije, moramo razmisliti o meritvah zasebnosti, ki lahko zainteresiranim stranem pomagajo razumeti, kje so ustvarjeni sintetični podatki v primerjavi z izvirnimi podatki glede obsega uhajajočih informacij. Poleg tega moramo sprejeti kritične odločitve glede tega, kako se sintetični podatki lahko delijo in uporabljajo.

Natančen rezultat ujemanja

Neposredna in intuitivna ocena zasebnosti je iskanje kopij resničnih podatkov med sintetičnimi zapisi. Rezultat natančnega ujemanja šteje število resničnih zapisov, ki jih je mogoče najti v sintetičnem nizu.

Rezultat mora biti nič, kar pomeni, da v sintetičnih podatkih ni nobene prave informacije. Ta meritev deluje kot mehanizem pregleda, preden ocenimo nadaljnje meritve zasebnosti.

Ocena zasebnosti sosedov

Poleg tega ocena zasebnosti sosedov meri razmerje med sintetičnimi zapisi, ki so morda preblizu podobnosti resničnim. To pomeni, da so, čeprav niso neposredne kopije, možne točke uhajanja zasebnosti in vir koristnih informacij za napade sklepanja.

Rezultat se izračuna z izvedbo visokodimenzionalnega iskanja najbližjih sosedov na sintetičnih podatkih, ki se prekrivajo z izvirnimi podatki.

Rezultat sklepanja o članstvu

V življenjskem ciklu znanosti o podatkih model, ko je bil usposobljen, ne potrebuje več dostopa do vzorcev za usposabljanje in lahko daje napovedi na nevidnih podatkih. Podobno je v našem primeru, ko je model sintetizatorja usposobljen, vzorce sintetičnih podatkov mogoče ustvariti brez potrebe po izvirnih podatkih.

Skozi vrsto napada, imenovano »napad sklepanja o članstvu«, lahko napadalci poskušajo razkriti podatke, ki so bili uporabljeni za ustvarjanje sintetičnih podatkov, ne da bi imeli dostop do izvirnih podatkov. Posledica tega je ogrožanje zasebnosti.

Rezultat sklepanja o članstvu meri verjetnost, da bo napad s sklepanjem o članstvu uspešen.

Nizka ocena kaže na izvedljivost sklepanja, da je bil določen zapis član nabora podatkov za usposabljanje, ki je privedel do ustvarjanja sintetičnih podatkov. Z drugimi besedami, napadi lahko sklepajo o podrobnostih posameznega zapisa in s tem ogrožajo zasebnost.

Visoka ocena članstva kaže, da je malo verjetno, da bi napadalec ugotovil, ali je bil določen zapis del izvirnega nabora podatkov, uporabljenega za ustvarjanje sintetičnih podatkov. To tudi pomeni, da s sintetičnimi podatki niso bili ogroženi podatki nobenega posameznika.

Koncept vzdržljivosti

Pomembna najboljša praksa, ki ji moramo slediti, je, da se prepričamo, da so sintetični podatki dovolj splošni in ne pretiravajo z izvirnimi podatki, na podlagi katerih so bili učeni. V običajnem toku podatkovne znanosti med gradnjo modelov ML, kot je klasifikator Random Forest, pustimo na stran testne podatke, urimo modele z uporabo podatkov za usposabljanje in ovrednotimo metrike na nevidnih testnih podatkih.

Podobno za sintetične podatke pustimo ob strani vzorec izvirnih podatkov – ki se na splošno imenuje nabor zadržanih podatkov ali nevidni zadržani testni podatki – in ovrednotimo ustvarjene sintetične podatke glede na nabor zadržanih podatkov.

Pričakuje se, da bo nabor zadržanih podatkov predstavitev izvirnih podatkov, vendar ne bo viden, ko so bili ustvarjeni sintetični podatki. Zato je ključnega pomena, da imate podobne rezultate za vse meritve, ko primerjate izvirnik z zadržanimi in sintetičnimi nabori podatkov.

Ko dobimo podobne rezultate, lahko ugotovimo, da sintetične podatkovne točke niso rezultat pomnjenja izvirnih podatkovnih točk, hkrati pa ohranimo enako zvestobo in uporabnost.

Končne misli

Svet začenja razumeti strateški pomen sintetičnih podatkov. Kot podatkovni znanstveniki in generatorji podatkov je naša dolžnost zgraditi zaupanje v sintetične podatke, ki jih ustvarimo, in zagotoviti, da so za namen.

Sintetični podatki se razvijajo v nujen komplet orodij za razvoj podatkovne znanosti. MIT Technology Review ima opozoriti sintetični podatki kot ena od prelomnih tehnologij leta 2022. Ne moremo si predstavljati ustvarjanja odličnih modelov umetne inteligence brez sintetičnih podatkov, trdi Gartner.

Glede na McKinsey, sintetični podatki zmanjšajo stroške in ovire, ki bi jih sicer imeli pri razvoju algoritmov ali pridobivanju dostopa do podatkov.

Pri ustvarjanju sintetičnih podatkov gre za poznavanje nadaljnjih aplikacij in razumevanje kompromisov med različnimi dimenzijami za kakovost sintetičnih podatkov.

Povzetek

Kot uporabnik sintetičnih podatkov je bistveno, da definirate kontekst primera uporabe, za katerega bo vsak sintetični vzorec uporabljen v prihodnosti. Tako kot pri resničnih podatkih je kakovost sintetičnih podatkov odvisna od predvidenega primera uporabe in parametrov, izbranih za sintetizacijo.

Na primer, ohranjanje izstopajočih vrednosti v sintetičnih podatkih kot v izvirnih podatkih je koristno za primer uporabe odkrivanja goljufij. Vendar pa ni uporabno v primeru uporabe v zdravstvu s pomisleki glede zasebnosti, saj bi odstopanja na splošno lahko pomenila uhajanje informacij.

Poleg tega obstaja kompromis med zvestobo, uporabnostjo in zasebnostjo. Podatkov ni mogoče optimizirati za vse tri hkrati. Te metrike omogočajo deležnikom, da določijo prednost, kaj je bistvenega pomena za vsak primer uporabe, in upravljajo pričakovanja glede na ustvarjene sintetične podatke.

Konec koncev, ko vidimo vrednosti vsake metrike in ko izpolnijo pričakovanja, so zainteresirane strani lahko prepričane v rešitve, ki jih gradijo z uporabo sintetičnih podatkov.

Primeri uporabe za strukturirane sintetične podatke pokrivajo široko paleto uporabe od testnih podatkov za razvoj programske opreme do ustvarjanja sintetičnih kontrolnih rok v kliničnih preskušanjih.

Obrnite se in raziščite te priložnosti ali zgradite PoC, da pokažete vrednost.

Faris Haddad je vodja podatkov in vpogledov v skupini AABG Strategic Pursuits. Podjetjem pomaga uspešno postati podatkovno vodena.

Časovni žig: December 16, 2022December 18, 2022

Časovni žig: Avgust 25, 2022

Kako ovrednotiti kakovost sintetičnih podatkov – merjenje z vidika zvestobe, uporabnosti in zasebnosti

Ponovno objavil Platon

Tri dimenzije ocene kakovosti sintetičnih podatkov

Meritve za razumevanje zvestobe

Raziskovalne statistične primerjave

Rezultat podobnosti histograma

Ocena medsebojnega informiranja

Rezultat korelacije

Rezultat avtokorelacije in delne avtokorelacije

Meritve za razumevanje uporabnosti

Rezultat napovedi

Ocena pomembnosti značilnosti

QScore

Meritve za razumevanje zasebnosti

Natančen rezultat ujemanja

Ocena zasebnosti sosedov

Rezultat sklepanja o članstvu

Koncept vzdržljivosti

Končne misli

Povzetek

Več od Strojno učenje AWS

Gostitelj kodnega strežnika na Amazon SageMaker

Face-off Probability, del NHL Edge IQ: napovedovanje zmagovalcev soočanja v realnem času med televizijskimi prenosi iger

Zgradite, usposobite in uvedite modele Amazon Lookout for Equipment z orodjem Python Toolbox

T-Mobile US, Inc. uporablja umetno inteligenco prek storitev Amazon Transcribe in Amazon Translate za pošiljanje glasovne pošte v jeziku po izbiri svojih strank | Spletne storitve Amazon

Zaznavanje anomalij z Amazon SageMaker Edge Manager z uporabo AWS IoT Greengrass V2

Dosezite gostovanje z nizko zakasnitvijo za modele ML, ki temeljijo na drevesu odločitev, na strežniku NVIDIA Triton Inference Server na Amazon SageMaker

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun