Kuinka arvioida synteettisten tietojen laatua – mittaus uskollisuuden, hyödyllisyyden ja yksityisyyden näkökulmasta PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Kuinka arvioida synteettisen datan laatua – mittaus uskollisuuden, hyödyllisyyden ja yksityisyyden näkökulmasta

Yhä tietokeskeisemmässä maailmassa yritysten on keskityttävä keräämään sekä arvokasta fyysistä tietoa että tuottamaan tietoa, jota ne tarvitsevat, mutta joita ei voi helposti kerätä. Tietojen saatavuus, sääntely ja vaatimustenmukaisuus ovat kasvava kitkalähde analytiikan ja tekoälyn innovaatioille.

Tiukasti säännellyillä aloilla, kuten rahoituspalveluissa, terveydenhuollossa, biotieteissä, autoteollisuudessa, robotiikassa ja teollisuudessa, ongelma on vielä suurempi. Se aiheuttaa esteitä järjestelmän suunnittelulle, tiedon jakamiselle (sisäiselle ja ulkoiselle), kaupallistamiselle, analytiikalle ja koneoppimiselle (ML).

Synteettinen data on työkalu, joka vastaa moniin tietohaasteisiin, erityisesti tekoäly- ja analytiikkaongelmiin, kuten yksityisyyden suojaamiseen, säännösten noudattamiseen, saavutettavuuteen, tiedon niukkuuteen ja harhaan. Tämä sisältää myös tiedon jakamisen ja dataan kuluvan ajan (ja siten markkinoille tulon).

Synteettinen data luodaan algoritmisesti. Se heijastaa tilastollisia ominaisuuksia ja kuvioita lähdetiedoista. Mutta mikä tärkeintä, se ei sisällä arkaluonteisia, yksityisiä tai henkilökohtaisia ​​tietopisteitä.

Esität kysymyksiä synteettisestä datasta ja saat samat vastaukset kuin todellisesta datasta.

Meidän aiempi viesti, osoitimme kuinka käyttää kilpailevia verkostoja, kuten GANS (Generative Adversarial Networks), luomaan taulukkomuotoisia tietojoukkoja luottopetosmallikoulutuksen tehostamiseksi.

Jotta yrityssidosryhmät voivat ottaa käyttöön synteettistä dataa ML- ja analytiikkaprojekteihinsa, on välttämätöntä varmistaa, että luodut synteettiset tiedot sopivat tarkoitukseen ja odotettuihin loppupään sovelluksiin, mutta myös sen, että ne pystyvät mittaamaan ja osoittamaan luodut tiedot.

Yksityisyyden säilyttämiseen liittyvien lakisääteisten ja eettisten velvoitteiden kasvaessa yksi synteettisen tiedon vahvuuksista on kyky poistaa arkaluontoisia ja alkuperäisiä tietoja synteesin aikana. Siksi laadun lisäksi tarvitsemme mittareita arvioidaksemme mahdollisten yksityisten tietovuotojen riskiä ja arvioidaksemme, että luontiprosessi ei "muistiin" tai kopioi mitään alkuperäistä dataa.

Kaiken tämän saavuttamiseksi voimme kartoittaa synteettisen tiedon laadun ulottuvuuksiin, jotka auttavat käyttäjiä, sidosryhmiä ja meitä ymmärtämään syntyvää dataa paremmin.

Synteettisen tiedon laadun arvioinnin kolme ulottuvuutta

Synteettistä dataa mitataan kolmella keskeisellä ulottuvuudella:

  1. Tarkkuus
  2. Hyödyllisyys
  3. yksityisyys

Nämä ovat joitain luotuja synteettisiä tietoja koskevista kysymyksistä, joihin pitäisi vastata synteettisten tietojen laaturaportin avulla:

  • Kuinka samanlainen tämä synteettinen data on verrattuna alkuperäiseen harjoitussarjaan?
  • Kuinka hyödyllinen tämä synteettinen data on loppupään sovelluksillemme?
  • Onko alkuperäisistä harjoitustiedoista mitään tietoa vuotanut synteettisiin tietoihin?
  • Onko mallimme vahingossa syntetisoinut todellisessa maailmassa arkaluontoisina pidettyjä tietoja (muista tietojoukoista, joita ei käytetä mallin opetukseen)?

Mittarit, jotka kääntävät jokaisen näistä ulottuvuuksista loppukäyttäjille, ovat jokseenkin joustavia. Loppujen lopuksi luotava data voi vaihdella jakaumien, koon ja käyttäytymisen suhteen. Niiden tulee myös olla helposti ymmärrettäviä ja tulkittavia.

Viime kädessä mittareiden on oltava täysin tietopohjaisia, eivätkä ne vaadi aiempaa tietoa tai toimialuekohtaisia ​​tietoja. Jos käyttäjä kuitenkin haluaa soveltaa tiettyjä sääntöjä ja rajoituksia, joita sovelletaan tiettyyn liiketoiminta-alueeseen, hänen pitäisi pystyä määrittelemään ne synteesiprosessin aikana varmistaakseen, että toimialuekohtainen tarkkuus täyttyy.

Tarkastelemme kutakin näistä mittareista yksityiskohtaisemmin seuraavissa osioissa.

Mittarit uskollisuuden ymmärtämiseksi

Kaikissa datatieteen projekteissa meidän on ymmärrettävä, onko tietty otospopulaatio relevantti ratkaisemamme ongelman kannalta. Samoin luodun synteettisen tiedon relevanssia arvioitaessa meidän on arvioitava se tarkkuus alkuperäiseen verrattuna.

Näiden mittareiden visuaaliset esitykset tekevät niistä helpompia ymmärtää. Voisimme havainnollistaa, noudatettiinko kategorioiden kardinaalisuutta ja suhdetta, säilytettiinkö eri muuttujien väliset korrelaatiot ja niin edelleen.

Datan visualisointi ei ainoastaan ​​auta arvioimaan synteettisen datan laatua, vaan se sopii myös yhdeksi ensimmäisistä vaiheista datatieteen elinkaaressa, jotta dataa voidaan ymmärtää paremmin.

Sukellaanpa joihinkin tarkkuuden mittareihin tarkemmin.

Tutkivat tilastolliset vertailut

Tutkivassa tilastovertailussa alkuperäisen ja synteettisen aineiston ominaisuuksia tutkitaan keskeisillä tilastollisilla mittareilla, kuten keskiarvo, mediaani, keskihajonta, erotetut arvot, puuttuvat arvot, minimit, maksimit, jatkuvien ominaisuuksien kvartiilialueet ja lukumäärä. tietueita luokkaa kohti, puuttuvat arvot luokkakohtaisesti ja useimmat kategoristen attribuuttien merkit.

Tämä vertailu tulisi tehdä alkuperäisen säilytystietojoukon ja synteettisten tietojen välillä. Tämä arviointi paljastaisi, ovatko verratut aineistot tilastollisesti samanlaisia. Jos ne eivät ole, ymmärrämme, mitkä ominaisuudet ja toimenpiteet ovat erilaisia. Sinun tulisi harkita synteettisen datan uudelleenkoulutusta ja regenerointia eri parametreilla, jos havaitset merkittävän eron.

Tämä testi toimii alustavana seulontana sen varmistamiseksi, että synteettiset tiedot ovat kohtuullisen tarkkoja alkuperäiselle tietojoukolle ja voivat siksi käydä läpi tiukemman testauksen.

Histogrammin samankaltaisuuspisteet

Histogrammin samankaltaisuuspisteet mittaavat kunkin ominaisuuden synteettisten ja alkuperäisten tietojoukkojen marginaalijakaumia.

Samankaltaisuuspisteet rajoittuvat nollan ja yhden väliin, ja pistemäärä yksi osoittaa, että synteettiset datajakaumat menevät täydellisesti päällekkäin alkuperäisen datan jakaumien kanssa.

Lähellä yhtä oleva pistemäärä antaisi käyttäjille varmuuden siitä, että pidätystietojoukko ja synteettinen tietojoukko ovat tilastollisesti samanlaisia.

Keskinäinen tietopisteet

Keskinäinen tietopistemäärä mittaa kahden ominaisuuden, numeerisen tai kategorisen, keskinäistä riippuvuutta, mikä osoittaa, kuinka paljon tietoa voidaan saada yhdestä ominaisuudesta tarkkailemalla toista.

Keskinäinen tieto voi mitata epälineaarisia suhteita, mikä antaa kattavamman käsityksen synteettisen tiedon laadusta, koska sen avulla voimme ymmärtää muuttujan suhteiden säilymisen laajuuden.

Pistemäärä yksi osoittaa, että ominaisuuksien keskinäinen riippuvuus on taltioitu täydellisesti synteettiseen dataan.

Korrelaatiopisteet

Korrelaatiopistemäärä mittaa, kuinka hyvin alkuperäisen tietojoukon korrelaatiot on tallennettu synteettiseen dataan.

Kahden tai useamman sarakkeen väliset korrelaatiot ovat erittäin tärkeitä ML-sovelluksille, jotka auttavat paljastamaan ominaisuuksien ja kohdemuuttujan väliset suhteet ja auttavat luomaan hyvin koulutetun mallin.

Korrelaatiopistemäärä rajoittuu nollan ja yhden välille, ja pistemäärä yksi osoittaa, että korrelaatiot ovat täydellisesti yhteensopivat.

Toisin kuin strukturoidut taulukkotiedot, joita kohtaamme yleisesti tietoongelmissa, tietyntyyppisillä strukturoiduilla tiedoilla on erityinen käyttäytyminen, jossa aikaisemmat havainnot voivat vaikuttaa seuraavaan havaintoon. Näitä kutsutaan aikasarjoiksi tai peräkkäisiksi tiedoiksi – esimerkiksi tietojoukko, joka sisältää huonelämpötilan tuntimittauksia.

Tämä toiminta tarkoittaa, että on määriteltävä tiettyjä mittareita, jotka voivat erityisesti mitata näiden aikasarjatietojoukkojen laatua.

Autokorrelaatio ja osittainen autokorrelaatiopisteet

Vaikka autokorrelaatio on samankaltainen kuin korrelaatio, se näyttää aikasarjan suhteen sen nykyarvossa samalla tavalla kuin se on suhteessa sen aikaisempiin arvoihin. Edellisten aikaviiveiden vaikutusten poistaminen tuottaa osittaisen autokorrelaation. Siksi autokorrelaatiopistemäärä mittaa, kuinka hyvin synteettiset tiedot ovat tallentaneet merkittävät autokorrelaatiot tai osittaiset korrelaatiot alkuperäisestä tietojoukosta.

Mittarit hyödyllisyyden ymmärtämiseksi

Nyt olemme ehkä tilastollisesti ymmärtäneet, että synteettinen data on samanlainen kuin alkuperäinen tietojoukko. Lisäksi meidän on myös arvioitava, kuinka hyvin syntetisoitu tietojoukko pärjää yleisissä datatieteen ongelmissa, kun sitä harjoitetaan useilla ML-algoritmeilla.

Käyttämällä seuraavaa hyödyllisyys mittareita, pyrimme rakentamaan luottamusta siihen, että voimme todella saavuttaa suorituskyvyn loppupään sovelluksissa sen suhteen, miten alkuperäiset tiedot ovat toimineet.

Ennuste pisteet

Synteettisen datan suorituskyvyn mittaaminen alkuperäiseen todelliseen dataan verrattuna voidaan tehdä ML-malleilla. Alavirran mallin pisteet kuvaavat synteettisten tietojen laatua vertaamalla sekä synteettiselle että alkuperäiselle tietojoukolle koulutettujen ML-mallien suorituskykyä ja validoituja alkuperäisen tietojoukon pidätetyillä testaustiedoilla. Tämä tarjoaa a Train Synthetic Test Real (TSTR) -pisteet ja Train Real Test Real (TRTR) pisteet vastaavasti.

TSTR, TRTR-pisteet ja ominaisuuden tärkeyspisteet (kuva tekijältä)

Pisteet sisältävät laajan valikoiman luotetuimpia ML-algoritmeja joko regressio- tai luokittelutehtäviin. Useiden luokittimien ja regressorien käyttäminen varmistaa, että pisteet ovat yleistettävissä useimmissa algoritmeissa, jotta synteettistä dataa voidaan pitää hyödyllisenä tulevaisuudessa.

Loppujen lopuksi, jos TSTR-pisteet ja TRTR-pisteet ovat vertailukelpoisia, tämä osoittaa, että synteettisellä datalla on laatu, jota voidaan käyttää tehokkaiden ML-mallien kouluttamiseen tosielämän sovelluksiin.

Ominaisuuden tärkeyspisteet

Ennustepisteisiin vahvasti liittyvä ominaisuus tärkeyspiste (FI) laajentaa sitä lisäämällä tulkittavuutta TSTR- ja TRTR-pisteisiin.

F1-pisteet vertaavat ominaisuuden tärkeysjärjestyksen muutoksia ja vakautta ennustepisteisiin. Synteettistä datajoukkoa pidetään erittäin hyödyllisenä, jos se tuottaa saman ominaisuuksien tärkeysjärjestyksen kuin alkuperäinen todellinen data.

QScore

Käytämme Qscorea varmistaaksemme, että äskettäin luoduilla tiedoillamme koulutettu malli tuottaa samat vastaukset samoihin kysymyksiin kuin malli, joka on koulutettu käyttämällä alkuperäistä dataa. Tämä mittaa synteettisten tietojen loppupään suorituskykyä suorittamalla monia satunnaisiin aggregaatioihin perustuvia kyselyitä sekä synteettisissä että alkuperäisissä (ja säilytystietojoukoissa).

Ajatuksena on, että näiden molempien kyselyiden pitäisi palauttaa samanlaiset tulokset.

Korkea QScore varmistaa, että loppupään sovellukset, jotka käyttävät kysely- ja yhdistämistoimintoja, voivat tarjota lähes saman arvon kuin alkuperäinen tietojoukko.

Mittarit yksityisyyden ymmärtämiseksi

Kanssa yksityisyys Jo olemassa olevien määräysten vuoksi on eettinen velvoite ja lakisääteinen vaatimus varmistaa, että arkaluonteiset tiedot suojataan.

Ennen kuin tätä synteettistä dataa voidaan jakaa vapaasti ja käyttää jatkosovelluksiin, meidän on harkittava yksityisyyden mittareita, jotka voivat auttaa sidosryhmiä ymmärtämään, missä luodut synteettiset tiedot ovat alkuperäiseen tietoon verrattuna vuotaneen tiedon laajuuden suhteen. Lisäksi meidän on tehtävä kriittisiä päätöksiä siitä, kuinka synteettistä dataa voidaan jakaa ja käyttää.

Tarkka ottelutulos

Yksityisyyden suora ja intuitiivinen arviointi on etsiä kopioita todellisesta tiedosta synteettisistä tietueista. Tarkka vastaavuus laskee synteettisestä sarjasta löytyvien todellisten ennätysten määrän.

Pisteen tulee olla nolla, mikä tarkoittaa, että synteettisessä datassa ei ole todellista tietoa sellaisenaan. Tämä mittari toimii seulontamekanismina ennen kuin arvioimme muita tietosuojamittareita.

Naapureiden yksityisyyspisteet

Lisäksi naapureiden yksityisyyspisteet mittaavat synteettisten tietueiden suhdetta, jotka saattavat olla liian lähellä todellisia. Tämä tarkoittaa, että vaikka ne eivät ole suoria kopioita, ne ovat mahdollisia tietosuojavuotoja ja hyödyllisen tiedon lähde päättelyhyökkäyksiä varten.

Pisteet lasketaan suorittamalla korkeaulotteinen lähinaapureiden haku synteettisestä tiedosta, joka on päällekkäinen alkuperäisen tiedon kanssa.

Jäsenyyden päättelypisteet

Datatieteen elinkaaren aikana mallin koulutuksen jälkeen se ei enää tarvitse pääsyä harjoitusnäytteisiin ja voi tehdä ennusteita näkymättömistä tiedoista. Vastaavasti meidän tapauksessamme, kun syntetisaattorimalli on opetettu, synteettisen datan näytteitä voidaan luoda ilman alkuperäisen datan tarvetta.

ns. hyökkäyksen tyypin kautta "Jäsenpäätöshyökkäys", hyökkääjät voivat yrittää paljastaa synteettisten tietojen luomiseen käytetyt tiedot ilman, että heillä olisi pääsyä alkuperäisiin tietoihin. Tämä johtaa yksityisyyden vaarantumiseen.

Jäsenpäätöstulos mittaa jäsenyyspäätelmähyökkäyksen onnistumisen todennäköisyyttä.

jäsenyyden päättelypisteet

Matala pistemäärä viittaa mahdollisuuteen päätellä, että tietty tietue oli synteettisen datan luomiseen johtaneen harjoitustietojoukon jäsen. Toisin sanoen hyökkäykset voivat päätellä yksittäisen tietueen yksityiskohtia, mikä vaarantaa yksityisyyden.

Korkeat jäsenyyteen perustuvat päättelypisteet osoittavat, että hyökkääjä ei todennäköisesti pysty määrittämään, oliko tietty tietue osa alkuperäistä tietojoukkoa, jota käytettiin synteettisten tietojen luomiseen. Tämä tarkoittaa myös sitä, että synteettiset tiedot eivät vaarantuneet kenenkään henkilön tietoihin.

Holdout-konsepti

Tärkeä paras käytäntö, jota meidän on noudatettava, on varmistaa, että synteettiset tiedot ovat riittävän yleisiä eivätkä sovi liikaa alkuperäiseen tietoon, jonka perusteella se on koulutettu. Tyypillisessä datatieteessä, kun rakennamme ML-malleja, kuten Random Forest -luokittelijaa, jätämme syrjään testitiedot, koulutamme malleja harjoitustietojen avulla ja arvioimme mittareita näkymättömien testitietojen perusteella.

Samoin synteettistä dataa varten pidämme syrjään otoksen alkuperäisistä tiedoista – joita kutsutaan yleensä pidennetyksi tietojoukoksi tai näkemättömäksi piilotetuksi testidataksi – ja arvioimme luotuja synteettisiä tietoja pidätettyyn tietojoukkoon verrattuna.

Holdout-tietojoukon odotetaan edustavan alkuperäistä dataa, mutta sitä ei kuitenkaan nähty synteettistä dataa luotaessa. Siksi on erittäin tärkeää, että kaikilla mittareilla on samanlaiset pisteet, kun verrataan alkuperäistä säilytystietoa ja synteettisiä tietojoukkoja.

Kun saadaan samanlaiset pisteet, voimme todeta, että synteettiset datapisteet eivät ole tulosta alkuperäisten datapisteiden muistamisesta, samalla kun säilytetään sama tarkkuus ja käyttökelpoisuus.

Lopullinen ajatuksia

Maailma alkaa ymmärtää synteettisen datan strategista merkitystä. Datatieteilijöinä ja tiedon tuottajina meidän velvollisuutemme on rakentaa luottamus synteettiseen dataan, jota luomme, ja varmistaa, että sillä on tarkoitus.

Synteettinen data on kehittymässä pakolliseksi osaksi datatieteen kehittämistyökalupakkauksessa. MIT Technology Review on tehnyt huomattava synteettinen data yhdeksi vuoden 2022 läpimurtotekniikoista. Emme voi kuvitella rakentavamme erinomaisia ​​arvotekoisia tekoälymalleja ilman synteettistä dataa, väittää Gartner.

Mukaan McKinsey, synteettinen data minimoi kustannukset ja esteet, joita sinulla muuten olisi algoritmien kehittämisessä tai tietojen saamisessa.

Synteettisen datan luomisessa on kyse myöhempien sovellusten tuntemisesta ja synteettisen datan laadun eri ulottuvuuksien välisten kompromissien ymmärtämisestä.

Yhteenveto

Synteettisen datan käyttäjänä on olennaista määritellä käyttötapaus, jossa jokaista synteettistä näytettä käytetään tulevaisuudessa. Aivan kuten todellisen datan kohdalla, synteettisen datan laatu riippuu tarkoitetusta käyttötapauksesta sekä syntetisointiin valituista parametreista.

Esimerkiksi poikkeavien arvojen pitäminen synteettisissä tiedoissa alkuperäisen datan tavoin on hyödyllistä petosten havaitsemisen käyttötapauksessa. Siitä ei kuitenkaan ole hyötyä terveydenhuollon käyttötapauksissa, joissa on tietosuojaongelmia, koska poikkeamat voivat yleensä olla tietovuoto.

Lisäksi uskollisuuden, hyödyllisyyden ja yksityisyyden välillä on kompromissi. Tietoja ei voida optimoida kaikille kolmelle samanaikaisesti. Näiden mittareiden avulla sidosryhmät voivat priorisoida sen, mikä on olennaista kussakin käyttötapauksessa, ja hallita odotuksia luodun synteettisen datan perusteella.

Viime kädessä, kun näemme kunkin mittarin arvot ja kun ne vastaavat odotuksia, sidosryhmät voivat luottaa ratkaisuihin, joita he rakentavat synteettisten tietojen avulla.

Strukturoidun synteettisen tiedon käyttötapaukset kattavat laajan valikoiman sovelluksia ohjelmistokehityksen testitiedoista synteettisten kontrollivarsien luomiseen kliinisissä kokeissa.

Ota yhteyttä tutkiaksesi näitä mahdollisuuksia tai rakenna PoC osoittaaksesi arvon.


Kuinka arvioida synteettisten tietojen laatua – mittaus uskollisuuden, hyödyllisyyden ja yksityisyyden näkökulmasta PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Faris Haddad on Data & Insights -johtaja AABG Strategic Pursuits -tiimissä. Hän auttaa yrityksiä tulemaan menestyksekkäästi datalähtöisiksi.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen