How To Evaluate The Quality Of The Synthetic Data – Measuring From The Perspective Of Fidelity, Utility, And Privacy

Újra kiadta Platón

Követő: 0

Az egyre inkább adatközpontú világban a vállalkozásoknak mind az értékes fizikai információk összegyűjtésére, mind a szükséges, de nehezen rögzíthető információk előállítására kell összpontosítaniuk. Az adatokhoz való hozzáférés, a szabályozás és a megfelelés egyre nagyobb súrlódási forrást jelent az elemzés és a mesterséges intelligencia (AI) innovációjában.

Az olyan erősen szabályozott ágazatok esetében, mint a pénzügyi szolgáltatások, az egészségügy, az élettudományok, az autóipar, a robotika és a gyártás, a probléma még nagyobb. Ez akadályozza a rendszertervezést, az adatmegosztást (belső és külső), a bevételszerzést, az elemzést és a gépi tanulást (ML).

A szintetikus adatok egy olyan eszköz, amely számos adatkihívást kezel, különösen a mesterséges intelligencia és az analitikai kérdések, például a magánélet védelme, a szabályozási megfelelés, a hozzáférhetőség, az adathiány és az elfogultság. Ez magában foglalja az adatmegosztást és az adatokhoz szükséges időt (és így a piacra jutáshoz szükséges időt is).

A szintetikus adatokat algoritmikusan állítják elő. A statisztikai tulajdonságokat és mintákat tükrözi a forrásadatokból. De ami fontos, nem tartalmaz érzékeny, privát vagy személyes adatpontokat.

Kérdéseket tesz fel a szintetikus adatokra, és ugyanazokat a válaszokat kapja, mint a valós adatokból.

A mi korábbi post, bemutattuk, hogyan használhatók olyan ellenséges hálózatok, mint a Generative Adversarial Networks (GANS) táblázatos adatkészletek létrehozására a hitelcsalási modell képzésének javítása érdekében.

Ahhoz, hogy az üzleti érdekelt felek szintetikus adatokat alkalmazhassanak ML és elemzési projektjeikhez, elengedhetetlen, hogy ne csak megbizonyosodjanak arról, hogy a generált szintetikus adatok megfelelnek a célnak és a várható downstream alkalmazásoknak, hanem azt is, hogy képesek legyenek mérni és demonstrálni a a generált adatokat.

A magánélet védelmével kapcsolatos növekvő jogi és etikai kötelezettségek miatt a szintetikus adatok egyik erőssége az a képesség, hogy szintézisük során eltávolíthatók az érzékeny és eredeti információk. Ezért a minőség mellett szükségünk van mérőszámokra is, amelyekkel felmérhetjük a személyes információk kiszivárgásának kockázatát, ha van ilyen, és felmérjük, hogy a generálás folyamata nem „memorizálja” vagy másolja az eredeti adatokat.

Mindezek eléréséhez a szintetikus adatok minőségét dimenziókba tudjuk leképezni, ami segíti a felhasználókat, az érintetteket és mi is a keletkezett adatok jobb megértését.

A szintetikus adatminőség-értékelés három dimenziója

A generált szintetikus adatokat három kulcsfontosságú dimenzió alapján mérik:

Hűség
Hasznosság
Adatvédelem

Íme néhány olyan kérdés a generált szintetikus adatokkal kapcsolatban, amelyekre a szintetikus adatminőségi jelentésnek meg kell válaszolnia:

Mennyire hasonlít ez a szintetikus adat az eredeti edzéskészlethez képest?
Mennyire hasznosak ezek a szintetikus adatok a későbbi alkalmazásaink számára?
Kiszivárgott bármilyen információ az eredeti edzési adatokból a szintetikus adatokba?
Szintetizált a modellünk véletlenül olyan adatot, amelyet a valós világban érzékenynek tekintenek (más, a modell betanításához nem használt adatkészletekből)?

A dimenziók mindegyikét a végfelhasználók számára lefordító mérőszámok némileg rugalmasak. Végül is a generálandó adatok eloszlásuk, méretük és viselkedésük tekintetében változhatnak. Könnyen megfoghatónak és értelmezhetőnek is kell lenniük.

Végső soron a mérőszámoknak teljes mértékben adatvezéreltnek kell lenniük, és nem igényelnek előzetes ismereteket vagy tartományspecifikus információkat. Ha azonban a felhasználó konkrét szabályokat és megszorításokat szeretne alkalmazni egy adott üzleti tartományra, akkor képesnek kell lennie arra, hogy meghatározza azokat a szintézis folyamata során, hogy megbizonyosodjon arról, hogy a tartomány-specifikus hűség teljesül.

A következő szakaszokban részletesebben megvizsgáljuk ezeket a mutatókat.

Mérőszámok a hűség megértéséhez

Minden adattudományi projektben meg kell értenünk, hogy egy bizonyos mintapopuláció releváns-e a megoldandó probléma szempontjából. Hasonlóképpen, a generált szintetikus adatok relevanciájának felmérése során azt a következő szempontok szerint kell értékelnünk: hűség az eredetihez képest.

A mérőszámok vizuális megjelenítése megkönnyíti azok megértését. Szemléltethetnénk, hogy a kategóriák számosságát, arányát tiszteletben tartották-e, a különböző változók közötti összefüggéseket megtartották-e stb.

Az adatok megjelenítése nemcsak a szintetikus adatok minőségének értékelését segíti elő, hanem az adatok jobb megértése érdekében az adattudományi életciklus egyik kezdeti lépéseként is illeszkedik.

Nézzünk részletesebben néhány hűségmutatóba.

Feltáró statisztikai összehasonlítások

A feltáró statisztikai összehasonlításokon belül az eredeti és a szintetikus adatkészletek jellemzőit olyan kulcsfontosságú statisztikai mérőszámok segítségével tárják fel, mint az átlag, medián, szórás, megkülönböztető értékek, hiányzó értékek, minimumok, maximumok, a folytonos jellemzők kvartilis tartományai és a szám. rekordok száma kategóriánként, hiányzó értékek kategóriánként, és a legtöbb előforduló karakter a kategóriás attribútumokhoz.

Ezt az összehasonlítást az eredeti visszatartási adatkészlet és a szintetikus adatok között kell elvégezni. Ez az értékelés feltárja, hogy az összehasonlított adatkészletek statisztikailag hasonlóak-e. Ha nem, akkor meg fogjuk érteni, hogy mely jellemzők és mértékek különböznek egymástól. Érdemes megfontolni a szintetikus adatok különböző paraméterekkel történő újraképzését és regenerálását, ha jelentős eltérést észlel.

Ez a teszt kezdeti szűrésként működik, hogy megbizonyosodjon arról, hogy a szintetikus adatok kellően hűek az eredeti adatkészlethez, és ezért hasznos lehet szigorúbb tesztelésnek.

A hisztogram hasonlósági pontszáma

A hisztogram hasonlósági pontszáma az egyes jellemzők szintetikus és eredeti adatkészletek marginális eloszlását méri.

A hasonlósági pontszám nulla és egy közé esik, az egy pont azt jelzi, hogy a szintetikus adateloszlások tökéletesen átfedik az eredeti adatok eloszlását.

Az egyhez közeli pontszám biztos lehet benne, hogy a visszatartási adatkészlet és a szintetikus adatkészlet statisztikailag hasonló.

Kölcsönös információs pontszám

A kölcsönös információs pontszám két jellemző – numerikus vagy kategorikus – kölcsönös függését méri, jelezve, hogy mennyi információ nyerhető az egyik jellemzőről a másik megfigyelésével.

A kölcsönös információk nemlineáris kapcsolatokat mérhetnek, így átfogóbb megértést biztosítanak a szintetikus adatminőségről, mivel lehetővé teszik számunkra, hogy megértsük a változó kapcsolatok megőrzésének mértékét.

Az egy pont azt jelzi, hogy a szintetikus adatok tökéletesen rögzítik a jellemzők közötti kölcsönös függést.

Korrelációs pontszám

A korrelációs pontszám azt méri, hogy az eredeti adatkészlet korrelációit mennyire sikerült rögzíteni a szintetikus adatokban.

A két vagy több oszlop közötti összefüggések rendkívül fontosak az ML-alkalmazások számára, amelyek segítenek feltárni a funkciók és a célváltozó közötti kapcsolatokat, és segítenek egy jól képzett modell létrehozásában.

A korrelációs pontszám nulla és egy közé esik, az egy pont azt jelzi, hogy a korrelációk tökéletesen illeszkedtek.

Ellentétben a strukturált táblázatos adatokkal, amelyekkel gyakran találkozunk az adatproblémák során, a strukturált adatok bizonyos típusai sajátos viselkedést mutatnak, ahol a múltbeli megfigyelések valószínűleg befolyásolják a következő megfigyelést. Ezeket idősoroknak vagy szekvenciális adatoknak nevezzük – például a szobahőmérséklet óránkénti mérését tartalmazó adatkészlet.

Ez a viselkedés azt jelenti, hogy meg kell határozni bizonyos mérőszámokat, amelyek kifejezetten mérni tudják ezen idősoros adatkészletek minőségét.

Autokorreláció és részleges autokorrelációs pontszám

Bár a korrelációhoz hasonló, az autokorreláció egy idősor viszonyát jelenértékén mutatja, ahogyan az előző értékéhez viszonyul. Az előző időeltolódások hatásainak eltávolítása részleges autokorrelációt eredményez. Ezért az autokorrelációs pontszám azt méri, hogy a szintetikus adatok mennyire rögzítették a szignifikáns autokorrelációkat vagy részleges korrelációkat az eredeti adatkészletből.

Mérőszámok a hasznosság megértéséhez

Most már statisztikailag is rájöttünk, hogy a szintetikus adatok hasonlóak az eredeti adatkészlethez. Ezen túlmenően azt is fel kell mérnünk, hogy a szintetizált adatkészlet mennyire bírja a gyakori adattudományi problémákat, ha több ML algoritmusra tanítjuk.

A következőket használva hasznosság mérőszámok, arra törekszünk, hogy bizalmat építsünk afelől, hogy valóban teljesítményt tudunk elérni a downstream alkalmazásokban az eredeti adatok teljesítményét illetően.

Előrejelzési pontszám

A szintetikus adatok teljesítményének mérése az eredeti valós adatokhoz képest ML modelleken keresztül történhet. A downstream modell pontszáma rögzíti a szintetikus adatok minőségét azáltal, hogy összehasonlítja a szintetikus és az eredeti adatkészleteken betanított, és az eredeti adatkészlet visszatartott tesztelési adatain érvényesített ML-modellek teljesítményét. Ez biztosítja a Train Synthetic Test Real (TSTR) pontszám és egy Train Real Test Real (TRTR) pontszámot.

TSTR, TRTR pontszámok és a funkció fontossági pontszáma (a szerző képe)

A pontszám a legmegbízhatóbb ML algoritmusok széles skáláját tartalmazza akár regressziós, akár osztályozási feladatokhoz. Több osztályozó és regresszor használata biztosítja, hogy a pontszám a legtöbb algoritmusnál jobban általánosítható legyen, így a szintetikus adatok a jövőben hasznosnak tekinthetők.

Végül, ha a TSTR pontszám és a TRTR pontszám összehasonlítható, ez azt jelzi, hogy a szintetikus adatok megfelelő minőségűek ahhoz, hogy hatékony ML modelleket képezzenek valós alkalmazásokhoz.

Funkció fontossági pontszáma

Az előrejelzési pontszámhoz erősen kapcsolódó jellemző fontossági (FI) pontszám kiterjeszti azt azáltal, hogy értelmezhetőséget ad a TSTR és TRTR pontszámokhoz.

Az F1 pontszám összehasonlítja a jellemző fontossági sorrendjének változásait és stabilitását az előrejelzési pontszámmal. A szintetikus adathalmaz akkor tekinthető hasznosnak, ha ugyanazt a fontossági sorrendet adja, mint az eredeti valós adatok.

QScore

Annak érdekében, hogy az újonnan generált adatainkra betanított modell ugyanazokat a kérdéseket adja meg, mint az eredeti adatok felhasználásával betanított modell, a Qscore-t használjuk. Ez a szintetikus adatok downstream teljesítményét méri úgy, hogy számos véletlenszerű összesítésen alapuló lekérdezést futtat mind a szintetikus, mind az eredeti (és megtartott) adatkészleteken.

Az ötlet az, hogy mindkét lekérdezésnek hasonló eredményeket kell visszaadnia.

A magas QScore biztosítja, hogy a lekérdezési és összesítési műveleteket használó downstream alkalmazások közel azonos értéket nyújtsanak az eredeti adatkészletével.

Mutatók a magánélet megértéséhez

A magánélet A már hatályban lévő szabályozásoknak megfelelően etikai kötelezettség és jogi követelmény az érzékeny információk védelmének biztosítása.

Mielőtt ezeket a szintetikus adatokat szabadon megosztanánk és felhasználnánk a későbbi alkalmazásokhoz, mérlegelnünk kell azokat az adatvédelmi mérőszámokat, amelyek segíthetnek az érintetteknek megérteni, hogy a generált szintetikus adatok hol állnak az eredeti adatokhoz képest a kiszivárgott információk mértékét tekintve. Ezenkívül kritikus döntéseket kell hoznunk a szintetikus adatok megosztásával és felhasználásával kapcsolatban.

Pontos meccspontszám

A magánélet közvetlen és intuitív értékelése a valódi adatok másolatainak megkeresése a szintetikus rekordok között. A pontos egyezés pontszáma a szintetikus halmazban található valós rekordok számát számolja.

A pontszámnak nullának kell lennie, jelezve, hogy a szintetikus adatokban nincs valódi információ. Ez a mérőszám szűrési mechanizmusként működik, mielőtt további adatvédelmi mutatókat értékelnénk.

A szomszédok adatvédelmi pontszáma

Ezenkívül a szomszédok adatvédelmi pontszáma a szintetikus rekordok arányát méri, amelyek túlságosan hasonlítanak a valódihoz. Ez azt jelenti, hogy bár nem közvetlen másolatok, potenciális adatvédelmi kiszivárogtatási pontok, és hasznos információk forrásai a következtetéses támadásokhoz.

A pontszámot úgy számítják ki, hogy nagy dimenziós keresést végeznek a legközelebbi szomszédok között az eredeti adatokkal átfedésben lévő szintetikus adatokon.

Tagsági következtetés pontszáma

Az adattudományi életciklusban a modell betanítása után már nem kell hozzáférnie a betanítási mintákhoz, és előrejelzéseket tud készíteni nem látott adatok alapján. Hasonlóképpen a mi esetünkben a szintetizátor modell betanítása után szintetikus adatok mintái generálhatók anélkül, hogy szükség lenne az eredeti adatokra.

Az úgynevezett támadáson keresztül „tagsági következtetés támadás”, a támadók megkísérelhetik felfedni a szintetikus adatok létrehozásához használt adatokat anélkül, hogy hozzáférnének az eredeti adatokhoz. Ez a magánélet veszélyeztetéséhez vezet.

A tagsági következtetés pontszáma azt méri, hogy mekkora valószínűséggel sikerül egy tagsági következtetésre irányuló támadás.

Az alacsony pontszám arra enged következtetni, hogy egy adott rekord tagja volt annak a betanítási adatkészletnek, amely a szintetikus adatok létrehozásához vezetett. Más szavakkal, a támadások egy egyedi rekord részleteire következtethetnek, ezáltal veszélyeztetve a magánéletet.

A magas tagsági következtetési pontszám azt jelzi, hogy a támadó valószínűleg nem fogja megállapítani, hogy egy adott rekord része volt-e a szintetikus adatok létrehozásához használt eredeti adatkészletnek. Ez azt is jelenti, hogy a szintetikus adatok egyetlen egyén információi sem kerültek veszélybe.

A holdout koncepció

Egy fontos bevált gyakorlat, amelyet követnünk kell, hogy megbizonyosodjunk arról, hogy a szintetikus adatok elég általánosak, és nem illeszkednek túl az eredeti adatokhoz, amelyekre betanították őket. A tipikus adattudományi folyamatban az ML modellek, például a Random Forest osztályozó felépítése során félretesszük a tesztadatokat, betanítjuk a modelleket a betanítási adatok felhasználásával, és kiértékeljük a metrikákat a nem látott tesztadatokon.

Hasonlóképpen, a szintetikus adatok esetében félreteszünk egy mintát az eredeti adatokból – általában visszatartott adatkészletnek vagy láthatatlan visszatartott tesztadatoknak nevezik –, és a generált szintetikus adatokat a visszatartott adatkészlethez viszonyítjuk.

A holdout adatkészlet várhatóan az eredeti adatok reprezentációja, de a szintetikus adatok generálásakor még nem látható. Ezért létfontosságú, hogy minden mérőszám hasonló pontszámmal rendelkezzen, amikor az eredetit a tartási és a szintetikus adatkészletekkel hasonlítjuk össze.

Ha hasonló pontszámokat kapunk, megállapíthatjuk, hogy a szintetikus adatpontok nem az eredeti adatpontok memorizálásának eredményei, ugyanakkor megőrizzük ugyanazt a hűséget és hasznosságot.

Záró gondolatok

A világ kezdi megérteni a szintetikus adatok stratégiai fontosságát. Adattudósként és adatgenerátorként kötelességünk, hogy bizalmat építsünk az általunk generált szintetikus adatokba, és megbizonyosodjunk arról, hogy azok célt szolgálnak.

A szintetikus adatok az adattudományi fejlesztési eszköztár kötelező elemévé fejlődnek. Az MIT Technology Review rendelkezik neves A szintetikus adatok 2022 egyik áttörést jelentő technológiája. Nem tudjuk elképzelni, hogy kiváló értékű mesterséges intelligencia modelleket építsünk szintetikus adatok nélkül, állítja Gartner.

Szerint McKinsey, a szintetikus adatok minimálisra csökkentik a költségeket és az akadályokat, amelyek egyébként az algoritmusok fejlesztése vagy az adatokhoz való hozzáférés során felmerülnének.

A szintetikus adatok generálása a későbbi alkalmazások ismeretéről és a szintetikus adatok minőségének különböző dimenziói közötti kompromisszumokról szól.

Összegzésként

A szintetikus adatok felhasználójaként elengedhetetlen annak a használati esetnek a kontextusának meghatározása, amelyhez a jövőben minden szintetikus mintát használni fognak. A valós adatokhoz hasonlóan a szintetikus adatok minősége a szándékolt felhasználási esettől, valamint a szintetizáláshoz választott paraméterektől függ.

Például a szintetikus adatokban az eredeti adatokhoz hasonló kiugró értékek megtartása hasznos csalásfelderítési használati eset esetén. Ez azonban nem hasznos olyan egészségügyi felhasználási esetekben, amikor adatvédelmi aggályok merülnek fel, mivel a kiugró értékek általában információszivárgást jelenthetnek.

Ezenkívül kompromisszum létezik a hűség, a hasznosság és a magánélet között. Az adatok nem optimalizálhatók egyszerre mindháromra. Ezek a mérőszámok lehetővé teszik az érintettek számára, hogy az egyes használati eseteknél fontossági sorrendet állítsanak fel, és kezeljék a generált szintetikus adatokból származó elvárásokat.

Végső soron, amikor látjuk az egyes mérőszámok értékeit, és amikor megfelelnek az elvárásoknak, az érdekeltek biztosak lehetnek a szintetikus adatok felhasználásával kialakított megoldásokban.

A strukturált szintetikus adatok felhasználási esetei az alkalmazások széles skáláját fedik le a szoftverfejlesztéshez szükséges tesztadatoktól a szintetikus kontrollkarok klinikai vizsgálatok során történő létrehozásáig.

Keresse fel ezeket a lehetőségeket, vagy építsen egy PoC-t az érték demonstrálására.

Faris Haddad az AABG Strategic Pursuits csapatának Data & Insights vezetője. Segíti, hogy a vállalkozások sikeresen adatközpontúvá váljanak.

Időbélyeg: December 16, 2022December 18, 2022

Időbélyeg: 25. augusztus 2022.

Hogyan értékeljük a szintetikus adatok minőségét – mérés a hűség, a hasznosság és a magánélet szempontjából

Újra kiadta Platón

A szintetikus adatminőség-értékelés három dimenziója

Mérőszámok a hűség megértéséhez

Feltáró statisztikai összehasonlítások

A hisztogram hasonlósági pontszáma

Kölcsönös információs pontszám

Korrelációs pontszám

Autokorreláció és részleges autokorrelációs pontszám

Mérőszámok a hasznosság megértéséhez

Előrejelzési pontszám

Funkció fontossági pontszáma

QScore

Mutatók a magánélet megértéséhez

Pontos meccspontszám

A szomszédok adatvédelmi pontszáma

Tagsági következtetés pontszáma

A holdout koncepció

Záró gondolatok

Összegzésként

Még több AWS gépi tanulás

Gazdakód-szerver az Amazon SageMakeren

Becsapások valószínűsége, az NHL Edge IQ része: Valós időben megjósolni a mérkőzés győzteseit a televíziós meccseken

Építsen, képezzen és telepítsen Amazon Lookout for Equipment modelleket a Python Toolbox segítségével

A T-Mobile US, Inc. mesterséges intelligenciát használ az Amazon Transcribe és az Amazon Translate szolgáltatáson keresztül, hogy az ügyfelek által választott nyelven kézbesítse a hangpostát | Amazon webszolgáltatások

Anomáliák észlelése az Amazon SageMaker Edge Manager segítségével az AWS IoT Greengrass V2 használatával

Alacsony késleltetésű tárhely elérése a döntési fa alapú ML-modellekhez az NVIDIA Triton Inference Serveren az Amazon SageMakeren

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók