Mi az a szintetikus adat? Típusaik, használati eseteik és alkalmazásaik a gépi tanuláshoz és az adatvédelemhez

Újra kiadta Platón

Követő: 0

Az adattudomány és a gépi tanulás területe napról napra növekszik. Mivel az idő múlásával új modelleket és algoritmusokat javasolnak, ezeknek az új algoritmusoknak és modelleknek hatalmas adatra van szükségük a betanításhoz és teszteléshez. A Deep Learning modellek manapság egyre népszerűbbek, és ezek a modellek is adatéhesek. Ilyen hatalmas mennyiségű adat beszerzése a különböző problémafelvetések összefüggésében meglehetősen förtelmes, időigényes és költséges folyamat. Az adatok valós forgatókönyvekből származnak, ami biztonsági kötelezettségeket és adatvédelmi aggályokat vet fel. Az adatok többsége magánjellegű, és adatvédelmi törvények és szabályozások védik, ami akadályozza az adatok megosztását és mozgását a szervezetek között, vagy esetenként egy szervezet különböző részlegei között – ami késlelteti a kísérleteket és a termékek tesztelését. Felmerül tehát a kérdés, hogyan lehet ezt a problémát megoldani? Hogyan tehetőek az adatok hozzáférhetőbbé és nyitottabbá anélkül, hogy aggályokat vetnének fel valakinek a magánéletével kapcsolatban?

A probléma megoldása az úgynevezett Szintetikus adatok.

Szóval, mi az a szintetikus adat?

A definíció szerint a szintetikus adatokat mesterségesen vagy algoritmikusan állítják elő, és nagyon hasonlítanak a tényleges adatok mögöttes szerkezetére és tulajdonságára. Ha a szintetizált adat jó, akkor nem lehet megkülönböztetni a valós adatoktól.

Hány különböző típusú szintetikus adat lehet?

A kérdésre adott válasz nagyon nyílt végű, mivel az adatok sokféle formát ölthetnek, de főként mi

Szöveges adatok
Audio vagy vizuális adatok (pl. Képek, videók és hang)
Táblázatos adatok

Szintetikus adatok használata gépi tanuláshoz

Csak háromféle szintetikus adat felhasználási esetét tárgyaljuk, amint azt fentebb említettük.

Szintetikus szöveges adatok használata NLP-modellek betanításához

A szintetikus adatoknak a természetes nyelvi feldolgozás területén vannak alkalmazásai. Például az Amazon Alexa AI csapata szintetikus adatokat használ az NLU rendszer (természetes nyelvértés) képzési készletének befejezéséhez. Meglévő vagy elegendő fogyasztói interakciós adat nélkül szilárd alapot biztosít számukra új nyelvek képzéséhez.

Szintetikus adatok használata látásalgoritmusok képzéséhez

Beszéljünk itt egy széles körben elterjedt felhasználási esetről. Tegyük fel, hogy ki akarunk fejleszteni egy algoritmust a képen lévő arcok számának észlelésére vagy megszámlálására. GAN-t vagy más generatív hálózatot használhatunk reális emberi arcok generálására, azaz olyan arcok létrehozására, amelyek nem léteznek a való világban, a modell betanítására. További előnye, hogy ezekből az algoritmusokból annyi adatot generálhatunk, amennyit csak akarunk anélkül, hogy bárki magánéletét megsértené. Valódi adatokat azonban nem használhatunk fel, mivel azok egyes személyek arcát tartalmazzák, ezért egyes adatvédelmi irányelvek korlátozzák ezen adatok felhasználását.

Egy másik felhasználási eset a megerősítő tanulás szimulált környezetben. Tegyük fel, hogy tesztelni akarunk egy robotkart, amelyet arra terveztek, hogy megragadjon egy tárgyat és egy dobozba helyezze azt. Erre a célra egy megerősítő tanulási algoritmust terveztek. Kísérleteket kell végeznünk a teszteléshez, mert így tanul a megerősítő tanulási algoritmus. Egy kísérlet valós forgatókönyv szerinti felállítása meglehetősen költséges és időigényes, ami korlátozza az elvégezhető különböző kísérletek számát. De ha a kísérleteket szimulált környezetben végezzük, akkor a kísérlet felállítása viszonylag olcsó, mivel nem lesz szükség robotkar prototípusra.

A táblázatos adatok felhasználása

A táblázatos szintetikus adatok mesterségesen előállított adatok, amelyek utánozzák a táblázatokban tárolt valós adatokat. Ezek az adatok sorokba és oszlopokba vannak rendezve. Ezek a táblázatok bármilyen adatot tartalmazhatnak, például egy zenei lejátszási listát. A zenelejátszó minden egyes dalhoz egy csomó információt tárol: a nevét, az énekesét, a hossza, a műfaja stb. Pénzügyi rekord is lehet, például banki tranzakciók, részvényárfolyamok stb.

A banki tranzakciókhoz kapcsolódó szintetikus táblázatos adatokat modellek és tervezési algoritmusok betanításához használják a csalárd tranzakciók észlelésére. A múltból származó részvényárfolyam-adatok felhasználhatók a részvények jövőbeli árfolyamainak előrejelzésére szolgáló modellek képzésére és tesztelésére.

A szintetikus adatok gépi tanulásban való használatának egyik jelentős előnye, hogy a fejlesztő rendelkezik az adatok felett; szükség szerint módosíthatja az adatokat, hogy teszteljen bármilyen ötletet, és kísérletezzen vele. Eközben a fejlesztő tesztelheti a modellt szintetizált adatokon, és ez nagyon világos képet ad arról, hogy a modell hogyan fog teljesíteni a valós adatokon. Ha egy fejlesztő ki akar próbálni egy modellt, és valódi adatokra vár, akkor az adatok megszerzése hetekig vagy akár hónapokig is eltarthat. Ez késlelteti a technológia fejlesztését és innovációját.

Most készen állunk arra, hogy megvitassuk, hogyan segítenek a szintetikus adatok az adatvédelemmel kapcsolatos problémák megoldásában.

Számos iparág függ az ügyfelek által generált adatoktól az innováció és fejlesztés érdekében, de ezek az adatok személyazonosításra alkalmas információkat (PII) tartalmaznak, és az adatvédelmi törvények szigorúan szabályozzák az ilyen adatok feldolgozását. Például az Általános Adatvédelmi Rendelet (GDPR) tiltja az olyan felhasználásokat, amelyekhez a szervezet az adatok gyűjtése során nem járult hozzá kifejezetten. Mivel a szintetikus adatok nagyon hasonlítanak a valós adatok mögöttes szerkezetére, és egyúttal biztosítja, hogy ne a valós adatokban jelenlévő egyén a szintetikus adatokból újra azonosítható. Ennek eredményeként a szintetikus adatok feldolgozására és megosztására sokkal kevesebb szabályozás vonatkozik, ami gyorsabb fejlesztéseket és innovációkat, valamint egyszerű adathozzáférést eredményez.

Következtetés

A szintetikus adatoknak számos jelentős előnye van. Lehetővé teszi az ML fejlesztők számára a kísérletek irányítását, és megnöveli a fejlesztési sebességet, mivel az adatok már könnyebben hozzáférhetők. Elősegíti a nagyobb léptékű együttműködést, mivel az adatok szabadon megoszthatók. Ezenkívül a szintetikus adatok garantálják az egyének magánéletének védelmét a valós adatokkal szemben.

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar tanácsadó gyakornok a MarktechPostnál. Jelenleg a kanpuri Indian Institute of Technology (IIT) egyetemi diplomáját folytatja. A gépi tanulás rajongója. Szenvedélyesen rajong a kutatásért és a Deep Learning, a Computer Vision és a kapcsolódó területek legújabb fejlesztéseiért.

<!–

Időbélyeg: November 12, 2022November 14, 2022