Synthetic Data Can Offer Real Performance Improvements In Machine Learning

Újra kiadta Platón

Követő: 0

Az akciófelismerés drámaian javult a hatalmas méretű videoadatkészletekkel. Ezekhez az adatkészletekhez azonban a kezelési költségekkel, a magánélettel, az etikával, az elfogultsággal és a szerzői jogokkal kapcsolatos problémák is társulnak. Így, MIT a tudósok a szintetikus adatkészletek felé fordulnak.

Ezeket egy számítógép készíti, amely jelenetek, tárgyak és emberek 3D-s modelljeit használja, hogy gyorsan készítsen különféle klipeket konkrét műveletekről – a valós adatokkal járó esetleges szerzői jogi problémák vagy etikai aggályok nélkül.

A szintetikus adatok jók valódi adatoknak?

Az MIT, a MIT-IBM Watson AI Lab és a Bostoni Egyetem tudósaiból álló csoport erre a kérdésre kereste a választ. Létrehoztak egy 150,000 XNUMX videoklipből álló szintetikus adatkészletet, amelyek különféle emberi cselekedeteket mutattak be és képeztek gépi tanulás ezt az adatkészletet használó modellek. Ezután hat, a való világból vett filmek adatkészletét jelenítették meg ezeknek a modelleknek, hogy teszteljék, mennyire tudják felfogni a felvételeken szereplő műveleteket.

A tudósok azt találták, hogy a szintetikusan betanított modellek még jobban teljesítettek, mint a valós adatokra betanított modellek olyan videók esetében, amelyek kevesebb háttérobjektumot tartalmaznak.

Ez a felfedezés segíthet abban, hogy a tudósok szintetikus adatkészleteket használjanak, hogy segítsék a modelleket a tényleges feladatok pontosabb végrehajtásában. A tényleges adatkészletek használatához kapcsolódó etikai, adatvédelmi és szerzői jogi aggályok csökkentése érdekében segítséget nyújthat a kutatóknak annak meghatározásában, hogy mely gépi tanulási alkalmazások a legalkalmasabbak a szintetikus adatokkal való képzéshez.

Rogerio Feris, a MIT-IBM Watson AI Lab vezető tudósa és menedzsere elmondta: „Kutatásunk végső célja, hogy a valós adatok előképzését szintetikus adatelőképzéssel helyettesítsük. A szintetikus adatokban végzett műveletek létrehozása költséggel jár, de ha ez megtörtént, korlátlan számú képet vagy videót generálhat a póz, a világítás stb. megváltoztatásával. Ez a szintetikus adatok szépsége."

A tudósok azzal kezdték, hogy összeállítottak egy új Synthetic Action Pre-training and Transfer-t (SynAPT), amely három nyilvánosan elérhető adatkészletet használt szintetikus videoklipekből, amelyek emberi cselekvéseket örökítettek meg. Csaknem 150 akciókategóriát tartalmaz, kategóriánként 1,000 videoklippel.

Három gépi tanulási modellt előképzettek meg, hogy felismerjék a műveleteket az adatkészlet használatával annak létrehozása után. Az előképzés az a folyamat, amikor egy modellnek egy feladatot megtanítunk, mielőtt egy másikat megtanítunk. Az előképzett modell felhasználhatja a már megtanult paramétereket, hogy gyorsabban és hatékonyabban tanuljon meg egy új feladatot egy új adatkészlettel. Ez az emberek tanulásának mintájára épül, vagyis a múltbeli információk újrafelhasználására, amikor valami újat tudunk meg. Az előképzett modellt hat valódi videoklipek adatkészletével tesztelték, amelyek mindegyike olyan műveletosztályokat rögzít, amelyek különböztek a betanítási adatokban szereplőktől.

Meglepő volt a tudósok számára, hogy a hat adatkészletből négyen mindhárom szintetikus modell jobban teljesített, mint a tényleges videoklipekkel betanított modellek. Pontosságuk azoknál az adatkészleteknél volt a legmagasabb, amelyek „alacsony jelenet-objektum torzítású” videoklipeket tartalmaztak. Ez azt jelenti, hogy a modell nem ismeri fel a cselekvést a háttérre vagy a jelenet egyéb tárgyaira nézve – magára a cselekvésre kell összpontosítania.

Feris azt mondta: „Az alacsony jelenet-objektum torzítású videóknál a cselekvések időbeli dinamikája fontosabb, mint az objektumok vagy a háttér megjelenése, és úgy tűnik, hogy ezt jól megragadják szintetikus adatok.”

„A nagy jelenet-objektum elfogultság akadályként hathat. Előfordulhat, hogy a modell tévesen osztályoz egy cselekvést, ha inkább egy tárgyat néz, nem pedig magát a cselekvést. Ez megzavarhatja a modellt."

Rameswar Panda társszerző, az MIT-IBM Watson AI Lab kutató munkatársa elmondta: "Ezekre az eredményekre építve a kutatók több akcióosztályt és további szintetikus videóplatformot szeretnének bevonni a jövőbeni munkába, végül létrehozva egy katalógust a szintetikus adatok felhasználásával előképzett modellekből."

„Szeretnénk olyan modelleket építeni, amelyek teljesítménye nagyon hasonló, vagy még jobb is, mint a szakirodalomban szereplő meglévő modellek, de anélkül, hogy bármilyen előítélethez vagy biztonsági aggályhoz kötnénk.”

Sooyoung Jin, a társszerző és a CSAIL posztdoktori elmondta: "Munkájukat olyan kutatásokkal is szeretnék kombinálni, amelyek pontosabb és valósághűbb szintetikus videókat generálnak, ami javíthatja a modellek teljesítményét."

„Szintetikus adatkészleteket használunk az adatvédelmi problémák vagy a kontextuális vagy társadalmi elfogultság megelőzésére, de mit tanul a modell? Tanul valamit, ami elfogulatlan?”

A társszerző, Samarth Mishra, a Bostoni Egyetem (BU) végzős hallgatója mondott, „Annak ellenére, hogy a jól jelzett szintetikus adatok beszerzése alacsonyabb költséggel jár, jelenleg nincs olyan adatkészletünk, amely akkora méretarányú lenne, hogy a valódi videókkal vetekedjen a legnagyobb kommentárokkal ellátott adatkészletekkel. A különböző költségek és aggályok valódi videókkal való megbeszélésével, valamint a szintetikus adatok hatékonyságának bemutatásával reméljük, hogy ösztönözni tudjuk az ilyen irányú erőfeszítéseket.”

Journal Reference: