Synteettinen data voi tarjota todellisia suorituskyvyn parannuksia koneoppimisessa

Julkaissut Platon

seuraajia: 0

Toiminnan tunnistus on parantunut dramaattisesti massiivisten videotietosarjojen ansiosta. Näihin tietokokonaisuuksiin liittyy kuitenkin ongelmia, jotka liittyvät kuratointikustannuksiin, yksityisyyteen, etiikkaan, harhaan ja tekijänoikeuksiin. Niin, MIT tutkijat ovat siirtymässä synteettisiin tietokokonaisuuksiin.

Nämä tehdään tietokoneella, joka käyttää kohtausten, kohteiden ja ihmisten 3D-malleja tuottaakseen nopeasti useita erilaisia leikkeitä tietyistä toimista – ilman mahdollisia tekijänoikeusongelmia tai eettisiä huolenaiheita, jotka liittyvät todellisiin tietoihin.

Onko synteettinen data hyvää todellista dataa?

MIT:n, MIT-IBM Watson AI Labin ja Bostonin yliopiston tutkijoiden ryhmä yritti vastata tähän kysymykseen. He loivat synteettisen 150,000 XNUMX videoleikkeen tietojoukon, jotka edustivat erilaisia ihmisten toimia ja kouluttivat koneoppimisen mallit, jotka käyttävät tätä tietojoukkoa. Sitten he näyttivät näille malleille kuusi tietojoukkoa todellisesta maailmasta otettuja elokuvia testatakseen, kuinka hyvin he pystyivät havaitsemaan näiden tallenteiden toiminnot.

Tutkijat havaitsivat, että synteettisesti koulutetut mallit toimivat jopa paremmin kuin mallit, jotka on koulutettu todelliseen dataan videoissa, joissa on vähemmän taustaobjekteja.

Tämä löytö voi auttaa tutkijoita käyttämään synteettisiä tietojoukkoja auttamaan malleja suoriutumaan tarkemmin todellisista tehtävistä. Varsinaisten tietojoukkojen käyttöön liittyvien eettisten, yksityisyys- ja tekijänoikeusongelmien vähentämiseksi se voi myös auttaa tutkijoita määrittämään, mitkä koneoppimissovellukset soveltuvat parhaiten synteettisten tietojen opetukseen.

Rogerio Feris, johtava tutkija ja MIT-IBM Watson AI Labin johtaja sanoi, ”Tutkimuksemme perimmäisenä tavoitteena on korvata todellisen datan esikoulutus synteettisellä datan esikoulutuksella. Toiminnan luominen synteettiselle datalle maksaa, mutta kun se on tehty, voit luoda rajattomasti kuvia tai videoita muuttamalla asentoa, valaistusta jne. Se on synteettisen tiedon kauneus."

Tutkijat aloittivat kokoamalla uuden synteettisen toiminnan esikoulutuksen ja siirron (SynAPT) käyttämällä kolmea julkisesti saatavilla olevaa tietojoukkoa synteettisistä videoleikkeistä, jotka tallensivat ihmisten toimia. Se sisältää lähes 150 toimintaluokkaa ja 1,000 XNUMX videoleikettä per luokka.

Kolme koneoppimismallia esiopetettiin tunnistamaan toiminnot tietojoukon avulla sen luomisen jälkeen. Esikoulutus on prosessi, jossa opetetaan mallille yksi tehtävä ennen toisen opettamista. Esikoulutettu malli voi käyttää jo oppimiaan parametreja auttaakseen sitä oppimaan uuden tehtävän uudella tietojoukolla nopeammin ja tehokkaammin. Tämä on mallinnettu sen mukaan, miten ihmiset oppivat, eli käytämme uudelleen aiempia tietoja, kun tiedämme jotain uutta. Esiopetettu malli on testattu käyttämällä kuutta todellista videoleikkeen tietojoukkoa, joista kukin kaappaa toimintoluokkia, jotka poikkesivat harjoitustiedoissa olevista.

Tutkijoille oli yllättävää nähdä, että kaikki kolme synteettistä mallia ylittivät mallit, jotka oli koulutettu todellisilla videoleikkeillä neljässä kuudesta tietojoukosta. Niiden tarkkuus oli korkein datajoukoissa, jotka sisälsivät videoleikkeitä, joissa oli "alhainen kohtausobjektiharha". Se tarkoittaa, että malli ei voi tunnistaa toimintaa katsomalla taustaa tai muita esineitä kohtauksessa – sen on keskityttävä itse toimintaan.

Feris sanoi: "Videoissa, joissa on vähän kohtausobjektia, toimintojen ajallinen dynamiikka on tärkeämpää kuin objektien ulkonäkö tai tausta, ja se näyttää olevan hyvin tallennettu synteettisellä datalla."

”Suuri kohtaus-objektiharha voi toimia esteenä. Malli saattaa luokitella toiminnan väärin katsomalla kohdetta itse toiminnon sijaan. Se voi hämmentää mallia."

Toinen kirjoittaja Rameswar Panda, MIT-IBM Watson AI Labin tutkija, sanoi: "Näiden tulosten pohjalta tutkijat haluavat sisällyttää tulevaan työhön enemmän toimintaluokkia ja muita synteettisiä videoalustoja ja luoda lopulta luettelon malleista, jotka on esiopetettu käyttämällä synteettistä dataa."

"Haluamme rakentaa malleja, joiden suorituskyky on hyvin samankaltainen tai jopa parempi kuin kirjallisuudessa olevilla malleilla, mutta joita ei sido mikään noista harhoista tai turvallisuusongelmista."

Sooyoung Jin, toinen kirjoittaja ja CSAIL-postdoc, sanoi, "He haluavat myös yhdistää työnsä tutkimukseen, jolla pyritään luomaan tarkempia ja realistisempia synteettisiä videoita, jotka voivat parantaa mallien suorituskykyä."

”Käytämme synteettisiä tietojoukkoja yksityisyysongelmien tai kontekstuaalisen tai sosiaalisen vinoutumisen estämiseksi, mutta mitä malli oppii? Oppiiko se jotain puolueetonta?"

Toinen kirjoittaja Samarth Mishra, jatko-opiskelija Bostonin yliopistossa (BU), sanoi, "Vaikka hyvin selitetyn synteettisen datan hankkiminen on alhaisempi, meillä ei tällä hetkellä ole datajoukkoa, jonka mittakaava kilpailisi suurimpien annotoitujen tietojoukkojen kanssa oikeilla videoilla. Keskustelemalla erilaisista kustannuksista ja huolenaiheista oikeilla videoilla ja näyttämällä synteettisen datan tehokkuutta, toivomme motivoivamme ponnisteluja tähän suuntaan."

Lehden viite: