Syntetiske data kan tilby reelle ytelsesforbedringer i maskinlæring

Publisert av Platon

Følgere: 0

Handlingsgjenkjenning har forbedret seg dramatisk med massive videodatasett. Likevel er disse datasettene ledsaget av problemer knyttet til kurasjonskostnader, personvern, etikk, skjevhet og opphavsrett. Så, MIT forskere tyr til syntetiske datasett.

Disse er laget av en datamaskin som bruker 3D-modeller av scener, objekter og mennesker for raskt å produsere mange forskjellige klipp av spesifikke handlinger – uten potensielle opphavsrettsproblemer eller etiske bekymringer som følger med ekte data.

Er syntetiske data bra som ekte data?

Et team av forskere ved MIT, MIT-IBM Watson AI Lab og Boston University forsøkte å svare på dette spørsmålet. De laget et syntetisk datasett med 150,000 XNUMX videoklipp som representerte en rekke menneskelige handlinger og trente maskinlæring modeller som bruker dette datasettet. De viste deretter seks datasett med filmer tatt fra den faktiske verden til disse modellene for å teste hvor godt de kunne fange opp handlingene i disse opptakene.

Forskere fant at de syntetisk trente modellene presterte enda bedre enn modeller trenet på ekte data for videoer som har færre bakgrunnsobjekter.

Denne oppdagelsen kan hjelpe med å bruke syntetiske datasett av forskere for å hjelpe modeller med å utføre mer nøyaktig på faktiske oppgaver. For å redusere noen av de etiske, personvern- og opphavsrettslige bekymringene knyttet til bruk av faktiske datasett, kan det også hjelpe forskere med å finne ut hvilke maskinlæringsapplikasjoner som er best egnet for opplæring med syntetiske data.

Rogerio Feris, hovedforsker og leder ved MIT-IBM Watson AI Lab sa: "Det endelige målet med vår forskning er å erstatte ekte dataforopplæring med syntetisk dataforopplæring. Det er en kostnad ved å lage en handling i syntetiske data, men når det er gjort, kan du generere ubegrensede bilder eller videoer ved å endre positur, lyssetting osv. Det er det fine med syntetiske data.»

Forskere startet med å kompilere en ny Synthetic Action Pre-training and Transfer (SynAPT), ved å bruke tre offentlig tilgjengelige datasett med syntetiske videoklipp som fanget menneskelige handlinger. Den inneholder nesten 150 handlingskategorier, med 1,000 videoklipp per kategori.

Tre maskinlæringsmodeller ble forhåndsopplært til å gjenkjenne handlingene ved bruk av datasettet etter at det var opprettet. Foropplæring er prosessen med å lære en modell én oppgave i forkant av å lære den en annen. Den forhåndstrente modellen kan bruke parameterne den allerede har lært for å hjelpe den med å lære en ny oppgave med et nytt datasett raskere og mer effektivt. Dette er modellert etter hvordan folk lærer, som er å gjenbruke tidligere informasjon når vi vet noe nytt. Den forhåndstrente modellen har blitt testet ved bruk av seks datasett med ekte videoklipp, som hver fanger opp klasser av handlinger som var forskjellige fra de i treningsdataene.

Det var overraskende for forskere å se at alle de tre syntetiske modellene overgikk modeller trent med faktiske videoklipp på fire av de seks datasettene. Deres nøyaktighet var høyest for datasett som inneholdt videoklipp med "lav scene-objekt-bias". Det betyr at modellen ikke kan gjenkjenne handlingen ved å se på bakgrunnen eller andre objekter i scenen - den må fokusere på selve handlingen.

Feris sa, "I videoer med lav scene-objekt-skjevhet er den tidsmessige dynamikken til handlingene viktigere enn utseendet til objektene eller bakgrunnen, og det ser ut til å være godt fanget med syntetiske data."

"Høy scene-objekt skjevhet kan fungere som en hindring. Modellen kan feilklassifisere en handling ved å se på et objekt i stedet for selve handlingen. Det kan forvirre modellen."

Medforfatter Rameswar Panda, en forskningsmedarbeider ved MIT-IBM Watson AI Lab, sa: "Med utgangspunkt i disse resultatene ønsker forskerne å inkludere flere handlingsklasser og flere syntetiske videoplattformer i fremtidig arbeid, og til slutt lage en katalog med modeller som har blitt forhåndsopplært med syntetiske data."

"Vi ønsker å bygge modeller som har svært lik eller enda bedre ytelse enn de eksisterende modellene i litteraturen, men uten å være bundet av noen av disse skjevhetene eller sikkerhetsproblemene."

Sooyoung Jin, en medforfatter og CSAIL postdoc, sa: "De ønsker også å kombinere arbeidet sitt med forskning som søker å generere mer nøyaktige og realistiske syntetiske videoer, som kan øke ytelsen til modellene."

"Vi bruker syntetiske datasett for å forhindre personvernproblemer eller kontekstuell eller sosial skjevhet, men hva lærer modellen? Lærer den noe som er objektivt?»

Medforfatter Samarth Mishra, en doktorgradsstudent ved Boston University (BU), sa, "Til tross for at det er en lavere kostnad for å skaffe godt kommenterte syntetiske data, har vi for øyeblikket ikke et datasett med skalaen til å konkurrere med de største kommenterte datasettene med ekte videoer. Ved å diskutere de forskjellige kostnadene og bekymringene med ekte videoer og vise effektiviteten til syntetiske data, håper vi å motivere til innsats i denne retningen."

Tidsreferanse: