Syntetisk data kan erbjuda verkliga prestandaförbättringar inom maskininlärning

Återutgiven av Platon

anhängare: 0

Actionigenkänningen har förbättrats dramatiskt med massiva videodatauppsättningar. Ändå åtföljs dessa datauppsättningar av frågor relaterade till kurationskostnader, integritet, etik, partiskhet och upphovsrätt. Så, MIT forskare vänder sig till syntetiska datauppsättningar.

Dessa är gjorda av en dator som använder 3D-modeller av scener, objekt och människor för att snabbt producera många olika klipp av specifika handlingar – utan potentiella upphovsrättsproblem eller etiska problem som kommer med verklig data.

Är syntetisk data bra som riktig data?

Ett team av forskare vid MIT, MIT-IBM Watson AI Lab och Boston University försökte svara på denna fråga. De skapade en syntetisk datauppsättning med 150,000 XNUMX videoklipp som representerade en mängd olika mänskliga handlingar och tränade maskininlärning modeller som använder denna datauppsättning. De visade sedan sex datauppsättningar av filmer tagna från den faktiska världen till dessa modeller för att testa hur väl de kunde fånga upp handlingarna i dessa inspelningar.

Forskare fann att de syntetiskt tränade modellerna presterade ännu bättre än modeller som tränats på riktiga data för videor som har färre bakgrundsobjekt.

Denna upptäckt kan hjälpa forskare att använda syntetiska datauppsättningar för att hjälpa modeller att utföra mer exakt på faktiska uppgifter. För att minska en del av de etiska, integritets- och upphovsrättsproblem som är förknippade med att använda faktiska datauppsättningar, kan det också hjälpa forskare att avgöra vilka maskininlärningsapplikationer som är mest lämpade för träning med syntetiska data.

Rogerio Feris, huvudforskare och chef vid MIT-IBM Watson AI Lab sa, "Det slutliga målet med vår forskning är att ersätta riktig dataförträning med syntetisk dataförträning. Det finns en kostnad i att skapa en handling i syntetisk data, men när det väl är gjort kan du generera obegränsade bilder eller videor genom att ändra pose, belysning, etc. Det är skönheten med syntetisk data.”

Forskare började med att sammanställa en ny Synthetic Action Pre-training and Transfer (SynAPT), med hjälp av tre allmänt tillgängliga datauppsättningar av syntetiska videoklipp som fångade mänskliga handlingar. Den innehåller nästan 150 actionkategorier, med 1,000 XNUMX videoklipp per kategori.

Tre maskininlärningsmodeller förutbildades för att känna igen åtgärderna med hjälp av datauppsättningen efter att den hade skapats. Förträning är processen att lära en modell en uppgift innan man lär den ut en annan. Den förtränade modellen kan använda parametrarna den redan har lärt sig för att hjälpa den att lära sig en ny uppgift med en ny datamängd snabbare och mer effektivt. Detta är modellerat efter hur människor lär sig, vilket är att återanvända tidigare information när vi vet något nytt. Den förtränade modellen har testats med hjälp av sex datauppsättningar av riktiga videoklipp, som var och en fångar klasser av åtgärder som skilde sig från dem i träningsdatan.

Det var förvånande för forskare att se att alla tre syntetiska modeller överträffade modeller som tränats med faktiska videoklipp på fyra av de sex datamängderna. Deras noggrannhet var högst för datauppsättningar som innehöll videoklipp med "låg scenobjektsbias". Det betyder att modellen inte kan känna igen handlingen genom att titta på bakgrunden eller andra föremål i scenen – den måste fokusera på själva handlingen.

Feris sa, "I videor med låg scen-objektbias är den tidsmässiga dynamiken i handlingarna viktigare än utseendet på objekten eller bakgrunden, och det verkar vara väl fångat med syntetiska data."

"Hög scen-objektbias kan fungera som ett hinder. Modellen kan felklassificera en handling genom att titta på ett objekt snarare än själva handlingen. Det kan förvirra modellen.”

Medförfattare Rameswar Panda, en forskningsanställd vid MIT-IBM Watson AI Lab, sa: "Utifrån dessa resultat vill forskarna inkludera fler actionklasser och ytterligare syntetiska videoplattformar i framtida arbete, och så småningom skapa en katalog med modeller som har förtränats med syntetisk data."

"Vi vill bygga modeller som har mycket liknande eller till och med bättre prestanda än de befintliga modellerna i litteraturen, men utan att vara bundna av någon av dessa fördomar eller säkerhetsproblem."

Sooyoung Jin, en medförfattare och CSAIL postdoc, sa: "De vill också kombinera sitt arbete med forskning som syftar till att generera mer exakta och realistiska syntetiska videor, vilket kan öka modellernas prestanda."

"Vi använder syntetiska datauppsättningar för att förhindra sekretessproblem eller kontextuella eller sociala fördomar, men vad lär modellen sig? Lär den sig något som är opartiskt?”

Medförfattare Samarth Mishra, doktorand vid Boston University (BU), sade, "Trots att det finns en lägre kostnad för att skaffa välkommenterade syntetiska data har vi för närvarande ingen datauppsättning med skalan för att konkurrera med de största kommenterade datauppsättningarna med riktiga videor. Genom att diskutera de olika kostnaderna och problemen med riktiga videor och visa effektiviteten av syntetisk data hoppas vi kunna motivera ansträngningar i denna riktning."

Tidskriftsreferens: