Syntetiske data kan tilbyde reelle præstationsforbedringer i maskinlæring

Genudgivet af Platon

Abonnenter: 0

Handlingsgenkendelse er forbedret dramatisk med videodatasæt i massiv skala. Alligevel er disse datasæt ledsaget af problemer relateret til kurationsomkostninger, privatliv, etik, bias og ophavsret. Så, MIT videnskabsmænd henvender sig til syntetiske datasæt.

Disse er lavet af en computer, der bruger 3D-modeller af scener, objekter og mennesker til hurtigt at producere mange forskellige klip af specifikke handlinger - uden de potentielle copyright-problemer eller etiske bekymringer, der følger med rigtige data.

Er syntetiske data gode som rigtige data?

Et team af forskere ved MIT, MIT-IBM Watson AI Lab og Boston University forsøgte at besvare dette spørgsmål. De skabte et syntetisk datasæt med 150,000 videoklip, der repræsenterede en række menneskelige handlinger og trænede machine learning modeller, der bruger dette datasæt. De viste derefter seks datasæt af film taget fra den faktiske verden til disse modeller for at teste, hvor godt de kunne opfange handlingerne i disse optagelser.

Forskere fandt ud af, at de syntetisk trænede modeller klarede sig endnu bedre end modeller trænet på rigtige data til videoer, der har færre baggrundsobjekter.

Denne opdagelse kan hjælpe med at bruge syntetiske datasæt af videnskabsmænd til at hjælpe modeller med at udføre mere præcist på faktiske opgaver. For at reducere nogle af de etiske, privatlivs- og ophavsretlige bekymringer, der er forbundet med at bruge faktiske datasæt, kan det også hjælpe forskere med at bestemme, hvilke maskinlæringsapplikationer, der er bedst egnede til træning med syntetiske data.

Rogerio Feris, ledende videnskabsmand og leder ved MIT-IBM Watson AI Lab sagde, "Det ultimative mål med vores forskning er at erstatte ægte datafortræning med syntetisk datafortræning. Der er en omkostning ved at skabe en handling i syntetiske data, men når det er gjort, kan du generere ubegrænsede billeder eller videoer ved at ændre positur, belysning osv. Det er skønheden ved syntetiske data.”

Forskere startede med at kompilere en ny Synthetic Action Pre-training and Transfer (SynAPT) ved hjælp af tre offentligt tilgængelige datasæt af syntetiske videoklip, der fangede menneskelige handlinger. Den indeholder næsten 150 handlingskategorier med 1,000 videoklip pr. kategori.

Tre maskinlæringsmodeller blev fortrænet til at genkende handlingerne ved hjælp af datasættet, efter at det var blevet oprettet. Fortræning er processen med at lære en model én opgave forud for at lære den en anden. Den fortrænede model kan bruge de parametre, den allerede har lært, til at hjælpe den med at lære en ny opgave med et nyt datasæt hurtigere og mere effektivt. Dette er modelleret efter, hvordan folk lærer, som er at genbruge tidligere information, når vi ved noget nyt. Den fortrænede model er blevet testet ved hjælp af seks datasæt af rigtige videoklip, der hver fanger klasser af handlinger, der var forskellige fra dem i træningsdataene.

Det var overraskende for videnskabsmænd at se, at alle tre syntetiske modeller klarede sig bedre end modeller trænet med faktiske videoklip på fire af de seks datasæt. Deres nøjagtighed var højest for datasæt, der indeholdt videoklip med "lav scene-objekt bias." Det betyder, at modellen ikke kan genkende handlingen ved at se på baggrunden eller andre objekter i scenen - den skal fokusere på selve handlingen.

Feris sagde, "I videoer med lav scene-objekt bias er handlingernes tidsmæssige dynamik vigtigere end udseendet af objekterne eller baggrunden, og det ser ud til at være godt fanget med syntetiske data."

"Høj scene-objekt bias kan fungere som en hindring. Modellen kan fejlklassificere en handling ved at se på et objekt i stedet for selve handlingen. Det kan forvirre modellen.”

Medforfatter Rameswar Panda, en forskningsmedarbejder ved MIT-IBM Watson AI Lab, sagde: "På grundlag af disse resultater ønsker forskerne at inkludere flere handlingsklasser og yderligere syntetiske videoplatforme i fremtidigt arbejde og til sidst skabe et katalog over modeller, der er blevet fortrænet ved hjælp af syntetiske data."

"Vi ønsker at bygge modeller, som har meget lignende eller endda bedre ydeevne end de eksisterende modeller i litteraturen, men uden at være bundet af nogen af disse skævheder eller sikkerhedsproblemer."

Sooyoung Jin, en medforfatter og CSAIL postdoc, sagde, "De ønsker også at kombinere deres arbejde med forskning, der søger at generere mere nøjagtige og realistiske syntetiske videoer, som kan booste modellernes ydeevne."

"Vi bruger syntetiske datasæt til at forhindre privatlivsproblemer eller kontekstuelle eller sociale skævheder, men hvad lærer modellen? Lærer den noget, der er upartisk?”

Medforfatter Samarth Mishra, en kandidatstuderende ved Boston University (BU), sagde, "På trods af at det er lavere omkostninger ved at skaffe godt kommenterede syntetiske data, har vi i øjeblikket ikke et datasæt med en skala til at konkurrere med de største kommenterede datasæt med rigtige videoer. Ved at diskutere de forskellige omkostninger og bekymringer med rigtige videoer og vise effektiviteten af syntetiske data, håber vi at motivere indsatsen i denne retning."

Journal Reference: