Synthetische data kunnen echte prestatieverbeteringen bieden op het gebied van machinaal leren

Heruitgegeven door Plato

volgers: 0

Actieherkenning is dramatisch verbeterd met grootschalige videodatasets. Toch gaan deze datasets gepaard met problemen die verband houden met de beheerskosten, privacy, ethiek, vooringenomenheid en auteursrecht. Dus, MIT wetenschappers wenden zich tot synthetische datasets.

Deze worden gemaakt door een computer die 3D-modellen van scènes, objecten en mensen gebruikt om snel veel verschillende clips van specifieke acties te produceren – zonder de mogelijke auteursrechtproblemen of ethische problemen die gepaard gaan met echte gegevens.

Zijn synthetische data even goed als echte data?

Een team van wetenschappers van MIT, het MIT-IBM Watson AI Lab en Boston University probeerden deze vraag te beantwoorden. Ze creëerden een synthetische dataset van 150,000 videoclips die een verscheidenheid aan menselijke acties vertegenwoordigden en trainden machine learning modellen die deze dataset gebruiken. Vervolgens toonden ze zes datasets van films uit de echte wereld aan deze modellen om te testen hoe goed ze de acties in die opnames konden oppikken.

Wetenschappers ontdekten dat de synthetisch getrainde modellen zelfs beter presteerden dan modellen die waren getraind op echte gegevens voor video's met minder achtergrondobjecten.

Deze ontdekking kan helpen bij het gebruik van synthetische datasets door wetenschappers om modellen te helpen bij het nauwkeuriger uitvoeren van daadwerkelijke taken. Om enkele van de ethische, privacy- en auteursrechtproblemen die gepaard gaan met het gebruik van daadwerkelijke datasets weg te nemen, kan het onderzoekers ook helpen bij het bepalen welke machine-learning-applicaties het meest geschikt zijn voor training met synthetische data.

Rogerio Feris, hoofdwetenschapper en manager bij het MIT-IBM Watson AI Lab zei: “Het uiteindelijke doel van ons onderzoek is om echte data-pretraining te vervangen door synthetische data-pretraining. Er zijn kosten verbonden aan het creëren van een actie in synthetische data, maar zodra dat gedaan is, kun je onbeperkt afbeeldingen of video’s genereren door de pose, belichting, enz. te veranderen. Dat is het mooie van synthetische data.”

Wetenschappers zijn begonnen met het samenstellen van een nieuwe Synthetic Action Pre-training and Transfer (SynAPT), met behulp van drie openbaar beschikbare datasets van synthetische videoclips die menselijke acties hebben vastgelegd. Het bevat bijna 150 actiecategorieën, met 1,000 videoclips per categorie.

Drie machine learning-modellen zijn vooraf getraind om de acties te herkennen met behulp van de dataset nadat deze was gemaakt. Pretraining is het proces waarbij een model de ene taak wordt aangeleerd voordat de andere wordt aangeleerd. Het vooraf getrainde model kan de parameters gebruiken die het al heeft geleerd, zodat het sneller en efficiënter een nieuwe taak met een nieuwe dataset kan leren. Dit is gemodelleerd naar de manier waarop mensen leren, namelijk het hergebruiken van informatie uit het verleden als we iets nieuws weten. Het vooraf getrainde model is getest met behulp van zes datasets van echte videoclips, waarbij elke actieklasse werd vastgelegd die anders was dan die in de trainingsgegevens.

Het was verrassend voor wetenschappers om te zien dat alle drie de synthetische modellen beter presteerden dan modellen die waren getraind met daadwerkelijke videoclips op vier van de zes datasets. Hun nauwkeurigheid was het hoogst voor datasets die videoclips bevatten met een ‘lage scène-object bias’. Het betekent dat het model de actie niet kan herkennen door naar de achtergrond of andere objecten in de scène te kijken; het moet zich concentreren op de actie zelf.

Feris zei: “In video’s met weinig scène-object bias is de temporele dynamiek van de acties belangrijker dan het uiterlijk van de objecten of de achtergrond, en dat lijkt goed te worden vastgelegd met synthetische data.”

“Een hoge scène-object bias kan een obstakel vormen. Het model kan een actie verkeerd classificeren door naar een object te kijken in plaats van naar de actie zelf. Het kan het model verwarren.”

Co-auteur Rameswar Panda, een onderzoeksmedewerker bij het MIT-IBM Watson AI Lab, zei: “Voortbouwend op deze resultaten willen de onderzoekers in toekomstig werk meer actieklassen en aanvullende synthetische videoplatforms opnemen, en uiteindelijk een catalogus creëren van modellen die vooraf zijn getraind met behulp van synthetische data.”

“We willen modellen bouwen die zeer vergelijkbare of zelfs betere prestaties leveren dan de bestaande modellen in de literatuur, maar zonder gebonden te zijn aan die vooroordelen of veiligheidsproblemen.”

Sooyoung Jin, een co-auteur en postdoc van CSAIL, zei: “Ze willen hun werk ook combineren met onderzoek dat tot doel heeft nauwkeurigere en realistischere synthetische video’s te genereren, wat de prestaties van de modellen zou kunnen verbeteren.”

“We gebruiken synthetische datasets om privacyproblemen of contextuele of sociale vooroordelen te voorkomen, maar wat leert het model? Leert het iets dat onbevooroordeeld is?”

Co-auteur Samarth Mishra, een afgestudeerde student aan de Boston University (BU), zei, “Ondanks dat er lagere kosten zijn voor het verkrijgen van goed geannoteerde synthetische data, hebben we momenteel geen dataset met de schaal om te wedijveren met de grootste geannoteerde datasets met echte video’s. Door de verschillende kosten en zorgen te bespreken met echte video’s en door de effectiviteit van synthetische data te laten zien, hopen we inspanningen in deze richting te motiveren.”

Journal Reference: