Synthetische Daten können echte Leistungsverbesserungen beim maschinellen Lernen bieten

Neuauflage von Plato

Verfolger: 0

Die Aktionserkennung hat sich durch umfangreiche Videodatensätze dramatisch verbessert. Dennoch gehen mit diesen Datensätzen Probleme im Zusammenhang mit Kurationskosten, Datenschutz, Ethik, Voreingenommenheit und Urheberrecht einher. Also, MIT Wissenschaftler wenden sich synthetischen Datensätzen zu.

Diese werden von einem Computer erstellt, der 3D-Modelle von Szenen, Objekten und Menschen verwendet, um schnell viele unterschiedliche Clips bestimmter Aktionen zu erstellen – ohne die potenziellen Urheberrechtsprobleme oder ethischen Bedenken, die mit echten Daten einhergehen.

Sind synthetische Daten genauso gut wie echte Daten?

Ein Team von Wissenschaftlern am MIT, dem MIT-IBM Watson AI Lab und der Boston University versuchte, diese Frage zu beantworten. Sie erstellten einen synthetischen Datensatz aus 150,000 Videoclips, die eine Vielzahl menschlicher Handlungen darstellten und trainierten maschinelles Lernen Modelle, die diesen Datensatz verwenden. Anschließend zeigten sie diesen Modellen sechs Datensätze von Filmen aus der realen Welt an, um zu testen, wie gut sie die Aktionen in diesen Aufnahmen erfassen konnten.

Wissenschaftler fanden heraus, dass die synthetisch trainierten Modelle bei Videos mit weniger Hintergrundobjekten sogar eine bessere Leistung erbrachten als Modelle, die auf realen Daten trainiert wurden.

Diese Entdeckung kann dazu beitragen, dass Wissenschaftler synthetische Datensätze verwenden, um Modelle dabei zu unterstützen, tatsächliche Aufgaben genauer auszuführen. Um einige der ethischen, datenschutzrechtlichen und urheberrechtlichen Bedenken im Zusammenhang mit der Verwendung tatsächlicher Datensätze zu verringern, kann es Forschern auch dabei helfen, herauszufinden, welche Anwendungen des maschinellen Lernens am besten für das Training mit synthetischen Daten geeignet sind.

Rogerio Feris, leitender Wissenschaftler und Manager am MIT-IBM Watson AI Lab, sagte: „Das ultimative Ziel unserer Forschung ist es, das Vortraining realer Daten durch das Vortraining synthetischer Daten zu ersetzen. Das Erstellen einer Aktion in synthetischen Daten ist zwar mit Kosten verbunden, aber sobald dies erledigt ist, können Sie unbegrenzt viele Bilder oder Videos generieren, indem Sie die Pose, die Beleuchtung usw. ändern. Das ist das Schöne an synthetischen Daten.“

Die Wissenschaftler begannen mit der Zusammenstellung eines neuen Synthetic Action Pre-training and Transfer (SynAPT) unter Verwendung von drei öffentlich zugänglichen Datensätzen synthetischer Videoclips, die menschliche Handlungen festhielten. Es enthält fast 150 Aktionskategorien mit 1,000 Videoclips pro Kategorie.

Drei Modelle für maschinelles Lernen wurden vorab trainiert, um die Aktionen anhand des Datensatzes nach dessen Erstellung zu erkennen. Beim Vortraining wird einem Modell eine Aufgabe beigebracht, bevor ihm eine andere beigebracht wird. Das vorab trainierte Modell kann die bereits gelernten Parameter nutzen, um eine neue Aufgabe mit einem neuen Datensatz schneller und effizienter zu erlernen. Dies orientiert sich an der Art und Weise, wie Menschen lernen, nämlich die Wiederverwendung vergangener Informationen, wenn wir etwas Neues wissen. Das vorab trainierte Modell wurde anhand von sechs Datensätzen echter Videoclips getestet, wobei jeder Aktionsklassen erfasste, die sich von denen in den Trainingsdaten unterschieden.

Für die Wissenschaftler war es überraschend, dass alle drei synthetischen Modelle bei vier der sechs Datensätze die Modelle übertrafen, die mit tatsächlichen Videoclips trainiert wurden. Ihre Genauigkeit war am höchsten bei Datensätzen, die Videoclips mit „geringem Szenen-Objekt-Bias“ enthielten. Das bedeutet, dass das Modell die Aktion nicht erkennen kann, indem es den Hintergrund oder andere Objekte in der Szene betrachtet – es muss sich auf die Aktion selbst konzentrieren.

Feris sagte: „In Videos mit geringem Szenen-Objekt-Bias ist die zeitliche Dynamik der Aktionen wichtiger als das Aussehen der Objekte oder des Hintergrunds, und das scheint mit synthetischen Daten gut erfasst zu werden.“

„Ein hoher Szenen-Objekt-Bias kann ein Hindernis darstellen. Das Modell könnte eine Aktion falsch klassifizieren, indem es ein Objekt und nicht die Aktion selbst betrachtet. Es kann das Modell verwirren.“

Co-Autor Rameswar Panda, ein Forschungsmitarbeiter am MIT-IBM Watson AI Lab, sagte: „Aufbauend auf diesen Ergebnissen wollen die Forscher weitere Aktionsklassen und zusätzliche synthetische Videoplattformen in zukünftige Arbeiten einbeziehen und schließlich einen Katalog von Modellen erstellen, die mithilfe synthetischer Daten vorab trainiert wurden.“

„Wir wollen Modelle entwickeln, die eine sehr ähnliche oder sogar bessere Leistung als die in der Literatur vorhandenen Modelle haben, ohne jedoch an diese Vorurteile oder Sicherheitsbedenken gebunden zu sein.“

Sooyoung Jin, Co-Autor und CSAIL-Postdoc, sagte: „Sie möchten ihre Arbeit auch mit Forschung kombinieren, die darauf abzielt, genauere und realistischere synthetische Videos zu generieren, was die Leistung der Modelle steigern könnte.“

„Wir verwenden synthetische Datensätze, um Datenschutzproblemen oder kontextuellen oder sozialen Vorurteilen vorzubeugen, aber was lernt das Modell? Lernt es etwas, das unvoreingenommen ist?“

Co-Autor Samarth Mishra, ein Doktorand an der Boston University (BU), sagte, „Obwohl die Kosten für die Beschaffung gut kommentierter synthetischer Daten geringer sind, verfügen wir derzeit nicht über einen Datensatz, dessen Umfang mit den größten kommentierten Datensätzen mit echten Videos mithalten kann. Indem wir die unterschiedlichen Kosten und Bedenken anhand realer Videos diskutieren und die Wirksamkeit synthetischer Daten zeigen, hoffen wir, Bemühungen in diese Richtung anzuregen.“

Journal Referenz: