Les données synthétiques peuvent offrir de réelles améliorations des performances en matière d'apprentissage automatique

Republié par Platon

Suiveurs: 0

La reconnaissance des actions s'est considérablement améliorée grâce aux ensembles de données vidéo à grande échelle. Pourtant, ces ensembles de données s’accompagnent de problèmes liés au coût de conservation, à la confidentialité, à l’éthique, aux préjugés et aux droits d’auteur. Donc, MIT les scientifiques se tournent vers des ensembles de données synthétiques.

Celles-ci sont créées par un ordinateur qui utilise des modèles 3D de scènes, d’objets et d’humains pour produire rapidement de nombreux clips variés d’actions spécifiques – sans les problèmes potentiels de droits d’auteur ou les préoccupations éthiques liées aux données réelles.

Les données synthétiques sont-elles aussi bonnes que les données réelles ?

Une équipe de scientifiques du MIT, du MIT-IBM Watson AI Lab et de l'Université de Boston a cherché à répondre à cette question. Ils ont créé un ensemble de données synthétiques de 150,000 XNUMX clips vidéo représentant diverses actions humaines et formés apprentissage automatique modèles utilisant cet ensemble de données. Ils ont ensuite présenté à ces modèles six ensembles de données de films tirés du monde réel pour tester dans quelle mesure ils pouvaient capter les actions de ces enregistrements.

Les scientifiques ont découvert que les modèles formés synthétiquement étaient encore plus performants que les modèles formés sur des données réelles pour les vidéos comportant moins d’objets d’arrière-plan.

Cette découverte pourrait aider les scientifiques à utiliser des ensembles de données synthétiques pour aider les modèles à effectuer avec plus de précision des tâches réelles. Pour réduire certains des problèmes d'éthique, de confidentialité et de droit d'auteur associés à l'utilisation d'ensembles de données réels, cela peut également aider les chercheurs à déterminer quelles applications d'apprentissage automatique sont les plus adaptées à la formation avec des données synthétiques.

Rogerio Feris, scientifique principal et responsable du MIT-IBM Watson AI Lab, a déclaré : « Le but ultime de notre recherche est de remplacer le pré-entraînement des données réelles par le pré-entraînement des données synthétiques. Il y a un coût à créer une action à partir de données synthétiques, mais une fois cela fait, vous pouvez générer un nombre illimité d'images ou de vidéos en modifiant la pose, l'éclairage, etc. C'est la beauté des données synthétiques.

Les scientifiques ont commencé par compiler un nouveau système de pré-entraînement et de transfert d’actions synthétiques (SynAPT), en utilisant trois ensembles de données accessibles au public contenant des clips vidéo synthétiques capturant les actions humaines. Il contient près de 150 catégories d'action, avec 1,000 XNUMX clips vidéo par catégorie.

Trois modèles d'apprentissage automatique ont été pré-entraînés pour reconnaître les actions utilisant l'ensemble de données après sa création. La préformation est le processus consistant à enseigner à un modèle une tâche avant de lui en apprendre une autre. Le modèle pré-entraîné peut utiliser les paramètres qu'il a déjà appris pour l'aider à apprendre une nouvelle tâche avec un nouvel ensemble de données plus rapidement et plus efficacement. Ceci est calqué sur la façon dont les gens apprennent, qui consiste à réutiliser des informations passées lorsque nous savons quelque chose de nouveau. Le modèle pré-entraîné a été testé à l'aide de six ensembles de données de clips vidéo réels, chacun capturant des classes d'actions différentes de celles des données d'entraînement.

Il a été surprenant pour les scientifiques de constater que les trois modèles synthétiques surpassaient les modèles entraînés avec de véritables clips vidéo sur quatre des six ensembles de données. Leur précision était la plus élevée pour les ensembles de données contenant des clips vidéo avec un « faible biais scène-objet ». Cela signifie que le modèle ne peut pas reconnaître l'action en regardant l'arrière-plan ou d'autres objets de la scène : il doit se concentrer sur l'action elle-même.

Feris a dit : "Dans les vidéos avec un faible biais scène-objet, la dynamique temporelle des actions est plus importante que l'apparence des objets ou de l'arrière-plan, et cela semble être bien capturé avec des données synthétiques."

« Un biais scène-objet élevé peut constituer un obstacle. Le modèle peut mal classer une action en examinant un objet plutôt que l'action elle-même. Cela peut confondre le modèle.

Le co-auteur Rameswar Panda, membre du personnel de recherche du MIT-IBM Watson AI Lab, a déclaré : "En s'appuyant sur ces résultats, les chercheurs souhaitent inclure davantage de classes d'action et de plates-formes vidéo synthétiques supplémentaires dans leurs travaux futurs, créant ainsi un catalogue de modèles pré-entraînés à l'aide de données synthétiques."

"Nous voulons construire des modèles qui ont des performances très similaires, voire meilleures, que les modèles existants dans la littérature, mais sans être liés par aucun de ces biais ou problèmes de sécurité."

Sooyoung Jin, co-auteur et postdoctorant CSAIL, a déclaré : « Ils souhaitent également combiner leurs travaux avec des recherches visant à générer des vidéos synthétiques plus précises et plus réalistes, ce qui pourrait améliorer les performances des modèles. »

« Nous utilisons des ensembles de données synthétiques pour éviter les problèmes de confidentialité ou les préjugés contextuels ou sociaux, mais qu'apprend le modèle ? Est-ce qu’il apprend quelque chose d’impartial ?

Co-auteur Samarth Mishra, étudiant diplômé à l'Université de Boston (BU), a affirmé Valérie Plante., « Bien que l’obtention de données synthétiques bien annotées coûte moins cher, nous ne disposons actuellement pas d’un ensemble de données à l’échelle capable de rivaliser avec les plus grands ensembles de données annotées avec de vraies vidéos. En discutant des différents coûts et préoccupations liés aux vidéos réelles et en démontrant l’efficacité des données synthétiques, nous espérons motiver les efforts dans cette direction.

Journal de référence: