Распознавание действий значительно улучшилось благодаря масштабным наборам видеоданных. Тем не менее, эти наборы данных сопровождаются проблемами, связанными со стоимостью курирования, конфиденциальностью, этикой, предвзятостью и авторским правом. Так, MIT ученые обращаются к синтетическим наборам данных.
Они создаются компьютером, который использует 3D-модели сцен, объектов и людей для быстрого создания множества различных клипов с конкретными действиями — без потенциальных проблем с авторскими правами или этических проблем, связанных с реальными данными.
Синтетические данные хороши как реальные данные?
Группа ученых из Массачусетского технологического института, Лаборатории искусственного интеллекта Watson MIT-IBM и Бостонского университета попыталась ответить на этот вопрос. Они создали синтетический набор данных из 150,000 XNUMX видеоклипов, в которых представлены различные действия человека, и обучили машинное обучение модели, использующие этот набор данных. Затем они показали этим моделям шесть наборов данных фильмов, снятых из реального мира, чтобы проверить, насколько хорошо они могут уловить действия в этих записях.
Ученые обнаружили, что синтетически обученные модели работали даже лучше, чем модели, обученные на реальных данных, для видео с меньшим количеством фоновых объектов.
Это открытие может помочь ученым использовать синтетические наборы данных, чтобы помочь моделям более точно выполнять реальные задачи. Чтобы уменьшить некоторые проблемы этики, конфиденциальности и авторского права, связанные с использованием реальных наборов данных, он также может помочь исследователям определить, какие приложения машинного обучения больше всего подходят для обучения с использованием синтетических данных.
Рожерио Ферис, главный научный сотрудник и менеджер MIT-IBM Watson AI Lab, сказал: «Конечная цель нашего исследования — заменить предварительное обучение на реальных данных предварительным обучением на синтетических данных. Создание действия в синтетических данных требует затрат, но как только это будет сделано, вы сможете создавать неограниченное количество изображений или видео, изменяя позу, освещение и т. д. В этом прелесть синтетических данных».
Ученые начали с компиляции нового синтетического предварительного обучения и переноса действий (SynAPT) с использованием трех общедоступных наборов данных синтетических видеоклипов, в которых запечатлены действия человека. Он содержит почти 150 категорий действий, по 1,000 видеоклипов в каждой категории.
Три модели машинного обучения были предварительно обучены распознавать действия с использованием набора данных после его создания. Предварительная подготовка — это процесс обучения модели одной задаче перед обучением другой. Предварительно обученная модель может использовать уже изученные параметры, чтобы быстрее и эффективнее изучить новую задачу с новым набором данных. Это смоделировано по образцу того, как люди учатся, то есть повторно используют прошлую информацию, когда мы узнаем что-то новое. Предварительно обученная модель была протестирована с использованием шести наборов данных реальных видеоклипов, каждый из которых зафиксировал классы действий, которые отличались от тех, что были в обучающих данных.
Для ученых было неожиданностью увидеть, что все три синтетические модели превзошли модели, обученные с помощью реальных видеоклипов, на четырех из шести наборов данных. Их точность была самой высокой для наборов данных, содержащих видеоклипы с «низким смещением объекта сцены». Это означает, что модель не может распознать действие, глядя на фон или другие объекты сцены — она должна сосредоточиться на самом действии.
Ферис сказал, «В видеороликах с низким смещением объекта сцены временная динамика действий важнее, чем внешний вид объектов или фона, и это, кажется, хорошо фиксируется с помощью синтетических данных».
«Высокое смещение объекта сцены может выступать в качестве препятствия. Модель может неправильно классифицировать действие, рассматривая объект, а не само действие. Это может запутать модель».
Соавтор Рамесвар Панда, научный сотрудник лаборатории искусственного интеллекта Watson MIT-IBM, сказал: «Опираясь на эти результаты, исследователи хотят включить в будущую работу больше классов действий и дополнительных синтетических видеоплатформ, в конечном итоге создав каталог моделей, предварительно обученных с использованием синтетических данных».
«Мы хотим создавать модели, которые имеют очень похожую или даже лучшую производительность, чем существующие модели в литературе, но не связаны какими-либо предубеждениями или проблемами безопасности».
Суён Джин, соавтор и постдок CSAIL, сказала: «Они также хотят совместить свою работу с исследованиями, направленными на создание более точных и реалистичных синтетических видео, которые могут повысить производительность моделей».
«Мы используем синтетические наборы данных, чтобы предотвратить проблемы с конфиденциальностью, контекстную или социальную предвзятость, но что изучает модель? Узнает ли он что-то беспристрастное?»
Соавтор Самарт Мишра, аспирант Бостонского университета (BU), — сказал, «Несмотря на более низкую стоимость получения хорошо аннотированных синтетических данных, в настоящее время у нас нет набора данных с масштабом, который мог бы конкурировать с самыми большими наборами аннотированных данных с реальными видео. Обсуждая различные затраты и проблемы с реальными видео и демонстрируя эффективность синтетических данных, мы надеемся мотивировать усилия в этом направлении».
Справочник журнала:
- Йо-что Ким и др. Насколько пригодны для передачи видеопредставления, основанные на синтетических данных? бумага & картон