Синтетические данные могут обеспечить реальное повышение производительности машинного обучения PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Синтетические данные могут реально улучшить производительность машинного обучения

Распознавание действий значительно улучшилось благодаря масштабным наборам видеоданных. Тем не менее, эти наборы данных сопровождаются проблемами, связанными со стоимостью курирования, конфиденциальностью, этикой, предвзятостью и авторским правом. Так, MIT ученые обращаются к синтетическим наборам данных.

Они создаются компьютером, который использует 3D-модели сцен, объектов и людей для быстрого создания множества различных клипов с конкретными действиями — без потенциальных проблем с авторскими правами или этических проблем, связанных с реальными данными.

Синтетические данные хороши как реальные данные?

Группа ученых из Массачусетского технологического института, Лаборатории искусственного интеллекта Watson MIT-IBM и Бостонского университета попыталась ответить на этот вопрос. Они создали синтетический набор данных из 150,000 XNUMX видеоклипов, в которых представлены различные действия человека, и обучили машинное обучение модели, использующие этот набор данных. Затем они показали этим моделям шесть наборов данных фильмов, снятых из реального мира, чтобы проверить, насколько хорошо они могут уловить действия в этих записях.

Ученые обнаружили, что синтетически обученные модели работали даже лучше, чем модели, обученные на реальных данных, для видео с меньшим количеством фоновых объектов.

Это открытие может помочь ученым использовать синтетические наборы данных, чтобы помочь моделям более точно выполнять реальные задачи. Чтобы уменьшить некоторые проблемы этики, конфиденциальности и авторского права, связанные с использованием реальных наборов данных, он также может помочь исследователям определить, какие приложения машинного обучения больше всего подходят для обучения с использованием синтетических данных.

Рожерио Ферис, главный научный сотрудник и менеджер MIT-IBM Watson AI Lab, сказал: «Конечная цель нашего исследования — заменить предварительное обучение на реальных данных предварительным обучением на синтетических данных. Создание действия в синтетических данных требует затрат, но как только это будет сделано, вы сможете создавать неограниченное количество изображений или видео, изменяя позу, освещение и т. д. В этом прелесть синтетических данных».

Ученые начали с компиляции нового синтетического предварительного обучения и переноса действий (SynAPT) с использованием трех общедоступных наборов данных синтетических видеоклипов, в которых запечатлены действия человека. Он содержит почти 150 категорий действий, по 1,000 видеоклипов в каждой категории.

Три модели машинного обучения были предварительно обучены распознавать действия с использованием набора данных после его создания. Предварительная подготовка — это процесс обучения модели одной задаче перед обучением другой. Предварительно обученная модель может использовать уже изученные параметры, чтобы быстрее и эффективнее изучить новую задачу с новым набором данных. Это смоделировано по образцу того, как люди учатся, то есть повторно используют прошлую информацию, когда мы узнаем что-то новое. Предварительно обученная модель была протестирована с использованием шести наборов данных реальных видеоклипов, каждый из которых зафиксировал классы действий, которые отличались от тех, что были в обучающих данных.

Для ученых было неожиданностью увидеть, что все три синтетические модели превзошли модели, обученные с помощью реальных видеоклипов, на четырех из шести наборов данных. Их точность была самой высокой для наборов данных, содержащих видеоклипы с «низким смещением объекта сцены». Это означает, что модель не может распознать действие, глядя на фон или другие объекты сцены — она должна сосредоточиться на самом действии.

Ферис сказал, «В видеороликах с низким смещением объекта сцены временная динамика действий важнее, чем внешний вид объектов или фона, и это, кажется, хорошо фиксируется с помощью синтетических данных».

«Высокое смещение объекта сцены может выступать в качестве препятствия. Модель может неправильно классифицировать действие, рассматривая объект, а не само действие. Это может запутать модель».

Соавтор Рамесвар Панда, научный сотрудник лаборатории искусственного интеллекта Watson MIT-IBM, сказал: «Опираясь на эти результаты, исследователи хотят включить в будущую работу больше классов действий и дополнительных синтетических видеоплатформ, в конечном итоге создав каталог моделей, предварительно обученных с использованием синтетических данных».

«Мы хотим создавать модели, которые имеют очень похожую или даже лучшую производительность, чем существующие модели в литературе, но не связаны какими-либо предубеждениями или проблемами безопасности».

Суён Джин, соавтор и постдок CSAIL, сказала: «Они также хотят совместить свою работу с исследованиями, направленными на создание более точных и реалистичных синтетических видео, которые могут повысить производительность моделей».

«Мы используем синтетические наборы данных, чтобы предотвратить проблемы с конфиденциальностью, контекстную или социальную предвзятость, но что изучает модель? Узнает ли он что-то беспристрастное?»

Соавтор Самарт Мишра, аспирант Бостонского университета (BU), — сказал«Несмотря на более низкую стоимость получения хорошо аннотированных синтетических данных, в настоящее время у нас нет набора данных с масштабом, который мог бы конкурировать с самыми большими наборами аннотированных данных с реальными видео. Обсуждая различные затраты и проблемы с реальными видео и демонстрируя эффективность синтетических данных, мы надеемся мотивировать усилия в этом направлении».

Справочник журнала:

  1. Йо-что Ким и др. Насколько пригодны для передачи видеопредставления, основанные на синтетических данных? бумага & картон

Отметка времени:

Больше от Исследователь технологий