Синтетичні дані можуть запропонувати реальні покращення продуктивності машинного навчання

Перевидано Платоном

читають: 0

Розпізнавання дій значно покращилося завдяки масивним наборам відеоданих. Проте ці набори даних супроводжуються проблемами, пов’язаними з вартістю курування, конфіденційністю, етикою, упередженістю та авторським правом. Так, MIT вчені звертаються до синтетичних наборів даних.

Вони створюються комп’ютером, який використовує 3D-моделі сцен, об’єктів і людей для швидкого створення багатьох різноманітних кліпів конкретних дій — без потенційних проблем з авторським правом або етичних проблем, які виникають із реальними даними.

Чи хороші синтетичні дані як справжні?

Команда вчених з MIT, MIT-IBM Watson AI Lab і Бостонського університету намагалися знайти відповідь на це запитання. Вони створили синтетичний набір даних із 150,000 XNUMX відеокліпів, які відображали різні людські дії та навчали машинне навчання моделі, що використовують цей набір даних. Потім вони показали на цих моделях шість наборів даних фільмів, знятих із реального світу, щоб перевірити, наскільки добре вони можуть вловити дії в цих записах.

Вчені виявили, що синтетично навчені моделі працюють навіть краще, ніж моделі, навчені на реальних даних для відео з меншою кількістю фонових об’єктів.

Це відкриття може допомогти вченим використовувати синтетичні набори даних, щоб допомогти моделям точніше виконувати фактичні завдання. Щоб зменшити деякі проблеми етики, конфіденційності та авторського права, пов’язані з використанням фактичних наборів даних, це також може допомогти дослідникам визначити, які програми машинного навчання найбільше підходять для навчання синтетичними даними.

Роджеріо Феріс, головний науковий співробітник і менеджер MIT-IBM Watson AI Lab, сказав: «Кінцева мета нашого дослідження — замінити попередню підготовку реальних даних попередньою підготовкою синтетичних даних. Створення дії в синтетичних даних вимагає певних витрат, але як тільки це буде зроблено, ви зможете створювати необмежену кількість зображень або відео, змінюючи позу, освітлення тощо. У цьому краса синтетичних даних».

Вчені почали зі складання нової попередньої підготовки та передачі синтетичних дій (SynAPT), використовуючи три загальнодоступні набори даних синтетичних відеокліпів, які фіксують людські дії. Він містить майже 150 категорій дій, по 1,000 відеокліпів у кожній категорії.

Три моделі машинного навчання були попередньо навчені розпізнавати дії з використанням набору даних після його створення. Попереднє навчання — це процес навчання моделі одному завданню перед навчанням іншому. Попередньо навчена модель може використовувати параметри, які вона вже навчила, щоб швидше та ефективніше вивчати нове завдання з новим набором даних. Це моделюється за тим, як люди навчаються, тобто повторно використовують минулу інформацію, коли ми дізнаємося щось нове. Попередньо підготовлену модель було перевірено з використанням шести наборів даних реальних відеокліпів, кожен з яких фіксував класи дій, які відрізнялися від тих, що містяться в навчальних даних.

Для вчених було несподівано побачити, що всі три синтетичні моделі перевершили моделі, навчені реальними відеороликами на чотирьох із шести наборів даних. Їхня точність була найвищою для наборів даних, які містили відеокліпи з «низьким упередженням сцени-об’єкта». Це означає, що модель не може розпізнати дію, дивлячись на фон або інші об’єкти сцени — вона повинна зосередитися на самій дії.

Феріс сказав, «У відео з низьким упередженням між сценою та об’єктом часова динаміка дій важливіша, ніж зовнішній вигляд об’єктів або фону, і це, здається, добре зафіксовано за допомогою синтетичних даних».

«Високе зміщення сцена-об’єкт може стати перешкодою. Модель може неправильно класифікувати дію, розглядаючи об’єкт, а не саму дію. Це може заплутати модель».

Співавтор Рамесвар Панда, науковий співробітник MIT-IBM Watson AI Lab, сказав: «Грунтуючись на цих результатах, дослідники хочуть включити більше класів дії та додаткових синтетичних відеоплатформ у майбутню роботу, зрештою створивши каталог моделей, які були попередньо навчені за допомогою синтетичних даних».

«Ми хочемо створювати моделі, які мають дуже схожу або навіть кращу продуктивність, ніж існуючі моделі в літературі, але без будь-яких упереджень або проблем безпеки».

Су Йонг Джин, співавтор і постдоктор CSAIL, сказав: «Вони також хочуть поєднати свою роботу з дослідженнями, спрямованими на створення більш точних і реалістичних синтетичних відео, які могли б підвищити ефективність моделей».

«Ми використовуємо синтетичні набори даних, щоб запобігти проблемам конфіденційності або контекстуальним чи соціальним упередженням, але що вивчає модель? Чи дізнається він щось неупереджене?»

Співавтор Самарт Мішра, аспірант Бостонського університету (BU), сказав, «Незважаючи на нижчу вартість отримання добре анотованих синтетичних даних, наразі у нас немає набору даних такого масштабу, щоб конкурувати з найбільшими анотованими наборами даних із реальними відео. Обговорюючи різні витрати та проблеми за допомогою реальних відео та демонструючи ефективність синтетичних даних, ми сподіваємось мотивувати зусилля в цьому напрямку».

Довідка з журналу: