Цей штучний інтелект DeepMind швидко освоює нові навички, просто спостерігаючи за людьми

Цей штучний інтелект DeepMind швидко освоює нові навички, просто спостерігаючи за людьми

Цей штучний інтелект DeepMind швидко навчається новим навичкам, просто спостерігаючи за людьми PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Навчання алгоритмів для імітації людей зазвичай вимагає сотень або тисяч прикладів. Але новий штучний інтелект від Google DeepMind може швидко отримувати нові навички від людей-демонстраторів.

Однією з найбільших хитрощів людства є наша здатність швидко й ефективно отримувати знання одне від одного. Таке соціальне навчання, яке часто називають культурною передачею, дозволяє нам показати колезі, як користуватися новим інструментом, або навчити наших дітей дитячих віршиків.

Не дивно, що дослідники спробували відтворити цей процес у машинах. Імітаційне навчання, під час якого штучний інтелект спостерігає, як людина виконує завдання, а потім намагається імітувати її поведінку, вже давно є популярним підходом для навчання роботів. Але навіть найсучасніші алгоритми глибокого навчання зазвичай потребують багатьох прикладів, перш ніж вони зможуть успішно скопіювати свої тренери.

Коли люди навчаються шляхом наслідування, вони часто можуть підібрати нові завдання лише після кількох демонстрацій. Тепер дослідники Google DeepMind зробили крок до швидкого соціального навчання в ШІ за допомогою агентів, які навчаються орієнтуватися у віртуальному світі від людей у ​​режимі реального часу.

«Нашим агентам вдається в режимі реального часу імітувати людину в нових контекстах, не використовуючи жодних попередньо зібраних даних про людину», — пишуть дослідники в папір в Природа зв'язку. "Ми визначаємо напрочуд простий набір інгредієнтів, достатніх для створення культурної передачі».

Дослідники тренували своїх агентів на спеціально розробленому тренажері GoalCycle3D. Симулятор використовує алгоритм для створення майже нескінченної кількості різних середовищ на основі правил про те, як має працювати симуляція та які її аспекти мають змінюватися.

У кожному середовищі маленькі краплі Агенти ІІ повинен переміщатися по нерівній місцевості та різноманітним перешкодам, щоб пройти крізь низку кольорових сфер у певному порядку. Вибоїстий рельєф, щільність перешкод і конфігурація сфер відрізняються в різних середовищах.

Агенти навчені орієнтуватися за допомогою навчання. Вони отримують винагороду за проходження сфер у правильному порядку та використовують цей сигнал, щоб покращити свою продуктивність у багатьох випробуваннях. Але крім того, середовища також мають експертного агента, який або жорстко закодований, або керований людиною, який уже знає правильний маршрут через курс.

Під час багатьох тренувань агенти штучного інтелекту вивчають не лише основи роботи середовища, але й те, що найшвидший спосіб вирішити кожну проблему — це наслідувати експерта. Щоб переконатися, що агенти вчаться наслідувати, а не просто запам’ятовувати курси, команда тренувала їх в одному наборі середовищ, а потім тестувала в іншому. Важливо те, що після навчання команда показала, що їхні агенти можуть імітувати експерта та продовжувати слідувати маршрутом навіть без експерта.

Це потребувало кількох змін у стандартних підходах до навчання з підкріпленням.

Дослідники змусили алгоритм зосередитися на експерті, передбачивши місцезнаходження іншого агента. Вони також дали йому модуль пам'яті. Під час навчання експерт заходив і виходив із середовища, змушуючи агента запам’ятовувати його дії на той час, коли його більше не було. ШІ також тренувався на широкому наборі середовищ, що гарантувало, що він бачив широкий спектр можливих завдань.

Однак може бути важко перекласти цей підхід у більш практичні області. Ключовим обмеженням є те, що коли дослідники перевіряли, чи здатний штучний інтелект навчатися на демонстраціях людей, експертним агентом керувала одна особа під час усіх тренувань. Через це важко зрозуміти, чи можуть агенти вчитися у різних людей.

Що ще важливіше, здатність випадково змінювати середовище навчання буде важко відтворити в реальному світі. Основне завдання було простим, не вимагало контролю дрібної моторики та виконувалося у жорстко контрольованих віртуальних середовищах.

Тим не менш, прогрес соціального навчання в ШІ можна тільки вітати. Якщо ми хочемо жити у світі з інтелектуальними машинами, пошук ефективних та інтуїтивно зрозумілих способів поділитися з ними нашим досвідом і знаннями буде надзвичайно важливим.

Зображення Фото: Джуліана і Маріана Аморім / Unsplash

Часова мітка:

Більше від Хаб сингулярності