Навчання алгоритмів для імітації людей зазвичай вимагає сотень або тисяч прикладів. Але новий штучний інтелект від Google DeepMind може швидко отримувати нові навички від людей-демонстраторів.
Однією з найбільших хитрощів людства є наша здатність швидко й ефективно отримувати знання одне від одного. Таке соціальне навчання, яке часто називають культурною передачею, дозволяє нам показати колезі, як користуватися новим інструментом, або навчити наших дітей дитячих віршиків.
Не дивно, що дослідники спробували відтворити цей процес у машинах. Імітаційне навчання, під час якого штучний інтелект спостерігає, як людина виконує завдання, а потім намагається імітувати її поведінку, вже давно є популярним підходом для навчання роботів. Але навіть найсучасніші алгоритми глибокого навчання зазвичай потребують багатьох прикладів, перш ніж вони зможуть успішно скопіювати свої тренери.
Коли люди навчаються шляхом наслідування, вони часто можуть підібрати нові завдання лише після кількох демонстрацій. Тепер дослідники Google DeepMind зробили крок до швидкого соціального навчання в ШІ за допомогою агентів, які навчаються орієнтуватися у віртуальному світі від людей у режимі реального часу.
«Нашим агентам вдається в режимі реального часу імітувати людину в нових контекстах, не використовуючи жодних попередньо зібраних даних про людину», — пишуть дослідники в папір в Природа зв'язку. "Ми визначаємо напрочуд простий набір інгредієнтів, достатніх для створення культурної передачі».
Дослідники тренували своїх агентів на спеціально розробленому тренажері GoalCycle3D. Симулятор використовує алгоритм для створення майже нескінченної кількості різних середовищ на основі правил про те, як має працювати симуляція та які її аспекти мають змінюватися.
У кожному середовищі маленькі краплі Агенти ІІ повинен переміщатися по нерівній місцевості та різноманітним перешкодам, щоб пройти крізь низку кольорових сфер у певному порядку. Вибоїстий рельєф, щільність перешкод і конфігурація сфер відрізняються в різних середовищах.
Агенти навчені орієнтуватися за допомогою навчання. Вони отримують винагороду за проходження сфер у правильному порядку та використовують цей сигнал, щоб покращити свою продуктивність у багатьох випробуваннях. Але крім того, середовища також мають експертного агента, який або жорстко закодований, або керований людиною, який уже знає правильний маршрут через курс.
Під час багатьох тренувань агенти штучного інтелекту вивчають не лише основи роботи середовища, але й те, що найшвидший спосіб вирішити кожну проблему — це наслідувати експерта. Щоб переконатися, що агенти вчаться наслідувати, а не просто запам’ятовувати курси, команда тренувала їх в одному наборі середовищ, а потім тестувала в іншому. Важливо те, що після навчання команда показала, що їхні агенти можуть імітувати експерта та продовжувати слідувати маршрутом навіть без експерта.
Це потребувало кількох змін у стандартних підходах до навчання з підкріпленням.
Дослідники змусили алгоритм зосередитися на експерті, передбачивши місцезнаходження іншого агента. Вони також дали йому модуль пам'яті. Під час навчання експерт заходив і виходив із середовища, змушуючи агента запам’ятовувати його дії на той час, коли його більше не було. ШІ також тренувався на широкому наборі середовищ, що гарантувало, що він бачив широкий спектр можливих завдань.
Однак може бути важко перекласти цей підхід у більш практичні області. Ключовим обмеженням є те, що коли дослідники перевіряли, чи здатний штучний інтелект навчатися на демонстраціях людей, експертним агентом керувала одна особа під час усіх тренувань. Через це важко зрозуміти, чи можуть агенти вчитися у різних людей.
Що ще важливіше, здатність випадково змінювати середовище навчання буде важко відтворити в реальному світі. Основне завдання було простим, не вимагало контролю дрібної моторики та виконувалося у жорстко контрольованих віртуальних середовищах.
Тим не менш, прогрес соціального навчання в ШІ можна тільки вітати. Якщо ми хочемо жити у світі з інтелектуальними машинами, пошук ефективних та інтуїтивно зрозумілих способів поділитися з ними нашим досвідом і знаннями буде надзвичайно важливим.
Зображення Фото: Джуліана і Маріана Аморім / Unsplash
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://singularityhub.com/2023/12/01/this-deepmind-ai-rapidly-learns-new-skills-just-by-watching-humans/
- : має
- :є
- : ні
- $UP
- a
- здатність
- МЕНЮ
- набувати
- дії
- доповнення
- просунутий
- після
- Агент
- агенти
- AI
- алгоритм
- алгоритми
- ВСІ
- дозволяє
- майже
- вже
- Також
- an
- та
- Інший
- будь-який
- підхід
- підходи
- ЕСТЬ
- AS
- аспекти
- At
- заснований
- BE
- було
- перед тим
- поведінка
- між
- широкий
- але
- by
- званий
- CAN
- діти
- колега
- повний
- конфігурація
- контексти
- продовжувати
- контроль
- контроль
- виправити
- може
- Курс
- курси
- кредит
- вирішальне значення
- вирішальною мірою
- культурний
- дані
- глибокий
- глибоке навчання
- Deepmind
- призначений
- різний
- важкий
- домени
- Падіння
- під час
- e
- кожен
- заробляти
- ефективний
- продуктивно
- або
- Нескінченний
- забезпечувати
- забезпечується
- Навколишнє середовище
- середовищах
- Навіть
- Приклади
- досвід
- експерт
- експертиза
- особливість
- кілька
- виявлення
- кінець
- Сфокусувати
- стежити
- для
- примус
- від
- Основи
- дав
- породжувати
- породжує
- найбільший
- жменя
- Жорсткий
- Мати
- має
- дуже
- Як
- How To
- HTTPS
- людина
- Людей
- Сотні
- ідентифікувати
- if
- удосконалювати
- in
- Розумний
- інтуїтивний
- IT
- ЙОГО
- просто
- ключ
- Дитина
- Знати
- знання
- знає
- УЧИТЬСЯ
- вивчення
- вчиться
- обмеження
- жити
- розташування
- Довго
- довше
- Машинки для перманенту
- made
- РОБОТИ
- багато
- пам'ять
- може бути
- Модулі
- більше
- найбільш
- двигун
- повинен
- природа
- Переміщення
- Необхідність
- Нові
- немає
- роман
- зараз
- номер
- перешкодами
- трапляються
- of
- часто
- on
- ONE
- тільки
- працювати
- or
- порядок
- Інше
- наші
- з
- над
- проходити
- Проходження
- Люди
- продуктивність
- людина
- вибирати
- plato
- Інформація про дані Платона
- PlatoData
- популярний
- це можливо
- Практичний
- передбачати
- представити
- Проблема
- процес
- прогрес
- найшвидший
- діапазон
- швидко
- швидко
- швидше
- реальний
- Реальний світ
- реального часу
- називають
- вимагається
- Вимагається
- Дослідники
- Винагороджувати
- роботи
- Маршрут
- Правила
- пробіжки
- бачив
- побачити
- Серія
- комплект
- Поділитись
- Повинен
- Показувати
- показав
- Сигнал
- простий
- моделювання
- симулятор
- навички
- невеликий
- соціальна
- ВИРІШИТИ
- спеціально
- конкретний
- standard
- Крок
- процвітати
- Успішно
- достатній
- сюрприз
- прийняті
- Завдання
- завдання
- команда
- місцевість
- перевірений
- ніж
- Що
- Команда
- їх
- Їх
- потім
- вони
- це
- хоча?
- тисячі
- через
- час
- до
- сьогоднішній
- інструмент
- до
- навчений
- Навчання
- переводити
- випробування
- намагався
- Tweaks
- типово
- що лежить в основі
- us
- використання
- використовує
- використання
- різноманітність
- різний
- Віртуальний
- віртуальний світ
- було
- годинник
- спостереження
- шлях..
- способи
- ласкаво просимо
- були
- Що
- коли
- Чи
- який
- широкий
- Широкий діапазон
- волі
- з
- без
- світ
- б
- запис
- зефірнет