Новий AI від OpenAI навчився грати в Minecraft, переглянувши 70,000 XNUMX годин YouTube PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Новий штучний інтелект OpenAI навчився грати в Minecraft, переглянувши 70,000 XNUMX годин YouTube

minecraft openai алгоритм машинного навчання грає в ігри youtube

У 2020 році алгоритм машинного навчання GPT-3 від OpenAI вразив людей, коли після вживання мільярдів слів, зібраних з Інтернету, він почав випльовуючи добре складені речення. Цього року DALL-E 2, двоюрідний брат GPT-3, навчений на тексті та зображеннях, викликав подібний ажіотаж в Інтернеті, коли почав набирати обертів. сюрреалістичні зображення астронавтів, які верхи на конях і, нещодавно, створення дивних, фотореалістичні обличчя людей, яких не існує.

Тепер компанія каже, що її останній штучний інтелект навчився грати в Minecraft після перегляду близько 70,000 XNUMX годин відео, на якому люди грають у гру на YouTube.

Школа шахт 

У порівнянні з багатьма попередніми алгоритмами Minecraft, які працюють у набагато простіших версіях гри «пісочниця», новий ШІ грає в тому ж середовищі, що й люди, використовуючи стандартні команди клавіатури та миші.

В блог та передрук Деталізуючи роботу, команда OpenAI каже, що з коробки алгоритм навчився базовим навичкам, таким як рубання дерев, виготовлення дощок і створення столів для рукоділля. Вони також спостерігали, як він плаває, полює, готує їжу та «стрибає стовпом».

«Наскільки нам відомо, немає жодної опублікованої роботи, яка б працювала в повному, немодифікованому просторі людських дій, що включає керування інвентарем за допомогою перетягування та створення предметів», — пишуть автори у своїй статті.

За допомогою тонкого налаштування, тобто навчання моделі на більш цілеспрямованому наборі даних, вони виявили, що алгоритм більш надійно виконує всі ці завдання, але також почали вдосконалювати свою технологічну майстерність, виготовляючи дерев’яні та кам’яні інструменти та будуючи базові укриття, досліджуючи сіл, а також рейдерські скрині.

Після подальшого вдосконалення за допомогою навчання з підкріпленням він навчився будувати алмазну кирку — навик, для виконання якого гравцям-людям потрібно близько 20 хвилин і 24,000 XNUMX дій.

Це помітний результат. Штучний інтелект давно бореться з широко відкритим геймплеєм Minecraft. Такі ігри, як шахи та го, які ШІ вже освоїв, мають чіткі цілі, і прогрес у досягненні цих цілей можна виміряти. Щоб підкорити Go, дослідники використовували навчання, де алгоритм отримує ціль і отримує винагороду за прогрес у досягненні цієї мети. Майнкрафт, з іншого боку, має будь-яку кількість можливих цілей, прогрес менш лінійний, а алгоритми навчання глибокого підкріплення зазвичай не крутяться.

Наприклад, у конкурсі MineRL Minecraft для розробників штучного інтелекту 2019 року жодна з 660 заявок не досягла відносно проста мета конкуренції — видобуток алмазів.

Варто зазначити, що, щоб винагородити креативність і показати, що використання обчислювальної потужності для вирішення проблеми не завжди є рішенням, організатори MineRL встановили суворі обмеження на учасників: їм дозволили один графічний процесор NVIDIA та 1,000 годин записаного ігрового процесу. Незважаючи на те, що учасники показали чудові результати, результат OpenAI, досягнутий за допомогою більшої кількості даних і 720 графічних процесорів NVIDIA, здається, показує, що обчислювальна потужність все ще має свої переваги.

ШІ стає хитрим

Завдяки своєму алгоритму попереднього навчання відео (VPT) для Minecraft OpenAI повернувся до підходу, який він використовував із GPT-3 і DALL-E: попереднє навчання алгоритму на величезному наборі даних контенту, створеного людьми. Але успіх алгоритму був забезпечений не лише обчислювальною потужністю чи даними. Навчання штучного інтелекту Minecraft на такій кількості відео раніше було непрактичним.

Необроблені відеоматеріали не настільки корисні для поведінкових штучних інтелектів, як для генераторів контенту, таких як GPT-3 і DALL-E. Він показує, що люди роблять, але не пояснює, як вони це роблять. Щоб алгоритм зв’язував відео з діями, йому потрібні мітки. Наприклад, відеокадр, який показує колекцію об’єктів гравця, має бути позначений як «інвентар» поряд із командною клавішею «E», яка використовується для відкриття інвентарю.

Позначати кожен кадр у 70,000 2,000 годин відео було б… божевіллям. Отже, команда заплатила підрядникам Upwork за запис і позначення основних навичок Minecraft. Вони використали XNUMX годин цього відео, щоб навчити другий алгоритм, як позначати відео Minecraft, і Що алгоритм IDM, анотував усі 70,000 90 годин відеозапису YouTube. (Команда каже, що IDM був більш ніж на XNUMX відсотків точним при позначенні команд клавіатури та миші.)

Цей підхід до навчання людей алгоритму маркування даних для розблокування наборів поведінкових даних в Інтернеті може допомогти штучному інтелекту навчитися й іншим навичкам. «VPT прокладає шлях до того, щоб дозволити агентам навчитися діяти переглядаючи величезну кількість відео в Інтернеті», – написав дослідник. Окрім Minecraft, OpenAI вважає, що VPT може створити нові реальні додатки, як-от алгоритми, які керують комп’ютерами за запитом (уявіть, наприклад, що ви просите свій ноутбук знайти документ і надіслати його електронною поштою вашому начальнику).

Діаманти не вічні

Можливо, на превеликий розчарування організаторів конкурсу MineRL, результати, схоже, показують, що обчислювальна потужність і ресурси все ще рухають голкою найдосконаліший ШІ.

Не зважаючи на вартість обчислень, OpenAI каже, що тільки підрядники Upwork коштують 160,000 3 доларів. Хоча чесно кажучи, ручне маркування всього набору даних обчислилося б мільйонами і зайняло б значний час. І хоча обчислювальна потужність не була незначною, модель насправді була досить маленькою. Сотні мільйонів параметрів VPT на порядки менші, ніж сотні мільярдів GPT-XNUMX.

Проте прагнення до пошуку нових розумних підходів, які використовують менше даних і обчислень, є дійсним. Дитина може навчитися основам Minecraft, подивившись одне-два відео. Сучасний штучний інтелект потребує набагато більше, щоб освоїти навіть прості навички. виготовлення ШІ більш ефективний це великий, гідний виклик.

У будь-якому випадку OpenAI цього разу в настрої поділитися. Дослідники кажуть, що VPT не позбавлений ризику — вони суворо контролюють доступ до таких алгоритмів, як GPT-3 і DALL-E, частково для обмеження зловживання, — але наразі ризик мінімальний. Вони відкрили вихідний код даних, середовища та алгоритму та співпрацюють з MineRL. Учасники цього року можуть вільно використовувати, змінювати та налаштовувати найновіші версії Minecraft AI.

Велика ймовірність, що цього разу їм вдасться видобути алмази.

Зображення Фото: САЙМОН ЛІ / Unsplash 

Часова мітка:

Більше від Хаб сингулярності