Мозок, схожий на ChatGPT від DeepMind, для роботів дозволяє їм навчатися в Інтернеті

Мозок, схожий на ChatGPT від DeepMind, для роботів дозволяє їм навчатися в Інтернеті

Відколи ChatGPT вибухнув на технологічній сцені в листопаді минулого року, він допомагає людям писати всілякі матеріали, генерувати код і знаходити інформацію. Вона та інші великі мовні моделі (LLM) полегшили виконання завдань, починаючи від дзвінків у службу підтримки клієнтів і закінчуючи прийомом замовлень швидкого харчування. Враховуючи те, наскільки LLM були корисними для людей за короткий час їх існування, як ChatGPT для роботів може вплинути на їх здатність навчатися та робити нові речі? Дослідники Google DeepMind вирішили з’ясувати це та опублікували свої висновки в блог і документ, випущений минулого тижня.

Вони називають свою систему RT-2. Це скорочення від robotics transformer 2 і є наступником робототехніка трансформер 1, яку компанія випустила наприкінці минулого року. RT-1 базувався на невеликій програмі мови та зору та був спеціально навчений виконувати багато завдань. Програмне забезпечення використовувалося в Alphabet X Повсякденні роботи, дозволяючи їм виконувати понад 700 різних завдань із 97-відсотковим показником успіху. Але коли їм було запропоновано виконати нові завдання, яким вони не були навчені, роботи, які використовували RT-1, були успішними лише в 32 відсотках випадків.

RT-2 майже вдвічі збільшує цей показник, успішно виконуючи нові завдання в 62 відсотках поставленого часу. Дослідники називають RT-2 моделлю бачення-мова-дія (VLA). Він використовує текст і зображення, які бачить в Інтернеті, щоб отримати нові навички. Це не так просто, як звучить; воно вимагає від програмного забезпечення спочатку «зрозуміти» концепцію, потім застосувати це розуміння до команди або набору інструкцій, а потім виконати дії, які задовольняють ці інструкції.

Одним із прикладів автори статті є утилізація сміття. У попередніх моделях програмне забезпечення робота потрібно було спочатку навчити ідентифікувати сміття. Наприклад, якщо на столі лежить очищений банан із шкіркою поруч, боту буде показано, що шкірка є сміттям, а банан – ні. Потім його навчать, як зібрати шкірку, перенести її в сміттєвий бак і залишити там.

Однак RT-2 працює трохи інакше. Оскільки модель тренувалася на величезній кількості інформації та даних з Інтернету, вона має загальне розуміння того, що таке сміття, і хоча вона не навчена викидати сміття, вона може скласти разом кроки для виконання цього завдання.

Дослідники використовували для навчання RT-2 магістра PaLI-X (модель бачення та мови з 55 мільярдами параметрів) і PaLM-E (те, що Google називає втіленою мультимодальною мовною моделлю, розробленою спеціально для роботів, із 12 мільярдами параметрів). «Параметр» стосується атрибута, який модель машинного навчання визначає на основі даних навчання. У випадку LLMs вони моделюють зв’язки між словами в реченні та зважують, наскільки ймовірно, що дане слово буде передувати або слідувати за іншим словом.

Шляхом пошуку зв’язків і шаблонів між словами у гігантському наборі даних моделі навчаються на власних висновках. Згодом вони можуть зрозуміти, як різні поняття співвідносяться між собою, і розрізнити контекст. У випадку RT-2 він перетворює ці знання в узагальнені інструкції для робототехнічних дій.

Ці дії представлені для робота у вигляді токенів, які зазвичай використовуються для представлення тексту природної мови у вигляді фрагментів слів. У цьому випадку маркери є частинами дії, і програмне забезпечення об’єднує декілька маркерів разом для виконання дії. Ця структура також дозволяє програмному забезпеченню виконувати ланцюжок думок, тобто воно може відповідати на запитання чи підказки, які потребують певної міри міркування.

Приклади, які наводить команда, включають вибір об’єкта для використання як молотка, коли молотка немає (робот вибирає камінь) і вибір найкращого напою для втомленої людини (робот вибирає енергетичний напій).

DeepMind's ChatGPT-Like Brain for Robots Lets Them Learn From the Internet PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Автор зображення: Google DeepMind

«RT-2 показує покращені можливості узагальнення та семантичне та візуальне розуміння за межами роботизованих даних, яким він піддавався», — написали дослідники в Google блог. «Це включає в себе інтерпретацію нових команд і реагування на команди користувача шляхом виконання елементарних міркувань, таких як міркування про категорії об’єктів або описи високого рівня».

Мрія про роботи загального призначення що може допомогти людям у будь-якому випадку — чи то вдома, чи на комерційному, чи промисловому — не буде досягнутим, доки роботи не зможуть навчатися на ходу. Те, що нам здається основним інстинктом, для роботів — це складна комбінація розуміння контексту, здатності міркувати через нього та вживати дій для вирішення проблем, які не передбачалося виникнути. Запрограмувати їх на відповідну реакцію на різноманітні незаплановані сценарії неможливо, тому вони повинні мати можливість узагальнювати та вчитися на досвіді, як і люди.

РТ-2 – крок у цьому напрямку. Проте дослідники визнають, що хоча RT-2 може узагальнювати семантичні та візуальні концепції, він ще не здатний навчатися новим діям самостійно. Натомість він застосовує дії, які вже знає, до нових сценаріїв. Можливо, RT-3 або 4 зможуть підняти ці навички на новий рівень. Тим часом, як робить висновок команда у своїх блог, «Хоча попереду ще величезна кількість роботи, щоб створити корисних роботів у середовищі, зосередженому на людині, RT-2 показує нам захоплююче майбутнє для робототехніки в межах досяжності».

Зображення Фото: Google DeepMind

Часова мітка:

Більше від Хаб сингулярності