ChatGPT-подобный мозг DeepMind для роботов позволяет им учиться в Интернете

ChatGPT-подобный мозг DeepMind для роботов позволяет им учиться в Интернете

С тех пор, как ChatGPT ворвался на технологическую сцену в ноябре прошлого года, он помогает людям писать всевозможные материалы, генерировать код и находить информацию. Эта и другие крупные языковые модели (LLM) упростили выполнение задач, начиная от обработки звонков в службу поддержки и заканчивая приемом заказов в фаст-фуде. Учитывая, насколько полезными были LLM для людей за то короткое время, что они существуют, как ChatGPT для роботов может повлиять на их способность учиться и делать новые вещи? Исследователи из Google DeepMind решили выяснить это и опубликовали свои выводы в блоге и бумага, выпущенная на прошлой неделе.

Свою систему они называют РТ-2. Это сокращение от Robotics Transformer 2, и это преемник робототехника трансформер 1, которую компания выпустила в конце прошлого года. RT-1 был основан на небольшой программе языка и зрения и специально обучен для выполнения многих задач. Программное обеспечение использовалось в Alphabet X. Повседневные роботы, что позволяет им выполнять более 700 различных задач с вероятностью успеха 97 процентов. Но когда роботов, использующих RT-1, просили выполнять новые задачи, для которых они не были обучены, они справлялись только в 32 процентах случаев.

RT-2 почти удваивает этот показатель, успешно выполняя новые задачи в 62% случаев, когда его просят. Исследователи называют RT-2 моделью «видение-язык-действие» (VLA). Он использует текст и изображения, которые видит в Интернете, для изучения новых навыков. Это не так просто, как кажется; для этого требуется, чтобы программа сначала «поняла» концепцию, затем применила это понимание к команде или набору инструкций, а затем выполнила действия, удовлетворяющие этим инструкциям.

Один из примеров, который приводят авторы статьи, — это избавление от мусора. В предыдущих моделях программное обеспечение робота должно было сначала быть обучено распознавать мусор. Например, если на столе лежит очищенный банан, а кожура рядом с ним, боту будет показано, что кожура — это мусор, а банан — нет. Затем его научат, как собирать кожуру, переносить ее в мусорное ведро и класть туда.

Однако РТ-2 работает немного по-другому. Поскольку модель обучена на большом количестве информации и данных из Интернета, у нее есть общее представление о том, что такое мусор, и хотя она не обучена выбрасывать мусор, она может собрать воедино шаги для выполнения этой задачи.

LLM, которые исследователи использовали для обучения RT-2, Пали-Х (модель видения и языка с 55 миллиардами параметров) и ПАЛМ-Э (то, что Google называет воплощенной мультимодальной языковой моделью, разработанной специально для роботов, с 12 миллиардами параметров). «Параметр» относится к атрибуту, который модель машинного обучения определяет на основе данных обучения. В случае LLM они моделируют отношения между словами в предложении и взвешивают, насколько вероятно, что данному слову будет предшествовать или следовать другое слово.

Находя отношения и закономерности между словами в гигантском наборе данных, модели учатся на собственных выводах. В конечном итоге они могут выяснить, как разные понятия связаны друг с другом, и различить контекст. В случае RT-2 он переводит эти знания в обобщенные инструкции для действий робота.

Эти действия представляются роботу в виде токенов, которые обычно используются для представления текста на естественном языке в виде фрагментов слов. В этом случае токены являются частью действия, и программное обеспечение связывает несколько токенов вместе для выполнения действия. Эта структура также позволяет программному обеспечению выполнять логические рассуждения, что означает, что оно может отвечать на вопросы или подсказки, требующие некоторой степени рассуждений.

Примеры, которые приводит команда, включают выбор объекта для использования в качестве молотка, когда молотка нет (робот выбирает камень) и выбор лучшего напитка для уставшего человека (робот выбирает энергетический напиток).

ChatGPT-подобный мозг DeepMind для роботов позволяет им учиться на базе данных Интернета PlatoBlockchain. Вертикальный поиск. Ай.
Кредит изображения: Google DeepMind

«RT-2 демонстрирует улучшенные возможности обобщения, а также семантическое и визуальное понимание за пределами роботизированных данных, которым он подвергался», — написали исследователи в Google. блоге. «Это включает в себя интерпретацию новых команд и реагирование на команды пользователя путем выполнения элементарных рассуждений, таких как рассуждения о категориях объектов или высокоуровневых описаниях».

Мечта о роботы общего назначения то, что может помочь людям во всем, что может возникнуть — будь то дома, в коммерческих или промышленных условиях — будет недостижимо, пока роботы не смогут учиться на ходу. То, что нам кажется самым основным инстинктом, для роботов представляет собой сложную комбинацию понимания контекста, способности рассуждать в нем и принятия мер для решения проблем, которые не ожидались. Запрограммировать их так, чтобы они адекватно реагировали на различные незапланированные сценарии, невозможно, поэтому они должны уметь обобщать и учиться на собственном опыте, как это делают люди.

РТ-2 — шаг в этом направлении. Однако исследователи признают, что, хотя RT-2 может обобщать семантические и визуальные концепции, он еще не способен самостоятельно обучаться новым действиям. Скорее, он применяет уже известные действия к новым сценариям. Возможно, RT-3 или 4 смогут вывести эти навыки на новый уровень. Тем временем, как заключает команда в своем блоге, «Несмотря на то, что предстоит проделать огромный объем работы, чтобы использовать полезных роботов в среде, ориентированной на человека, RT-2 показывает нам захватывающее будущее робототехники, которое находится в пределах досягаемости».

Изображение Фото: Google DeepMind

Отметка времени:

Больше от Singularity Hub