ChatGPT-подобный мозг DeepMind для роботов позволяет им учиться в Интернете

Переиздано Платоном

Читают: 0

С тех пор, как ChatGPT ворвался на технологическую сцену в ноябре прошлого года, он помогает людям писать всевозможные материалы, генерировать код и находить информацию. Эта и другие крупные языковые модели (LLM) упростили выполнение задач, начиная от обработки звонков в службу поддержки и заканчивая приемом заказов в фаст-фуде. Учитывая, насколько полезными были LLM для людей за то короткое время, что они существуют, как ChatGPT для роботов может повлиять на их способность учиться и делать новые вещи? Исследователи из Google DeepMind решили выяснить это и опубликовали свои выводы в блоге и бумага, выпущенная на прошлой неделе.

Свою систему они называют РТ-2. Это сокращение от Robotics Transformer 2, и это преемник робототехника трансформер 1, которую компания выпустила в конце прошлого года. RT-1 был основан на небольшой программе языка и зрения и специально обучен для выполнения многих задач. Программное обеспечение использовалось в Alphabet X. Повседневные роботы, что позволяет им выполнять более 700 различных задач с вероятностью успеха 97 процентов. Но когда роботов, использующих RT-1, просили выполнять новые задачи, для которых они не были обучены, они справлялись только в 32 процентах случаев.

RT-2 почти удваивает этот показатель, успешно выполняя новые задачи в 62% случаев, когда его просят. Исследователи называют RT-2 моделью «видение-язык-действие» (VLA). Он использует текст и изображения, которые видит в Интернете, для изучения новых навыков. Это не так просто, как кажется; для этого требуется, чтобы программа сначала «поняла» концепцию, затем применила это понимание к команде или набору инструкций, а затем выполнила действия, удовлетворяющие этим инструкциям.

Один из примеров, который приводят авторы статьи, — это избавление от мусора. В предыдущих моделях программное обеспечение робота должно было сначала быть обучено распознавать мусор. Например, если на столе лежит очищенный банан, а кожура рядом с ним, боту будет показано, что кожура — это мусор, а банан — нет. Затем его научат, как собирать кожуру, переносить ее в мусорное ведро и класть туда.

Однако РТ-2 работает немного по-другому. Поскольку модель обучена на большом количестве информации и данных из Интернета, у нее есть общее представление о том, что такое мусор, и хотя она не обучена выбрасывать мусор, она может собрать воедино шаги для выполнения этой задачи.

LLM, которые исследователи использовали для обучения RT-2, Пали-Х (модель видения и языка с 55 миллиардами параметров) и ПАЛМ-Э (то, что Google называет воплощенной мультимодальной языковой моделью, разработанной специально для роботов, с 12 миллиардами параметров). «Параметр» относится к атрибуту, который модель машинного обучения определяет на основе данных обучения. В случае LLM они моделируют отношения между словами в предложении и взвешивают, насколько вероятно, что данному слову будет предшествовать или следовать другое слово.

Находя отношения и закономерности между словами в гигантском наборе данных, модели учатся на собственных выводах. В конечном итоге они могут выяснить, как разные понятия связаны друг с другом, и различить контекст. В случае RT-2 он переводит эти знания в обобщенные инструкции для действий робота.

Эти действия представляются роботу в виде токенов, которые обычно используются для представления текста на естественном языке в виде фрагментов слов. В этом случае токены являются частью действия, и программное обеспечение связывает несколько токенов вместе для выполнения действия. Эта структура также позволяет программному обеспечению выполнять логические рассуждения, что означает, что оно может отвечать на вопросы или подсказки, требующие некоторой степени рассуждений.

Примеры, которые приводит команда, включают выбор объекта для использования в качестве молотка, когда молотка нет (робот выбирает камень) и выбор лучшего напитка для уставшего человека (робот выбирает энергетический напиток).

ChatGPT-подобный мозг DeepMind для роботов позволяет им учиться на базе данных Интернета PlatoBlockchain. Вертикальный поиск. Ай. — *Кредит изображения: Google DeepMind*

«RT-2 демонстрирует улучшенные возможности обобщения, а также семантическое и визуальное понимание за пределами роботизированных данных, которым он подвергался», — написали исследователи в Google. блоге. «Это включает в себя интерпретацию новых команд и реагирование на команды пользователя путем выполнения элементарных рассуждений, таких как рассуждения о категориях объектов или высокоуровневых описаниях».

Мечта о роботы общего назначения то, что может помочь людям во всем, что может возникнуть — будь то дома, в коммерческих или промышленных условиях — будет недостижимо, пока роботы не смогут учиться на ходу. То, что нам кажется самым основным инстинктом, для роботов представляет собой сложную комбинацию понимания контекста, способности рассуждать в нем и принятия мер для решения проблем, которые не ожидались. Запрограммировать их так, чтобы они адекватно реагировали на различные незапланированные сценарии, невозможно, поэтому они должны уметь обобщать и учиться на собственном опыте, как это делают люди.

РТ-2 — шаг в этом направлении. Однако исследователи признают, что, хотя RT-2 может обобщать семантические и визуальные концепции, он еще не способен самостоятельно обучаться новым действиям. Скорее, он применяет уже известные действия к новым сценариям. Возможно, RT-3 или 4 смогут вывести эти навыки на новый уровень. Тем временем, как заключает команда в своем блоге, «Несмотря на то, что предстоит проделать огромный объем работы, чтобы использовать полезных роботов в среде, ориентированной на человека, RT-2 показывает нам захватывающее будущее робототехники, которое находится в пределах досягаемости».

Изображение Фото: Google DeepMind

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
Источник: https://singularityhub.com/2023/08/02/deepminds-chatgpt-like-brain-for-robots-lets-them-learn-from-the-internet/

Отметка времени: 2 августа 2023

Отметка времени: 14 Марта, 2022

ChatGPT-подобный мозг DeepMind для роботов позволяет им учиться в Интернете

Переиздано Платоном

Больше от Singularity Hub

«Темные звезды»: темная материя может образовывать взрывающиеся звезды. Их обнаружение может помочь выяснить, из чего она состоит

Ученые использовали CRISPR, чтобы проследить функции каждого человеческого гена

Замечательные технические истории на этой неделе из Интернета (до 10 февраля)

Ученые изучали ледяной покров Антарктиды более 10,000 XNUMX лет. Их выводы дают представление о будущем

Аккумуляторы для электромобилей могут удовлетворить потребности в хранении данных в масштабе сети к 2030 году

Космические колонии: искусственный фотосинтез может стать ключом к устойчивой жизни за пределами Земли

Шведская компания хочет преобразовать морскую ветроэнергетику с помощью турбин с вертикальной осью

В США строится крупнейший в мире завод по производству искусственного мяса

Космическое оборудование для солнечной энергетики только что выведено на орбиту для испытаний

Есть более дешевые и устойчивые способы удовлетворения наших потребностей в воде, чем опреснение

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись