Машини навчаються краще, якщо ми навчимо їх основам

Машини навчаються краще, якщо ми навчимо їх основам

Машини навчаються краще, якщо ми навчимо їх основам PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Вступ

Уявіть, що ваш сусід дзвонить і просить про послугу: чи не могли б ви погодувати їх домашнього кролика шматочками моркви? Ви подумаєте, досить легко. Можете собі уявити їхню кухню, навіть якщо ви там ніколи не були — морква в холодильнику, шухляда з різними ножами. Це абстрактне знання: ти не знаєш, як саме виглядають морква і ніж у сусіда, але до огірка ложкою не візьмешся.

Програми штучного інтелекту не можуть конкурувати. Те, що вам здається легким завданням, для сучасних алгоритмів є величезним завданням.

Навчений штучному інтелекту робот може знайти певний ніж і моркву, які ховаються на знайомій кухні, але на іншій кухні йому бракуватиме абстрактних навичок, щоб досягти успіху. «Вони не узагальнюють нове середовище», — сказав Віктор Чжун, аспірант інформатики Вашингтонського університету. Машина дає збій, тому що є забагато чого навчитися та надто великий простір для дослідження.

Проблема полягає в тому, що ці роботи — і агенти штучного інтелекту в цілому — не мають основи концепцій, на яких можна було б спиратися. Вони не знають, що таке насправді ніж чи морква, а тим більше, як відкрити ящик, вибрати один і нарізати скибочками. Це обмеження частково пов’язане з тим, що багато передових систем штучного інтелекту навчаються за допомогою методу підкріпленого навчання, який, по суті, є самоосвітою шляхом проб і помилок. Агенти штучного інтелекту, навчені за допомогою навчання з підкріпленням, можуть дуже добре виконувати роботу, якій їх навчили, у середовищі, в якому їх навчали. Але змініть роботу чи середовище, і ці системи часто дадуть збій.

Щоб обійти це обмеження, інформатики почали навчати машини важливим концепціям, перш ніж їх відпустити. Це як читати посібник перед використанням нового програмного забезпечення: ви можете спробувати досліджувати без нього, але з ним ви навчитеся набагато швидше. «Люди вчаться, поєднуючи роботу й читання», — сказав Картік Нарасімхан, комп’ютерний науковець Прінстонського університету. «Ми хочемо, щоб машини робили те саме».

Нова робота від Zhong та інших показує, що підготовка моделі навчання таким чином може посилити навчання в симульованих середовищах, як онлайн, так і в реальному світі за допомогою роботів. І це не просто змушує алгоритми вчитися швидше — це спрямовує їх до навичок, яких вони б ніколи не навчилися. Дослідники хочуть, щоб ці агенти стали спеціалістами широкого профілю, здатними навчитися чому завгодно: від шахів до покупок і прибирання. І оскільки демонстрації стають більш практичними, вчені вважають, що цей підхід може навіть змінити те, як люди можуть взаємодіяти з роботами.

«Це був досить великий прорив», — сказав Брайан Іхтер, дослідник робототехніки Google. «Надзвичайно неможливо уявити, як далеко це зайшло за півтора року».

Розріджені нагороди

На перший погляд, машинне навчання вже виявилося надзвичайно успішним. Більшість моделей зазвичай використовують навчання, де алгоритми навчаються, отримуючи винагороди. Вони починають з абсолютного невігластва, але метод проб і помилок зрештою стає пробою й тріумфом. Агенти навчання з підкріпленням можуть легко освоїти прості ігри.

Розглянемо відеогру Snake, де гравці керують змією, яка стає довшою, їдячи цифрові яблука. Ви хочете, щоб ваша змія їла якомога більше яблук, залишайтеся в межах і не натикайтеся на її все більш громіздке тіло. Такі чіткі правильні та неправильні результати дають добре винагородженому машинному агенту позитивний відгук, тому достатня кількість спроб може перевести його від «нуба» до високого результату.

Але припустимо, що правила зміняться. Можливо, той самий агент повинен грати на більшій сітці та в трьох вимірах. Хоча людина-гравець може швидко адаптуватися, машина не може через дві критичні слабкості. По-перше, більший простір означає, що змії потрібно більше часу, щоб натрапити на яблука, а навчання сповільнюється експоненціально, коли винагороди стають рідкісними. По-друге, новий вимір надає абсолютно новий досвід, а навчання з підкріпленням важко узагальнити для нових викликів.

Чжун каже, що нам не потрібно миритися з цими перешкодами. «Чому коли ми хочемо зіграти в шахи» — іншу гру, яку опанували навчання з підкріпленням — «ми навчаємо агента навчання з підкріпленням з нуля?» Такі підходи неефективні. Агент безцільно блукає, поки не натрапляє на хорошу ситуацію, наприклад, мат, і Чжун каже, що це вимагає ретельного людського плану, щоб змусити агента зрозуміти, що означає хороша ситуація. «Навіщо нам це робити, якщо у нас уже є стільки книг про те, як грати в шахи?»

Частково це тому, що машинам важко зрозуміти людську мову та розшифрувати зображення. Щоб робот міг виконувати завдання, засновані на зору, наприклад, знайти та нарізати моркву, він повинен знати, що таке морква — зображення речі має бути «обґрунтовано» більш фундаментальним розумінням того, що це таке. Донедавна не було хорошого способу зробити це, але бум швидкості та масштабу обробки мови та зображень зробив можливим нові успіхи.

Нові обробка природного мови моделі дозволяють машинам по суті вивчати значення слів і речень — закріплювати їх у речах у світі — а не просто зберігати просте (і обмежене) значення, як цифровий словник.

Комп’ютерне зір пережило подібний цифровий вибух. Приблизно в 2009 році ImageNet дебютувала як база даних анотованих зображень для дослідження комп’ютерного зору. Сьогодні він містить понад 14 мільйонів зображень об’єктів і місць. І такі програми, як OpenAI ДОЛ·E генерувати нові зображення за командою, які виглядають створеними людиною, незважаючи на відсутність точного порівняння.

Це показує, як машини лише зараз мають доступ до достатньої кількості онлайн-даних, щоб по-справжньому пізнавати світ Аніма Анандкумар, комп’ютерний науковець Каліфорнійського технологічного інституту та Nvidia. І це ознака того, що вони можуть вчитися на концепціях, як і ми, і використовувати їх для генерації. «Ми зараз у такий чудовий момент», — сказала вона. «Тому що, як тільки ми зможемо отримати покоління, ми зможемо зробити набагато більше».

Ігрові системи

Такі дослідники, як Чжун, вирішили, що машинам більше не потрібно починати свої дослідження абсолютно необізнаними. Озброївшись складними мовними моделями, дослідники могли б додати етап попереднього навчання, на якому програма вчилася б з інформації в Інтернеті, перш ніж здійснювати спроби та помилки.

Щоб перевірити цю ідею, він і його колеги порівняли попереднє навчання з традиційним навчанням з підкріпленням п'ять різних ігрових налаштувань де машинні агенти інтерпретували мовні команди для вирішення проблем. Кожне змодельоване середовище кидало виклик машинному агенту унікальним чином. Один попросив агента маніпулювати предметами на 3D-кухні; ще один необхідний текст для читання, щоб вивчити точну послідовність дій для боротьби з монстрами. Але найскладнішим сеттингом була справжня гра, 35-річна NetHack, де мета — пройти складне підземелля, щоб отримати амулет.

Для простих налаштувань автоматизоване попереднє навчання означало просте закріплення важливих понять: це морква, а це монстр. Для NetHack агент навчався, спостерігаючи за грою людей, використовуючи проходження, завантажені в Інтернет гравцями-людьми. Ці проходження навіть не повинні були бути такими хорошими — агенту потрібно було лише розвинути інтуїцію щодо поведінки людей. Агент не мав стати експертом, а просто звичайним гравцем. Це створило б інтуїцію, спостерігаючи — що зробила б людина за певного сценарію? Агент вирішував, які ходи були вдалими, формулюючи свій батик і пряник.

«Завдяки попередньому навчанню ми формуємо гарні навички того, як пов’язувати мовні описи з речами, які відбуваються у світі», — сказав Чжун. Агент буде краще грати з самого початку та швидше навчатиметься під час наступного навчання з підкріпленням.

У результаті попередньо навчений агент перевершив традиційно навченого. «Ми отримуємо переваги за всіма напрямками в усіх п’яти цих середовищах», — сказав Чжун. Простіші налаштування показали лише невелику перевагу, але в складних підземеллях NetHack агент навчався в рази швидше та досяг такого рівня навичок, якого не міг зробити класичний підхід. «Можливо, ви отримуєте 10-кратну продуктивність, тому що якщо ви цього не зробите, ви просто не навчитеся правильної політики», — сказав він.

«Ці агенти широкого профілю є великим кроком у порівнянні зі стандартним навчанням з підкріпленням», — сказав Анандкумар.

Її команда також проводить попередню підготовку агентів, щоб змусити їх швидше вчитися, досягаючи значного прогресу в найпопулярнішій у світі відеогрі Minecraft. Ця гра відома як «пісочниця», що означає, що вона дає гравцям практично нескінченний простір для взаємодії та створення нових світів. Марно програмувати функцію винагороди для тисяч завдань окремо, тому натомість модель команди (“MineDojo”) створив своє розуміння гри, переглядаючи відео з субтитрами. Не потрібно кодифікувати хорошу поведінку.

«Ми отримуємо автоматизовані функції винагород», — сказав Анандкумар. «Це перший контрольний тест із тисячами завдань і можливістю навчання з підкріпленням із відкритими завданнями, визначеними за допомогою текстових підказок».

За межами ігор

Ігри були чудовим способом показати, що моделі перед навчанням можуть працювати, але вони все ще є спрощеними світами. Набагато складніше навчити роботів справлятися з реальним світом, де можливості практично безмежні. «Ми задали питання: чи є щось посередині?» – сказав Нарасімхан. Тому він вирішив зробити покупки в Інтернеті.

Його команда створила WebShop. «По суті, це як торговий дворецький», — сказав Нарасімхан. Користувачі можуть сказати щось на зразок «Дайте мені білі кросівки Nike за ціною менше 100 доларів, і я хочу, щоб у відгуках було зазначено, що вони дуже зручні для малюків», і програма знаходить і купує туфлі.

Як і в іграх Чжуна та Анандкумара, WebShop розвинув інтуїцію, тренуючись із зображеннями та текстом, цього разу зі сторінок Amazon. «З часом він навчиться розуміти мову та відображати її для дій, які йому потрібно виконати на веб-сайті».

На перший погляд торговий дворецький може здатися не таким футуристичним. Але хоча передовий чат-бот може зв’язати вас із потрібними кросівками, взаємодія, як-от розміщення замовлення, вимагає зовсім іншого набору навичок. І навіть якщо ваші приліжкові колонки Alexa або Google Home можуть розміщувати замовлення, вони покладаються на власне програмне забезпечення, яке виконує заздалегідь визначені завдання. WebShop здійснює навігацію в Інтернеті так, як це роблять люди: читаючи, вводячи текст і натискаючи.

«Це крок ближче до загального інтелекту», — сказав Нарасімхан.

Вступ

Звичайно, змусити роботів взаємодіяти з реальним світом має свої проблеми. Розглянемо, наприклад, пляшку. Ви можете впізнати його за зовнішнім виглядом, ви знаєте, що він призначений для зберігання рідини, і ви розумієте, як маніпулювати ним руками. Чи зможуть реальні машини коли-небудь перетворити слова та зображення на складний інтелект руху?

Нарасімхан співпрацював з Анірудха Маджумдар, робототехнік у Прінстоні, щоб дізнатися. Вони навчили роботизовану руку маніпулювати інструментами, яких вона ніколи раніше не бачила, і попередньо навчили її використовувати описову мову, взяту з успішних мовних моделей. Програма навчалася швидше та працювала краще майже з усіма інструментами та діями порівняно з програмами, які навчалися за допомогою традиційного дослідження, відповідно до результати опубліковано на сервері препринтів arxiv.org минулого червня.

У робототехнічних лабораторіях Google інженери створили бібліотеку ще складніших команд, яка також базується на попередньому навчанні створенню контексту. «Світ можливостей, які ви повинні розглянути, величезний», — сказав Кароль Хаусман, науковий співробітник групи робототехніки Google. «Тож ми просимо мовну модель розбити це для нас».

Команда працювала з мобільним роботом-помічником із семисуглобовою рукою, якого вони тренували за допомогою мовних навичок. Для будь-якої заданої команди, як-от «допоможи мені очистити розлитий напій», програма використовує мовну модель, щоб запропонувати дії з бібліотеки з 700 навчених рухів, наприклад «схопити» паперовий рушник, «підняти» банку або « викинути» банку. І Хаусман каже, що визнає свої обмеження такими фразами, як «Я насправді не в змозі це стерти. Але я можу принести тобі губку». Команда нещодавно повідомила про результати цього проекту, називається SayCan.

Ще одна перевага надання роботам мовних моделей полягає в тому, що переклад синонімів і слів іншими мовами стає тривіальним. Одна людина може сказати «крутити», а інша — «обертати», і робот розуміє і те, і інше. «Найбожевільніша річ, яку ми спробували, — це те, що він також розуміє емодзі», — сказав Фей Ся, науковий співробітник Google.

Боти вчаться        

SayCan — це, мабуть, найдосконаліша демонстрація вивчення мови в робототехніці на сьогодні. А мовні та образні моделі постійно вдосконалюються, створюючи кращі та складніші техніки попереднього навчання.

Але Ся обережно стримує хвилювання. «Хтось напівжартома сказав, що ми досягли моменту «робот GPT», — сказав він, маючи на увазі новаторські мовні моделі, які розуміють широкий спектр людських команд. «Ми ще не там, і ще багато чого потрібно дослідити».

Наприклад, ці моделі можуть давати неправильні відповіді або здійснювати помилкові дії, які дослідники намагаються зрозуміти. Роботи також ще не освоїли “втілення”: у той час як люди мають фізичну інтуїцію, побудовану на дитинстві, проведеному за грою з іграшками, роботам все ще потрібна взаємодія в реальному світі, щоб розвинути цей тип інтуїції. «Для деяких налаштувань є багато демонстрацій без міток», — сказав Чжун — подумайте про бази даних взаємодії відеоігор, як-от Minecraft і NetHack. Жодна база даних не може швидко навчити роботів розумному руху.

Проте прогрес відбувається швидко. Більше дослідників вважають, що кінцевим результатом стане розумніша робототехніка. Нарасімхан простежує еволюцію людини й робота від перфокарт до наступних технологій. «У нас були клавіатури та миші, а потім сенсорні екрани», — сказав він. На черзі – обґрунтована мова. Ви розмовлятимете зі своїм комп’ютером, щоб отримати відповіді та доручення. «Вся ця мрія про те, щоб помічники були справді здатними, ще не збулася», — сказав він. «Але я думаю, що це станеться дуже скоро».

Часова мітка:

Більше від Квантамагазин