Google DeepMind тренує «штучний мозковий штурм» у шаховому штучному інтелекті | Журнал Quanta

Google DeepMind тренує «штучний мозковий штурм» у шаховому штучному інтелекті | Журнал Quanta

Google DeepMind тренує «штучний мозковий штурм» у шаховому штучному інтелекті | Журнал Quanta PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Вступ

Коли на початку 19 року Covid-2020 відправив людей додому, комп’ютерник Том Захаві заново відкрив шахи. Він грав у дитинстві і нещодавно прочитав Гаррі Каспарова Глибоке мислення, спогади про матчі гросмейстера 1997 року проти шахового комп’ютера IBM Deep Blue. Він дивився шахові відео на YouTube і Гамбіт королеви на Netflix.

Незважаючи на відновлення інтересу, Захаві не шукав способів покращити свою гру. «Я не великий гравець, — сказав він. «Я краще розбираюся в шахові головоломки» — розташування фігур, часто надумане та малоймовірне для реальної гри, яке змушує гравця знаходити творчі способи отримати перевагу.

Головоломки можуть допомогти гравцям відточити свої навички, але нещодавно вони допомогли виявити приховані обмеження шахових програм. Одна з найвідоміших головоломок, розроблена математиком сером Роджером Пенроузом у 2017 році, розміщує сильніші чорні фігури (наприклад, ферзя та туру) на дошці, але в незручних положеннях. Досвідчений гравець-людина, який грає білими, міг би легко довести гру до нічиєї, але потужні комп’ютерні шахові програми сказали б, що чорні мали явну перевагу. Ця різниця, сказав Захаві, говорить про те, що хоча комп’ютери можуть перемогти найкращих гравців у світі, вони ще не можуть розпізнавати та вирішувати будь-які складні проблеми. Відтоді Пенроуз та інші винайшли величезні колекції головоломок, які комп’ютерам важко вирішити.

Шахи вже давно є пробним каменем для перевірки нових ідей штучний інтелект, а головоломки Пенроуза викликали інтерес Захаві. «Я намагався зрозуміти, що робить ці позиції такими складними для комп’ютерів, коли принаймні деякі з них ми можемо вирішити як люди», — сказав він. «Я був повністю зачарований». Незабаром це переросло в професійний інтерес: як дослідник у Google DeepMind, Захаві досліджує творчі підходи до вирішення проблем. Мета полягає в тому, щоб розробити системи штучного інтелекту зі спектром можливої ​​поведінки, окрім виконання одного завдання.

Традиційна шахова програма зі штучним інтелектом, навчена вигравати, може не мати сенсу для головоломки Пенроуза, але Захаві підозрював, що програма, що складається з багатьох різноманітних систем, які працюють разом як група, може досягти успіху. Тож він і його колеги розробили спосіб об’єднати декілька (до 10) систем ШІ для прийняття рішень, кожну з яких оптимізовано та навчено для різних стратегій, починаючи з AlphaZero, потужної шахової програми DeepMind. Нова система, вони повідомлялося в серпні, грав краще, ніж сам по собі AlphaZero, і показав більше майстерності — і більше креативності — у розв’язанні головоломок Пенроуза. Ці здібності виникли, в певному сенсі, завдяки самокооперації: якщо один підхід натикався на стіну, програма просто переходила до іншого.

Такий підхід принципово має сенс, сказав Еллісон Лімхетчарат, комп’ютерний науковець у DoorDash, який працював із багатоагентними підходами до вирішення проблем у робототехніці. «З популяцією агентів існує більша ймовірність того, що головоломки знаходяться в домені, в якому принаймні один з агентів був навчений».

Робота показує, що команди різноманітних систем штучного інтелекту можуть ефективно вирішувати складні проблеми далеко за межами ігрового поля. «Це чудовий приклад того, що пошук більш ніж одного способу вирішення проблеми — наприклад, перемога в шахах — дає багато переваг», — сказав Антуан Кулі, дослідник штучного інтелекту в Імперському коледжі Лондона, який не брав участі в проекті DeepMind. Він порівняв це зі штучною версією людських мозкових штурмів. «Цей процес мислення веде до творчих та ефективних рішень, які можна було б упустити, не виконавши цю вправу».

Гонитва за невдачами

До того, як приєднатися до DeepMind, Захаві цікавився глибоким навчанням з підкріпленням, областю штучного інтелекту, в якій система використовує нейронні мережі, щоб вивчати певні завдання методом проб і помилок. Це основа для найпотужніших шахових програм (і використовується в інших додатках штучного інтелекту, як-от безпілотні автомобілі). Система починається зі свого середовища. У шахах, наприклад, середовище включає ігрову дошку та можливі ходи. Якщо завдання полягає в тому, щоб керувати автомобілем, середовище включає в себе все навколо автомобіля. Потім система приймає рішення, виконує дії та оцінює, наскільки близько вона підійшла до своєї мети. Коли він наближається до мети, він накопичує винагороди, а коли система накопичує винагороди, вона покращує свою продуктивність. «Глибока» частина цього підходу описує нейронні мережі, які використовуються для аналізу та оцінки поведінки.

Навчання з підкріпленням — це те, як AlphaZero навчився стати шаховим майстром. DeepMind повідомляє що протягом перших дев’яти годин навчання програми, у грудні 2017 року, вона зіграла проти себе 44 мільйони ігор. Спочатку його ходи визначалися випадковим чином, але з часом він навчився вибирати ходи, які з більшою ймовірністю призведуть до мату. Після лише годин тренувань AlphaZero розвинув здатність перемогти будь-якого гравця в шахи.

Але яким би успішним не було навчання з підкріпленням, воно не завжди призводить до стратегій, які відображають загальне розуміння гри. Протягом останніх півдесяти років або близько того Захаві та інші помітили зростання дивних збоїв, які могли статися в системах, навчених методом проб і помилок. Система, яка, наприклад, грає у відеоігри, може знайти лазівку та зрозуміти, як обдурити чи пропустити рівень, або вона може так само легко застрягти в повторюваному циклі. Головоломки в стилі Пенроуза так само передбачали певну сліпу пляму, або глюк, в AlphaZero — він не міг зрозуміти, як підійти до проблеми, якої ніколи раніше не бачив.

Але, можливо, не всі збої є просто помилками. Захаві підозрював, що сліпі зони AlphaZero насправді можуть бути чимось іншим замаскованим — рішеннями та поведінкою, пов’язаними з внутрішніми винагородами системи. За його словами, системи навчання з глибоким підкріпленням не знають, як зазнавати невдач — або навіть як розпізнавати невдачу. Здатність терпіти невдачі вже давно пов’язана з творчим вирішенням проблем. «Творчість має людську якість», — писав Каспаров Глибоке мислення. «Він приймає поняття невдачі».

Системи ШІ зазвичай цього не роблять. І якщо система не розпізнає, що їй не вдалося виконати своє завдання, вона може не спробувати щось інше. Замість цього він просто продовжуватиме намагатися робити те, що вже зробив. Ймовірно, це призвело до тупиків у відеоіграх — або до того, що вони застрягли на деяких викликах Пенроуза, сказав Захаві. За його словами, система гналася за «дивними видами внутрішніх винагород», які вона розробила під час навчання. Те, що зовні виглядало як помилка, швидше за все, було наслідком розробки конкретних, але в кінцевому підсумку невдалих стратегій.

Система вважала ці дивні нагороди кроками до великої мети, якої вона насправді не могла досягти, і вона не знала, щоб спробувати щось нове. «Я намагався зрозуміти їх, — сказав Захаві.

Краща гра

Частина причин, чому ці збої можуть виявитися такими значними — і такими корисними — полягає в тому, що дослідники визнають проблемою з узагальненням. Хоча системи навчання з підкріпленням можуть розробити ефективну стратегію зв’язку даної ситуації з конкретною дією — яку дослідники називають «політикою», — вони не можуть застосувати її до різних проблем. «При навчанні з підкріпленням, незалежно від методу, зазвичай відбувається те, що ви отримуєте політику, яка вирішує конкретний екземпляр проблеми, над якою ви навчалися, але вона не є узагальненою», — сказав Юліан Тогеліус, фахівець із комп’ютерних технологій у Нью-Йоркському університеті та керівник досліджень modl.ai.

Захаві бачив, що головоломки Пенроуза потребують саме такого узагальнення. Можливо, AlphaZero не міг розв’язати більшість головоломок, тому що він був настільки зосереджений на виграші цілих ігор, від початку до кінця. Але такий підхід створив сліпі плями, які виявилися через малоймовірне розташування частин у головоломках Пенроуза. Можливо, міркував він, програма могла б навчитися розгадувати головоломку, якби у неї було достатньо творчого простору для мозкового штурму та доступу до різних методів навчання.

Тож він і його колеги спочатку зібрали набір із 53 головоломок Пенроуза та 15 додаткових головоломок із завданнями. Сам по собі AlphaZero вирішив менше 4% головоломок Пенроуза та менше 12% решти. Загаві не здивувався: багато з цих головоломок були розроблені майстрами шахів, щоб навмисно заплутати комп’ютери.

У якості тесту дослідники спробували навчити AlphaZero грати сам проти себе, використовуючи головоломку Пенроуза як початкову позицію замість повної дошки типових ігор. Його продуктивність значно покращилася: він розгадав 96% головоломок Пенроуза та 76% завдань. Загалом, коли AlphaZero тренувався над певною головоломкою, він міг вирішити цю головоломку так само, як він міг виграти, коли тренувався на повній грі. Можливо, подумав Захаві, якби шахова програма якимось чином могла мати доступ до всіх цих різних версій AlphaZero, навчених на цих різних позиціях, тоді ця різноманітність могла б викликати здатність продуктивно підходити до нових проблем. Можливо, це могло б узагальнювати, іншими словами, розв’язувати не лише головоломки Пенроуза, але й будь-яку більш широку шахову проблему.

Його група вирішила це з’ясувати. Вони створили нову диверсифіковану версію AlphaZero, яка включає в себе кілька систем штучного інтелекту, які навчаються незалежно в різних ситуаціях. Алгоритм, який керує системою в цілому, діє як свого роду віртуальний сват, сказав Захаві: алгоритм, призначений для визначення того, який агент має найкращі шанси на успіх, коли настав час зробити крок. Він і його колеги також закодували «бонус за різноманітність» — винагороду для системи кожного разу, коли вона витягувала стратегії з великого вибору варіантів.

Коли нова система була запущена, щоб грати в власні ігри, команда помітила велику різноманітність. Різноманітний гравець зі штучним інтелектом експериментував з новими, ефективними відкриттями та новими — але обґрунтованими — рішеннями щодо конкретних стратегій, наприклад, коли і де рокувати. У більшості матчів він перемагав оригінальний AlphaZero. Команда також виявила, що диверсифікована версія може вирішити вдвічі більше головоломок, ніж оригінальна, і може вирішити більше половини загального каталогу головоломок Пенроуза.

«Ідея полягає в тому, що замість пошуку одного рішення або єдиної політики, яка б перемогла будь-якого гравця, тут [це використовує] ідею творчого різноманіття», — сказав Каллі.

Маючи доступ до більшої кількості різноманітних ігор, сказав Захаві, диверсифікований AlphaZero мав більше варіантів для складних ситуацій, коли вони виникали. «Якщо ви можете контролювати тип ігор, які він бачить, ви в основному контролюєте, як він буде узагальнювати», — сказав він. Ці дивні внутрішні винагороди (і пов’язані з ними дії) можуть стати сильними сторонами для різноманітної поведінки. Тоді система могла б навчитися оцінювати й оцінювати різні підходи та бачити, коли вони були найбільш успішними. «Ми виявили, що ця група агентів може дійти згоди щодо цих позицій».

І, що важливо, наслідки виходять за межі шахів.

Творчість у реальному житті

Каллі сказав, що диверсифікований підхід може допомогти будь-якій системі штучного інтелекту, а не лише тим, які базуються на навчанні з підкріпленням. Він давно використовує різноманітність для тренування фізичних систем, у тому числі a шестиногий робот якому було дозволено досліджувати різні види руху, перш ніж він навмисно «поранив» його, дозволивши йому продовжувати рухатися, використовуючи деякі методи, розроблені ним раніше. «Ми просто намагалися знайти рішення, які відрізнялися б від усіх попередніх рішень, які ми знайшли досі». Останнім часом він також співпрацює з дослідниками, щоб використовувати різноманітність для виявлення перспективних нових препаратів-кандидатів і розробки ефективних стратегій біржової торгівлі.

«Мета полягає в тому, щоб створити велику колекцію потенційно тисяч різних рішень, де кожне рішення дуже відрізняється від наступного», — сказав Каллі. Тож — так само, як навчився це робити різноманітний шахіст — для кожного типу задачі загальна система могла вибрати найкраще з можливих рішень. За його словами, система ШІ Захаві чітко показує, як «пошук різноманітних стратегій допомагає мислити нестандартно та знаходити рішення».

Захаві підозрює, що для того, щоб системи штучного інтелекту мислили творчо, дослідники просто повинні змусити їх розглянути більше варіантів. Ця гіпотеза припускає дивний зв’язок між людьми та машинами: можливо, інтелект – це лише питання обчислювальної потужності. Для системи штучного інтелекту, можливо, креативність зводиться до здатності розглядати та вибирати з достатньо великого буфету варіантів. Оскільки система отримує винагороду за вибір різноманітних оптимальних стратегій, цей вид творчого вирішення проблем посилюється та зміцнюється. Зрештою, теоретично, він міг би імітувати будь-яку стратегію вирішення проблем, яку люди визнають творчою. Творчість стала б обчислювальною проблемою.

Лімхетчарат зазначив, що диверсифікована система ШІ навряд чи повністю вирішить ширшу проблему узагальнення в машинному навчанні. Але це крок у правильному напрямку. "Це пом'якшує один із недоліків", - сказала вона.

Більш практично, результати Захаві перегукуються з нещодавніми зусиллями, які показують, як співпраця може призвести до кращого виконання складних завдань серед людей. Більшість хітів у списку Billboard 100 були написані, наприклад, командами авторів пісень, а не окремими особами. І ще є місце для вдосконалення. Різноманітний підхід наразі дорогий з точки зору обчислень, оскільки він повинен враховувати набагато більше можливостей, ніж типова система. Захаві також не впевнений, що навіть різноманітний AlphaZero охоплює весь спектр можливостей.

«Я все ще [вважаю], що є місце для пошуку інших рішень», — сказав він. «Мені незрозуміло, що, враховуючи всі дані у світі, існує [тільки] одна відповідь на кожне запитання».

Quanta проводить серію опитувань, щоб краще обслуговувати нашу аудиторію. Візьміть наші опитування читачів інформатики і ви будете введені, щоб виграти безкоштовно Quanta товар

Часова мітка:

Більше від Квантамагазин