Вступ
Коли на початку 19 року Covid-2020 відправив людей додому, комп’ютерник Том Захаві заново відкрив шахи. Він грав у дитинстві і нещодавно прочитав Гаррі Каспарова Глибоке мислення, спогади про матчі гросмейстера 1997 року проти шахового комп’ютера IBM Deep Blue. Він дивився шахові відео на YouTube і Гамбіт королеви на Netflix.
Незважаючи на відновлення інтересу, Захаві не шукав способів покращити свою гру. «Я не великий гравець, — сказав він. «Я краще розбираюся в шахові головоломки» — розташування фігур, часто надумане та малоймовірне для реальної гри, яке змушує гравця знаходити творчі способи отримати перевагу.
Головоломки можуть допомогти гравцям відточити свої навички, але нещодавно вони допомогли виявити приховані обмеження шахових програм. Одна з найвідоміших головоломок, розроблена математиком сером Роджером Пенроузом у 2017 році, розміщує сильніші чорні фігури (наприклад, ферзя та туру) на дошці, але в незручних положеннях. Досвідчений гравець-людина, який грає білими, міг би легко довести гру до нічиєї, але потужні комп’ютерні шахові програми сказали б, що чорні мали явну перевагу. Ця різниця, сказав Захаві, говорить про те, що хоча комп’ютери можуть перемогти найкращих гравців у світі, вони ще не можуть розпізнавати та вирішувати будь-які складні проблеми. Відтоді Пенроуз та інші винайшли величезні колекції головоломок, які комп’ютерам важко вирішити.
Шахи вже давно є пробним каменем для перевірки нових ідей штучний інтелект, а головоломки Пенроуза викликали інтерес Захаві. «Я намагався зрозуміти, що робить ці позиції такими складними для комп’ютерів, коли принаймні деякі з них ми можемо вирішити як люди», — сказав він. «Я був повністю зачарований». Незабаром це переросло в професійний інтерес: як дослідник у Google DeepMind, Захаві досліджує творчі підходи до вирішення проблем. Мета полягає в тому, щоб розробити системи штучного інтелекту зі спектром можливої поведінки, окрім виконання одного завдання.
Традиційна шахова програма зі штучним інтелектом, навчена вигравати, може не мати сенсу для головоломки Пенроуза, але Захаві підозрював, що програма, що складається з багатьох різноманітних систем, які працюють разом як група, може досягти успіху. Тож він і його колеги розробили спосіб об’єднати декілька (до 10) систем ШІ для прийняття рішень, кожну з яких оптимізовано та навчено для різних стратегій, починаючи з AlphaZero, потужної шахової програми DeepMind. Нова система, вони повідомлялося в серпні, грав краще, ніж сам по собі AlphaZero, і показав більше майстерності — і більше креативності — у розв’язанні головоломок Пенроуза. Ці здібності виникли, в певному сенсі, завдяки самокооперації: якщо один підхід натикався на стіну, програма просто переходила до іншого.
Такий підхід принципово має сенс, сказав Еллісон Лімхетчарат, комп’ютерний науковець у DoorDash, який працював із багатоагентними підходами до вирішення проблем у робототехніці. «З популяцією агентів існує більша ймовірність того, що головоломки знаходяться в домені, в якому принаймні один з агентів був навчений».
Робота показує, що команди різноманітних систем штучного інтелекту можуть ефективно вирішувати складні проблеми далеко за межами ігрового поля. «Це чудовий приклад того, що пошук більш ніж одного способу вирішення проблеми — наприклад, перемога в шахах — дає багато переваг», — сказав Антуан Кулі, дослідник штучного інтелекту в Імперському коледжі Лондона, який не брав участі в проекті DeepMind. Він порівняв це зі штучною версією людських мозкових штурмів. «Цей процес мислення веде до творчих та ефективних рішень, які можна було б упустити, не виконавши цю вправу».
Гонитва за невдачами
До того, як приєднатися до DeepMind, Захаві цікавився глибоким навчанням з підкріпленням, областю штучного інтелекту, в якій система використовує нейронні мережі, щоб вивчати певні завдання методом проб і помилок. Це основа для найпотужніших шахових програм (і використовується в інших додатках штучного інтелекту, як-от безпілотні автомобілі). Система починається зі свого середовища. У шахах, наприклад, середовище включає ігрову дошку та можливі ходи. Якщо завдання полягає в тому, щоб керувати автомобілем, середовище включає в себе все навколо автомобіля. Потім система приймає рішення, виконує дії та оцінює, наскільки близько вона підійшла до своєї мети. Коли він наближається до мети, він накопичує винагороди, а коли система накопичує винагороди, вона покращує свою продуктивність. «Глибока» частина цього підходу описує нейронні мережі, які використовуються для аналізу та оцінки поведінки.
Навчання з підкріпленням — це те, як AlphaZero навчився стати шаховим майстром. DeepMind повідомляє що протягом перших дев’яти годин навчання програми, у грудні 2017 року, вона зіграла проти себе 44 мільйони ігор. Спочатку його ходи визначалися випадковим чином, але з часом він навчився вибирати ходи, які з більшою ймовірністю призведуть до мату. Після лише годин тренувань AlphaZero розвинув здатність перемогти будь-якого гравця в шахи.
Але яким би успішним не було навчання з підкріпленням, воно не завжди призводить до стратегій, які відображають загальне розуміння гри. Протягом останніх півдесяти років або близько того Захаві та інші помітили зростання дивних збоїв, які могли статися в системах, навчених методом проб і помилок. Система, яка, наприклад, грає у відеоігри, може знайти лазівку та зрозуміти, як обдурити чи пропустити рівень, або вона може так само легко застрягти в повторюваному циклі. Головоломки в стилі Пенроуза так само передбачали певну сліпу пляму, або глюк, в AlphaZero — він не міг зрозуміти, як підійти до проблеми, якої ніколи раніше не бачив.
Але, можливо, не всі збої є просто помилками. Захаві підозрював, що сліпі зони AlphaZero насправді можуть бути чимось іншим замаскованим — рішеннями та поведінкою, пов’язаними з внутрішніми винагородами системи. За його словами, системи навчання з глибоким підкріпленням не знають, як зазнавати невдач — або навіть як розпізнавати невдачу. Здатність терпіти невдачі вже давно пов’язана з творчим вирішенням проблем. «Творчість має людську якість», — писав Каспаров Глибоке мислення. «Він приймає поняття невдачі».
Системи ШІ зазвичай цього не роблять. І якщо система не розпізнає, що їй не вдалося виконати своє завдання, вона може не спробувати щось інше. Замість цього він просто продовжуватиме намагатися робити те, що вже зробив. Ймовірно, це призвело до тупиків у відеоіграх — або до того, що вони застрягли на деяких викликах Пенроуза, сказав Захаві. За його словами, система гналася за «дивними видами внутрішніх винагород», які вона розробила під час навчання. Те, що зовні виглядало як помилка, швидше за все, було наслідком розробки конкретних, але в кінцевому підсумку невдалих стратегій.
Система вважала ці дивні нагороди кроками до великої мети, якої вона насправді не могла досягти, і вона не знала, щоб спробувати щось нове. «Я намагався зрозуміти їх, — сказав Захаві.
Краща гра
Частина причин, чому ці збої можуть виявитися такими значними — і такими корисними — полягає в тому, що дослідники визнають проблемою з узагальненням. Хоча системи навчання з підкріпленням можуть розробити ефективну стратегію зв’язку даної ситуації з конкретною дією — яку дослідники називають «політикою», — вони не можуть застосувати її до різних проблем. «При навчанні з підкріпленням, незалежно від методу, зазвичай відбувається те, що ви отримуєте політику, яка вирішує конкретний екземпляр проблеми, над якою ви навчалися, але вона не є узагальненою», — сказав Юліан Тогеліус, фахівець із комп’ютерних технологій у Нью-Йоркському університеті та керівник досліджень modl.ai.
Захаві бачив, що головоломки Пенроуза потребують саме такого узагальнення. Можливо, AlphaZero не міг розв’язати більшість головоломок, тому що він був настільки зосереджений на виграші цілих ігор, від початку до кінця. Але такий підхід створив сліпі плями, які виявилися через малоймовірне розташування частин у головоломках Пенроуза. Можливо, міркував він, програма могла б навчитися розгадувати головоломку, якби у неї було достатньо творчого простору для мозкового штурму та доступу до різних методів навчання.
Тож він і його колеги спочатку зібрали набір із 53 головоломок Пенроуза та 15 додаткових головоломок із завданнями. Сам по собі AlphaZero вирішив менше 4% головоломок Пенроуза та менше 12% решти. Загаві не здивувався: багато з цих головоломок були розроблені майстрами шахів, щоб навмисно заплутати комп’ютери.
У якості тесту дослідники спробували навчити AlphaZero грати сам проти себе, використовуючи головоломку Пенроуза як початкову позицію замість повної дошки типових ігор. Його продуктивність значно покращилася: він розгадав 96% головоломок Пенроуза та 76% завдань. Загалом, коли AlphaZero тренувався над певною головоломкою, він міг вирішити цю головоломку так само, як він міг виграти, коли тренувався на повній грі. Можливо, подумав Захаві, якби шахова програма якимось чином могла мати доступ до всіх цих різних версій AlphaZero, навчених на цих різних позиціях, тоді ця різноманітність могла б викликати здатність продуктивно підходити до нових проблем. Можливо, це могло б узагальнювати, іншими словами, розв’язувати не лише головоломки Пенроуза, але й будь-яку більш широку шахову проблему.
Його група вирішила це з’ясувати. Вони створили нову диверсифіковану версію AlphaZero, яка включає в себе кілька систем штучного інтелекту, які навчаються незалежно в різних ситуаціях. Алгоритм, який керує системою в цілому, діє як свого роду віртуальний сват, сказав Захаві: алгоритм, призначений для визначення того, який агент має найкращі шанси на успіх, коли настав час зробити крок. Він і його колеги також закодували «бонус за різноманітність» — винагороду для системи кожного разу, коли вона витягувала стратегії з великого вибору варіантів.
Коли нова система була запущена, щоб грати в власні ігри, команда помітила велику різноманітність. Різноманітний гравець зі штучним інтелектом експериментував з новими, ефективними відкриттями та новими — але обґрунтованими — рішеннями щодо конкретних стратегій, наприклад, коли і де рокувати. У більшості матчів він перемагав оригінальний AlphaZero. Команда також виявила, що диверсифікована версія може вирішити вдвічі більше головоломок, ніж оригінальна, і може вирішити більше половини загального каталогу головоломок Пенроуза.
«Ідея полягає в тому, що замість пошуку одного рішення або єдиної політики, яка б перемогла будь-якого гравця, тут [це використовує] ідею творчого різноманіття», — сказав Каллі.
Маючи доступ до більшої кількості різноманітних ігор, сказав Захаві, диверсифікований AlphaZero мав більше варіантів для складних ситуацій, коли вони виникали. «Якщо ви можете контролювати тип ігор, які він бачить, ви в основному контролюєте, як він буде узагальнювати», — сказав він. Ці дивні внутрішні винагороди (і пов’язані з ними дії) можуть стати сильними сторонами для різноманітної поведінки. Тоді система могла б навчитися оцінювати й оцінювати різні підходи та бачити, коли вони були найбільш успішними. «Ми виявили, що ця група агентів може дійти згоди щодо цих позицій».
І, що важливо, наслідки виходять за межі шахів.
Творчість у реальному житті
Каллі сказав, що диверсифікований підхід може допомогти будь-якій системі штучного інтелекту, а не лише тим, які базуються на навчанні з підкріпленням. Він давно використовує різноманітність для тренування фізичних систем, у тому числі a шестиногий робот якому було дозволено досліджувати різні види руху, перш ніж він навмисно «поранив» його, дозволивши йому продовжувати рухатися, використовуючи деякі методи, розроблені ним раніше. «Ми просто намагалися знайти рішення, які відрізнялися б від усіх попередніх рішень, які ми знайшли досі». Останнім часом він також співпрацює з дослідниками, щоб використовувати різноманітність для виявлення перспективних нових препаратів-кандидатів і розробки ефективних стратегій біржової торгівлі.
«Мета полягає в тому, щоб створити велику колекцію потенційно тисяч різних рішень, де кожне рішення дуже відрізняється від наступного», — сказав Каллі. Тож — так само, як навчився це робити різноманітний шахіст — для кожного типу задачі загальна система могла вибрати найкраще з можливих рішень. За його словами, система ШІ Захаві чітко показує, як «пошук різноманітних стратегій допомагає мислити нестандартно та знаходити рішення».
Захаві підозрює, що для того, щоб системи штучного інтелекту мислили творчо, дослідники просто повинні змусити їх розглянути більше варіантів. Ця гіпотеза припускає дивний зв’язок між людьми та машинами: можливо, інтелект – це лише питання обчислювальної потужності. Для системи штучного інтелекту, можливо, креативність зводиться до здатності розглядати та вибирати з достатньо великого буфету варіантів. Оскільки система отримує винагороду за вибір різноманітних оптимальних стратегій, цей вид творчого вирішення проблем посилюється та зміцнюється. Зрештою, теоретично, він міг би імітувати будь-яку стратегію вирішення проблем, яку люди визнають творчою. Творчість стала б обчислювальною проблемою.
Лімхетчарат зазначив, що диверсифікована система ШІ навряд чи повністю вирішить ширшу проблему узагальнення в машинному навчанні. Але це крок у правильному напрямку. "Це пом'якшує один із недоліків", - сказала вона.
Більш практично, результати Захаві перегукуються з нещодавніми зусиллями, які показують, як співпраця може призвести до кращого виконання складних завдань серед людей. Більшість хітів у списку Billboard 100 були написані, наприклад, командами авторів пісень, а не окремими особами. І ще є місце для вдосконалення. Різноманітний підхід наразі дорогий з точки зору обчислень, оскільки він повинен враховувати набагато більше можливостей, ніж типова система. Захаві також не впевнений, що навіть різноманітний AlphaZero охоплює весь спектр можливостей.
«Я все ще [вважаю], що є місце для пошуку інших рішень», — сказав він. «Мені незрозуміло, що, враховуючи всі дані у світі, існує [тільки] одна відповідь на кожне запитання».
Quanta проводить серію опитувань, щоб краще обслуговувати нашу аудиторію. Візьміть наші опитування читачів інформатики і ви будете введені, щоб виграти безкоштовно Quanta товар
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://www.quantamagazine.org/google-deepmind-trains-artificial-brainstorming-in-chess-ai-20231115/
- : має
- :є
- : ні
- :де
- ][стор
- $UP
- 10
- 100
- 15%
- 2017
- 2020
- a
- здібності
- здатність
- МЕНЮ
- AC
- Приймає
- доступ
- Achieve
- дію
- дії
- акти
- насправді
- Додатковий
- Перевага
- після
- проти
- Агент
- агенти
- Угода
- AI
- Системи ШІ
- алгоритм
- ВСІ
- дозволено
- Дозволити
- майже
- тільки
- вже
- Також
- завжди
- серед
- an
- аналізувати
- та
- Інший
- відповідь
- будь-який
- застосування
- Застосовувати
- підхід
- підходи
- ЕСТЬ
- ПЛОЩА
- навколо
- розташування
- штучний
- штучний інтелект
- AS
- оцінити
- асоційований
- At
- аудиторія
- заснований
- В основному
- основа
- BE
- бити
- оскільки
- ставати
- було
- перед тим
- поведінки
- Переваги
- КРАЩЕ
- Краще
- між
- За
- Black
- синій
- рада
- Box
- мозковий штурм
- ширше
- Буфет
- побудований
- але
- by
- call
- прийшов
- CAN
- кандидатів
- захвати
- автомобіль
- автомобілів
- каталог
- виклик
- проблеми
- шанс
- Chess
- вибір
- Вибирати
- ясно
- очевидно
- близько
- ближче
- закодований
- співробітництво
- колеги
- збір
- Колекції
- коледж
- Приходити
- приходить
- порівняний
- повний
- повністю
- обчислювальна
- обчислювальна потужність
- комп'ютер
- комп'ютери
- Проведення
- З'єднувальний
- зв'язку
- наслідок
- наслідкові
- Вважати
- продовжувати
- контроль
- переконаний,
- співробітництво
- може
- COVID-19
- Креатив
- креативність
- вирішальною мірою
- цікавий
- В даний час
- дані
- мертвий
- справу
- Грудень
- вирішене
- Прийняття рішень
- рішення
- глибокий
- Deepmind
- призначений
- певний
- розвивати
- розвиненою
- розвивається
- валюта
- різниця
- різний
- різні проблеми
- напрям
- Директор
- розрізнені
- Різне
- диверсифіковані
- різноманітність
- do
- Ні
- справи
- домен
- зроблений
- Не знаю
- вниз
- різко
- малювати
- управляти
- наркотик
- під час
- кожен
- Рано
- легко
- Ефективний
- продуктивно
- зусилля
- ще
- закінчується
- досить
- увійшов
- Весь
- Навколишнє середовище
- помилка
- помилки
- Навіть
- Кожен
- все
- еволюціонували
- приклад
- Здійснювати
- дорогий
- досвідчений
- дослідити
- досліджує
- піддаватися
- продовжити
- FAIL
- не вдалося
- Провал
- далеко
- Рисунок
- знайти
- виявлення
- закінчення
- Перший
- увагу
- для
- знайдений
- від
- Повний
- принципово
- Отримувати
- прибуток
- Гамбіт
- гра
- Games
- Загальне
- породжувати
- отримати
- отримання
- даний
- глюк
- мета
- керує
- великий
- великий
- Group
- було
- Половина
- траплятися
- Жорсткий
- Мати
- he
- допомога
- допоміг
- допомагає
- тут
- прихований
- вище
- його
- хіт
- число переглядів
- Головна
- ГОДИННИК
- Як
- How To
- HTTPS
- людина
- Людей
- ідея
- ідеї
- ідентифікувати
- if
- Imperial
- Імперський коледж
- Імперський коледж Лондона
- наслідки
- удосконалювати
- поліпшений
- поліпшення
- поліпшується
- in
- В інших
- includes
- У тому числі
- самостійно
- осіб
- екземпляр
- замість
- Інтелект
- навмисно
- інтерес
- зацікавлений
- внутрішній
- в
- сутнісний
- введені
- залучений
- IT
- ЙОГО
- сам
- приєднання
- просто
- тримати
- дитина
- Дитина
- Знати
- великий
- останній
- вести
- Веде за собою
- УЧИТЬСЯ
- вчений
- вивчення
- найменш
- Led
- менше
- рівень
- як
- Ймовірно
- недоліки
- пов'язаний
- список
- Лондон
- Довго
- подивився
- шукати
- лазівка
- серія
- машина
- навчання за допомогою машини
- Машинки для перманенту
- made
- журнал
- зробити
- РОБОТИ
- багато
- майстер
- сірники
- Матерія
- Може..
- може бути
- me
- метод
- методика
- може бути
- мільйона
- нудьгувати
- помилки
- пом’якшення
- більше
- найбільш
- рухатися
- руху
- рухається
- переміщення
- множинний
- повинен
- природа
- Netflix
- мереж
- нервовий
- нейронні мережі
- ніколи
- Нові
- Нью-Йорк
- наступний
- дев'ять
- нормально
- зазначив,
- поняття
- горезвісний
- роман
- NYU
- of
- часто
- on
- ONE
- тільки
- отвори
- оптимальний
- оптимізований
- Опції
- or
- порядок
- оригінал
- Інше
- інші
- наші
- з
- поза
- над
- загальний
- власний
- частина
- приватність
- своєрідний
- Люди
- продуктивність
- виконанні
- може бути
- фізичний
- частин
- plato
- Інформація про дані Платона
- PlatoData
- Play
- грав
- гравець
- гравці
- ігри
- відіграє
- політика
- населення
- положення
- позиції
- можливостей
- це можливо
- потенційно
- влада
- потужний
- практично
- попередній
- Проблема
- вирішення проблем
- проблеми
- процес
- професійний
- програма
- програми
- проект
- перспективний
- Доведіть
- забезпечує
- Ставить
- головоломка
- Пазли
- якість
- Квантамагазин
- питання
- Читати
- читач
- легко
- реальний
- причина
- останній
- нещодавно
- визнавати
- визнаний
- відображено
- вважається
- Незалежно
- оновлено
- повторювані
- дослідження
- дослідник
- Дослідники
- рішення
- резонатор
- REST
- результати
- показувати
- Винагороджувати
- Нагороди
- право
- робототехніка
- Кімната
- Зазначений
- бачив
- say
- наука
- вчений
- побачити
- бачив
- бачить
- вибирає
- вибір
- самостійне водіння
- сенс
- посланий
- Серія
- служити
- сесіях
- комплект
- вона
- недоліки
- Показувати
- показав
- Шоу
- Аналогічно
- просто
- з
- один
- Сер
- ситуація
- ситуацій
- майстерність
- навички
- So
- так далеко
- рішення
- Рішення
- ВИРІШИТИ
- Вирішує
- Розв’язування
- деякі
- якось
- що в сім'ї щось
- пісенники
- скоро
- Звучати
- Іскритися
- конкретний
- спектр
- Spot
- плями
- розростання
- старт
- Починаючи
- починається
- управляти
- Крок
- заходи
- липкий
- Як і раніше
- стратегії
- Стратегія
- посилений
- сильні сторони
- більш сильний
- боротьба
- успішний
- такі
- Запропонує
- здивований
- система
- Systems
- снасті
- Приймати
- приймає
- Завдання
- завдання
- команда
- команди
- методи
- має тенденцію
- тест
- Тестування
- ніж
- Що
- Команда
- світ
- їх
- Їх
- потім
- теорія
- Там.
- Ці
- вони
- речі
- думати
- це
- ті
- хоча?
- думка
- тисячі
- через
- Зв'язаний
- час
- до
- разом
- Усього:
- жорсткий
- до
- традиційний
- поїзд
- навчений
- Навчання
- поїзда
- суд
- намагався
- намагатися
- намагається
- Опинився
- Двічі
- тип
- типовий
- типово
- Зрештою
- при
- розуміти
- розуміння
- університет
- навряд чи
- використання
- використовуваний
- використовує
- використання
- значення
- різноманітність
- різний
- автомобіль
- версія
- версії
- дуже
- Відео
- відеоігри
- Відео
- Віртуальний
- Стіна
- було
- Дивився
- шлях..
- способи
- we
- Ткати
- webp
- ДОБРЕ
- були
- Що
- коли
- коли б ні
- який
- в той час як
- білий
- ВООЗ
- волі
- виграти
- перемога
- з
- без
- слова
- Work
- працював
- робочий
- світ
- світі
- б
- письмовий
- пише
- ще
- йорк
- Ти
- YouTube
- зефірнет