Google DeepMind тренирует «искусственный мозговой штурм» в шахматном ИИ | Журнал Кванта

Google DeepMind тренирует «искусственный мозговой штурм» в шахматном ИИ | Журнал Кванта

Google DeepMind тренирует «искусственный мозговой штурм» в шахматном ИИ | Журнал Quanta PlatoРазведка данных на основе блокчейна. Вертикальный поиск. Ай.

Введение

Когда Covid-19 отправил людей домой в начале 2020 года, ученый-компьютерщик Том Захави заново открыл шахматы. В детстве он играл и недавно прочитал книгу Гарри Каспарова. Глубокое мышление, мемуары о матчах гроссмейстера 1997 года против шахматного компьютера IBM Deep Blue. Он смотрел шахматные видео на YouTube и Королевский гамбит на Netflix.

Несмотря на возобновившийся интерес, Захави не искал способов улучшить свою игру. «Я не великий игрок», сказал он. «Я лучше разгадываю шахматные головоломки» — расположение фигур, часто надуманное и вряд ли встречающееся в реальной игре, которое заставляет игрока находить творческие способы получения преимущества.

Головоломки могут помочь игрокам отточить свои навыки, но в последнее время они помогли выявить скрытые ограничения шахматных программ. Одна из самых известных головоломок, придуманная математиком сэром Роджером Пенроузом в 2017 году, ставит на доску более сильные черные фигуры (такие как ферзь и ладьи), но в неудобных позициях. Опытный игрок-человек, играющий белыми, мог бы легко довести игру до ничьей, но мощные компьютерные шахматные программы сказали бы, что у черных явное преимущество. Эта разница, по словам Захави, предполагает, что, хотя компьютеры и могут победить лучших в мире игроков-людей, они еще не способны распознавать и решать все виды сложных проблем. С тех пор Пенроуз и другие разработали обширные коллекции головоломок, которые компьютеры пытаются решить.

Шахматы уже давно стали пробным камнем для проверки новых идей в искусственный интеллект, а головоломки Пенроуза пробудили интерес Захави. «Я пытался понять, почему эти позиции так сложны для компьютеров, хотя по крайней мере некоторые из них мы можем решить как люди», — сказал он. «Я был полностью очарован». Вскоре это переросло в профессиональный интерес: будучи научным сотрудником Google DeepMind, Захави исследует творческие подходы к решению проблем. Цель состоит в том, чтобы разработать системы искусственного интеллекта со спектром возможных вариантов поведения, выходящих за рамки выполнения одной задачи.

Традиционная шахматная программа ИИ, обученная побеждать, возможно, не имеет смысла в головоломке Пенроуза, но Захави подозревал, что программа, состоящая из множества различных систем, работающих вместе как группа, может добиться прогресса. Поэтому он и его коллеги разработали способ объединения нескольких (до 10) систем ИИ для принятия решений, каждая из которых оптимизирована и обучена для различных стратегий, начиная с AlphaZero, мощной шахматной программы DeepMind. Новая система, они сообщили в августе, играла лучше, чем одна AlphaZero, и показала больше навыков — и больше креативности — в решении головоломок Пенроуза. Эти способности в некотором смысле возникли благодаря самостоятельному сотрудничеству: если один подход терпел неудачу, программа просто переключалась на другой.

Такой подход в принципе имеет смысл, сказал Эллисон Лимхетчарат, ученый-компьютерщик из DoorDash, который работал с мультиагентными подходами к решению проблем в робототехнике. «При наличии большого количества агентов более высокая вероятность того, что головоломки относятся к той области, в которой был обучен хотя бы один из агентов».

Работа предполагает, что команды различных систем искусственного интеллекта могут эффективно решать сложные проблемы, выходящие далеко за рамки игровой доски. «Это отличный пример того, что поиск более чем одного способа решения проблемы — например, победы в шахматной игре — дает много преимуществ», — сказал он. Антуан Калли, исследователь искусственного интеллекта из Имперского колледжа Лондона, не участвовавший в проекте DeepMind. Он сравнил это с искусственной версией человеческого мозгового штурма. «Этот мыслительный процесс приводит к творческим и эффективным решениям, которые можно было бы упустить, не выполнив это упражнение».

В погоне за неудачами

До прихода в DeepMind Захави интересовался глубоким обучением с подкреплением — областью искусственного интеллекта, в которой система использует нейронные сети для обучения некоторым задачам методом проб и ошибок. Это основа самых мощных шахматных программ (и используется в других приложениях искусственного интеллекта, таких как беспилотные автомобили). Система начинается со своего окружения. Например, в шахматах среда включает в себя игровое поле и возможные ходы. Если задача состоит в том, чтобы управлять автомобилем, окружающая среда включает в себя все, что находится вокруг автомобиля. Затем система принимает решения, предпринимает действия и оценивает, насколько близко она подошла к своей цели. По мере приближения к цели она накапливает вознаграждения, а по мере накопления вознаграждений система повышает свою производительность. «Глубокая» часть этого подхода описывает нейронные сети, используемые для анализа и оценки поведения.

Обучение с подкреплением — это то, как AlphaZero научилась становиться мастером по шахматам. ДипМайнд переправу что за первые девять часов обучения программы в декабре 2017 года она сыграла против себя 44 миллиона игр. Сначала его ходы определялись случайным образом, но со временем он научился выбирать ходы, которые с большей вероятностью приведут к мату. Всего за несколько часов тренировок AlphaZero развил способность побеждать любого шахматиста-человека.

Но каким бы успешным ни было обучение с подкреплением, оно не всегда приводит к стратегиям, отражающим общее понимание игры. За последние полвека Захави и другие заметили рост числа странных сбоев, которые могли произойти в системах, обученных методом проб и ошибок. Например, система, которая играет в видеоигры, может найти лазейку и выяснить, как обмануть или пропустить уровень, или она может так же легко застрять в повторяющемся цикле. Головоломки в стиле Пенроуза также предполагали своего рода слепое пятно или сбой в AlphaZero — он не мог понять, как подойти к проблеме, с которой никогда раньше не сталкивался.

Но, возможно, не все глюки — это просто ошибки. Захави подозревал, что «слепые зоны» AlphaZero на самом деле могут быть чем-то другим — решениями и поведением, связанными с внутренними вознаграждениями системы. По его словам, системы глубокого обучения с подкреплением не знают, как потерпеть неудачу — или даже как распознать неудачу. Способность потерпеть неудачу уже давно связана с творческим подходом к решению проблем. «Творчество имеет человеческое качество», — писал Каспаров в Глубокое мышление. «Он принимает понятие неудачи».

Системы искусственного интеллекта обычно этого не делают. И если система не осознает, что ей не удалось выполнить свою задачу, она может не попробовать что-то еще. Вместо этого он просто будет продолжать пытаться сделать то, что уже сделал. Вероятно, именно это привело к тупикам в видеоиграх или к застреванию в некоторых задачах Пенроуза, сказал Захави. По его словам, система гонялась за «странными видами внутреннего вознаграждения», которые она развила во время обучения. То, что со стороны выглядело как ошибка, скорее всего, было следствием разработки конкретной, но в конечном итоге неудачной стратегии.

Система рассматривала эти странные награды как шаги к высшей цели, которой на самом деле она не могла достичь, и не знала, стоит ли пробовать что-то новое. «Я пытался разобраться в них», — сказал Захави.

Лучшая игра

Частично причина, по которой эти сбои могут оказаться настолько важными и полезными, кроется в том, что исследователи считают проблемой обобщения. Хотя системы обучения с подкреплением могут разработать эффективную стратегию, позволяющую связать данную ситуацию с конкретным действием — которую исследователи называют «политикой», — они не могут применять ее к различным проблемам. «Что обычно происходит с обучением с подкреплением, почти независимо от метода, так это то, что вы получаете политику, которая решает конкретный случай проблемы, над которой вы обучались, но она не обобщает», — сказал Юлиан Тогелиус, ученый-компьютерщик из Нью-Йоркского университета и директор по исследованиям modl.ai.

Захави считал, что загадки Пенроуза требуют именно такого рода обобщений. Возможно, AlphaZero не могла решить большинство головоломок, потому что была сосредоточена на победе во всей игре, от начала до конца. Но этот подход привел к появлению слепых пятен, обнаруженных необычным расположением частей в головоломках Пенроуза. Возможно, рассуждал он, программа могла бы научиться решать головоломку, если бы у нее было достаточно творческого пространства для мозгового штурма и доступа к различным методам обучения.

Поэтому он и его коллеги сначала собрали набор из 53 головоломок Пенроуза и 15 дополнительных головоломок. Сама по себе AlphaZero решила менее 4% головоломок Пенроуза и менее 12% остальных. Захави не был удивлен: многие из этих головоломок были созданы шахматными мастерами, чтобы намеренно запутать компьютеры.

В качестве теста исследователи попытались научить AlphaZero играть против самого себя, используя в качестве стартовой позиции головоломку Пенроуза вместо полной доски, как в типичных играх. Его производительность значительно улучшилась: он решил 96% головоломок Пенроуза и 76% задач. В общем, когда AlphaZero тренировалась над конкретной головоломкой, она могла решить эту головоломку так же, как она могла победить, тренируясь в полной игре. Возможно, подумал Захави, если бы шахматная программа могла каким-то образом получить доступ ко всем этим различным версиям AlphaZero, обученным на этих разных позициях, тогда это разнообразие могло бы стимулировать способность продуктивно подходить к новым проблемам. Другими словами, возможно, это могло бы обобщить решение не только головоломок Пенроуза, но и любой более широкой шахматной задачи.

Его группа решила это выяснить. Они создали новую, разнообразную версию AlphaZero, которая включает в себя несколько систем искусственного интеллекта, обучающихся независимо и в различных ситуациях. По словам Захави, алгоритм, управляющий всей системой, действует как своего рода виртуальный сваха: он предназначен для определения того, у какого агента больше шансов на успех, когда придет время действовать. Он и его коллеги также запрограммировали «бонус за разнообразие» — вознаграждение для системы всякий раз, когда она выбирает стратегии из большого количества вариантов.

Когда новая система была запущена в свои собственные игры, команда заметила большое разнообразие. Диверсифицированный ИИ-игрок экспериментировал с новыми, эффективными дебютами и новыми, но обоснованными решениями относительно конкретных стратегий, например, когда и где рокировать. В большинстве матчей он победил оригинальный AlphaZero. Команда также обнаружила, что разнообразная версия может решить вдвое больше сложных головоломок, чем оригинал, и может решить более половины общего каталога головоломок Пенроуза.

«Идея состоит в том, что вместо поиска одного решения или одной единственной политики, которая могла бы победить любого игрока, здесь [используется] идея творческого разнообразия», — сказал Калли.

По словам Захави, благодаря доступу к большему количеству и разнообразным играм у диверсифицированной AlphaZero было больше возможностей для решения неприятных ситуаций, когда они возникали. «Если вы можете контролировать типы игр, которые он видит, вы, по сути, контролируете, как он будет обобщать», — сказал он. Эти странные внутренние награды (и связанные с ними действия) могут стать сильными сторонами разнообразного поведения. Тогда система могла бы научиться оценивать и ценить разные подходы и видеть, когда они были наиболее успешными. «Мы обнаружили, что эта группа агентов действительно может прийти к соглашению по этим позициям».

И, что особенно важно, последствия выходят за рамки шахмат.

Реальное творчество

Калли сказал, что диверсифицированный подход может помочь любой системе искусственного интеллекта, а не только той, которая основана на обучении с подкреплением. Он уже давно использует разнообразие для тренировки физических систем, в том числе шестиногий робот ему было разрешено исследовать различные виды движения, прежде чем он намеренно «повредил» его, позволив ему продолжать двигаться, используя некоторые из методов, которые он разработал ранее. «Мы просто пытались найти решения, которые отличались бы от всех предыдущих решений, которые мы нашли до сих пор». В последнее время он также сотрудничает с исследователями, чтобы использовать разнообразие для выявления перспективных новых кандидатов на лекарства и разработки эффективных стратегий торговли акциями.

«Цель состоит в том, чтобы создать большую коллекцию потенциально тысяч различных решений, где каждое решение сильно отличается от другого», — сказал Калли. Таким образом, как научился делать разносторонний шахматист, для каждого типа задач вся система могла выбрать наилучшее возможное решение. По его словам, система искусственного интеллекта Захави ясно показывает, как «поиск разнообразных стратегий помогает мыслить нестандартно и находить решения».

Захави подозревает, что для того, чтобы системы ИИ могли мыслить творчески, исследователям просто нужно заставить их рассматривать больше вариантов. Эта гипотеза предполагает любопытную связь между людьми и машинами: возможно, интеллект — это всего лишь вопрос вычислительной мощности. Для системы ИИ, возможно, творчество сводится к способности рассматривать и выбирать из достаточно большого набора вариантов. По мере того, как система получает вознаграждение за выбор множества оптимальных стратегий, этот вид творческого решения проблем становится все более и более сильным. В конечном счете, теоретически, он может имитировать любую стратегию решения проблем, признанную у людей творческой. Творчество превратилось бы в вычислительную проблему.

Лимхетчарат отметил, что диверсифицированная система искусственного интеллекта вряд ли полностью решит более широкую проблему обобщения в машинном обучении. Но это шаг в правильном направлении. «Это смягчает один из недостатков», — сказала она.

В более практическом плане результаты Захави перекликаются с недавними усилиями, которые показывают, как сотрудничество может привести к повышению эффективности выполнения сложных задач среди людей. Например, большинство хитов в списке Billboard 100 были написаны коллективами авторов песен, а не отдельными людьми. И еще есть куда совершенствоваться. Диверсифицированный подход в настоящее время требует больших вычислительных затрат, поскольку он должен учитывать гораздо больше возможностей, чем типичная система. Захави также не уверен, что даже диверсифицированная AlphaZero охватывает весь спектр возможностей.

«Я все еще думаю, что есть возможность найти разные решения», — сказал он. «Мне не ясно, что, учитывая все данные в мире, на каждый вопрос есть [только] один ответ».

Quanta проводит серию опросов, чтобы лучше обслуживать нашу аудиторию. Возьми наш опрос читателей по информатике и вы будете участвовать в бесплатном выигрыше Quanta товар.

Отметка времени:

Больше от Квантовый журнал