Чому всі люблять чат-бот ChatGPT

Перевидано Платоном

читають: 0

Ще одна гра, яку довго вважали дуже складною для штучного інтелекту (ШІ), випала на долю ботів: Stratego.

DeepNash, штучний інтелект від лондонської компанії Deepmind, тепер підходить для досвідчених людей у Stratego, настільній грі, яка потребує тривалого стратегічного мислення проти недосконалої інформації.

Цей останній подвиг стався після ще однієї великої перемоги штучного інтелекту в іграх, які раніше вважалися сильною стороною людей.

Лише минулого тижня Цицерон від Meta, штучний інтелект, який може перехитрити гравців-людей у грі дипломатії увійшов в історію завдяки перехитру суперників онлайн.

«Швидкість, з якою за останні роки штучний інтелект завойовує — або освоює на новому рівні — якісно інші ігрові функції, є надзвичайною, — каже Майкл Веллман з Мічиганського університету в Енн-Арборі, комп’ютерний науковець, який вивчає стратегічне мислення та ігри. теорія.

«Stratego та Diplomacy дуже відрізняються одна від одної, а також мають складні функції, які помітно відрізняються від ігор, у яких досягнуто аналогічних віх», — сказав Велман.

Недосконала інформація

Характеристики гри, як правило, набагато складніші, ніж шахи, го чи покер. Шахи, го та покер були освоєні ШІ.

У грі Stratego два гравці кладуть по 40 фігур кожен на дошку, але не повинні бачити, що таке фігури їх супротивника.

Мета гри полягає в тому, щоб пересувати фігури по черзі, щоб усунути фігури суперника та захопити прапор.

Ігрове дерево Stratego — графік усіх можливих шляхів розвитку гри — має 10535 станів проти 10360 у Go.

Що стосується недосконалої інформації на початку гри, Stratego має 1066 можливих приватних позицій, цифра, яка перевершує лише 106 таких початкових ситуацій у Техаському Холдемі для двох гравців.

«Надзвичайна складність ряду можливих результатів у Stratego означає, що алгоритми добре працюють в іграх із ідеальною інформацією, і навіть ті, які працюють у покері, не працюють», — каже Жульєн Перола, дослідник DeepMind із Парижа.

DeepNash був розроблений Perolat та його колегами.

Бот, натхненний Нешем

Назва бота — данина пам’яті відомому американському математику Джону Нешу, який розробив теорію рівноваги Неша, згідно з якою існує «стабільний набір стратегій», яким гравці можуть слідувати таким чином, щоб жоден гравець не виграв від зміни стратегії. самостійно. Таким чином, ігри, як правило, мають нульову, одну або багато рівноваг Неша.

DeepNash поєднує алгоритм навчання з підкріпленням і глибоку нейронну мережу, щоб знайти рівновагу Неша.

Загалом навчання з підкріпленням — це те, що інтелектуальний агент (комп’ютерна програма) взаємодіє з навколишнім середовищем і вивчає найкращу політику, щоб диктувати дії для кожного стану гри.

Щоб мати оптимальну політику, DeepNash зіграв проти себе загалом 5.5 мільярдів ігор.

По суті, якщо одна сторона отримує покарання, інша отримує винагороду, а змінні нейронної мережі, які представляють політику, відповідно налаштовуються.

ШІ перемагає людей у Stratego – знайомтеся з DeepMash

На якомусь етапі DeepNash зближується до приблизної рівноваги Неша. На відміну від інших ботів, DeepNash оптимізується без sпошук по дереву гри.

Протягом двох тижнів DeepNash грав проти гравців Stratego на платформі онлайн-ігор Gravon.

Змагаючись у 50 матчах, Ай посів третє місце серед усіх гравців Gravon Stratego з 2002 року.

«Наша робота показує, що така складна гра, як Stratego, яка містить недосконалу інформацію, не потребує пошукових методів для вирішення», — каже член команди Карл Туйлс, дослідник DeepMind у Парижі. «Це дійсно великий крок вперед у ШІ».

Інші дослідники також вражені цим подвигом.

Вражаючі результати

«Результати вражаючі», — погоджується Ноам Браун, дослідник Meta AI зі штаб-квартирою в Нью-Йорку та член команди, яка в 2019 році повідомила про покерний ШІ Pluribus4.

У Meta, материнській компанії Facebook, Браун і її колеги створили штучний інтелект, який може грати в дипломатію, гру, де сім гравців змагаються за географічний контроль над Європою, пересуваючи фігури на карті.

У Дипломатії мета — взяти під контроль центри постачання шляхом переміщення підрозділів (флотів і армій).

Мета каже, що «Цицерон» є досить важливим, оскільки ШІ покладається на неконкурентне середовище.

На відміну від минулого, коли багатоагентний штучний інтелект досягав великих успіхів у суто змагальних середовищах, таких як шахи, го та покер, де спілкування не має значення, Cicero використовує механізм стратегічного мислення та контрольований модуль діалогу.

«Коли ви виходите за рамки гри з нульовою сумою для двох гравців, ідея рівноваги Неша вже не є такою корисною для успішної гри з людьми», — каже Браун.

Браун і її команда навчали Цицерона, використовуючи дані 125,261 XNUMX гри онлайн-версії Diplomacy, в якій брали участь люди.

Використовуючи дані самоігри та модуль стратегічного міркування (SRM), Цицерон навчився передбачати судження за станом гри та накопиченими повідомленнями, ймовірні кроки та політику інших гравців.

ШІ перемагає людей у Stratego – знайомтеся з DeepMash

Meta стверджує, що зібрала дані про 125,261 40,408 гру дипломатії, зіграну онлайн на webDiplomacy.net. З цих ігор загалом 12,901,662 XNUMX ігор містили діалоги із загалом XNUMX XNUMX XNUMX повідомленнями, якими обмінювалися гравці.

Поведінка в реальному світі

Браун вважає, що такі ігрові боти, як Cicero, можуть взаємодіяти з людьми та пояснювати «неоптимальні або навіть ірраціональні людські дії, які можуть прокласти шлях для додатків у реальному світі».

«Якщо ви створюєте безпілотний автомобіль, ви не хочете припускати, що всі інші водії на дорозі абсолютно раціональні та поводитимуться оптимально», — каже він.

Цицерон, додає він, є великим кроком у цьому напрямку. «Ми все ще однією ногою в ігровому світі, але тепер ми також однією ногою в реальному світі».

Інші, такі як Велман, погоджуються, але наполягають, що ще потрібно зробити більше роботи. «Багато з цих методів справді актуальні не тільки для розважальних ігор» у реальних програмах, каже він. «Проте в якийсь момент провідні дослідницькі лабораторії штучного інтелекту повинні вийти за рамки рекреаційних умов і з’ясувати, як виміряти науковий прогрес у більш хлюпаючих «іграх» реального світу, які нас насправді цікавлять».

/МетаНовини.

Часова мітка: 12 Грудня, 202213 Грудня, 2022

Часова мітка: Липень 19, 2023

Чому всі люблять чат-бота ChatGPT

Перевидано Платоном

Недосконала інформація

Бот, натхненний Нешем

Вражаючі результати

Поведінка в реальному світі

Більше від МетаНовини

Epic додає функції захисту від дітей Metaverse

Центри обробки даних, які подвоюються як поглиначі води, охолоджуючи штучний інтелект

Відмивання NFT може бути не такою великою проблемою, як вважалося раніше

Opera представляє AI Sidebar Aria на основі ChatGPT

Леді Гага очолює музичний фестиваль у Fortnite Metaverse

Grayscale позитивно оцінює вплив ординалів на біткойн

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки