Цифрова копія Землі в суперкомп'ютері PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Цифрова копія Землі в суперкомп'ютері

Meta Platforms Inc, материнська компанія Facebook, заявила, що створила штучний інтелект, який може перехитрити людей в онлайн-версії популярної стратегічної гри Diplomacy, де сім гравців змагаються за географічний контроль над Європою, пересуваючи фігури на карті.

У статті, опублікованій на Science.com, сказав Мета Цицерон був першим агентом зі штучним інтелектом, якому вдалося досягти продуктивності на рівні людини в Дипломатії, грі, що передбачає співпрацю та конкуренцію, у якій наголошується на переговорах природної мови та тактичній координації між сімома гравцями.

Загалом у 40 анонімних іграх онлайн-дипломатії, Мета сказав, що Цицерон отримав більш ніж удвічі більше середніх балів серед гравців-людей і потрапив до 10% найкращих учасників, які грали більше однієї гри.

Провідна технологічна група заявила, що це є частиною її стратегічної та довгострокової мети у сфері штучного інтелекту – створити агентів, які можуть планувати, координувати та вести переговори з людьми природною мовою.

Наскільки важливий Цицерон?

Мета каже, що «Цицерон» є досить важливим, оскільки ШІ покладається на неконкурентне середовище.

На відміну від минулого, коли багатоагентний штучний інтелект досягав великих успіхів у суто змагальних середовищах, таких як шахи, го та покер, де спілкування не має значення, Cicero використовує механізм стратегічного мислення та контрольований модуль діалогу.

З цих причин meta каже, що Diplomacy послужила складним еталоном для багатоагентного навчання.

"Cicero поєднує контрольований модуль діалогу з механізмом стратегічного мислення. У кожній точці гри Цицерон моделює, як інші гравці ймовірно будуть діяти на основі стану гри та їхніх розмов,Мета каже.

Потім штучний інтелект планує, як гравці можуть координувати дії для взаємної вигоди, і відображає ці плани в повідомленнях природною мовою.

Здорова недовіра

Cicero уникає сліпо довіряти пропозиціям інших гравців і відкидає плани, які мають низьку «прогнозовану цінність» і діють паралельно його власним інтересам.

Завдяки тому факту, що діалог у дипломатії відбувається приватно між парами гравців, Цицерон міркує та аналізує інформацію, до якої гравці мають доступ, коли роблять прогнози.

"Наприклад, якщо Цицерон координує атаку з союзником проти супротивника, прогноз Цицерона щодо політики супротивника повинен враховувати той факт, що супротивник не знає про заплановану координацію,"сказала Мета.

Meta каже, що анонімно включила Цицерона в 40 ігор дипломатії в онлайн-лізі гравців-людей з 19 серпня по 13 жовтня 2022 року.

Протягом 72 годин гри, які включали відправку 5,277 повідомлень, Цицерон увійшов до 10% найкращих учасників, які грали більше однієї гри.

Meta стверджує, що зібрала дані про 125,261 40,408 гру дипломатії, зіграну онлайн на webDiplomacy.net. З цих ігор загалом 12,901,662 XNUMX ігор містили діалоги із загалом XNUMX XNUMX XNUMX повідомленнями, якими обмінювалися гравці.

Підказка: «Робот перемагає всіх у грі в дипломатію» (створено ШІ).

Meta зазначає, що його новий ШІ далекий від досконалості

Цицерон надсилав повідомлення, які містили помилки, іноді суперечили його власним планам і допускали стратегічні помилки.

Але Meta наполягає на тому, що люди все ж вирішили співпрацювати з ШІ замість інших гравців, не усвідомлюючи, що це бот.

«Майже всі попередні прориви штучного інтелекту в іграх стосувалися налаштувань для двох гравців з нульовою сумою (2p0s), включаючи шахи, го, покер хедз-ап і StarCraft. В іграх зі скінченними 2p0s певні алгоритми навчання з підкріпленням (RL), які навчаються, граючи проти самих себе — процес, відомий як самогра, — зближаться до політики, яка є неперевершеною за очікуваннями в збалансованих іграх», — додав Мета в статті. «Іншими словами, будь-яку кінцеву гру 2p0s можна вирішити за допомогою самостійної гри з достатньою обчислювальною потужністю та моделлю».

Однак Meta сказав щодо ігор, які передбачають співпрацю, більше не гарантується, що самоігра без даних людини знайде політику, яка добре працює з людьми, навіть із нескінченною обчислювальною потужністю та моделлю, тому що агент самостійної гри може сходитися до політики, яка несумісні з людськими нормами та очікуваннями.

Цицерон передбачає ймовірні дії

Мета додав, що Цицерон передбачає ймовірні дії для кожного гравця на основі стану дошки та діалогу, використовуючи це як відправну точку для алгоритму планування з використанням моделей, навчених RL.

За словами компанії, ШІ використовує модуль стратегічного мислення для розумного вибору намірів і дій.

Потім цей модуль запускає алгоритм планування, який передбачає політику всіх інших гравців на основі стану гри та діалогу та враховує як силу різних дій, так і їхню ймовірність у іграх людей. На основі цієї інформації та змінних вживаються найкращі оптимальні дії для Цицерона.

Під керівництвом засновника та генерального директора Meta Марка Цукерберга компанія інвестувала значні кошти в ШІ та метавсесвіт, щоб скористатися перевагами швидкозростаючої індустрії, яка розглядається як майбутнє технологій.

/МетаНовини

Часова мітка:

Більше від МетаНовини