هوش مصنوعی از عدم قطعیت متنفر است. با این حال، برای پیمایش در دنیای غیرقابل پیش بینی ما، باید یاد بگیرد که با اطلاعات ناقص انتخاب کند - همانطور که هر روز انجام می دهیم.
DeepMind فقط چاقو زد در حل این معما ترفند این بود که تئوری بازی را در یک استراتژی الگوریتمی بر اساس مغز انسان به نام یادگیری تقویتی عمیق در هم آمیخت. نتیجه، DeepNash، متخصصان انسانی را در یک بازی رومیزی بسیار استراتژیک به نام Stratego سرنگون کرد. Stratego که یک بازی بسیار دشوار برای هوش مصنوعی است، به چندین قوت از شوخ طبعی انسان نیاز دارد: تفکر طولانی مدت، بلوف زدن، و استراتژی، همه بدون دانستن مهره های حریف روی تخته.
DeepMind می گوید: «بر خلاف شطرنج و گو، استراتژی بازی اطلاعات ناقصی است: بازیکنان نمی توانند مستقیماً هویت مهره های حریف خود را مشاهده کنند. نوشت در یک پست وبلاگ با DeepNash، «سیستمهای هوش مصنوعی (AI) بازیسازی به مرز جدیدی پیشرفت کردهاند.
این همه سرگرمی و بازی نیست. سیستمهای هوش مصنوعی که به راحتی میتوانند بر تصادفی بودن دنیای ما مانور دهند و «رفتار» خود را بر این اساس تنظیم کنند، روزی میتوانند مشکلات دنیای واقعی را با اطلاعات محدود، مانند بهینهسازی جریان ترافیک برای کاهش زمان سفر و (امیدوارم) فرونشاندن خشم جادهها به عنوان خودران، حل کنند. خودروها حضور بیشتری پیدا می کنند.
"اگر شما یک ماشین خودران می سازید، نمی خواهید تصور کنید که همه رانندگان دیگر در جاده کاملا منطقی هستند و رفتار مطلوبی دارند." گفت: دکتر نوام براون در Meta AI که در این تحقیق شرکت نداشت.
پیروزی دیپنش پس از پیشرفت دیگری در هوش مصنوعی در این ماه، که در آن انجام شد، داغ شد الگوریتمی که یاد گرفت دیپلماسی بازی کند- بازی ای که برای پیروزی نیاز به مذاکره و همکاری دارد. همانطور که هوش مصنوعی استدلال انعطافپذیرتری به دست میآورد، تعمیمتر میشود و یاد میگیرد موقعیتهای اجتماعی را هدایت کند، ممکن است بینشهایی را در مورد فرآیندهای عصبی و شناخت مغز ما ایجاد کند.
Stratego را ملاقات کنید
از نظر پیچیدگی، Stratego در مقایسه با شطرنج، Go یا پوکر یک جانور کاملاً متفاوت است—همه بازیهایی که هوش مصنوعی قبلاً بر آنها مسلط بوده است.
این بازی در اصل تسخیر پرچم است. هر طرف دارای 40 قطعه است که می توانند در هر موقعیتی روی تخته قرار دهند. هر قطعه نام و رتبه عددی متفاوتی دارد، مانند "مارشال"، "ژنرال"، "پیشاهی" یا "جاسوس". قطعات با رتبه بالاتر می توانند قطعات پایین تر را جذب کنند. هدف از بین بردن مخالفان و تسخیر پرچم آنها است.
Stratego مخصوصاً برای هوش مصنوعی چالش برانگیز است زیرا بازیکنان نمی توانند مکان مهره های حریف خود را ببینند، چه در زمان راه اندازی اولیه و چه در طول گیم پلی. بر خلاف شطرنج یا Go که در آن هر مهره و حرکت در نظر گرفته شده است، Stratego یک بازی با اطلاعات محدود است. نویسندگان توضیح دادند که بازیکنان باید هر زمان که تصمیم میگیرند «تمام نتایج ممکن را متعادل کنند».
این سطح از عدم قطعیت تا حدی دلیلی است که Stratego برای سالها هوش مصنوعی را تحت تأثیر قرار داده است. حتی موفق ترین الگوریتم های بازی مانند AlphaGo و الفازرو، بر اطلاعات کامل تکیه کنید. Stratego، در مقابل، لمسی از تگزاس آنها را نگه دار، یک بازی پوکر DeepMind که قبلاً با یک الگوریتم فتح شده بود. اما این استراتژی برای Stratego به دلیل طولانی بودن بازی که بر خلاف پوکر معمولا صدها حرکت را در بر می گیرد، دچار تزلزل شد.
تعداد بازیهای بالقوه شگفتانگیز است. شطرنج یک موقعیت شروع دارد. Stratego بیش از 10 مورد دارد66 موقعیتهای شروع احتمالی - بسیار بیشتر از تمام ستارههای جهان. درخت بازی Stratego، مجموع تمام حرکات بالقوه در بازی، در مجموع به 10 عدد می رسد.535.
پیچیدگی بسیار زیاد تعداد نتایج ممکن در Stratego به این معنی است که الگوریتمهایی که در بازیهای با اطلاعات کامل عملکرد خوبی دارند و حتی آنهایی که برای پوکر کار میکنند، کار نمیکنند. گفت: نویسنده مطالعه دکتر جولین پرولات در DeepMind. او گفت، چالش این است که "آنچه ما را هیجان زده کرد".
یک ذهن زیبا
پیچیدگی Stratego به این معنی است که استراتژی معمول برای جستجوی حرکات گیم پلی مورد بحث نیست. این تکنیک با نام جستجوی درخت مونت کارلو، «رویکردی استوار برای بازیهای مبتنی بر هوش مصنوعی»، مسیرهای بالقوهای را ترسیم میکند - مانند شاخههای روی درخت - که میتواند منجر به پیروزی شود.
در عوض، لمس جادویی دیپنش از جان نش ریاضیدانی که در فیلم به تصویر کشیده شده بود، آمد. یک ذهن زیبا. نش که پیشگام در تئوری بازی بود، جایزه نوبل را برای کارش برای این بازی دریافت کرد تعادل نش. به زبان ساده، در هر بازی، بازیکنان میتوانند از مجموعهای از استراتژیها استفاده کنند که توسط همه دنبال میشود، به طوری که هیچ بازیکنی با تغییر استراتژی خود، چیزی به دست نمیآورد. در Statego، این یک بازی با مجموع صفر را به ارمغان میآورد: هر سودی که یک بازیکن ایجاد میکند منجر به باخت برای حریف خود میشود.
به دلیل پیچیدگی Stratego، DeepNash رویکردی بدون مدل برای الگوریتم خود در نظر گرفت. در اینجا، هوش مصنوعی سعی نمیکند دقیقاً رفتار حریف خود را مدلسازی کند. مانند یک نوزاد، یک لوح خالی برای یادگیری دارد. نویسندگان گفتند که این تنظیم به ویژه در مراحل اولیه گیمپلی مفید است، «زمانی که دیپنش اطلاعات کمی در مورد مهرههای حریف خود دارد» و نویسندگان میگویند که پیشبینیها را «دشوار، حتی غیرممکن» میسازد.
سپس تیم از یادگیری تقویتی عمیق برای تقویت DeepNash با هدف یافتن تعادل نش در بازی استفاده کرد. این یک مسابقه ساخته شده در بهشت است: یادگیری تقویتی به تصمیم گیری بهترین حرکت بعدی در هر مرحله از بازی کمک می کند، در حالی که DeepNash یک استراتژی یادگیری کلی را ارائه می دهد. برای ارزیابی سیستم، این تیم همچنین یک "آموزگار" را با استفاده از دانش بازی برای فیلتر کردن اشتباهات آشکاری که احتمالاً در دنیای واقعی معنی نمیدهند، مهندسی کردند.
تمرین کامل می کند
به عنوان اولین گام یادگیری، DeepNash در 5.5 میلیارد بازی با خود بازی کرد، یک رویکرد محبوب در آموزش هوش مصنوعی به نام خود بازی.
هنگامی که یک طرف برنده می شود، هوش مصنوعی جایزه می گیرد و پارامترهای شبکه عصبی مصنوعی فعلی آن تقویت می شود. طرف مقابل - همان هوش مصنوعی - جریمه ای دریافت می کند تا قدرت شبکه عصبی خود را کاهش دهد. مثل این است که در مقابل آینه با خودتان سخنرانی کنید. با گذشت زمان، اشتباهات را متوجه می شوید و عملکرد بهتری دارید. در مورد DeepNash، برای بهترین گیم پلی به سمت تعادل Nash پیش می رود.
عملکرد واقعی چطور؟
این تیم این الگوریتم را در برابر دیگر رباتهای نخبه Stratego آزمایش کرد، که برخی از آنها برنده مسابقات قهرمانی جهانی استراتژی کامپیوتر شدند. دیپنش مخالفان خود را با نرخ برد تقریباً 97 درصد شکست داد. هنگامی که DeepNash علیه Gravon - یک پلتفرم آنلاین برای بازیکنان انسانی - آزاد شد، مخالفان انسانی خود را شکست داد. پس از بیش از دو هفته بازی با بازیکنان گراوون در آوریل امسال، دیپ نش در تمامی مسابقات رنکینگ از سال 2002 به مقام سوم رسید.
این نشان می دهد که بوت استرپ داده های بازی انسان به هوش مصنوعی برای DeepNash برای رسیدن به عملکرد در سطح انسان و شکست آن مورد نیاز نیست.
هوش مصنوعی همچنین با تنظیمات اولیه و در طول گیم پلی رفتار جالبی از خود نشان داد. به عنوان مثال، دیپنش بهجای اینکه روی یک موقعیت شروع «بهینهشده» خاص قرار بگیرد، دائماً مهرهها را جابهجا میکرد تا حریف خود را از تشخیص الگوها در طول زمان جلوگیری کند. در طول بازی، هوش مصنوعی بین حرکات به ظاهر بیمعنایی - مانند قربانی کردن مهرههای با رتبه بالا - حرکت میکرد تا قطعات حتی بالاتر حریف را در هنگام ضدحمله پیدا کند.
DeepNash همچنین می تواند بلوف بزند. در یک بازی، هوش مصنوعی یک قطعه با رتبه پایین را به گونهای حرکت داد که گویی قطعهای با رتبه بالا است و حریف انسانی را وسوسه میکرد تا با سرهنگ بلندپایه خود قطعه را تعقیب کند. هوش مصنوعی پیاده را قربانی کرد، اما به نوبه خود، قطعه جاسوسی ارزشمند حریف را به کمین کشاند.
اگرچه DeepNash برای Stratego توسعه یافته است، اما قابل تعمیم به دنیای واقعی است. روش اصلی به طور بالقوه می تواند به هوش مصنوعی دستور دهد تا با استفاده از اطلاعات محدود - از کنترل جمعیت و ترافیک گرفته تا تجزیه و تحلیل آشفتگی بازار، با آینده غیرقابل پیش بینی ما بهتر مقابله کند.
این تیم گفت: "در ایجاد یک سیستم هوش مصنوعی قابل تعمیم که در مواجهه با عدم قطعیت قوی باشد، ما امیدواریم که قابلیت های حل مسئله هوش مصنوعی را به دنیای ذاتا غیرقابل پیش بینی خود بیاوریم."
تصویر های اعتباری: درک بروف / فلیکر