آخرین هوش مصنوعی DeepMind در هوش داده پلاتو بلاک چین بازی Stratego، بازیکنان انسانی را شکست می دهد. جستجوی عمودی Ai.

آخرین هوش مصنوعی DeepMind، بازیکنان انسانی را در بازی Stratego شکست می دهد

هوش مصنوعی از عدم قطعیت متنفر است. با این حال، برای پیمایش در دنیای غیرقابل پیش بینی ما، باید یاد بگیرد که با اطلاعات ناقص انتخاب کند - همانطور که هر روز انجام می دهیم.

DeepMind فقط چاقو زد در حل این معما ترفند این بود که تئوری بازی را در یک استراتژی الگوریتمی بر اساس مغز انسان به نام یادگیری تقویتی عمیق در هم آمیخت. نتیجه، DeepNash، متخصصان انسانی را در یک بازی رومیزی بسیار استراتژیک به نام Stratego سرنگون کرد. Stratego که یک بازی بسیار دشوار برای هوش مصنوعی است، به چندین قوت از شوخ طبعی انسان نیاز دارد: تفکر طولانی مدت، بلوف زدن، و استراتژی، همه بدون دانستن مهره های حریف روی تخته.

DeepMind می گوید: «بر خلاف شطرنج و گو، استراتژی بازی اطلاعات ناقصی است: بازیکنان نمی توانند مستقیماً هویت مهره های حریف خود را مشاهده کنند. نوشت در یک پست وبلاگ با DeepNash، «سیستم‌های هوش مصنوعی (AI) بازی‌سازی به مرز جدیدی پیشرفت کرده‌اند.

این همه سرگرمی و بازی نیست. سیستم‌های هوش مصنوعی که به راحتی می‌توانند بر تصادفی بودن دنیای ما مانور دهند و «رفتار» خود را بر این اساس تنظیم کنند، روزی می‌توانند مشکلات دنیای واقعی را با اطلاعات محدود، مانند بهینه‌سازی جریان ترافیک برای کاهش زمان سفر و (امیدوارم) فرونشاندن خشم جاده‌ها به عنوان خودران، حل کنند. خودروها حضور بیشتری پیدا می کنند.

"اگر شما یک ماشین خودران می سازید، نمی خواهید تصور کنید که همه رانندگان دیگر در جاده کاملا منطقی هستند و رفتار مطلوبی دارند." گفت: دکتر نوام براون در Meta AI که در این تحقیق شرکت نداشت.

پیروزی دیپ‌نش پس از پیشرفت دیگری در هوش مصنوعی در این ماه، که در آن انجام شد، داغ شد الگوریتمی که یاد گرفت دیپلماسی بازی کند- بازی ای که برای پیروزی نیاز به مذاکره و همکاری دارد. همانطور که هوش مصنوعی استدلال انعطاف‌پذیرتری به دست می‌آورد، تعمیم‌تر می‌شود و یاد می‌گیرد موقعیت‌های اجتماعی را هدایت کند، ممکن است بینش‌هایی را در مورد فرآیندهای عصبی و شناخت مغز ما ایجاد کند.

Stratego را ملاقات کنید

از نظر پیچیدگی، Stratego در مقایسه با شطرنج، Go یا پوکر یک جانور کاملاً متفاوت است—همه بازی‌هایی که هوش مصنوعی قبلاً بر آنها مسلط بوده است.

این بازی در اصل تسخیر پرچم است. هر طرف دارای 40 قطعه است که می توانند در هر موقعیتی روی تخته قرار دهند. هر قطعه نام و رتبه عددی متفاوتی دارد، مانند "مارشال"، "ژنرال"، "پیشاهی" یا "جاسوس". قطعات با رتبه بالاتر می توانند قطعات پایین تر را جذب کنند. هدف از بین بردن مخالفان و تسخیر پرچم آنها است.

Stratego مخصوصاً برای هوش مصنوعی چالش برانگیز است زیرا بازیکنان نمی توانند مکان مهره های حریف خود را ببینند، چه در زمان راه اندازی اولیه و چه در طول گیم پلی. بر خلاف شطرنج یا Go که در آن هر مهره و حرکت در نظر گرفته شده است، Stratego یک بازی با اطلاعات محدود است. نویسندگان توضیح دادند که بازیکنان باید هر زمان که تصمیم می‌گیرند «تمام نتایج ممکن را متعادل کنند».

این سطح از عدم قطعیت تا حدی دلیلی است که Stratego برای سال‌ها هوش مصنوعی را تحت تأثیر قرار داده است. حتی موفق ترین الگوریتم های بازی مانند AlphaGo و الفازرو، بر اطلاعات کامل تکیه کنید. Stratego، در مقابل، لمسی از تگزاس آنها را نگه دار، یک بازی پوکر DeepMind که قبلاً با یک الگوریتم فتح شده بود. اما این استراتژی برای Stratego به دلیل طولانی بودن بازی که بر خلاف پوکر معمولا صدها حرکت را در بر می گیرد، دچار تزلزل شد.

تعداد بازی‌های بالقوه شگفت‌انگیز است. شطرنج یک موقعیت شروع دارد. Stratego بیش از 10 مورد دارد66 موقعیت‌های شروع احتمالی - بسیار بیشتر از تمام ستاره‌های جهان. درخت بازی Stratego، مجموع تمام حرکات بالقوه در بازی، در مجموع به 10 عدد می رسد.535.

پیچیدگی بسیار زیاد تعداد نتایج ممکن در Stratego به این معنی است که الگوریتم‌هایی که در بازی‌های با اطلاعات کامل عملکرد خوبی دارند و حتی آن‌هایی که برای پوکر کار می‌کنند، کار نمی‌کنند. گفت: نویسنده مطالعه دکتر جولین پرولات در DeepMind. او گفت، چالش این است که "آنچه ما را هیجان زده کرد".

یک ذهن زیبا

پیچیدگی Stratego به این معنی است که استراتژی معمول برای جستجوی حرکات گیم پلی مورد بحث نیست. این تکنیک با نام جستجوی درخت مونت کارلو، «رویکردی استوار برای بازی‌های مبتنی بر هوش مصنوعی»، مسیرهای بالقوه‌ای را ترسیم می‌کند - مانند شاخه‌های روی درخت - که می‌تواند منجر به پیروزی شود.

در عوض، لمس جادویی دیپ‌نش از جان نش ریاضی‌دانی که در فیلم به تصویر کشیده شده بود، آمد. یک ذهن زیبا. نش که پیشگام در تئوری بازی بود، جایزه نوبل را برای کارش برای این بازی دریافت کرد تعادل نش. به زبان ساده، در هر بازی، بازیکنان می‌توانند از مجموعه‌ای از استراتژی‌ها استفاده کنند که توسط همه دنبال می‌شود، به طوری که هیچ بازیکنی با تغییر استراتژی خود، چیزی به دست نمی‌آورد. در Statego، این یک بازی با مجموع صفر را به ارمغان می‌آورد: هر سودی که یک بازیکن ایجاد می‌کند منجر به باخت برای حریف خود می‌شود.

به دلیل پیچیدگی Stratego، DeepNash رویکردی بدون مدل برای الگوریتم خود در نظر گرفت. در اینجا، هوش مصنوعی سعی نمی‌کند دقیقاً رفتار حریف خود را مدل‌سازی کند. مانند یک نوزاد، یک لوح خالی برای یادگیری دارد. نویسندگان گفتند که این تنظیم به ویژه در مراحل اولیه گیم‌پلی مفید است، «زمانی که دیپ‌نش اطلاعات کمی در مورد مهره‌های حریف خود دارد» و نویسندگان می‌گویند که پیش‌بینی‌ها را «دشوار، حتی غیرممکن» می‌سازد.

سپس تیم از یادگیری تقویتی عمیق برای تقویت DeepNash با هدف یافتن تعادل نش در بازی استفاده کرد. این یک مسابقه ساخته شده در بهشت ​​است: یادگیری تقویتی به تصمیم گیری بهترین حرکت بعدی در هر مرحله از بازی کمک می کند، در حالی که DeepNash یک استراتژی یادگیری کلی را ارائه می دهد. برای ارزیابی سیستم، این تیم همچنین یک "آموزگار" را با استفاده از دانش بازی برای فیلتر کردن اشتباهات آشکاری که احتمالاً در دنیای واقعی معنی نمی‌دهند، مهندسی کردند.

تمرین کامل می کند

به عنوان اولین گام یادگیری، DeepNash در 5.5 میلیارد بازی با خود بازی کرد، یک رویکرد محبوب در آموزش هوش مصنوعی به نام خود بازی.

هنگامی که یک طرف برنده می شود، هوش مصنوعی جایزه می گیرد و پارامترهای شبکه عصبی مصنوعی فعلی آن تقویت می شود. طرف مقابل - همان هوش مصنوعی - جریمه ای دریافت می کند تا قدرت شبکه عصبی خود را کاهش دهد. مثل این است که در مقابل آینه با خودتان سخنرانی کنید. با گذشت زمان، اشتباهات را متوجه می شوید و عملکرد بهتری دارید. در مورد DeepNash، برای بهترین گیم پلی به سمت تعادل Nash پیش می رود.

عملکرد واقعی چطور؟

این تیم این الگوریتم را در برابر دیگر ربات‌های نخبه Stratego آزمایش کرد، که برخی از آنها برنده مسابقات قهرمانی جهانی استراتژی کامپیوتر شدند. دیپ‌نش مخالفان خود را با نرخ برد تقریباً 97 درصد شکست داد. هنگامی که DeepNash علیه Gravon - یک پلتفرم آنلاین برای بازیکنان انسانی - آزاد شد، مخالفان انسانی خود را شکست داد. پس از بیش از دو هفته بازی با بازیکنان گراوون در آوریل امسال، دیپ نش در تمامی مسابقات رنکینگ از سال 2002 به مقام سوم رسید.

این نشان می دهد که بوت استرپ داده های بازی انسان به هوش مصنوعی برای DeepNash برای رسیدن به عملکرد در سطح انسان و شکست آن مورد نیاز نیست.

هوش مصنوعی همچنین با تنظیمات اولیه و در طول گیم پلی رفتار جالبی از خود نشان داد. به عنوان مثال، دیپ‌نش به‌جای اینکه روی یک موقعیت شروع «بهینه‌شده» خاص قرار بگیرد، دائماً مهره‌ها را جابه‌جا می‌کرد تا حریف خود را از تشخیص الگوها در طول زمان جلوگیری کند. در طول بازی، هوش مصنوعی بین حرکات به ظاهر بی‌معنایی - مانند قربانی کردن مهره‌های با رتبه بالا - حرکت می‌کرد تا قطعات حتی بالاتر حریف را در هنگام ضدحمله پیدا کند.

DeepNash همچنین می تواند بلوف بزند. در یک بازی، هوش مصنوعی یک قطعه با رتبه پایین را به گونه‌ای حرکت داد که گویی قطعه‌ای با رتبه بالا است و حریف انسانی را وسوسه می‌کرد تا با سرهنگ بلندپایه خود قطعه را تعقیب کند. هوش مصنوعی پیاده را قربانی کرد، اما به نوبه خود، قطعه جاسوسی ارزشمند حریف را به کمین کشاند.

اگرچه DeepNash برای Stratego توسعه یافته است، اما قابل تعمیم به دنیای واقعی است. روش اصلی به طور بالقوه می تواند به هوش مصنوعی دستور دهد تا با استفاده از اطلاعات محدود - از کنترل جمعیت و ترافیک گرفته تا تجزیه و تحلیل آشفتگی بازار، با آینده غیرقابل پیش بینی ما بهتر مقابله کند.

این تیم گفت: "در ایجاد یک سیستم هوش مصنوعی قابل تعمیم که در مواجهه با عدم قطعیت قوی باشد، ما امیدواریم که قابلیت های حل مسئله هوش مصنوعی را به دنیای ذاتا غیرقابل پیش بینی خود بیاوریم."

تصویر های اعتباری: درک بروف / فلیکر

تمبر زمان:

بیشتر از تکینگی هاب