DeepMind می گوید هوش مصنوعی چند بازی جدید گامی به سوی هوش عمومی بیشتر است

DeepMind می گوید هوش مصنوعی چند بازی جدید گامی به سوی هوش عمومی بیشتر است

DeepMind می‌گوید هوش مصنوعی چند بازی جدید گامی به سوی هوش عمومی‌تر اطلاعات پلاتو بلاک چین است. جستجوی عمودی Ai.

هوش مصنوعی بر برخی از پیچیده‌ترین بازی‌های شناخته شده برای بشر تسلط دارد، اما مدل‌ها به طور کلی برای حل انواع خاصی از چالش‌ها طراحی شده‌اند. سازندگان می‌گویند، الگوریتم جدید DeepMind که می‌تواند با طیف وسیع‌تری از بازی‌ها مقابله کند، می‌تواند گامی به سوی هوش مصنوعی عمومی‌تر باشد.

استفاده از بازی‌ها به‌عنوان معیاری برای هوش مصنوعی، سابقه طولانی دارد. زمانی که الگوریتم آبی عمیق IBM در سال 1997، گری کاسپاروف، قهرمان شطرنج جهان را شکست داد، به عنوان نقطه عطفی برای این رشته مورد تحسین قرار گرفت. به طور مشابه، زمانی که AlphaGo از DeepMind شکست خورد یکی از برترین بازیکنان Go جهان، لی سدول، در سال 2016، منجر به موجی از هیجان در مورد پتانسیل هوش مصنوعی شد.

DeepMind بر اساس این موفقیت با AlphaZero ساخته شده است، مدلی که در طیف گسترده ای از بازی ها از جمله شطرنج و شوگی تسلط داشت. اما هر چقدر هم که تاثیرگذار بود، AlphaZero تنها با بازی‌های اطلاعاتی کاملی کار می‌کرد که تمام جزئیات بازی، به غیر از اهداف حریف، برای هر دو بازیکن قابل مشاهده است. این شامل بازی‌هایی مانند Go و شطرنج است که هر دو بازیکن می‌توانند همیشه تمام مهره‌های روی تخته را ببینند.

در مقابل، بازی های اطلاعاتی ناقص شامل پنهان شدن برخی جزئیات از بازیکن دیگر است. پوکر یک مثال کلاسیک است زیرا بازیکنان نمی توانند ببینند که حریفان چه دست هایی را در دست دارند. اکنون مدل‌هایی وجود دارند که می‌توانند حرفه‌ای‌ها را در این نوع بازی‌ها نیز شکست دهند، اما از رویکردی کاملاً متفاوت نسبت به الگوریتم‌هایی مانند AlphaZero استفاده می‌کنند.

اکنون، محققان DeepMind عناصر هر دو رویکرد را برای ایجاد مدلی ترکیب کرده اند که می تواند انسان ها را در شطرنج، Go و پوکر شکست دهد. این تیم ادعا می‌کند که این پیشرفت می‌تواند تلاش‌ها برای ایجاد الگوریتم‌های هوش مصنوعی عمومی‌تر را تسریع بخشد که می‌تواند حل طیف گسترده‌ای از وظایف را بیاموزد.

محققانی که هوش مصنوعی را برای انجام بازی‌های اطلاعاتی کامل می‌سازند، عموماً بر رویکردی به نام جستجوی درختی تکیه کرده‌اند. این روش‌های زیادی را بررسی می‌کند که بازی می‌تواند از وضعیت فعلی خود پیشرفت کند، با شاخه‌های مختلف که دنباله‌های بالقوه حرکات را ترسیم می‌کنند. AlphaGo جستجوی درختی را با تکنیک یادگیری ماشینی ترکیب کرد که در آن مدل با بازی مکرر خود و یادگیری از اشتباهات خود، مهارت های خود را اصلاح می کند.

وقتی صحبت از بازی‌های اطلاعاتی ناقص به میان می‌آید، محققان تمایل دارند به جای آن بر نظریه بازی‌ها تکیه کنند و از مدل‌های ریاضی برای ترسیم منطقی‌ترین راه‌حل‌ها برای مسائل استراتژیک استفاده کنند. تئوری بازی به طور گسترده در علم اقتصاد استفاده می شود تا بفهمد مردم چگونه در موقعیت های مختلف انتخاب می کنند، که بسیاری از آنها اطلاعات ناقصی دارند.

در سال 2016، یک هوش مصنوعی تماس گرفت دیپ استک افراد حرفه ای را در پوکر بدون محدودیت شکست داد، اما این مدل برای آن بازی خاص بسیار تخصصی بود. با این حال، بسیاری از تیم DeepStack اکنون در DeepMind کار می‌کنند و تکنیک‌هایی را که برای ساخت DeepStack استفاده می‌کردند با تکنیک‌های مورد استفاده در AlphaZero ترکیب کرده‌اند.

الگوریتم جدید که Student of Games نام دارد، از ترکیبی از جستجوی درختی، خودبازی و تئوری بازی برای مقابله با بازی‌های اطلاعاتی کامل و ناقص استفاده می‌کند. در یک کاغذ در علممحققان گزارش می‌دهند که این الگوریتم بهترین پوکر آزاد موجود در بازی هوش مصنوعی، Slumbot را شکست داده و همچنین می‌تواند Go و شطرنج را در سطح یک انسان حرفه‌ای بازی کند، اگرچه نمی‌تواند با الگوریتم‌های تخصصی مانند AlphaZero مطابقت داشته باشد.

اما در تحقیقات هوش مصنوعی به جای استاد بودن یک جایزه بزرگتر است. در حالی که یادگیری عمیق اغلب می تواند به عملکرد فوق بشری در وظایف خاص دست یابد، توسعه اشکال عمومی تر هوش مصنوعی که می تواند برای طیف گسترده ای از مشکلات اعمال شود، پیچیده تر است. محققان می گویند مدلی که می تواند با بازی های اطلاعاتی کامل و ناقص مقابله کند «گامی مهم به سوی الگوریتم های واقعاً عمومی برای محیط های دلخواه است».

مایکل رواتسوس از دانشگاه ادینبورگ، بریتانیا، مهم است که نتایج را بیش از حد تعمیم ندهید. گفته شده دانشمند جدید. هوش مصنوعی هنوز در محیط ساده و کنترل شده یک بازی کار می کرد، جایی که تعداد اقدامات ممکن محدود است و قوانین به وضوح تعریف شده است. این با واقعیت های آشفته دنیای واقعی فاصله زیادی دارد.

اما حتی اگر این یک مرحله کودک باشد، توانایی ترکیب رویکردهای پیشرو برای دو نوع بازی بسیار متفاوت در یک مدل واحد، یک دستاورد مهم است. و یکی که مطمئناً می تواند طرحی برای مدل های توانمندتر و کلی در آینده باشد.

تصویر های اعتباری: حسن پاشا / می Unsplash

تمبر زمان:

بیشتر از تکینگی هاب