GPT-4 OpenAI Doom را اجرا نمی کند، اما بازی را ضعیف اجرا می کند

GPT-4 OpenAI Doom را اجرا نمی کند، اما بازی را ضعیف اجرا می کند

You may find yourself living in a shotgun shack. And you may find yourself working with GPT-4. And you may ask yourself, “Will GPT-4 run Doom?” And you may ask yourself, “Am I right? Am I wrong?”

آدریان دی وینتر، دانشمند کاربردی اصلی در مایکروسافت و محققی در دانشگاه یورک در انگلستان، این سوالات را در یک مقاله تحقیقاتی اخیر مطرح کرد:Will GPT-4 Run Doom?"

Alas, GPT-4, a large language model from Microsoft-backed OpenAI, lacks the capacity to execute Doom’s source code directly.

اما نوع چندوجهی آن، GPT-4V، که می تواند تصاویر را به عنوان ورودی و همچنین متن بپذیرد، همان بازی فرعی جذاب را نشان می دهد. سرنوشت به عنوان مدل‌های متن‌محور که استارت‌آپ‌های بی‌شماری را راه‌اندازی کرده‌اند.

تحت تنظیمات کاغذ، GPT-4 (و GPT-4 با دید، یا GPT-4V) واقعاً نمی توانند Doom را به تنهایی اجرا کنند، زیرا با اندازه ورودی آن محدود شده است (و بدیهی است که احتمالاً فقط موارد را درست می کند. شما واقعاً نمی خواهید کامپایلر شما هر پنج دقیقه توهم داشته باشد.» توجه داشته باشید در مورد مقاله اش با این حال، قطعاً می‌تواند به عنوان یک پروکسی برای موتور عمل کند، نه بر خلاف دیگر «آیا Doom را اجرا خواهد کرد؟» پیاده سازی ها مانند E. Coli or دفترچه یادداشت"

That is to say, GPT-4V won’t run Doom مثل تراکتور جان دیر but it will play Doom without specific training.

برای مدیریت این امر، دی وینتر یک مؤلفه Vision را طراحی کرد که GPT-4V نامیده می شود، که از موتور بازی اسکرین شات می گیرد و توضیحات ساختار وضعیت بازی را برمی گرداند. و او آن را با یک مدل Agent ترکیب کرد که GPT-4 را برای تصمیم گیری بر اساس ورودی بصری و تاریخچه قبلی فراخوانی می کند. به مدل Agent گفته شده است که پاسخ‌های خود را به دستورات کلیدی که برای موتور بازی معنا می‌کنند ترجمه کند.

فعل و انفعالات از طریق یک لایه مدیر متشکل از یک پایتون منبع باز که به آن متصل می شود، انجام می شود موتور C Doom در حال اجرا در Matplotlib.

نموداری که طراحی سیستم GPT-4V را برای بازی DOOM نشان می دهد

De Wynter’s diagram showing the design of a GPT-4V system for playing Doom … Click to enlarge

بر اساس این مقاله، ترکیبی از مدل‌ها و کدهای هوش مصنوعی می‌تواند درها را باز کند، با دشمنان مبارزه کند و سلاح‌ها را شلیک کند. و می‌تواند مجموعه وسیع‌تری از دستورالعمل‌ها را اجرا کند تا عملکرد خود را بهبود بخشد.

نقص اصلی این سیستم مبتنی بر GPT-4V عدم ماندگاری اشیاء آن است - وقتی زامبی های درون بازی از صفحه خارج می شوند را فراموش می کند.

GPT-4 زامبی را فراموش می کند و به راه خود ادامه می دهد

دی وینتر توضیح می دهد: «به عنوان مثال، برای مدل بسیار معمول است که یک زامبی را روی صفحه ببیند و شروع به شلیک به سمت آن کند تا زمانی که به آن برخورد کند (یا بمیرد). اکنون، این هوش مصنوعی است که برای کار با سخت افزار 1993 نوشته شده است، بنابراین من حدس می زنم که درخت تصمیم گیری فوق العاده عمیقی نداشته باشد. بنابراین زامبی به سمت شما شلیک می کند و سپس شروع به دویدن در اطراف اتاق می کند.

«مسئله اینجا چیست؟ خب، اول اینکه زامبی از دید خارج می شود. بدتر از آن، هنوز زنده است و در نقطه ای شما را کتک می زند. پس باید دنبالش بری، درسته؟ پس از همه، در Doom، آن را whack یا be whacked است.

«به نظر می رسد که GPT-4 زامبی را فراموش کرده و به راه خود ادامه می دهد. نکته: اعلان به صراحت به مدل می‌گوید که اگر آسیب می‌بیند و نمی‌تواند دشمنی را ببیند، چه کاری انجام دهد. بهتر از آن، فقط به راه شاد خود می رود، در گوشه ای گیر می کند و می میرد. چند بار چرخید، اما در نزدیک به 50-60 دویدن، آن را مشاهده کردم... دو بار، می‌خواهم بگویم.»

همچنین، GPT-4 نمی تواند به خوبی استدلال کند. هنگامی که از او خواسته شد تا اعمال خود را که به طور کلی در زمینه درست است توضیح دهد، توضیحات آن ضعیف بود و اغلب شامل توهم بود (معروف به اطلاعات نادرست).

De Wynter nonetheless considers it remarkable that GPT-4 is capable of playing Doom without prior training.

در عین حال، او آن را ناراحت کننده می یابد.

در بخش اخلاق، بسیار نگران‌کننده است که (الف) من کدی بسازم تا بتوانم مدل را به چیزی شلیک کنم. و (ب) برای اینکه مدل به طور دقیق از چیزی عکس بگیرد بدون اینکه واقعاً دستورالعمل ها را حدس بزند.» او در خلاصه پست خود نوشت.

بنابراین، در حالی که این یک کاوش بسیار جالب در مورد برنامه ریزی و استدلال است، و می تواند کاربردهایی در تست بازی های ویدیویی خودکار داشته باشد، کاملاً واضح است که این مدل از آنچه انجام می دهد آگاه نیست. من قویاً از همه می‌خواهم که به این فکر کنند که استقرار این مدل‌ها برای جامعه و استفاده نادرست بالقوه آنها چه [مطلبی دارد.»

و ممکن است با خود بگویید:خدای من، من چه کار کردم؟”®

تمبر زمان:

بیشتر از ثبت نام