OpenAI এর GPT-4 Doom চালাবে না, কিন্তু গেমটি খারাপভাবে খেলবে

OpenAI এর GPT-4 Doom চালাবে না, কিন্তু গেমটি খারাপভাবে খেলবে

আপনি নিজেকে একটি শটগানের খুপরিতে বসবাস করতে পারেন। এবং আপনি নিজেকে GPT-4 এর সাথে কাজ করতে পারেন। এবং আপনি নিজেকে জিজ্ঞাসা করতে পারেন, "GPT-4 কি ডুম চালাবে?" এবং আপনি নিজেকে জিজ্ঞাসা করতে পারেন, "আমি কি ঠিক? আমি কি ভূল?"

অ্যাড্রিয়ান ডি উইন্টার, মাইক্রোসফ্টের একজন প্রধান ফলিত বিজ্ঞানী এবং ইংল্যান্ডের ইয়র্ক বিশ্ববিদ্যালয়ের একজন গবেষক, সাম্প্রতিক একটি গবেষণা পত্রে এই প্রশ্নগুলি উত্থাপন করেছেন, "GPT-4 কি ডুম চালাবে?"

হায়রে, GPT-4, মাইক্রোসফ্ট-সমর্থিত ওপেনএআই-এর একটি বড় ভাষা মডেল, ডুমের সোর্স কোড সরাসরি কার্যকর করার ক্ষমতার অভাব রয়েছে।

কিন্তু এর মাল্টিমোডাল ভেরিয়েন্ট, GPT-4V, যা ইমেজকে ইনপুট এবং টেক্সট হিসেবে গ্রহণ করতে পারে, একই ধরনের উপ-দক্ষতা প্রদর্শন করে নিয়তি অগণিত এআই স্টার্টআপ চালু করেছে এমন ভরাট টেক্সট-ভিত্তিক মডেল হিসেবে।

"কাগজের সেটআপের অধীনে, GPT-4 (এবং দৃষ্টি সহ GPT-4, বা GPT-4V) সত্যিই ডুম নিজে চালাতে পারে না, কারণ এটি তার ইনপুট আকারের দ্বারা সীমাবদ্ধ (এবং, স্পষ্টতই, এটি সম্ভবত স্টাফ তৈরি করবে) ; আপনি সত্যিই চান না যে আপনার কম্পাইলার প্রতি পাঁচ মিনিটে হ্যালুসিনেটিং করুক),” ব্যাখ্যামূলকভাবে ডি উইন্টার লিখেছেন বিঃদ্রঃ তার কাগজ সম্পর্কে। “এটা বলেছে, এটা অবশ্যই ইঞ্জিনের জন্য প্রক্সি হিসেবে কাজ করতে পারে, অন্যদের মত নয় 'এটা কি ডুম চালাবে?' বাস্তবায়ন, যেমন ই কোলাই or নোটপ্যাড. "

অর্থাৎ, GPT-4V ডুম চালাবে না জন ডিয়ার ট্র্যাক্টরের মতো তবে এটি নির্দিষ্ট প্রশিক্ষণ ছাড়াই ডুম খেলবে।

এটি পরিচালনা করার জন্য, ডি উইন্টার একটি ভিশন উপাদান ডিজাইন করেছেন যাকে GPT-4V বলা হয়, যা গেম ইঞ্জিন থেকে স্ক্রিনশট ক্যাপচার করে এবং গেমের অবস্থার গঠন বিবরণ প্রদান করে। এবং তিনি এটিকে একটি এজেন্ট মডেলের সাথে একত্রিত করেছেন যা ভিজ্যুয়াল ইনপুট এবং পূর্ববর্তী ইতিহাসের উপর ভিত্তি করে সিদ্ধান্ত নিতে GPT-4 কল করে। এজেন্ট মডেলকে তার প্রতিক্রিয়াগুলিকে কীস্ট্রোক কমান্ডে অনুবাদ করতে বলা হয়েছে যার অর্থ গেম ইঞ্জিনের সাথে।

ইন্টারঅ্যাকশনগুলি একটি ম্যানেজার স্তরের মাধ্যমে পরিচালনা করা হয় যার মধ্যে একটি ওপেন সোর্স পাইথন বাইন্ডিং থাকে সি ডুম ইঞ্জিন ম্যাটপ্লটলিবে চলছে।

ডুম খেলার জন্য GPT-4V সিস্টেমের নকশা দেখানো একটি চার্ট

De Wynter এর ডায়াগ্রাম ডুম খেলার জন্য একটি GPT-4V সিস্টেমের নকশা দেখাচ্ছে … বড় করতে ক্লিক করুন

কাগজ অনুসারে, এআই মডেল এবং কোডের এই মিশ্রণ দরজা খুলতে, শত্রুদের সাথে লড়াই করতে এবং অগ্নিসংযোগ করতে পারে। এবং এটি তার নিজস্ব কর্মক্ষমতা উন্নত করতে একটি স্তরের ওয়াকথ্রু মত নির্দেশাবলীর একটি বিস্তৃত সেট কার্যকর করতে পারে।

এই GPT-4V-ভিত্তিক সিস্টেমের প্রধান ত্রুটি হল এর বস্তুর স্থায়ীত্বের অভাব - যখন তারা অফ-স্ক্রীনে যায় তখন এটি ইন-গেম জম্বিদের কথা ভুলে যায়।

GPT-4 জম্বি সম্পর্কে ভুলে যায় এবং শুধু চলতে থাকে

"উদাহরণস্বরূপ, মডেলের জন্য স্ক্রিনে একটি জম্বি দেখতে খুব সাধারণ হবে, এবং এটিকে আঘাত না করা পর্যন্ত (বা মারা যাওয়া) গুলি চালানো শুরু করবে," ডি উইন্টার ব্যাখ্যা করেন। "এখন, এটি 1993 হার্ডওয়্যারের সাথে কাজ করার জন্য AI লেখা হয়েছে, তাই আমি অনুমান করতে যাচ্ছি যে এটিতে খুব গভীর সিদ্ধান্তের গাছ নেই৷ তাই জম্বি আপনার দিকে গুলি চালায় এবং তারপর ঘরের চারপাশে দৌড়াতে শুরু করে।

"এখানে সমস্যা কি? ভাল, প্রথম যে জম্বি দৃশ্যের বাইরে যায়. আরও খারাপ, এটি এখনও জীবিত এবং কোনও সময়ে আপনাকে আঘাত করবে। তাই আপনি এটার পরে যেতে হবে, তাই না? সর্বোপরি, ডুমে, এটা মারধর বা আঘাত করা।

“এটা দেখা যাচ্ছে যে GPT-4 জম্বি সম্পর্কে ভুলে গেছে এবং কেবল চালিয়ে যাচ্ছে। দ্রষ্টব্য: প্রম্পটটি স্পষ্টভাবে মডেলটিকে বলে যে এটি ক্ষতি করছে এবং এটি কোনও শত্রুকে দেখতে না পেলে কী করতে হবে৷ আরও ভাল, এটি কেবল তার আনন্দের পথে চলে যায়, একটি কোণে আটকে যায় এবং মারা যায়। এটি কয়েকবার ঘুরেছে, কিন্তু প্রায় 50-60 রানের মধ্যে, আমি এটি পর্যবেক্ষণ করেছি… দুবার, আমি বলতে চাই।"

এছাড়াও, GPT-4 খুব ভাল যুক্তি দিতে পারে না। যখন এটির ক্রিয়াগুলি ব্যাখ্যা করতে বলা হয় যা সাধারণত প্রসঙ্গে সঠিক ছিল, তখন এর ব্যাখ্যাগুলি দুর্বল ছিল এবং প্রায়শই হ্যালুসিনেশন (ওরফে ভুল তথ্য) অন্তর্ভুক্ত ছিল।

ডি উইন্টার তবুও এটাকে অসাধারণ মনে করেন যে GPT-4 পূর্ব প্রশিক্ষণ ছাড়াই ডুম খেলতে সক্ষম।

একই সময়ে, তিনি সেই সমস্যা খুঁজে পান।

“নৈতিকতা বিভাগে, এটি বেশ উদ্বেগজনক যে (ক) মডেলটিকে কিছু শুট করার জন্য কোড তৈরি করা আমার পক্ষে কতটা সহজ ছিল; এবং (খ) মডেলের জন্য নির্দেশনাগুলিকে দ্বিতীয় অনুমান না করে সঠিকভাবে কিছু শুট করার জন্য,” তিনি তার সারাংশ পোস্টে লিখেছেন।

"সুতরাং, যদিও এটি পরিকল্পনা এবং যুক্তির চারপাশে একটি খুব আকর্ষণীয় অনুসন্ধান, এবং স্বয়ংক্রিয় ভিডিও গেম পরীক্ষায় অ্যাপ্লিকেশন থাকতে পারে, এটি বেশ স্পষ্ট যে এই মডেলটি কী করছে সে সম্পর্কে সচেতন নয়৷ আমি দৃঢ়ভাবে সকলকে এই মডেলগুলির স্থাপনা সমাজের জন্য এবং তাদের সম্ভাব্য অপব্যবহারের জন্য কী [উচিত] তা ভাবতে অনুরোধ করছি।”

এবং আপনি নিজেকে বলতে পারেন, "হে ঈশ্বর, আমি কি করলাম?” ®

সময় স্ট্যাম্প:

থেকে আরো নিবন্ধনকর্মী