ڈیپ مائنڈ کی تازہ ترین AI گیم 'سٹریٹیگو' پلیٹو بلاکچین ڈیٹا انٹیلی جنس میں انسانی کھلاڑیوں کو شکست دیتی ہے۔ عمودی تلاش۔ عی

ڈیپ مائنڈ کی تازہ ترین AI گیم 'سٹریٹیگو' میں انسانی کھلاڑیوں کو شکست دیتی ہے۔

AI غیر یقینی صورتحال سے نفرت کرتا ہے۔ پھر بھی ہماری غیر متوقع دنیا کو نیویگیٹ کرنے کے لیے، اسے نامکمل معلومات کے ساتھ انتخاب کرنا سیکھنے کی ضرورت ہے — جیسا کہ ہم ہر روز کرتے ہیں۔

ڈیپ مائنڈ بس ایک وار کیا اس معمے کو حل کرنے میں۔ چال یہ تھی کہ گیم تھیوری کو ایک الگورتھمک حکمت عملی میں ڈھالنا تھا جس کی بنیاد انسانی دماغ پر مبنی تھی جسے گہری کمک سیکھنے کہا جاتا ہے۔ نتیجہ، ڈیپ نیش نے اسٹریٹیگو نامی ایک انتہائی اسٹریٹجک بورڈ گیم میں انسانی ماہرین کو گرا دیا۔ AI کے لیے ایک بدنام زمانہ مشکل گیم، Stratego کے لیے انسانی عقل کی متعدد طاقتوں کی ضرورت ہوتی ہے: طویل مدتی سوچ، بلفنگ، اور حکمت عملی بنانا، یہ سب کچھ بورڈ پر آپ کے مخالف کے ٹکڑوں کو جانے بغیر۔

"شطرنج اور گو کے برعکس، حکمت عملی نامکمل معلومات کا کھیل ہے: کھلاڑی اپنے مخالف کے ٹکڑوں کی شناخت کا براہ راست مشاہدہ نہیں کر سکتے،" DeepMind لکھا ہے ایک بلاگ پوسٹ میں. ڈیپ نیش کے ساتھ، "گیم پلےنگ مصنوعی ذہانت (AI) سسٹمز ایک نئے محاذ پر ترقی کر چکے ہیں۔"

یہ سب تفریح ​​اور کھیل نہیں ہے۔ اے آئی سسٹم جو ہماری دنیا کی بے ترتیب پن کو آسانی سے ڈھال سکتے ہیں اور اس کے مطابق اپنے "رویے" کو ایڈجسٹ کر سکتے ہیں وہ ایک دن محدود معلومات کے ساتھ حقیقی دنیا کے مسائل کو سنبھال سکتے ہیں، جیسے کہ سفر کے وقت کو کم کرنے کے لیے ٹریفک کے بہاؤ کو بہتر بنانا اور (امید ہے کہ) خود ڈرائیونگ کے طور پر سڑک کے غصے کو بجھانا۔ کاریں پہلے سے زیادہ موجود ہیں.

"اگر آپ خود سے چلنے والی کار بنا رہے ہیں، تو آپ یہ نہیں سمجھنا چاہیں گے کہ سڑک پر موجود دیگر تمام ڈرائیور بالکل عقلی ہیں، اور بہترین برتاؤ کرنے جا رہے ہیں،" نے کہا میٹا اے آئی میں ڈاکٹر نوم براؤن، جو تحقیق میں شامل نہیں تھے۔

ڈیپ نیش کی فتح اس ماہ ایک اور AI پیشگی کی ہیلس پر گرم ہے، جہاں ایک الگورتھم نے ڈپلومیسی کھیلنا سیکھا۔ایک ایسا کھیل جس میں جیتنے کے لیے گفت و شنید اور تعاون کی ضرورت ہوتی ہے۔ جیسا کہ AI زیادہ لچکدار استدلال حاصل کرتا ہے، زیادہ عام ہو جاتا ہے، اور سماجی حالات کو نیویگیٹ کرنا سیکھتا ہے، یہ ہمارے اپنے دماغ کے اعصابی عمل اور ادراک میں بھی بصیرت پیدا کر سکتا ہے۔

حکمت عملی سے ملو

پیچیدگی کے لحاظ سے، Stratego شطرنج، Go، یا پوکر کے مقابلے میں بالکل مختلف حیوان ہے — وہ تمام گیمز جن میں AI نے پہلے مہارت حاصل کی ہے۔

کھیل بنیادی طور پر پرچم پر قبضہ کرنا ہے۔ ہر طرف 40 ٹکڑے ہوتے ہیں جنہیں وہ بورڈ پر کسی بھی پوزیشن پر رکھ سکتے ہیں۔ ہر ٹکڑے کا ایک مختلف نام اور عددی درجہ ہوتا ہے، جیسے "مارشل،" "جنرل،" "سکاؤٹ،" یا "جاسوس۔" اعلی درجہ بندی کے ٹکڑے نیچے والے کو پکڑ سکتے ہیں۔ مقصد اپوزیشن کو ختم کرنا اور ان کے پرچم پر قبضہ کرنا ہے۔

حکمت عملی AI کے لیے خاص طور پر چیلنجنگ ہے کیونکہ کھلاڑی ابتدائی سیٹ اپ کے دوران اور گیم پلے کے دوران اپنے مخالفین کے ٹکڑوں کا مقام نہیں دیکھ سکتے ہیں۔ شطرنج یا گو کے برعکس، جس میں ہر ایک ٹکڑا اور حرکت نظر آتی ہے، Stratego محدود معلومات کے ساتھ ایک کھیل ہے۔ مصنفین نے وضاحت کی کہ جب بھی وہ کوئی فیصلہ کرتے ہیں کھلاڑیوں کو "تمام ممکنہ نتائج کو متوازن" کرنا چاہیے۔

غیر یقینی کی یہ سطح جزوی طور پر اس وجہ سے ہے کہ حکمت عملی نے AI کو عمروں سے روک دیا ہے۔ یہاں تک کہ سب سے کامیاب گیم پلے الگورتھم، جیسے AlphaGo اور الفا زیرومکمل معلومات پر بھروسہ کریں۔ Stratego، اس کے برعکس، کا ایک ٹچ ہے ٹیکساس ہولڈ ان، ایک پوکر گیم ڈیپ مائنڈ نے پہلے الگورتھم کے ساتھ فتح کیا تھا۔ لیکن یہ حکمت عملی Stratego کے لیے ناکام ہو گئی، بڑی حد تک کھیل کی لمبائی کی وجہ سے، جو کہ پوکر کے برعکس، عام طور پر سیکڑوں چالوں پر محیط ہوتا ہے۔

ممکنہ گیم پلے کی تعداد دماغ کو اڑا دینے والی ہے۔ شطرنج کی ایک ابتدائی پوزیشن ہے۔ حکمت عملی 10 سے زیادہ ہے۔66 ممکنہ ابتدائی پوزیشنیں - کائنات کے تمام ستاروں سے کہیں زیادہ۔ Stratego کے گیم ٹری، گیم میں تمام ممکنہ چالوں کا مجموعہ، حیرت انگیز طور پر 10535.

"Stratego میں ممکنہ نتائج کی تعداد کی سراسر پیچیدگی کا مطلب ہے الگورتھم جو کامل معلوماتی گیمز پر اچھی کارکردگی کا مظاہرہ کرتے ہیں، اور وہ بھی جو پوکر کے لیے کام کرتے ہیں، کام نہیں کرتے،" نے کہا ڈیپ مائنڈ میں مطالعہ کے مصنف ڈاکٹر جولین پیرولاٹ۔ چیلنج یہ ہے کہ "ہمیں کس چیز نے پرجوش کیا،" انہوں نے کہا۔

ایک خوبصورت دماغ

Stratego کی پیچیدگی کا مطلب ہے کہ گیم پلے کی چالوں کو تلاش کرنے کے لیے معمول کی حکمت عملی سوال سے باہر ہے۔ مونٹی کارلو ٹری سرچ کو ڈب کیا گیا، "AI پر مبنی گیمنگ کے لیے ایک مضبوط نقطہ نظر"، یہ تکنیک ممکنہ راستوں کی منصوبہ بندی کرتی ہے — جیسے درخت پر شاخیں — جس کے نتیجے میں فتح ہو سکتی ہے۔

اس کے بجائے، ڈیپ نیش کے لیے جادوئی ٹچ ریاضی دان جان نیش سے آیا، جسے فلم میں پیش کیا گیا ہے۔ ایک خوبصورت دماغ. گیم تھیوری کے علمبردار، نیش نے اپنے کام کے لیے نوبل انعام جیتا تھا۔ نیش توازن۔. سیدھے الفاظ میں، ہر گیم میں، کھلاڑی ہر ایک کی پیروی کرنے والی حکمت عملیوں کے سیٹ پر ٹیپ کر سکتے ہیں، تاکہ کوئی بھی کھلاڑی اپنی حکمت عملی کو تبدیل کر کے کچھ حاصل نہ کر سکے۔ اسٹیٹگو میں، یہ ایک صفر کی رقم کا کھیل لاتا ہے: کسی کھلاڑی کو کوئی بھی فائدہ اپنے مخالف کے لیے نقصان کا باعث بنتا ہے۔

Stratego کی پیچیدگی کی وجہ سے، DeepNash نے اپنے الگورتھم کے لیے ماڈل سے پاک طریقہ اختیار کیا۔ یہاں، AI اپنے مخالف کے رویے کو درست طریقے سے ماڈل کرنے کی کوشش نہیں کر رہا ہے۔ ایک بچے کی طرح، اس کے پاس سیکھنے کے لیے ایک خالی سلیٹ ہوتی ہے۔ مصنفین نے کہا کہ یہ سیٹ اپ گیم پلے کے ابتدائی مراحل میں خاص طور پر کارآمد ہے، "جب ڈیپ نیش اپنے حریف کے ٹکڑوں کے بارے میں بہت کم جانتا ہے،" پیشین گوئیاں "مشکل، اگر ناممکن نہیں تو" بناتی ہیں۔

اس کے بعد ٹیم نے ڈیپ نیش کو طاقت دینے کے لیے گہری کمک سیکھنے کا استعمال کیا، جس کا مقصد کھیل کے نیش توازن کو تلاش کرنا تھا۔ یہ آسمان میں بنایا گیا میچ ہے: کمک سیکھنے سے کھیل کے ہر قدم پر اگلے بہترین اقدام کا فیصلہ کرنے میں مدد ملتی ہے، جبکہ DeepNash ایک مجموعی سیکھنے کی حکمت عملی فراہم کرتا ہے۔ سسٹم کا جائزہ لینے کے لیے، ٹیم نے ایک "ٹیوٹر" بھی تیار کیا تاکہ گیم سے علم کا استعمال کرتے ہوئے واضح غلطیوں کو فلٹر کیا جا سکے جو ممکنہ طور پر حقیقی دنیا میں معنی نہیں رکھتی۔

پریکٹس کامل بناتا ہے

سیکھنے کے پہلے قدم کے طور پر، DeepNash نے 5.5 بلین گیمز میں اپنے خلاف کھیلا، AI ٹریننگ میں ایک مقبول طریقہ جسے سیلف پلے کہا جاتا ہے۔

جب ایک طرف جیت جاتا ہے، تو AI کو نوازا جاتا ہے، اور اس کے موجودہ مصنوعی اعصابی نیٹ ورک کے پیرامیٹرز مضبوط ہوتے ہیں۔ دوسری طرف — وہی AI — اپنے عصبی نیٹ ورک کی طاقت کو کم کرنے کے لیے جرمانہ وصول کرتا ہے۔ یہ آئینے کے سامنے اپنے آپ سے تقریر کی مشق کرنے کے مترادف ہے۔ وقت گزرنے کے ساتھ، آپ غلطیوں کا پتہ لگاتے ہیں اور بہتر کارکردگی کا مظاہرہ کرتے ہیں۔ DeepNash کے معاملے میں، یہ بہترین گیم پلے کے لیے Nash کے توازن کی طرف بڑھتا ہے۔

اصل کارکردگی کے بارے میں کیا خیال ہے؟

ٹیم نے الگورتھم کا تجربہ دوسرے ایلیٹ اسٹریٹگو بوٹس کے خلاف کیا، جن میں سے کچھ نے کمپیوٹر اسٹریٹگو ورلڈ چیمپئن شپ جیت لی۔ ڈیپ نیش نے تقریباً 97 فیصد کی جیت کی شرح کے ساتھ اپنے مخالفین کو شکست دی۔ جب Gravon کے خلاف میدان میں اترا جو کہ انسانی کھلاڑیوں کے لیے ایک آن لائن پلیٹ فارم ہے — ڈیپ نیش نے اپنے انسانی مخالفین کو شکست دی۔ اس سال اپریل میں گراوون کے کھلاڑیوں کے خلاف دو ہفتوں سے زیادہ کے میچوں کے بعد، ڈیپ نیش 2002 کے بعد سے تمام درجہ بندی والے میچوں میں تیسرے نمبر پر آگئی۔

یہ ظاہر کرتا ہے کہ ڈیپ نیش کو انسانی سطح کی کارکردگی تک پہنچنے اور اسے شکست دینے کے لیے ہیومن پلے ڈیٹا کو AI میں بوٹسٹریپ کرنے کی ضرورت نہیں ہے۔

AI نے ابتدائی سیٹ اپ کے ساتھ اور گیم پلے کے دوران کچھ دلچسپ رویے کی بھی نمائش کی۔ مثال کے طور پر، کسی خاص "آپٹمائزڈ" سٹارٹنگ پوزیشن پر بسنے کے بجائے، DeepNash نے اپنے حریف کو وقت کے ساتھ پیٹرن دیکھنے سے روکنے کے لیے مسلسل ٹکڑوں کو ادھر ادھر منتقل کیا۔ گیم پلے کے دوران، AI بظاہر بے ہودہ حرکتوں کے درمیان اچھالتا ہے — جیسے کہ اعلیٰ درجہ کے ٹکڑوں کی قربانی دینا — جوابی حملے پر مخالف کے اور بھی اعلیٰ درجے کے ٹکڑوں کو تلاش کرنے کے لیے۔

ڈیپ نیش بلف بھی کر سکتا ہے۔ ایک ڈرامے میں، AI نے ایک نچلے درجے کے ٹکڑے کو اس طرح منتقل کیا جیسے یہ کوئی اعلیٰ درجہ کا ہو، جس نے انسانی حریف کو اپنے اعلیٰ درجہ کے کرنل کے ساتھ اس ٹکڑے کا پیچھا کرنے پر آمادہ کیا۔ AI نے پیادہ کی قربانی دی، لیکن بدلے میں، مخالف کے قیمتی جاسوس کو گھات لگا کر گھات لگا لیا۔

اگرچہ DeepNash کو Stratego کے لیے تیار کیا گیا تھا، لیکن یہ حقیقی دنیا کے لیے عام ہے۔ بنیادی طریقہ ممکنہ طور پر AI کو محدود معلومات کا استعمال کرتے ہوئے اپنے غیر متوقع مستقبل سے بہتر طریقے سے نمٹنے کی ہدایت دے سکتا ہے—ہجوم اور ٹریفک کنٹرول سے لے کر مارکیٹ کے ہنگاموں کا تجزیہ کرنے تک۔

ٹیم نے کہا، "ایک عام قابل AI نظام کی تشکیل میں جو غیر یقینی صورتحال کے باوجود مضبوط ہو، ہم امید کرتے ہیں کہ AI کی مسائل حل کرنے کی صلاحیتوں کو اپنی فطری طور پر غیر متوقع دنیا میں مزید لے آئیں،" ٹیم نے کہا۔

تصویری کریڈٹ: ڈیرک برف / فلکر

ٹائم اسٹیمپ:

سے زیادہ یکسانیت مرکز