'متعدد سیلفیاں' والے AI ایجنٹس بدلتی ہوئی دنیا میں تیزی سے اپنانا سیکھیں۔

'متعدد سیلفیاں' والے AI ایجنٹس بدلتی ہوئی دنیا میں تیزی سے اپنانا سیکھیں۔

AI Agents With 'Multiple Selves' Learn to Adapt Quickly in a Changing World PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ہر روز ہم مختلف ضروریات کو پورا کر رہے ہیں۔ میں بھوکا ہوں لیکن تھک چکا ہوں؛ کیا میں صوفے پر گر جاؤں یا رات کا کھانا بناؤں؟ میں خطرناک درجہ حرارت میں بہت زیادہ گرم ہوں لیکن بہت پیاس بھی ہوں۔ کیا مجھے دھوپ میں گرم ہونے والے گرم پانی کو چگنا چاہیے، یا جب تک کہ میرے اندر برف بنانے کی ذہنی صلاحیت پیدا نہ ہو جائے فریزر میں سر رکھوں؟

جب مخمصے کا سامنا ہوتا ہے، تو ہم اکثر سوچے سمجھے بغیر اپنی بنیادی جبلتوں کی پیروی کرتے ہیں۔ لیکن ہڈ کے نیچے، متعدد نیورل نیٹ ورک کسی بھی لمحے "بہترین" فیصلہ کرنے کے لیے مقابلہ کر رہے ہیں۔ کھانے پر سونا۔ نیم گرم پانی کے اوپر فریزر۔ ہو سکتا ہے کہ وہ خوفناک فیصلے ہوں—لیکن اگلی بار، ہم اپنی ماضی کی غلطیوں سے سیکھیں گے۔

بدلتی ہوئی دنیا میں ہماری موافقت ایک سپر پاور ہے جو فی الحال زیادہ تر AI ایجنٹوں سے بچ جاتی ہے۔ یہاں تک کہ انتہائی نفیس AI ایجنٹس بھی ٹوٹ جاتے ہیں — یا انہیں کمپیوٹنگ کے ناقابل برداشت وقت کی ضرورت ہوتی ہے — کیونکہ وہ متضاد اہداف کو آگے بڑھاتے ہیں۔

پرنسٹن نیورو سائنس انسٹی ٹیوٹ میں ڈاکٹر جوناتھن کوہن کی قیادت میں ایک ٹیم کے نزدیک، وجہ بہت سادہ ہے: مشین لرننگ سسٹم عام طور پر ایک واحد وجود کے طور پر کام کرتے ہیں، ایک وقت میں ایک مقصد کا جائزہ لینے، حساب لگانے اور اس پر عمل کرنے پر مجبور ہوتے ہیں۔ اگرچہ اپنی غلطیوں سے سیکھنے کے قابل ہے، لیکن ایک ساتھ متعدد مخالف اہداف کے ساتھ چیلنج کرنے پر AI صحیح توازن تلاش کرنے کے لیے جدوجہد کرتا ہے۔

تو کیوں نہ AI کو الگ کر دیا جائے؟

In ایک نئی تحقیق میں شائع PNAS، ٹیم نے علمی نیورو سائنس سے ایک صفحہ لیا اور ایک ماڈیولر AI ایجنٹ بنایا۔

خیال بظاہر سادہ لگتا ہے۔ یک سنگی AI کے بجائے — ایک واحد نیٹ ورک جو پورے "خود" کو گھیرے ہوئے ہے — ٹیم نے ایک ماڈیولر ایجنٹ بنایا، ہر ایک حصہ اپنی اپنی "حوصلہ افزائی" اور اہداف کے ساتھ لیکن ایک ہی "باڈی" کو کمانڈ کرتا ہے۔ ایک جمہوری معاشرے کی طرح، AI نظام بہترین ردعمل کا فیصلہ کرنے کے لیے اپنے اندر بحث کرتا ہے، جہاں سب سے زیادہ جیتنے والا نتیجہ سامنے آنے کا امکان اس کے اگلے مرحلے کی رہنمائی کرتا ہے۔

متعدد نقلوں میں، ماڈیولر AI نے اپنے کلاسک یک سنگی ہم مرتبہ سے بہتر کارکردگی کا مظاہرہ کیا۔ اس کی موافقت خاص طور پر اس وقت چمکی جب محققین نے مصنوعی طور پر اہداف کی تعداد میں اضافہ کیا جو اسے بیک وقت برقرار رکھنا تھا۔ Lego-esque AI تیزی سے ڈھل گیا، جبکہ اس کے یک سنگی ہم منصب کو پکڑنے کے لیے جدوجہد کرنا پڑی۔

"ایجنسی کے بارے میں سب سے بنیادی سوالات میں سے ایک یہ ہے کہ ایک فرد متضاد ضروریات کو کیسے منظم کرتا ہے،" ٹیم نے کہا۔ AI ایجنٹ کو ڈی کنسٹریکٹ کرنے سے، تحقیق صرف بہتر مشین لرننگ ایجنٹس کے بارے میں بصیرت فراہم نہیں کرتی ہے۔ یہ "انسانی نفسیات میں موجود نفسیاتی تنازعات کو سمجھنے کی راہ بھی ہموار کرتا ہے،" لکھا ہے پرنسٹن یونیورسٹی میں ڈاکٹر رابر بوشرا، جو اس کام میں شامل نہیں تھے۔

زندگی کا ویڈیو گیم

ذہین مخلوق ایک پیچیدہ، بدلتی ہوئی دنیا میں متضاد ضروریات کو متوازن کرنا کیسے سیکھتی ہے؟

فلسفیانہ سوال نے متعدد شعبوں — نیورو سائنس، نفسیات، معاشیات — کو پریشان کیا ہے جو انسانی فطرت میں شامل ہیں۔ ہمارے پاس ابھی تک واضح جوابات نہیں ہیں۔ لیکن حقیقی دنیا میں داخل ہونے کے ساتھ ہی اے آئی کو تیزی سے اسی طرح کے چیلنجز کا سامنا کرنا پڑ رہا ہے، اب وقت آ گیا ہے کہ پرانے مسئلے سے نمٹا جائے۔

نئی تحقیق نے ایک سادہ آر پی جی (رول پلےنگ گیم) کی شکل میں چیلنج کو قبول کیا۔ یہاں دو کردار ہیں جو گرڈ جیسی دنیا میں تشریف لے جاتے ہیں، ہر ایک زندہ رہنے کے لیے وسائل تلاش کرنے کی کوشش کرتا ہے۔

پہلا مدمقابل: یک سنگی ایجنٹ — بصورت دیگر "خود" کے نام سے جانا جاتا ہے — ڈیپ-کیو لرننگ (DQL) کا استعمال کرتے ہوئے تربیت یافتہ۔ ڈیپ مائنڈ کے ذریعہ مقبول، الگورتھم اپنی موجودہ حالت کے لحاظ سے اگلے بہترین قدم کا پتہ لگانے میں خاص طور پر طاقتور ہے۔ مثال کے طور پر، ویڈیو گیم کی طرح، مجھے بائیں یا دائیں جانا چاہئے؟ کس شطرنج یا گو پیس کو منتقل کریں، اور کہاں؟ یہاں، الگورتھم ایک انعامی سگنل پر عمل کرتے ہوئے پورے ماحول کا سروے کرتا ہے- یعنی اس کا آخری ہدف۔ ایک لحاظ سے، یک سنگی ایجنٹ ایک متحد دماغ ہے جو بیک وقت تمام وسائل کو ٹینڈم میں پروسیس کرنے کے بعد بہترین نتائج کو زیادہ سے زیادہ کرنے کی کوشش کرتا ہے۔

مخالف: ماڈیولر AI۔ نیم خود مختار اعضاء کے ساتھ ایک آکٹوپس کی طرح، AI ایجنٹ کو ذیلی ایجنٹوں میں تقسیم کیا جاتا ہے، ہر ایک کے اپنے مقاصد اور تاثرات ہوتے ہیں۔ اسے ایک منصفانہ لڑائی بنانے کے لیے، ہر ماڈیول کو بھی DQL کے ساتھ تربیت دی جاتی ہے۔ الگ الگ "دماغ" اپنے گردونواح کا مشاہدہ کرتے ہیں اور بہترین آپشن کا انتخاب کرنا سیکھتے ہیں — لیکن صرف ان کے اپنے مقاصد کے مطابق۔ اس کے بعد پیش گوئی شدہ نتائج کا خلاصہ کیا جاتا ہے۔ اس کے بعد ممکنہ بہترین نتائج کے ساتھ حل کا انتخاب کیا جاتا ہے، جو AI ایجنٹ کو اس کی اگلی پسند پر چلاتا ہے۔

اور کھیل کا میدان؟

گیم بقا کے کھیل کا ایک انتہائی سٹریپڈ ورژن ہے۔ ہر AI ایجنٹ دو جہتی گرڈ کے گرد گھومتا ہے جس میں کچھ خطوں میں مختلف قسم کے وسائل پوشیدہ ہوتے ہیں۔ مقصد ایجنٹ کے چار اعدادوشمار کو ان کی مقررہ سطح پر رکھنا ہے، ہر ایک میں وقت کے ساتھ ساتھ بتدریج کمی واقع ہوتی ہے۔ جب متعدد اعدادوشمار گر جاتے ہیں، تو یہ AI پر منحصر ہوتا ہے کہ وہ کس کو ترجیح دے۔

ویڈیو گیمرز کے لیے، ٹیسٹ کو ایک نئے گیم میپ میں پھینکنے اور فروغ دینے کے لیے وسائل تلاش کرنے کی کوشش کے بارے میں سوچیں، مثال کے طور پر، صحت، جادو، قوت برداشت، اور حملہ کرنے کی طاقت۔ ہماری روزمرہ کی زندگیوں کے لیے، یہ بھوک، درجہ حرارت، نیند اور دیگر بنیادی جسمانی ضروریات کو متوازن کرتا ہے۔

"مثال کے طور پر، اگر ایجنٹ کے پاس 'بھوک' کم ہے، تو وہ اس وسیلہ کے مقام پر جا کر 'خوراک' کے وسائل کو جمع کر سکتا ہے،" ٹیم نے وضاحت کی۔

درختوں کے لیے جنگل

پہلا امتحان نسبتاً سادہ ماحول سے شروع ہوا۔ ہر ریسورس گول کا مقام گیمنگ کے میدان کے کونے میں طے کیا گیا تھا۔ یک سنگی ایجنٹ نے 30,000 تربیتی مراحل کے بعد آسانی سے اپنے چار اعدادوشمار کو برقرار رکھا، حالانکہ یہ ہدف کے اہداف تک پہنچنے تک اوور شوٹنگ اور انڈر شوٹنگ کے دور سے گزرا۔ اس کے برعکس، ماڈیولر ایجنٹ نے بہت تیزی سے سیکھا۔ 5,000 سیکھنے کے مراحل سے، ایجنٹ نے پہلے ہی "دنیا کی حالت" کی سمجھ حاصل کر لی تھی۔

مصنفین نے کہا کہ ماڈیولر AI کی صلاحیت کا ایک حصہ آزاد تلاش کے اندرونی احساس سے آیا ہے۔ ماڈیولر سسٹمز کے پچھلے طریقوں کے برعکس جو ایک حتمی مقصد کی طرف بڑھنے کے لیے تقسیم اور فتح حاصل کرتے ہیں، یہاں AI ایک زیادہ جامع سماجی تعلق کی نمائندگی کرتا ہے- جس میں کچھ ماڈیولز حاصل ہوتے ہیں اور کچھ اندرونی مسابقت کی مستقل حالت سے ہار جاتے ہیں۔

چونکہ AI ایجنٹ کا "باڈی" صرف جیتنے والے ماڈیول کے ذریعے رہنمائی کرتا ہے، اس لیے ہارنے والوں کو اس فیصلے کے ساتھ جانا پڑتا ہے جس سے وہ متفق نہیں تھے اور انہیں ایک نئی حقیقت میں مجبور کیا جاتا ہے۔ اس کے بعد انہیں اگلے مرحلے کے لیے بہترین حل کو تیزی سے اپنانا اور دوبارہ گننا پڑتا ہے۔ دوسرے لفظوں میں، ماڈیول اکثر اپنے آپ کو اپنے کمفرٹ زون سے باہر پاتے ہیں۔ یہ سخت محبت ہے، لیکن غیر متوقع نتائج انہیں نئے حلوں پر غور کرنے پر مجبور کرتے ہیں — بعض اوقات بہتر نتائج برآمد ہوتے ہیں اگر وہ تنہا مسئلے سے نمٹتے تو اس پر غور نہیں کرتے۔

مطالعہ کے مصنف زیک ڈلبرگ نے کہا کہ مجموعی طور پر، ماڈیولر نظام اے آئی کے اعمال کو مزید بہتر بنانے کے لیے "تجارت کے ساتھ ایک نیک سائیکل" تشکیل دیتا ہے۔

یہ موافقت اس وقت مزید چمک گئی جب ٹیم نے بدلتے ہوئے ماحول میں دونوں AI ایجنٹوں کو چیلنج کیا۔ ایک ٹیسٹ میں، وسائل کے ہدف کی پوزیشنیں چھٹپٹ وقت کے پیمانے پر بے ترتیب گرڈ مقام پر منتقل ہو گئیں۔ ماڈیولر AI نے تیزی سے تبدیلیوں کو اٹھایا اور ان کے مطابق ڈھال لیا، جبکہ یک سنگی ایجنٹ نے اس سے کہیں زیادہ خراب کارکردگی کا مظاہرہ کیا۔

ایک اور ٹیسٹ میں ٹیم نے ڈائل کو تبدیل کیا، جس میں AI ایجنٹوں کو اصل چار کی بجائے آٹھ فیکٹرز کو بیک وقت برقرار رکھنے کی ضرورت تھی۔ ٹیسٹ نے اس مسئلے سے نمٹا کہ وقت اور توانائی کی کھپت کے لحاظ سے حسابات تیزی سے ناممکن ہو جاتے ہیں کیونکہ متغیرات کی تعداد میں اضافہ ہوتا ہے — جسے "جہتی کی لعنت" کہا جاتا ہے۔

ماڈیولر ایجنٹ نے اپنے اہداف کو برقرار رکھنے کے لیے وسائل کو تلاش کرنے کے لیے تیزی سے ڈھال لیا۔ اس کے برعکس، یک سنگی ایجنٹ نے دوبارہ جدوجہد کی، اور اپنے ہر اعدادوشمار کے لیے مطلوبہ سطح پر واپس آنے میں بہت زیادہ وقت لگا۔

ایک بمقابلہ بہت سے

ماڈیولر اپروچ AI کی ترقی کے لیے نیورو سائنس میں ٹیپ کرنے کی ایک اور مثال ہے — جب کہ ہمارے نوگنز کے کام کرنے کے طریقے کے بارے میں بصیرت فراہم کی جاتی ہے۔

پچھلے کام کی طرح، ماڈیولر ماڈیولز یہ ظاہر کرتے ہیں کہ یہ ممکن ہے کہ ایک واحد AI ایجنٹ متوازی طور پر الگ الگ اور آسان ذیلی مسائل کو اس طرح سیکھے جو ڈیٹا پروسیسنگ کے لحاظ سے نسبتا decentralized ہو۔ مصنفین نے کہا کہ درجہ بندی کے کنٹرول کے نظام کے ساتھ ماڈل کو شامل کرنے سے AI کو تقویت مل سکتی ہے، کیونکہ دونوں ڈھانچے قدرتی دنیا میں موجود ہیں۔

ابھی کے لیے، ہر ماڈیول کو اس کے اپنے فائدے کے لیے پروگرام کیا گیا ہے - خود کا ایک کثیر۔ لیکن زندگی میں ہمارے مقاصد اکثر آپس میں جڑے ہوتے ہیں۔ مثال کے طور پر، پیاس کو کم کرنا اور گرمی سے لڑنا ایک دوسرے سے الگ نہیں ہیں۔ ٹیم مستقبل کے ٹیسٹوں میں ان کراس اوورز کو مربوط کرنے کی ضرورت پر روشنی ڈالتی ہے اور یہ جانتی ہے کہ آیا یہ وراثت میں ملے ہیں یا سیکھے گئے ہیں۔

ڈلبرگ کو، نامعلوم جوش و خروش کا حصہ ہے۔ "ماڈیول کیسے تیار ہوتے ہیں؟ ترقیاتی ماحول کی کون سی خصوصیات مختلف حلوں پر دباؤ ڈالتی ہیں؟ اس نے پوچھا. "اور کیا ماڈیولریٹی کے فوائد اس بات کی وضاحت کرتے ہیں کہ اندرونی نفسیاتی تنازعہ انسانی حالت میں اتنا مرکزی کیوں لگتا ہے؟"

تصویری کریڈٹ: اینسٹیف/پکسابے

ٹائم اسٹیمپ:

سے زیادہ یکسانیت مرکز