ڈیپ مائنڈ کی چیٹ جی پی ٹی جیسے روبوٹس کے لیے دماغ انہیں انٹرنیٹ سے سیکھنے دیتا ہے۔

ڈیپ مائنڈ کی چیٹ جی پی ٹی جیسے روبوٹس کے لیے دماغ انہیں انٹرنیٹ سے سیکھنے دیتا ہے۔

جب سے گزشتہ سال نومبر میں ChatGPT ٹیکنالوجی کے منظر نامے پر پھٹا ہے، یہ لوگوں کو ہر قسم کا مواد لکھنے، کوڈ بنانے اور معلومات تلاش کرنے میں مدد کر رہا ہے۔ اس نے اور دیگر بڑے لینگوئج ماڈلز (LLMs) نے کسٹمر سروس کالز کو فیلڈنگ سے لے کر فاسٹ فوڈ آرڈر لینے تک کے کاموں میں سہولت فراہم کی ہے۔ یہ دیکھتے ہوئے کہ LLMs انسانوں کے لیے ان کے ارد گرد رہنے والے مختصر وقت میں کتنے مفید رہے ہیں، روبوٹس کے لیے ChatGPT ان کی نئی چیزیں سیکھنے اور کرنے کی صلاحیت کو کیسے متاثر کر سکتا ہے؟ گوگل ڈیپ مائنڈ کے محققین نے تلاش کرنے کا فیصلہ کیا اور اپنے نتائج کو شائع کیا۔ بلاگ پوسٹ اور کاغذ پچھلے ہفتے جاری ہوا۔

وہ اپنے سسٹم کو RT-2 کہتے ہیں۔ یہ روبوٹکس ٹرانسفارمر 2 کے لیے مختصر ہے، اور یہ اس کا جانشین ہے۔ روبوٹکس ٹرانسفارمر 1، جسے کمپنی نے پچھلے سال کے آخر میں جاری کیا تھا۔ RT-1 ایک چھوٹی زبان اور وژن پروگرام پر مبنی تھا اور خاص طور پر بہت سے کام کرنے کے لیے تربیت یافتہ تھا۔ سافٹ ویئر کو الفابیٹ ایکس میں استعمال کیا گیا تھا۔ روزمرہ کے روبوٹانہیں 700 فیصد کامیابی کی شرح کے ساتھ 97 سے زیادہ مختلف کام کرنے کے قابل بناتا ہے۔ لیکن جب نئے کام کرنے کا اشارہ کیا گیا جس کے لیے انہیں تربیت نہیں دی گئی تھی، RT-1 استعمال کرنے والے روبوٹ صرف 32 فیصد کامیاب رہے۔

RT-2 اس شرح کو تقریباً دوگنا کر دیتا ہے، نئے کاموں کو کامیابی سے انجام دینے کے لیے 62 فیصد وقت کے لیے کہا جاتا ہے۔ محققین RT-2 کو وژن لینگویج ایکشن (VLA) ماڈل کہتے ہیں۔ یہ نئی مہارتیں سیکھنے کے لیے متن اور تصاویر کا استعمال کرتا ہے جو اسے آن لائن نظر آتا ہے۔ یہ اتنا آسان نہیں جتنا لگتا ہے؛ اس کے لیے سافٹ ویئر کی ضرورت ہوتی ہے کہ وہ پہلے کسی تصور کو "سمجھے"، پھر اس تفہیم کو کسی کمانڈ یا ہدایات کے مجموعے پر لاگو کرے، پھر ان ہدایات کو پورا کرنے والے اقدامات کرے۔

کاغذ کے مصنفین کی ایک مثال ردی کی ٹوکری کو ٹھکانے لگانا ہے۔ پچھلے ماڈلز میں، روبوٹ کے سافٹ ویئر کو پہلے کوڑے دان کی شناخت کے لیے تربیت دینی ہوگی۔ مثال کے طور پر، اگر کسی میز پر چھلکا ہوا کیلا ہے جس کا چھلکا اس کے ساتھ ہے، تو بوٹ کو دکھایا جائے گا کہ چھلکا ردی کی ٹوکری میں ہے جبکہ کیلا نہیں ہے۔ اس کے بعد اسے سکھایا جائے گا کہ چھلکے کو کیسے اٹھانا ہے، اسے کوڑے دان میں منتقل کرنا ہے، اور اسے وہاں جمع کرنا ہے۔

اگرچہ، RT-2 تھوڑا مختلف طریقے سے کام کرتا ہے۔ چونکہ ماڈل نے انٹرنیٹ سے بہت ساری معلومات اور ڈیٹا کی تربیت حاصل کی ہے، اس لیے اسے عام فہم ہے کہ ردی کی ٹوکری کیا ہے، اور اگرچہ اسے کوڑے دان پھینکنے کی تربیت نہیں دی گئی ہے، لیکن یہ اس کام کو مکمل کرنے کے لیے اقدامات کو اکٹھا کر سکتا ہے۔

محققین RT-2 کو تربیت دینے کے لیے استعمال کیے گئے LLM ہیں۔ PaLI-X (55 بلین پیرامیٹرز کے ساتھ ایک وژن اور زبان کا ماڈل)، اور PaLM-E (جسے گوگل ایک مجسم ملٹی موڈل لینگویج ماڈل کہتا ہے، خاص طور پر روبوٹس کے لیے تیار کیا گیا ہے، جس میں 12 بلین پیرامیٹرز ہیں)۔ "پیرامیٹر" سے مراد وہ خصوصیت ہے جو مشین لرننگ ماڈل اپنے تربیتی ڈیٹا کی بنیاد پر بیان کرتا ہے۔ LLMs کے معاملے میں، وہ ایک جملے میں الفاظ کے درمیان تعلقات کا نمونہ بناتے ہیں اور اس بات کا اندازہ لگاتے ہیں کہ اس بات کا کتنا امکان ہے کہ کسی لفظ سے پہلے یا اس کے بعد کوئی دوسرا لفظ آئے گا۔

ایک بڑے ڈیٹاسیٹ میں الفاظ کے درمیان تعلقات اور نمونوں کو تلاش کرنے کے ذریعے، ماڈلز ان کے اپنے نتائج سے سیکھتے ہیں۔ وہ آخر کار یہ جان سکتے ہیں کہ مختلف تصورات ایک دوسرے سے کس طرح تعلق رکھتے ہیں اور سیاق و سباق کو سمجھ سکتے ہیں۔ RT-2 کے معاملے میں، یہ اس علم کو روبوٹک اعمال کے لیے عمومی ہدایات میں ترجمہ کرتا ہے۔

ان اعمال کو روبوٹ کے لیے ٹوکن کے طور پر دکھایا جاتا ہے، جو عام طور پر لفظ کے ٹکڑوں کی شکل میں قدرتی زبان کے متن کی نمائندگی کرنے کے لیے استعمال ہوتے ہیں۔ اس صورت میں، ٹوکن ایک کارروائی کے حصے ہوتے ہیں، اور سافٹ ویئر ایک عمل کو انجام دینے کے لیے متعدد ٹوکن کو ایک ساتھ جوڑتا ہے۔ یہ ڈھانچہ سافٹ ویئر کو چین آف تھیٹ استدلال انجام دینے کے قابل بھی بناتا ہے، یعنی یہ ایسے سوالات یا اشارے کا جواب دے سکتا ہے جن کے لیے کچھ حد تک استدلال کی ضرورت ہوتی ہے۔

ٹیم جو مثالیں دیتی ہے ان میں ہتھوڑا دستیاب نہ ہونے پر کسی چیز کو بطور ہتھوڑا استعمال کرنے کا انتخاب کرنا (روبوٹ ایک چٹان کا انتخاب کرتا ہے) اور تھکے ہوئے شخص کے لیے بہترین مشروب کا انتخاب کرنا (روبوٹ انرجی ڈرنک کا انتخاب کرتا ہے)۔

ڈیپ مائنڈ کی چیٹ جی پی ٹی جیسا دماغ روبوٹس کے لیے انہیں انٹرنیٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس سے سیکھنے دیتا ہے۔ عمودی تلاش۔ عی
تصویری کریڈٹ: گوگل ڈیپ مائنڈ

محققین نے گوگل میں لکھا، "RT-2 روبوٹک ڈیٹا سے ہٹ کر عام کرنے کی بہتر صلاحیتوں اور معنوی اور بصری تفہیم کو ظاہر کرتا ہے۔" بلاگ پوسٹ. "اس میں نئے حکموں کی تشریح کرنا اور ابتدائی استدلال، جیسے آبجیکٹ کے زمرے یا اعلیٰ سطحی وضاحت کے بارے میں استدلال کرتے ہوئے صارف کے حکموں کا جواب دینا شامل ہے۔"

کا خواب عام مقصد کے روبوٹ جو انسانوں کی ہر چیز میں مدد کر سکتی ہے - چاہے وہ گھر میں ہو، تجارتی ماحول میں ہو، یا صنعتی ماحول میں- اس وقت تک حاصل نہیں ہو سکتا جب تک کہ روبوٹ چلتے پھرتے سیکھ نہ لیں۔ جو چیز ہمارے لیے سب سے بنیادی جبلت کی طرح دکھائی دیتی ہے، وہ ہے، روبوٹ کے لیے، سیاق و سباق کو سمجھنے کا ایک پیچیدہ مجموعہ، اس کے ذریعے استدلال کرنے کے قابل ہونا، اور ایسے مسائل کو حل کرنے کے لیے اقدامات کرنا جن کے پاپ اپ ہونے کی توقع نہیں تھی۔ مختلف قسم کے غیر منصوبہ بند منظرناموں پر مناسب رد عمل ظاہر کرنے کے لیے ان کا پروگرام کرنا ناممکن ہے، اس لیے انھیں انسانوں کی طرح تجربے کو عام کرنے اور سیکھنے کے قابل ہونے کی ضرورت ہے۔

RT-2 اس سمت میں ایک قدم ہے۔ محققین تسلیم کرتے ہیں، اگرچہ، کہ RT-2 لفظی اور بصری تصورات کو عام کر سکتا ہے، لیکن یہ ابھی تک اپنے طور پر نئے اعمال سیکھنے کے قابل نہیں ہے۔ بلکہ، یہ ان اعمال کو لاگو کرتا ہے جو اسے پہلے سے معلوم ہے نئے منظرناموں پر۔ شاید RT-3 یا 4 ان مہارتوں کو اگلے درجے تک لے جانے کے قابل ہو جائے گا۔ اس دوران، جیسا کہ ٹیم ان کے اختتام پر بلاگ پوسٹ, "جبکہ انسانی مرکز کے ماحول میں مددگار روبوٹس کو فعال کرنے کے لیے ابھی بہت زیادہ کام کرنا باقی ہے، RT-2 ہمیں روبوٹکس کے لیے ایک دلچسپ مستقبل دکھاتا ہے۔"

تصویری کریڈٹ: Google DeepMind

ٹائم اسٹیمپ:

سے زیادہ یکسانیت مرکز