کس طرح چین آف تھاٹ ریزننگ نیورل نیٹ ورکس کی گنتی میں مدد کرتا ہے

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

کس طرح چین آف تھاٹ ریزننگ نیورل نیٹ ورکس کی گنتی میں مدد کرتا ہے | کوانٹا میگزین پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

آپ کے گریڈ اسکول کے استاد نے شاید آپ کو یہ نہیں دکھایا کہ 20 ہندسوں کے نمبر کیسے شامل کیے جائیں۔ لیکن اگر آپ جانتے ہیں کہ چھوٹے نمبر کیسے شامل کیے جائیں تو آپ کو بس کاغذ اور پنسل اور تھوڑا سا صبر کی ضرورت ہے۔ اپنی جگہ سے شروع کریں اور قدم بہ قدم بائیں جانب کام کریں، اور جلد ہی آپ آسانی کے ساتھ کروڑوں روپے جمع کر رہے ہوں گے۔

اس طرح کے مسائل انسانوں کے لیے آسان ہیں، لیکن صرف اس صورت میں جب ہم ان سے صحیح طریقے سے رجوع کریں۔ "ہم انسان ان مسائل کو کیسے حل کرتے ہیں، 'اسے گھورنا اور پھر جواب لکھنا' نہیں ہے،" کہا ایرن ملاچ، ہارورڈ یونیورسٹی میں مشین لرننگ محقق۔ "ہم دراصل قدموں سے چلتے ہیں۔"

اس بصیرت نے بڑے زبان کے ماڈلز کا مطالعہ کرنے والے محققین کو متاثر کیا ہے جو ChatGPT جیسے چیٹ بوٹس کو طاقت دیتے ہیں۔ اگرچہ یہ سسٹم ریاضی کے چند مراحل پر مشتمل سوالات کا جواب دے سکتے ہیں، لیکن وہ اکثر ایسے مسائل کو ختم کر دیتے ہیں جن میں کئی مراحل شامل ہوتے ہیں، جیسے کہ دو بڑی تعدادوں کے مجموعہ کا حساب لگانا۔ لیکن 2022 میں گوگل کے محققین کی ایک ٹیم سے ظاہر ہوا کہ زبان کے ماڈلز سے مرحلہ وار حل پیدا کرنے کے لیے کہنے سے ماڈلز کو ان مسائل کو حل کرنے کے قابل بنایا جو پہلے ان کی پہنچ سے باہر نظر آتے تھے۔ ان کی تکنیک، جسے چین آف تھیٹ پرمپٹنگ کہا جاتا ہے، جلد ہی وسیع ہو گیا، یہاں تک کہ محققین کو یہ سمجھنے کے لیے جدوجہد کرنا پڑی کہ یہ کس چیز کے کام کرتا ہے۔

اب، کئی ٹیموں نے نظریاتی کمپیوٹر سائنس کی ایک آرکین برانچ کی تکنیکوں کا استعمال کرتے ہوئے چین آف تھیٹ استدلال کی طاقت کو دریافت کیا ہے جسے کمپیوٹیشنل کمپلیکٹی تھیوری کہا جاتا ہے۔ یہ تحقیق کی ایک لائن کا تازہ ترین باب ہے جو زبان کے ماڈلز کی اندرونی صلاحیتوں اور حدود کا مطالعہ کرنے کے لیے پیچیدگی تھیوری کا استعمال کرتا ہے۔ یہ کوششیں واضح کرتی ہیں کہ ہمیں ماڈلز کے ناکام ہونے کی کہاں توقع کرنی چاہیے، اور وہ ان کی تعمیر کے لیے نئے طریقوں کی طرف اشارہ کر سکتے ہیں۔

"وہ کچھ جادو کو ہٹا دیتے ہیں،" کہا Dimitris Papailiopoulos، یونیورسٹی آف وسکونسن، میڈیسن میں مشین لرننگ کے محقق۔ "یہ اچھی بات ہے۔"

ٹریننگ ٹرانسفارمرز

بڑے زبان کے ماڈل ریاضیاتی ڈھانچے کے گرد بنائے جاتے ہیں جنہیں مصنوعی اعصابی نیٹ ورک کہتے ہیں۔ ان نیٹ ورکس کے اندر بہت سے "نیورونز" انفرادی الفاظ کی نمائندگی کرنے والے اعداد کی لمبی تاروں پر سادہ ریاضیاتی عمل انجام دیتے ہیں، نیٹ ورک سے گزرنے والے ہر لفظ کو دوسرے میں منتقل کرتے ہیں۔ اس ریاضیاتی کیمیا کی تفصیلات نمبروں کے ایک اور سیٹ پر منحصر ہے جسے نیٹ ورک کے پیرامیٹرز کہتے ہیں، جو نیوران کے درمیان رابطوں کی طاقت کا اندازہ لگاتے ہیں۔

مربوط نتائج پیدا کرنے کے لیے زبان کے ماڈل کو تربیت دینے کے لیے، محققین عام طور پر ایک عصبی نیٹ ورک کے ساتھ شروع کرتے ہیں جس کے تمام پیرامیٹرز کی بے ترتیب قدریں ہوتی ہیں، اور پھر اسے انٹرنیٹ کے آس پاس کے ڈیٹا کو فیڈ کرتے ہیں۔ ہر بار جب ماڈل متن کا ایک نیا بلاک دیکھتا ہے، تو وہ باری باری ہر لفظ کی پیشین گوئی کرنے کی کوشش کرتا ہے: یہ پہلے کی بنیاد پر دوسرے لفظ کا، پہلے دو کی بنیاد پر تیسرا، وغیرہ کا اندازہ لگاتا ہے۔ یہ ہر پیشین گوئی کا اصل متن سے موازنہ کرتا ہے، پھر فرق کو کم کرنے کے لیے اس کے پیرامیٹرز کو درست کرتا ہے۔ ہر موافقت صرف ماڈل کی پیشین گوئیوں کو تھوڑا سا تبدیل کرتی ہے، لیکن کسی نہ کسی طرح ان کا اجتماعی اثر ایک ماڈل کو اس قابل بناتا ہے کہ وہ ان پٹس پر ہم آہنگی سے جواب دے سکے جو اس نے کبھی نہیں دیکھے۔

محققین 20 سالوں سے زبان پر کارروائی کرنے کے لیے اعصابی نیٹ ورک کو تربیت دے رہے ہیں۔ لیکن کام واقعی 2017 میں شروع ہوا، جب گوگل کے محققین نے ایک متعارف کرایا نیٹ ورک کی نئی قسم ایک ٹرانسفارمر کہا جاتا ہے.

"یہ سات سال پہلے تجویز کیا گیا تھا، جو کہ قبل از تاریخ لگتا ہے،" نے کہا پابلو بارسیلو، چلی کی پونٹیفیکل کیتھولک یونیورسٹی میں مشین لرننگ محقق۔

جس چیز نے ٹرانسفارمرز کو اتنا تبدیل کر دیا کہ تربیت کو ممنوعہ طور پر مہنگا بنائے بغیر - پیرامیٹرز کی تعداد اور تربیتی ڈیٹا کی مقدار کو بڑھانا - ان کو بڑھانا آسان ہے۔ ٹرانسفارمرز سے پہلے، نیورل نیٹ ورکس میں زیادہ سے زیادہ چند سو ملین پیرامیٹرز ہوتے تھے۔ آج، سب سے بڑے ٹرانسفارمر پر مبنی ماڈلز ایک ٹریلین سے زیادہ ہیں۔ پچھلے پانچ سالوں میں لینگویج ماڈل کی کارکردگی میں زیادہ تر بہتری صرف اسکیلنگ سے آتی ہے۔

ٹرانسفارمرز نے خاص ریاضیاتی ڈھانچے کا استعمال کرتے ہوئے اسے ممکن بنایا جسے توجہ کے سر کہا جاتا ہے، جو انہیں اس متن کے بارے میں پرندوں کی آنکھ کا نظارہ فراہم کرتا ہے جو وہ پڑھ رہے ہیں۔ جب ایک ٹرانسفارمر متن کا ایک نیا بلاک پڑھتا ہے، تو اس کا دھیان تیزی سے پوری چیز کو اسکین کرتا ہے اور الفاظ کے درمیان متعلقہ کنکشن کی نشاندہی کرتا ہے - شاید یہ نوٹ کرتے ہوئے کہ چوتھے اور آٹھویں الفاظ 10ویں کی پیشین گوئی کے لیے سب سے زیادہ کارآمد ثابت ہوتے ہیں۔ اس کے بعد توجہ کے سربراہ الفاظ کو نیورونز کے ایک بہت بڑے جال میں منتقل کرتے ہیں جسے فیڈ فارورڈ نیٹ ورک کہا جاتا ہے، جو اس کو سیکھنے میں مدد دینے والی پیشن گوئیاں پیدا کرنے کے لیے درکار بھاری تعداد میں کرنچنگ کرتا ہے۔

اصلی ٹرانسفارمرز میں توجہ کے سروں کی متعدد پرتیں ہوتی ہیں جو فیڈ فارورڈ نیٹ ورکس کے ذریعہ الگ ہوتی ہیں، اور صرف آخری پرت کے بعد پیشین گوئیاں ختم کرتی ہیں۔ لیکن ہر پرت پر، توجہ دینے والے سروں نے پہلے ہی ہر لفظ کے لیے سب سے زیادہ متعلقہ سیاق و سباق کی نشاندہی کر لی ہے، اس لیے متن کے ہر لفظ کے لیے کمپیوٹیشنل طور پر شدید فیڈ فارورڈ مرحلہ بیک وقت ہو سکتا ہے۔ یہ تربیتی عمل کو تیز کرتا ہے، جس سے ڈیٹا کے بڑھتے ہوئے بڑے سیٹوں پر ٹرانسفارمرز کو تربیت دینا ممکن ہو جاتا ہے۔ اس سے بھی زیادہ اہم بات یہ ہے کہ یہ محققین کو ایک بڑے عصبی نیٹ ورک کی تربیت کے بہت زیادہ کمپیوٹیشنل بوجھ کو پھیلانے کی اجازت دیتا ہے جو مل کر کام کرنے والے بہت سے پروسیسرز میں ہیں۔

بڑے پیمانے پر ڈیٹا سیٹس سے زیادہ سے زیادہ فائدہ اٹھانے کے لیے، "آپ کو ماڈلز کو واقعی بڑا بنانا ہوگا،" نے کہا ڈیوڈ چیانگ، نوٹری ڈیم یونیورسٹی میں مشین لرننگ محقق۔ "یہ صرف ان کی تربیت کرنا عملی نہیں ہوگا جب تک کہ یہ متوازی نہ ہو۔"

تاہم، متوازی ڈھانچہ جو ٹرانسفارمرز کو تربیت دینا اتنا آسان بناتا ہے تربیت کے بعد مدد نہیں کرتا — اس وقت، پہلے سے موجود الفاظ کی پیش گوئی کرنے کی ضرورت نہیں ہے۔ عام آپریشن کے دوران، ٹرانسفارمرز ایک وقت میں ایک لفظ کو آؤٹ پٹ کرتے ہیں، اگلا لفظ بنانے سے پہلے ہر آؤٹ پٹ کو واپس ان پٹ پر ٹیک کرتے ہیں، لیکن وہ اب بھی متوازی پروسیسنگ کے لیے موزوں فن تعمیر کے ساتھ پھنس گئے ہیں۔

جیسا کہ ٹرانسفارمر پر مبنی ماڈلز بڑھتے گئے اور بعض کاموں نے انہیں پریشانی کا سامنا کرنا پڑا، کچھ محققین نے سوچنا شروع کیا کہ آیا مزید متوازی ماڈلز کی طرف دھکیلنا ایک قیمت پر آیا ہے۔ کیا نظریاتی طور پر ٹرانسفارمرز کے رویے کو سمجھنے کا کوئی طریقہ تھا؟

ٹرانسفارمرز کی پیچیدگی

عصبی نیٹ ورکس کے نظریاتی مطالعے کو بہت سی مشکلات کا سامنا کرنا پڑتا ہے، خاص طور پر جب وہ تربیت کا حساب لینے کی کوشش کرتے ہیں۔ عصبی نیٹ ورک تربیتی عمل کے ہر مرحلے پر اپنے پیرامیٹرز کو درست کرنے کے لیے ایک معروف طریقہ کار استعمال کرتے ہیں۔ لیکن یہ سمجھنا مشکل ہو سکتا ہے کہ یہ سادہ طریقہ کار پیرامیٹرز کے اچھے سیٹ پر کیوں اکٹھا ہوتا ہے۔

ٹریننگ کے دوران کیا ہوتا ہے اس پر غور کرنے کے بجائے، کچھ محققین یہ تصور کرتے ہوئے ٹرانسفارمرز کی اندرونی صلاحیتوں کا مطالعہ کرتے ہیں کہ ان کے پیرامیٹرز کو کسی بھی صوابدیدی اقدار میں ایڈجسٹ کرنا ممکن ہے۔ یہ ٹرانسفارمر کو ایک خاص قسم کے قابل پروگرام کمپیوٹر کے طور پر استعمال کرنے کے مترادف ہے۔

"آپ کے پاس کچھ کمپیوٹنگ ڈیوائس ہے، اور آپ جاننا چاہتے ہیں، 'ٹھیک ہے، یہ کیا کر سکتا ہے؟ یہ کس قسم کے افعال کا حساب لگا سکتا ہے؟'' چیانگ نے کہا۔

یہ حساب کے رسمی مطالعہ میں مرکزی سوالات ہیں۔ یہ فیلڈ 1936 کا ہے، جب ایلن ٹورنگ نے پہلی بار ایک تصور کیا تھا۔ خیالی آلہجسے اب ٹورنگ مشین کہا جاتا ہے، جو لامحدود ٹیپ پر علامتوں کو پڑھ کر اور لکھ کر کوئی بھی حساب کتاب کر سکتی ہے۔ کمپیوٹیشنل پیچیدگی کے تھیوریسٹ بعد میں ٹورنگ کے کام کو ثابت کرتے ہوئے یہ ثابت کریں گے کہ کمپیوٹیشنل مسائل قدرتی طور پر مختلف ہوتے ہیں۔ پیچیدگی کی کلاسیں ان کو حل کرنے کے لیے درکار وسائل سے بیان کیا گیا ہے۔

2019 میں، بارسیلو اور دو دیگر محققین ثابت ہوا کہ پیرامیٹر کی ایک مقررہ تعداد کے ساتھ ٹرانسفارمر کا مثالی ورژن ٹیورنگ مشین کی طرح طاقتور ہو سکتا ہے۔ اگر آپ ایک ٹرانسفارمر ترتیب دیتے ہیں تاکہ اس کے آؤٹ پٹ کو بار بار ان پٹ کے طور پر فیڈ کیا جا سکے اور جس مخصوص مسئلے کو آپ حل کرنا چاہتے ہیں اس کے لیے پیرامیٹر کو مناسب قدروں پر سیٹ کریں، تو یہ بالآخر صحیح جواب کو تھوک دے گا۔

یہ نتیجہ ایک نقطہ آغاز تھا، لیکن اس نے کچھ غیر حقیقی مفروضوں پر انحصار کیا جو ممکنہ طور پر ٹرانسفارمرز کی طاقت کو بڑھا چڑھا کر پیش کریں گے۔ اس کے بعد کے سالوں میں، محققین نے زیادہ حقیقت پسندانہ نظریاتی فریم ورک تیار کرنے کے لیے کام کیا ہے۔

ایسی ہی ایک کوشش 2021 میں شروع ہوئی، جب ولیم میرلجو اب نیویارک یونیورسٹی میں گریجویٹ طالب علم ہے، سیئٹل میں ایلن انسٹی ٹیوٹ برائے مصنوعی ذہانت میں دو سالہ فیلوشپ چھوڑ رہا تھا۔ وہاں رہتے ہوئے، اس نے تکنیکوں کا استعمال کرتے ہوئے دیگر قسم کے عصبی نیٹ ورکس کا تجزیہ کیا جو ٹرانسفارمرز کے متوازی فن تعمیر کے لیے ناقص فٹ لگتے تھے۔ روانگی سے کچھ دیر پہلے، اس نے ایلن انسٹی ٹیوٹ فار اے آئی کے محقق کے ساتھ بات چیت کی۔ آشیش سبھروال، جس نے AI تحقیق میں جانے سے پہلے پیچیدگی تھیوری کا مطالعہ کیا تھا۔ انہیں شک ہونے لگا کہ پیچیدگی کا نظریہ ان کو ٹرانسفارمرز کی حدود کو سمجھنے میں مدد دے سکتا ہے۔

"ایسا لگتا تھا جیسے یہ ایک سادہ ماڈل ہے۔ سبھروال نے کہا کہ کچھ حدیں ہونی چاہئیں جنہیں کوئی بھی ختم کر سکتا ہے۔

اس جوڑے نے کمپیوٹیشنل کمپلیکٹی تھیوری کی ایک شاخ کا استعمال کرتے ہوئے ٹرانسفارمرز کا تجزیہ کیا، جسے سرکٹ پیچیدگی کہا جاتا ہے، جو اکثر متوازی کمپیوٹیشن کا مطالعہ کرنے کے لیے استعمال ہوتا ہے اور حال ہی میں لاگو کیا گیا ہے ٹرانسفارمرز کے آسان ورژن تک۔ اگلے سال کے دوران، انہوں نے پچھلے کام میں کئی غیر حقیقی مفروضوں کو بہتر کیا۔ اس بات کا مطالعہ کرنے کے لیے کہ ٹرانسفارمرز کا متوازی ڈھانچہ ان کی صلاحیتوں کو کیسے محدود کر سکتا ہے، جوڑے نے اس معاملے پر غور کیا جہاں ٹرانسفارمرز نے اپنے آؤٹ پٹ کو اپنے ان پٹ میں واپس نہیں کیا — اس کے بجائے، ان کا پہلا آؤٹ پٹ حتمی جواب ہونا چاہیے۔ وہ ثابت ہوا کہ اس نظریاتی فریم ورک میں ٹرانسفارمرز کسی بھی کمپیوٹیشنل مسائل کو حل نہیں کر سکتے جو ایک مخصوص پیچیدگی کی کلاس سے باہر ہیں۔ اور ریاضی کے بہت سے مسائل، جن میں نسبتاً آسان مسائل جیسے لکیری مساوات کو حل کرنا، اس کلاس سے باہر کے بارے میں سوچا جاتا ہے۔

بنیادی طور پر، انہوں نے ظاہر کیا کہ متوازی ایک قیمت پر آیا ہے - کم از کم جب ٹرانسفارمرز کو فوراً جواب تھوکنا پڑا۔ "ٹرانسفارمرز کافی کمزور ہیں اگر آپ ان کو استعمال کرنے کا طریقہ یہ ہے کہ آپ ایک ان پٹ دیتے ہیں، اور آپ کو صرف فوری جواب کی توقع ہے،" میرل نے کہا۔

سوچ کے تجربات

میرل اور سبھروال کے نتائج نے ایک فطری سوال اٹھایا - جب ٹرانسفارمرز کو اپنے آؤٹ پٹس کو ری سائیکل کرنے کی اجازت دی جاتی ہے تو وہ کتنے زیادہ طاقتور ہو جاتے ہیں؟ بارسیلو اور اس کے ساتھی مصنفین نے اپنے 2019 کے آئیڈیلائزڈ ٹرانسفارمرز کے تجزیے میں اس کیس کا مطالعہ کیا تھا، لیکن زیادہ حقیقت پسندانہ مفروضوں کے ساتھ یہ سوال کھلا رہا۔ اور درمیانی سالوں میں، محققین نے سوچ کا سلسلہ دریافت کیا، جس سے سوال کو ایک نئی مطابقت ملی۔

میرل اور سبھروال جانتے تھے کہ ان کا مکمل طور پر ریاضیاتی نقطہ نظر حقیقی زبان کے ماڈلز میں سوچ کے سلسلہ وار استدلال کے تمام پہلوؤں کو حاصل نہیں کر سکتا، جہاں پرامپٹ میں الفاظ بہت اہم ہو سکتا ہے. لیکن اس بات سے کوئی فرق نہیں پڑتا ہے کہ ایک پرامپٹ کو کس طرح بیان کیا جاتا ہے، جب تک کہ یہ زبان کے ماڈل کو مرحلہ وار حل نکالنے کا سبب بنتا ہے، ماڈل اصولی طور پر ٹرانسفارمر کے بعد کے گزرنے پر درمیانی مراحل کے نتائج کو دوبارہ استعمال کر سکتا ہے۔ یہ متوازی حساب کی حدود سے بچنے کا ایک طریقہ فراہم کرسکتا ہے۔

دریں اثنا، پیکنگ یونیورسٹی کی ایک ٹیم اسی طرح کے خطوط پر سوچ رہی تھی، اور ان کے ابتدائی نتائج مثبت تھے۔ مئی 2023 کے ایک مقالے میں، انہوں نے ریاضی کے کچھ مسائل کی نشاندہی کی جو میرل اور سبھروال کے فریم ورک میں عام ٹرانسفارمرز کے لیے ناممکن ہونے چاہئیں، اور سے ظاہر ہوا کہ درمیانی اقدامات نے ٹرانسفارمرز کو ان مسائل کو حل کرنے کے قابل بنایا۔

اکتوبر میں، میرل اور سبھروال نے ایک کے ساتھ اپنے پہلے کام کی پیروی کی۔ تفصیلی نظریاتی مطالعہ سوچ کے سلسلہ کی کمپیوٹیشنل طاقت کا۔ انہوں نے یہ اندازہ لگایا کہ کس طرح اضافی کمپیوٹیشنل طاقت کا انحصار اس بات پر ہوتا ہے کہ ٹرانسفارمر کو استعمال کرنے کی اجازت ہے اس سے پہلے کہ اسے حتمی جواب دینا پڑے۔ عام طور پر، محققین کسی بھی مسئلے کو حل کرنے کے لیے درمیانے درجے کے اقدامات کی مناسب تعداد کی توقع کرتے ہیں جس کا انحصار مسئلے کے ان پٹ کے سائز پر ہوتا ہے۔ مثال کے طور پر، 20 ہندسوں کے دو نمبروں کو شامل کرنے کے لیے سب سے آسان حکمت عملی کے لیے 10 ہندسوں کے دو نمبروں کو شامل کرنے کے لیے ایک ہی نقطہ نظر کے طور پر دو گنا زیادہ درمیانی اضافے کے اقدامات کی ضرورت ہوتی ہے۔

اس طرح کی مثالیں یہ بتاتی ہیں کہ ٹرانسفارمرز کو صرف چند درمیانی مراحل کے استعمال سے زیادہ فائدہ نہیں ہوگا۔ درحقیقت، میرل اور سبھروال نے ثابت کیا کہ سوچ کا سلسلہ تب ہی مدد کرنے لگتا ہے جب انٹرمیڈیٹ قدموں کی تعداد ان پٹ کے سائز کے تناسب سے بڑھ جاتی ہے، اور بہت سے مسائل کے لیے درمیانی مراحل کی تعداد اب بھی بہت زیادہ بڑھنے کی ضرورت ہوتی ہے۔

نتائج کی جامعیت نے محققین کو متاثر کیا۔ "انہوں نے واقعی اس کو نیچے رکھا،" کہا ڈینیئل سوکولمبیا یونیورسٹی میں مشین لرننگ کے محقق۔

میرل اور سبھروال کا حالیہ کام اس بات کی نشاندہی کرتا ہے کہ سوچ کا سلسلہ کوئی علاج نہیں ہے - اصولی طور پر، یہ ٹرانسفارمرز کو مشکل مسائل کو حل کرنے میں مدد کر سکتا ہے، لیکن صرف بہت زیادہ کمپیوٹیشنل کوششوں کی قیمت پر۔

"ہم ایک قدم کے ساتھ ٹرانسفارمرز کی حدود کو پورا کرنے کے مختلف طریقوں میں دلچسپی رکھتے ہیں،" میرل نے کہا۔ "سوچ کا سلسلہ ایک راستہ ہے، لیکن یہ کاغذ ظاہر کرتا ہے کہ یہ سب سے زیادہ اقتصادی طریقہ نہیں ہوسکتا ہے."

حقیقت پر واپس

پھر بھی، محققین خبردار کرتے ہیں کہ اس قسم کا نظریاتی تجزیہ صرف حقیقی زبان کے ماڈلز کے بارے میں بہت کچھ ظاہر کر سکتا ہے۔ مثبت نتائج - یہ ثبوت کہ ٹرانسفارمرز اصولی طور پر کچھ مسائل کو حل کر سکتے ہیں - اس کا مطلب یہ نہیں ہے کہ ایک زبان کا ماڈل دراصل تربیت کے دوران وہ حل سیکھ لے گا۔

اور یہاں تک کہ وہ نتائج جو ٹرانسفارمرز کی حدود کو دور کرتے ہیں وہ انتباہات کے ساتھ آتے ہیں: وہ اس بات کی نشاندہی کرتے ہیں کہ کوئی بھی ٹرانسفارمر تمام معاملات میں کچھ مسائل کو مکمل طور پر حل نہیں کر سکتا۔ یقینا، یہ ایک بہت اونچی بار ہے۔ ہسو نے کہا، "اس مسئلے کی خاص صورتیں ہو سکتی ہیں کہ یہ ٹھیک ٹھیک ہینڈل کر سکتا ہے۔"

ان انتباہات کے باوجود، نیا کام مختلف قسم کے نیورل نیٹ ورک آرکیٹیکچرز کا تجزیہ کرنے کے لیے ایک ٹیمپلیٹ پیش کرتا ہے جو بالآخر ٹرانسفارمرز کی جگہ لے سکتا ہے۔ اگر پیچیدگی تھیوری کا تجزیہ یہ بتاتا ہے کہ نیٹ ورکس کی کچھ اقسام دوسروں کے مقابلے زیادہ طاقتور ہیں، تو یہ اس بات کا ثبوت ہوگا کہ وہ نیٹ ورک حقیقی دنیا میں بھی بہتر ہوسکتے ہیں۔

چیانگ نے اس بات پر بھی زور دیا کہ ٹرانسفارمرز کی حدود پر تحقیق زیادہ قیمتی ہے کیونکہ زبان کے ماڈلز کو حقیقی دنیا کی ایپلی کیشنز کی ایک وسیع رینج میں تیزی سے استعمال کیا جا رہا ہے، جس سے ان کی صلاحیتوں کا اندازہ لگانا آسان ہو جاتا ہے۔

چیانگ نے کہا، "درحقیقت بہت سی چیزیں ہیں جو وہ اچھی طرح سے نہیں کرتی ہیں، اور ہمیں اس بات کا بہت زیادہ ادراک ہونا چاہیے کہ حدود کیا ہیں،" چیانگ نے کہا۔ "اسی لیے اس قسم کا کام واقعی اہم ہے۔"

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://www.quantamagazine.org/how-chain-of-thought-reasoning-helps-neural-networks-compute-20240321/

ٹائم اسٹیمپ: مارچ 21، 2024

ٹائم اسٹیمپ: جون 6، 2023

کس طرح چین آف تھاٹ ریزننگ نیورل نیٹ ورکس کی گنتی میں مدد کرتا ہے | کوانٹا میگزین

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

ٹریننگ ٹرانسفارمرز

ٹرانسفارمرز کی پیچیدگی

سوچ کے تجربات

حقیقت پر واپس

سے زیادہ کوانٹا میگزین

کچھ نیورل نیٹ ورک انسانوں کی طرح زبان سیکھتے ہیں۔ کوانٹا میگزین

شیکنوں کا نیا ریاضی

طبیعیات کی جوڑی دو جہتوں میں جادو تلاش کرتی ہے۔

جیومیٹری کے 'وائلڈ ویسٹ' میں، ریاضی دان کرہ کی نئی تعریف کرتے ہیں | کوانٹا میگزین

ریاضی کے منحنی خطوط کے بارے میں پرانا مسئلہ نوجوان جوڑے کو آتا ہے۔

نئے کوڈز کوانٹم کمپیوٹنگ کو 10 گنا زیادہ موثر بنا سکتے ہیں۔ کوانٹا میگزین

پارٹیکل فزکسسٹ ایک نئی ڈوئلٹی پر پہیلی

ریاضی دان کیسے جانتے ہیں کہ ان کے ثبوت درست ہیں؟

کائنات کا خاتمہ کیسے ہوگا؟

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ