Fintech میں LLMs کے لیے تقسیم شدہ کمپیوٹنگ کا معاملہ

Fintech میں LLMs کے لیے تقسیم شدہ کمپیوٹنگ کا معاملہ

Fintech PlatoBlockchain ڈیٹا انٹیلی جنس میں LLMs کے لیے تقسیم شدہ کمپیوٹنگ کا معاملہ۔ عمودی تلاش۔ عی

پچھلا سال یعنی 2023 واضح طور پر اے آئی ڈومین کے میدان میں پیشرفت کے لحاظ سے ایک شاندار سال رہا ہے۔ روایتی طور پر یہ ہمیشہ محسوس کیا جاتا رہا ہے کہ AI سے زیادہ سے زیادہ فائدہ اٹھانے کے لیے انفراسٹرکچر اور سپورٹ میں مضبوط سرمایہ کاری کی ضرورت ہے۔ جنریٹو اے آئی کی آمد کی وجہ سے یہ پچھلے سال کی طرح واضح کبھی نہیں رہا۔ Gen AI سے پہلے کی زیادہ تر روایتی AI ٹیکنالوجی نے مٹھی بھر GPUs اور RAM پر معقول کارکردگی کا مظاہرہ کیا۔ اوپن اے آئی کے ذریعہ GPT-3 کی ریلیز اور بڑی تعداد میں اوپن سورس ماڈلز کی مزید ریلیز کے بعد یہ سب کچھ بدل گیا۔ یہ بڑی زبان کے ماڈل ہر لحاظ سے بڑے تھے، انہیں اعلیٰ کارکردگی والے GPUs اور RAM کے لحاظ سے بڑی میموری کی صورت میں بڑے پیمانے پر حسابی وسائل کی ضرورت تھی۔ خاص طور پر مالیاتی خدمات کے شعبے کو اس ٹیکنالوجی سے سب سے زیادہ فائدہ اٹھانے والے کے طور پر پہچانا جاتا ہے۔ اعداد و شمار کے تجزیہ اور پروسیسنگ میں اس شعبے میں استعمال ہونے والے وسائل کی تعداد خاص طور پر متنی ڈیٹا کو ایل ایل ایم کا استعمال کرتے ہوئے کافی حد تک بہتر بنایا جا سکتا ہے۔ درحقیقت یہ اوپن سورس LLMs ہے جس نے اس شعبے میں اپنی سب سے زیادہ افادیت پائی ہے۔ اس کی متعدد وجوہات ہیں۔

(a) ڈیٹا کی تنقید اور اس کی حفاظت: مالیاتی شعبے میں کافی اعداد و شمار حساس ہیں۔ انہیں محفوظ کیا جائے اور عوام کی رسائی سے پرہیز کیا جائے۔ ان ڈیٹا کا ممکنہ لیک کاروبار کے لیے سنگین مسائل کا سبب بن سکتا ہے۔ یہ خاص طور پر اہم اور حساس استعمال کے کیسز کے لیے ملکیتی حل کے بجائے اوپن سورس یا اندرونی حل کے لیے کیس بناتا ہے۔

(ب) ایل ایل ایم کی تخصیص: اس سیکٹر میں استعمال ہونے والے زیادہ تر کیسز کو درست جواب دینے کے لیے LLM ماڈلز کی تخصیص کی ضرورت ہوتی ہے جس میں بہت ہی مخصوص ڈیٹا سیٹ مختلف ہوتا ہے۔

یہ بالکل واضح ہے کہ مالیاتی شعبے میں اوپن سورس ایل ایل ایم کا اطلاق بڑھ رہا ہے لیکن اس کے ساتھ ہی ایل ایل ایم حل کے بنیادی نفاذ میں بہت سے چیلنجز درپیش ہیں۔ حساب کی صلاحیت اور میموری دونوں کے لحاظ سے درکار وسائل کی سراسر تعداد مہنگی ہونے کے ساتھ ساتھ مدد کرنا مشکل بھی ہے۔ بگ سائنس پروجیکٹ کے BLOOM کی نقاب کشائی کے حالیہ سنگ میل کا معاملہ لے لیں، 176 بلین پیرامیٹرز والا ماڈل جو 46 قدرتی زبانوں اور 13 پروگرامنگ زبانوں کو سپورٹ کرنے کے قابل ہے۔ اگرچہ ان 100B+ پیرامیٹر ماڈلز کی عوامی رسائی نے ان کے استعمال میں سہولت فراہم کی ہے، ہائی میموری اور کمپیوٹیشنل اخراجات کے متعلقہ چیلنجز برقرار ہیں۔ خاص طور پر، OPT-175B اور BLOOM-176B جیسے ماڈل تخمینہ کے لیے 350 GB سے زیادہ ایکسلریٹر میموری کا مطالبہ کرتے ہیں، اور اس سے بھی زیادہ فائن ٹیوننگ کے لیے۔ نتیجتاً، اس طرح کے LLMs کے عملی استعمال کے لیے اکثر ایک سے زیادہ اعلیٰ درجے کے GPUs یا ملٹی نوڈ کلسٹرز کی ضرورت پڑتی ہے، جو اپنے زیادہ اخراجات کی وجہ سے بہت سے محققین اور پریکٹیشنرز کے لیے رسائی کو محدود کر دیتے ہیں۔

یہ بالکل مختلف نقطہ نظر کی جانچ کرنے کا معاملہ بناتا ہے جیسا کہ وہ کہتے ہیں۔
باکس سے باہر سوچنا.

کلائنٹ - سرور اپروچ 

یہ LLMs کے لیے تقسیم شدہ کمپیوٹنگ سیٹ اپ کو ممکنہ حل میں سے ایک بناتا ہے۔ یہ بھی معنی خیز ہے کیونکہ ہم پہلے سے ہی عام تقسیم شدہ کمپیوٹنگ سسٹم جیسے کلاؤڈ اور ایج کمپیوٹنگ استعمال کر رہے ہیں۔ یہ انٹرنیٹ پر بڑے لینگویج ماڈلز کا اندازہ لگانے اور فائن ٹیوننگ کے مقصد سے متعدد صارفین کے درمیان تعاون کی سہولت فراہم کرتا ہے۔ تقسیم شدہ نیٹ ورک میں حصہ لینے والے سرور، کلائنٹ، یا دونوں کا کردار سنبھال سکتے ہیں۔ ایک سرور ماڈل پرتوں کے ذیلی سیٹ کی میزبانی کرنے، عام طور پر ٹرانسفارمر بلاکس، اور کلائنٹس کی درخواستوں کا انتظام کرنے کا ذمہ دار ہے۔ کلائنٹ، بدلے میں، پورے ماڈل کا اندازہ لگانے کے لیے پائپ لائن متوازی لگاتار سرورز کی ایک زنجیر بنا سکتے ہیں۔ اندازہ سے ہٹ کر، کوئی بھی پیرامیٹر سے موثر تربیتی طریقوں جیسے اڈاپٹر، یا پوری تہوں کو تربیت دے کر فائن ٹیوننگ کی سرگرمیوں میں مشغول ہو سکتا ہے۔ تربیت یافتہ ذیلی ماڈیولز کو ایک ماڈل ہب پر شیئر کیا جا سکتا ہے، جہاں دوسرے ان کا اندازہ لگانے یا مزید تربیت کے لیے فائدہ اٹھا سکتے ہیں۔ یہ اس باہمی تعاون کی ترتیب میں موجودہ 100B+ ماڈلز کی موثر عمل آوری کو ظاہر کرتا ہے، جس میں متعدد اصلاحوں جیسے کہ متحرک کوانٹائزیشن، کم لیٹنسی کنکشنز کو ترجیح دینا، اور سرورز کے درمیان بوجھ میں توازن شامل ہے۔ اس پر ذرا تفصیل سے بات کرتے ہیں۔

ڈیزائن اور تکنیکی جائزہ

بڑے لینگویج ماڈلز کی عملی ایپلی کیشنز کو بڑے پیمانے پر دو اہم منظرناموں میں درجہ بندی کیا جا سکتا ہے: بہاوی کاموں کے لیے تخمینہ اور پیرامیٹر کی موثر موافقت۔ میں تقسیم شدہ نیٹ ورک کے ڈیزائن کا خاکہ پیش کرنے کی کوشش کروں گا، یہ واضح کرتے ہوئے کہ یہ کس طرح دونوں منظرناموں کو مؤثر طریقے سے منظم کرتا ہے اور سسٹم کے صارفین کے درمیان تربیت یافتہ اڈاپٹرز کی ہموار اشتراک کو آسان بناتا ہے۔

  • بلین اسکیل ماڈلز کا اندازہ: ٹوکن جنریشن کے عمل میں، ایک کلائنٹ مقامی طور پر ماڈل کے ٹوکن ایمبیڈنگز کو اسٹور کرتا ہے، عام طور پر کل پیرامیٹر کی گنتی کا ایک چھوٹا سا حصہ ہوتا ہے اور زیادہ تر جدید لیپ ٹاپس، سرورز اور ورک سٹیشنز کی RAM میں آرام سے فٹ ہوجاتا ہے۔ کلائنٹ ٹرانسفارمر بلاکس کو انجام دینے کے لیے سرورز پر انحصار کرتا ہے، ہر سرور کے ساتھ لگاتار کئی بلاکس کی میزبانی ہوتی ہے، جن کی تعداد کا تعین دستیاب GPU میموری سے ہوتا ہے۔ ہر انفرنس سیشن سے پہلے، کلائنٹ سرورز کا ایک سلسلہ قائم کرتا ہے جو اجتماعی طور پر تمام ماڈل لیئرز کو گھیرے ہوئے ہے۔ فعال سیشن کے دوران، کلائنٹ پریفکس ٹوکنز کے لیے ایمبیڈنگ ویکٹرز کو بازیافت کرنے کے لیے مقامی ایمبیڈنگ لیئر کا استعمال کرتا ہے، ان ویکٹرز کو سرورز میں منتقل کرتا ہے اور تازہ ترین نمائندگی حاصل کرتا ہے۔ حتمی بلاک کے آؤٹ پٹ حاصل کرنے کے بعد، کلائنٹ اگلے ٹوکن امکانات کا حساب لگاتا ہے اور اس عمل کے ذریعے اعادہ کرتا ہے۔ سرورز بعد کے انفرنس کے مراحل کے لیے ماضی کے کلائنٹ کے ان پٹس سے توجہ کی کلیدیں اور اقدار کو برقرار رکھتے ہیں، اور اگر کوئی سرور ناکام ہو جاتا ہے یا آف لائن ہو جاتا ہے تو کلائنٹ ماضی کے ان پٹس کو ہر سرور میں محفوظ کرتے ہیں۔
  • ڈاؤن اسٹریم ٹاسکس کے لیے تربیت: اگرچہ بڑی زبان کے ماڈلز (LLMs) سادہ پرامپٹ انجینئرنگ کے ساتھ بہت سے مسائل پر سبقت لے جاتے ہیں، لیکن زیادہ سے زیادہ نتائج حاصل کرنے کے لیے اکثر تربیت کی ضرورت ہوتی ہے۔ روایتی فائن ٹیوننگ کی حکمت عملی، جس میں ڈاؤن اسٹریم ٹاسک کے لیے ماڈل کے تمام پیرامیٹرز کو اپ ڈیٹ کرنا شامل ہے، وسیع ہارڈ ویئر کی ضروریات کی وجہ سے بہت بڑے ماڈلز کے لیے ناقابل عمل ہو جاتے ہیں۔ مثال کے طور پر، فائن ٹیوننگ BLOOM-176B تقریباً 3 TB GPU میموری کا تقاضہ کرے گا تاکہ ماڈل، گریڈیئنٹس، اور آپٹیمائزر سٹیٹس کو ایڈجسٹ کیا جا سکے۔ اس چیلنج سے نمٹنے کے لیے، این ایل پی کمیونٹی نے پیرامیٹر کے لحاظ سے فائن ٹیوننگ کے طریقے وضع کیے ہیں جو زیادہ تر پہلے سے تربیت یافتہ ماڈل پیرامیٹرز کو محفوظ رکھتے ہیں۔ کچھ نقطہ نظر موجودہ پیرامیٹرز کے ذیلی سیٹ کو منتخب کرتے ہیں، جبکہ دیگر اضافی تربیت کے قابل وزن کے ساتھ ماڈل کو بڑھاتے ہیں۔ کم میموری کی ضروریات کے باوجود، یہ پیرامیٹر موثر انداز اکثر مکمل ماڈل فائن ٹیوننگ کے ساتھ سازگار مقابلہ کرتے ہیں اور کم ڈیٹا والے منظرناموں میں اسے پیچھے چھوڑ سکتے ہیں۔
  • تقسیم شدہ فائن ٹیوننگ: تقسیم شدہ نیٹ ورک میں فائن ٹیوننگ کے پیچھے بنیادی خیال یہ ہے کہ کلائنٹ تربیت یافتہ پیرامیٹرز کے مالک ہوتے ہیں، جبکہ سرورز اصل پہلے سے تیار شدہ تہوں کی میزبانی کرتے ہیں۔ سرورز اپنی تہوں کے ذریعے بیک پروپیگیشن چلا سکتے ہیں، ایکٹیویشن سے متعلق گریڈینٹ واپس کر سکتے ہیں، لیکن وہ سرور سائیڈ پیرامیٹرز کو اپ ڈیٹ نہیں کرتے ہیں۔ یہ کلائنٹس کو بغیر کسی مداخلت کے سرورز کے ایک ہی سیٹ پر مختلف تربیتی کاموں کو بیک وقت انجام دینے کی اجازت دیتا ہے۔

اندرونی ساخت اور اصلاح

تقسیم شدہ تخمینہ کے لیے کارکردگی کے تحفظات سب سے اہم ہیں، جن میں تین اہم پہلو شامل ہیں: حساب کی رفتار (5 سالہ گیمنگ GPU کا ایک نئے ڈیٹا سینٹر GPU سے موازنہ کرنا)، نوڈ کے فاصلے کی وجہ سے مواصلت میں تاخیر (بین البراعظمی بمقابلہ مقامی)، اور بینڈوتھ کی حوصلہ افزائی مواصلات میں تاخیر (10 Mbit/s بمقابلہ 10 Gbit/s)۔ یہاں تک کہ صارف کے درجے کے GPUs جیسے GeForce RTX 3070 ایک سیکنڈ سے بھی کم وقت میں BLOOM-176B کے مکمل تخمینے کے مرحلے کو انجام دینے کی صلاحیت پر فخر کرتے ہیں، چیلنج GPU میموری کی رکاوٹوں میں ہے، جس کے لیے موثر حل کی ضرورت ہے۔ اس کو حل کرنے کا ایک طریقہ یہ ہے کہ آپٹمائزڈ پیرامیٹر سٹوریج کے لیے کوانٹائزیشن اور بہتر مواصلاتی رفتار کے لیے متحرک سرور کی ترجیحات کا استعمال کرنا ہے۔

  • کنزیومر GPUs کا استعمال: اس حقیقت کو مدنظر رکھتے ہوئے کہ ہر سرور کے پاس کم از کم 16 GB CPU RAM اور 8 GB GPU میموری ہے، بنیادی مقصد ماڈل کے میموری فوٹ پرنٹ کو کم سے کم کرنا ہے، ہر ڈیوائس کو مزید ٹرانسفارمر بلاکس کو ایڈجسٹ کرنے کے قابل بنانا ہے۔ 176B پیرامیٹرز کے ساتھ BLOOM کے لیے، 352-بٹ درستگی میں 16 GB GPU میموری کی ضرورت ہوتی ہے، ہم اسے متحرک بلاک وائز کوانٹائزیشن کے ذریعے چھپی ہوئی حالتوں کو کمپریس کر کے اور مخلوط میٹرکس ڈکمپوزیشن کا استعمال کرتے ہوئے وزن کو 8-بٹ درستگی تک کم کر کے بہتر بنا سکتے ہیں۔ اس کے نتیجے میں نوڈس کی مطلوبہ تعداد میں خاطر خواہ کمی واقع ہوتی ہے، مؤثر طریقے سے تاخیر کو آدھا کر دیتا ہے اور ناکامی کے امکانات کو کم کرتا ہے۔
  • دبانے والا مواصلات بفر:
    ہم پائپ لائن متوازی مواصلات سے پہلے پوشیدہ ریاستوں پر ڈائنامک بلاک وائز کوانٹائزیشن کا استعمال کر سکتے ہیں، جنریشن کے معیار پر سمجھوتہ کیے بغیر بینڈوتھ کی ضروریات کو آدھا کر سکتے ہیں۔ 
  • کمپریسنگ ماڈل وزن: میٹرکس ضرب کے لیے 8 بٹ مکسڈ میٹرکس ڈیکمپوزیشن کا استعمال، معیار کی قربانی کے بغیر میموری کے نقش کو تقریباً نصف تک کم کر دیتا ہے۔
  • انٹرنیٹ پر تعاون: نوڈس میں شامل ہونے، چھوڑنے، یا ناکام ہونے کے باوجود قابل اعتماد اندازہ اور تربیت کو یقینی بنانے کے لیے۔ ہم ڈی سینٹرلائزڈ ٹریننگ اور سرورز اور کلائنٹس کے لیے حسب ضرورت غلطی برداشت کرنے والے پروٹوکول کے لیے ہائی مائنڈ لائبریری کا استعمال کر سکتے ہیں۔

ڈیموکریٹائزیشن اور رازداری کے خدشات

ہم GPU وسائل (سرورز) فراہم کرنے والے ساتھیوں اور ان سرورز کو انفرنس یا فائن ٹیوننگ کے لیے استعمال کرنے والوں کے درمیان ممکنہ عدم توازن کو دور کرنے کے لیے بلاکچین سے تحریک لے سکتے ہیں۔ اس سے نمٹنے کے لیے مراعات کا نظام نافذ کیا جا سکتا ہے۔ سرور چلانے والے ساتھی خصوصی پوائنٹس حاصل کر سکتے ہیں، جو اعلی ترجیحی تخمینہ اور فائن ٹیوننگ یا دیگر انعامات کے لیے قابل تلافی ہو سکتے ہیں۔ اس نقطہ نظر کا مقصد فعال شرکت کی حوصلہ افزائی کرنا اور ایک متوازن نیٹ ورک کو برقرار رکھنا ہے۔ ہمارے موجودہ نقطہ نظر کی ایک تسلیم شدہ حد ممکنہ رازداری کی تشویش ہے جہاں ماڈل کی ابتدائی تہوں کی خدمت کرنے والے ساتھی ان پٹ ٹوکنز کی بازیافت کے لیے ان پٹ کا فائدہ اٹھا سکتے ہیں۔ اس سے نمٹنے کا ایک طریقہ یہ ہے کہ حساس ڈیٹا کو سنبھالنے والے صارفین کو مشورہ دیا جاتا ہے کہ وہ اپنے کلائنٹس کو قابل اعتماد سرورز تک محدود رکھیں یا اپنا الگ تھلگ بھیڑ قائم کریں۔ اگرچہ ہم NVIDIA سے پرائیویسی بڑھانے والی ٹیکنالوجیز جیسے کہ محفوظ ملٹی پارٹی کمپیوٹنگ یا پرائیویسی کو محفوظ رکھنے والے ہارڈ ویئر کو تلاش کر سکتے ہیں۔

نتیجہ

اس بلاگ کے ذریعے میرا مقصد AI کے لیے ڈسٹری بیوٹڈ کمپیوٹنگ پر اپنا نقطہ نظر متعارف کرانا ہے اور یہ بتانا ہے کہ اس کی ضرورت کیوں ہے اور اس کو نافذ کرنے کے لیے ایک ممکنہ نقطہ نظر پر ایک مختصر تکنیکی جائزہ۔ میں اس کو نافذ کرنے کے لیے نئے آئیڈیاز پر بات کرنے کے لیے کھلا ہوں۔ اس حقیقت کو مدنظر رکھتے ہوئے کہ آنے والے سالوں میں مالیاتی شعبے میں AI کا بڑے پیمانے پر اطلاق ہوگا، ہمیں یہ سوچنا شروع کرنا ہوگا کہ ہم نئے وسائل بنانے سے پہلے موجودہ وسائل کو کس طرح بہتر طریقے سے استعمال کرسکتے ہیں۔ دوسرا مقصد بڑے زبان کے ماڈلز تک رسائی کو جمہوری بنانا ہے، جس سے ایپلیکیشنز، مطالعات، اور تحقیقی سوالات کی ایک وسیع رینج کو قابل بنایا جائے جو پہلے چیلنجنگ یا لاگت سے ممنوع تھے۔

 

ٹائم اسٹیمپ:

سے زیادہ فن ٹیکسٹرا