میٹا نے تیسری نسل کے لاما کے بڑے لینگویج ماڈل کا آغاز کیا۔

میٹا نے تیسری نسل کے لاما کے بڑے لینگویج ماڈل کا آغاز کیا۔

میٹا نے اپنا تازہ ترین لارج لینگوئج ماڈل (LLM) جاری کیا ہے - جس کا نام Llama 3 ہے - اور دعویٰ کرتا ہے کہ یہ گوگل، Mistral، اور Anthropic جیسے بڑے ماڈلز کو چیلنج کرے گا۔

ایک لمبے لمبے انداز میں انکشاف ہوا۔ اعلان جمعرات کو، Llama 3 آٹھ بلین سے لے کر 400 بلین پیرامیٹرز تک کے ورژن میں دستیاب ہے۔ حوالہ کے لیے، OpenAI اور گوگل کے سب سے بڑے ماڈل دو ٹریلین پیرامیٹرز کے قریب ہیں۔

ابھی کے لیے، ہم صرف Llama 3 کے آٹھ ارب اور 70 بلین پیرامیٹر ٹیکسٹ ویریئنٹس تک رسائی حاصل کر رہے ہیں۔ میٹا نے ابھی تک اپنے سب سے بڑے اور سب سے پیچیدہ ماڈلز کی تربیت نہیں کی ہے، لیکن اشارہ کرتا ہے کہ وہ کثیر لسانی اور ملٹی موڈل ہوں گے - مطلب کہ وہ متعدد چھوٹے ڈومین کے لیے موزوں ماڈلز سے جمع کیے گئے ہیں۔

یہاں تک کہ محض 70 بلین پیرامیٹرز کے ساتھ، میٹا کا دعویٰ ہے کہ لاما 3 بہت بڑے ماڈلز کے ساتھ پیر سے پیر تک جانے کی صلاحیت سے کہیں زیادہ ہے۔

میٹا کا دعویٰ ہے کہ Llama3-8B اور 70B بہت بڑے ماڈلز کو پیچھے چھوڑ سکتے ہیں جن میں Gemini Pro اور Antrhopic's Claude 3 شامل ہیں۔

میٹا کا دعویٰ ہے کہ Llama3-8B اور 70B بہت بڑے ماڈلز کو پیچھے چھوڑ سکتے ہیں جن میں Gemini Pro اور Antrhopic's Claude 3 - بڑا کرنے کے لیے کلک کریں

بہتر ڈیٹا، بہتر ماڈل

میٹا کے مطابق، سب سے بڑا فائدہ ٹوکنائزر کے استعمال سے حاصل ہوتا ہے جس کی ذخیرہ الفاظ 128,000 ٹوکن ہیں۔ LLMs کے تناظر میں، ٹوکنز چند حروف، پورے الفاظ، یا یہاں تک کہ جملے بھی ہو سکتے ہیں۔ AIs انسانی ان پٹ کو ٹوکنز میں توڑ دیتے ہیں، پھر آؤٹ پٹ پیدا کرنے کے لیے اپنے ٹوکن کے الفاظ استعمال کرتے ہیں۔

میٹا نے وضاحت کی کہ اس کا ٹوکنائزر زبان کو زیادہ مؤثر طریقے سے انکوڈ کرنے میں مدد کرتا ہے، جس سے کارکردگی میں نمایاں اضافہ ہوتا ہے۔ ماڈل کی کارکردگی اور مجموعی درستگی کو بہتر بنانے کے لیے تربیت کے بعد اعلیٰ معیار کے ڈیٹاسیٹس اور اضافی فائن ٹیوننگ اقدامات کے ذریعے اضافی فوائد حاصل کیے گئے۔

خاص طور پر، میٹا نے انکشاف کیا کہ لاما 3 کو عوامی طور پر دستیاب ذرائع سے جمع کیے گئے 15 ٹریلین سے زیادہ ٹوکنز پر پہلے سے تربیت دی گئی تھی۔

Llama 3 کا تربیتی ڈیٹا سیٹ سات گنا سے زیادہ بڑا ہے اور اس میں Llama 2 سے چار گنا زیادہ کوڈ ہے، جو شروع صرف نو مہینے پہلے. لیکن، جیسا کہ کہاوت ہے، "کچرا اندر، کچرا باہر" - لہذا میٹا کا دعویٰ ہے کہ اس نے ڈیٹا فلٹرنگ پائپ لائنوں کا ایک سلسلہ تیار کیا تاکہ یہ یقینی بنایا جا سکے کہ لاما 3 کو ممکنہ حد تک کم بری معلومات پر تربیت دی گئی تھی۔

ان کوالٹی کنٹرولز میں ہیورسٹک اور NSFW فلٹرز کے ساتھ ساتھ ڈیٹا ڈپلیکیشن، اور ٹیکسٹ کلاسیفائر شامل تھے جو تربیت سے پہلے معلومات کے معیار کی پیش گوئی کرنے کے لیے استعمال ہوتے تھے۔ میٹا نے یہاں تک کہ اپنے پرانے لاما 2 ماڈل کا استعمال کیا - جس کے بارے میں اس نے کہا کہ "حیرت انگیز طور پر اعلی معیار کے ڈیٹا کی نشاندہی کرنے میں اچھا ہے" - تاکہ گندم کو بھوسے سے الگ کرنے میں مدد ملے۔

تربیتی اعداد و شمار کا پانچ فیصد 30 سے ​​زائد زبانوں سے آیا ہے، جس کی Meta نے پیش گوئی کی ہے کہ مستقبل میں ماڈل میں کثیر لسانی صلاحیتوں کو لانے میں مدد ملے گی۔ ابھی کے لیے، سوشل نیٹ ورک ™️ کا کہنا ہے کہ صارفین کو انگریزی کے علاوہ دوسری زبانوں میں اسی درجے کی کارکردگی کی توقع نہیں رکھنی چاہیے۔

اتنے بڑے ڈیٹاسیٹ پر چھوٹے ماڈلز کو تربیت دینا عام طور پر کمپیوٹنگ کے وقت کا ضیاع سمجھا جاتا ہے، اور یہاں تک کہ درستگی میں کم ہونے والی واپسی بھی۔ وسائل کی گنتی کے لیے تربیتی ڈیٹا کے مثالی مرکب کو کہا جاتا ہے "چنچیلا بہترین" [پی ڈی ایف] رقم۔ میٹا کے مطابق، Llama3-8B جیسے آٹھ بلین پیرامیٹر ماڈل کے لیے، یہ تقریباً 200 بلین ٹوکنز ہوں گے۔

تاہم، جانچ میں، میٹا نے پایا کہ Llama 3 کی کارکردگی بہتر ہوتی رہی یہاں تک کہ بڑے ڈیٹا سیٹس پر تربیت دی جاتی ہے۔ "ہمارے آٹھ ارب اور ہمارے 70 بلین پیرامیٹر ماڈلز نے 15 ٹریلین تک کے ٹوکنز پر تربیت دینے کے بعد لاگ لائن میں بہتری جاری رکھی،" بز نے لکھا۔

نتیجہ، ایسا لگتا ہے، ایک نسبتاً کمپیکٹ ماڈل ہے جو بہت بڑے ماڈلز کے مقابلے میں نتائج پیدا کرنے کے قابل ہے۔ کمپیوٹ میں تجارت کو ممکنہ طور پر قابل قدر سمجھا گیا تھا، کیونکہ چھوٹے ماڈل عام طور پر اندازہ لگانا آسان ہوتے ہیں اور اس طرح پیمانے پر تعینات کرنا آسان ہوتا ہے۔

8 بٹ درستگی پر، آٹھ بلین پیرامیٹر ماڈل کے لیے صرف 8 جی بی میموری کی ضرورت ہوتی ہے۔ 4 بٹ درستگی پر چھوڑنا - یا تو اس کی حمایت کرنے والے ہارڈ ویئر کا استعمال کرنا یا ماڈل کو کمپریس کرنے کے لیے کوانٹائزیشن کا استعمال کرنا - میموری کی ضروریات کو تقریباً نصف کر دے گا۔

میٹا نے ماڈل کو کمپیوٹ کلسٹرز کے ایک جوڑے پر تربیت دی جس میں ہر ایک 24,000 Nvidia GPUs پر مشتمل ہے۔ جیسا کہ آپ تصور کر سکتے ہیں، اتنے بڑے کلسٹر پر ٹریننگ، تیز ہونے کے ساتھ ساتھ، کچھ چیلنجز کو بھی متعارف کراتی ہے – ٹریننگ کے دوران کسی چیز کے ناکام ہونے کا امکان بڑھ جاتا ہے۔

اس کو کم کرنے کے لیے، میٹا نے وضاحت کی کہ اس نے ایک تربیتی اسٹیک تیار کیا ہے جو غلطی کا پتہ لگانے، ہینڈلنگ اور دیکھ بھال کو خودکار کرتا ہے۔ ہائپر اسکیلر نے چیک پوائنٹ کے اوور ہیڈ کو کم کرنے کے لیے ناکامی کی نگرانی اور سٹوریج کے نظام کو بھی شامل کیا ہے اور اگر ٹریننگ میں خلل پڑتا ہے تو رول بیک۔ اور ایک بار مکمل ہونے کے بعد، میٹا نے ماڈلز کو پوسٹ ٹریننگ ٹیسٹنگ اور فائن ٹیوننگ کے مراحل سے مشروط کیا۔

Llama3-8B اور 70B کے ساتھ ساتھ، Meta نے نئے اور اپ ڈیٹ کردہ اعتماد اور حفاظتی ٹولز کو بھی متعارف کرایا - بشمول Llama Guard 2 اور Cybersec Eval 2، صارفین کو ماڈل کو غلط استعمال اور/یا فوری انجیکشن حملوں سے بچانے میں مدد کرنے کے لیے۔ کوڈ شیلڈ ایک اور اضافہ ہے جو Llama 3 کے ذریعے تیار کردہ غیر محفوظ کوڈ کو فلٹر کرنے میں مدد کے لیے ڈیزائن کردہ گارڈریلز فراہم کرتا ہے۔

جیسا کہ ہم نے پہلے اطلاع دی ہے، LLM کی مدد سے کوڈ جنریشن نے کچھ دلچسپ بنا دیا ہے۔ حملہ ویکٹر جس سے میٹا بچنا چاہتا ہے۔

دستیابی

اگلے چند مہینوں میں، میٹا اضافی ماڈلز متعارف کرانے کا ارادہ رکھتا ہے - بشمول ایک 400 بلین پیرامیٹرز سے زیادہ اور اضافی فعالیت، زبانوں، اور بڑے سیاق و سباق کی ونڈوز کو سپورٹ کرنا۔ مؤخر الذکر صارفین کو بڑے، زیادہ پیچیدہ سوالات پوچھنے کی اجازت دے گا - جیسے متن کے ایک بڑے بلاک کا خلاصہ۔

Llama3-8B اور 70B فی الحال Meta's سے ڈاؤن لوڈ کے لیے دستیاب ہیں۔ ویب سائٹ. Amazon Web Services، Microsoft Azure، Google Cloud، Hugging Face، اور دیگر بھی اپنے پلیٹ فارمز پر تعیناتی کے لیے ماڈل پیش کرنے کا ارادہ رکھتے ہیں۔

اگر آپ اپنی مشین پر Llama3 کی جانچ کرنا چاہتے ہیں، تو آپ مقامی LLMs چلانے سے متعلق ہماری گائیڈ کو دیکھ سکتے ہیں۔ یہاں. ایک بار جب آپ اسے انسٹال کر لیتے ہیں، تو آپ اسے چلا کر لانچ کر سکتے ہیں:

ollama run llama3

مزہ کریں اور ہمیں بتائیں کہ یہ کیسا رہا۔ ®

ٹائم اسٹیمپ:

سے زیادہ رجسٹر