AWS PlatoBlockchain ڈیٹا انٹیلی جنس پر MosaicML کمپوزر کے ساتھ گہری سیکھنے کی تربیت کے وقت اور لاگت کو کم کریں۔ عمودی تلاش۔ عی

AWS پر MosaicML کمپوزر کے ساتھ گہری سیکھنے کی تربیت کے وقت اور لاگت کو کم کریں۔

گزشتہ دہائی میں، ہم نے دیکھا ہے گہری سیکھنے (DL) سائنس کو AWS صارفین نے زبردست رفتار سے اپنایا. DL ماڈلز کے بہت زیادہ اور مشترکہ طور پر تربیت یافتہ پیرامیٹرز میں بہت زیادہ نمائندگی کی صلاحیت ہے جس نے صارفین کے استعمال کے متعدد معاملات میں بہتری لائی ہے، بشمول تصویر اور تقریر کا تجزیہ، قدرتی زبان کی پروسیسنگ (NLP)، ٹائم سیریز پروسیسنگ، اور بہت کچھ۔ اس پوسٹ میں، ہم ڈی ایل ٹریننگ میں عام طور پر رپورٹ ہونے والے چیلنجوں کو نمایاں کرتے ہیں، اور اوپن سورس لائبریری کیسے موزیک ایم ایل کمپوزر ان کو حل کرنے میں مدد کرتا ہے۔

ڈی ایل ٹریننگ کے ساتھ چیلنج

ڈی ایل ماڈلز کو بار بار تربیت دی جاتی ہے، لوپ کے لیے نیسٹڈ میں۔ ایک لوپ ٹریننگ ڈیٹاسیٹ ٹکڑا کے ذریعے ٹکڑا کرتا ہے اور، اگر ضروری ہو تو، اس لوپ کو پورے ڈیٹاسیٹ پر کئی بار دہرایا جاتا ہے۔ DL ٹریننگ پر کام کرنے والے ML پریکٹیشنرز کو کئی چیلنجوں کا سامنا کرنا پڑتا ہے:

  • تربیت کا دورانیہ ڈیٹا کے سائز کے ساتھ بڑھتا ہے۔ مستقل طور پر بڑھتے ہوئے ڈیٹاسیٹس کے ساتھ، تربیت کے اوقات اور اخراجات بھی بڑھتے ہیں، اور سائنسی دریافت کی رفتار سست پڑ جاتی ہے۔
  • ڈی ایل اسکرپٹ کو اکثر بوائلر پلیٹ کوڈ کی ضرورت ہوتی ہے، خاص طور پر لوپ سٹرکچر کے لیے مذکورہ بالا ڈبل ​​جو ڈیٹاسیٹ کو منی بیچز میں تقسیم کرتا ہے اور ٹریننگ کو عہدوں میں تقسیم کرتا ہے۔
  • انتخاب کا تضاد: متعدد تربیتی اصلاحی مقالے اور لائبریریاں شائع کی گئی ہیں، پھر بھی یہ واضح نہیں ہے کہ پہلے کس کی جانچ کی جائے، اور ان کے اثرات کو کیسے یکجا کیا جائے۔

پچھلے کچھ سالوں میں، کئی اوپن سورس لائبریریاں جیسے کیراس, پائی ٹارچ لائٹننگ, گلے لگانا چہرہ ٹرانسفارمرز، اور رے ٹرین DL ٹریننگ کو مزید قابل رسائی بنانے کی کوشش کر رہے ہیں، خاص طور پر کوڈ کی وربوسٹی کو کم کر کے، اس طرح یہ آسان بنا کر کہ عصبی نیٹ ورک کس طرح پروگرام کیے جاتے ہیں۔ ان میں سے زیادہ تر لائبریریوں نے ڈویلپر کے تجربے اور کوڈ کی مطابقت پر توجہ مرکوز کی ہے۔

اس پوسٹ میں، ہم ایک نئی اوپن سورس لائبریری پیش کرتے ہیں جو DL ٹریننگ پر ایک مختلف موقف اختیار کرتی ہے: موزیک ایم ایل کمپوزر ایک سپیڈ سنٹرک لائبریری ہے جس کا بنیادی مقصد الگورتھمک جدت کے ذریعے نیورل نیٹ ورک ٹریننگ اسکرپٹ کو تیز تر بنانا ہے۔ کلاؤڈ ڈی ایل کی دنیا میں، رفتار پر توجہ مرکوز کرنا دانشمندی ہے، کیونکہ کمپیوٹ انفراسٹرکچر کو اکثر فی استعمال ادا کیا جاتا ہے — یہاں تک کہ دوسرے نمبر پر بھی ایمیزون سیج میکر ٹریننگاور رفتار میں بہتری پیسے کی بچت میں بدل سکتی ہے۔

تاریخی طور پر، DL ٹریننگ کو تیز کرنا زیادہ تر متوازی طور پر کمپیوٹنگ ماڈل کی تکرار مشینوں کی تعداد میں اضافہ کر کے کیا جاتا ہے، جسے ایک تکنیک کہا جاتا ہے۔ ڈیٹا متوازی. اگرچہ اعداد و شمار کی ہم آہنگی بعض اوقات تربیت کو تیز کرتی ہے (اس کی ضمانت نہیں ہے کیونکہ یہ کنورجنسی کو پریشان کرتا ہے، جیسا کہ اس میں روشنی ڈالی گئی ہے گوئل وغیرہ۔)، یہ کام کی مجموعی لاگت کو کم نہیں کرتا ہے۔ عملی طور پر، یہ انٹر مشین کمیونیکیشن اوور ہیڈ اور زیادہ مشین یونٹ لاگت کی وجہ سے اس میں اضافہ کرتا ہے، کیونکہ تقسیم شدہ DL مشینیں اعلی درجے کی نیٹ ورکنگ اور ان سرور GPU انٹرکنیکٹ سے لیس ہوتی ہیں۔

اگرچہ MosaicML کمپوزر ڈیٹا کے ہم آہنگی کی حمایت کرتا ہے، لیکن اس کا بنیادی فلسفہ ڈیٹا کے متوازی تحریک سے مختلف ہے۔ اس کا مقصد سائنس کے نفاذ کی سطح پر جدت لا کر مزید مشینوں کی ضرورت کے بغیر تربیت کو تیز کرنا ہے۔ لہذا، اس کا مقصد وقت کی بچت کو حاصل کرنا ہے جس کے نتیجے میں AWS کی ادائیگی فی استعمال فیس کے ڈھانچے کی وجہ سے لاگت کی بچت ہوگی۔

اوپن سورس لائبریری MosaicML Composer کا تعارف

MosaicML کمپوزر ایک اوپن سورس DL ٹریننگ لائبریری ہے جس کا مقصد جدید ترین الگورتھم لانے اور انہیں نئی ​​ترکیبوں میں ترتیب دینے کے لیے بنایا گیا ہے جو ماڈل ٹریننگ کو تیز کرتی ہے اور ماڈل کے معیار کو بہتر بنانے میں مدد کرتی ہے۔ اس تحریر کے وقت، یہ PyTorch کو سپورٹ کرتا ہے اور اس میں 25 تکنیکیں شامل ہیں جنہیں کہتے ہیں۔ طریقوں MosaicML دنیا میں—معیاری ماڈلز، ڈیٹا سیٹس، اور بینچ مارکس کے ساتھ

کمپوزر ہے۔ pip کے ذریعے دستیاب ہے۔:

pip install mosaicml

کمپوزر میں لاگو سپیڈ اپ تکنیکوں تک اس کے فعال API کے ساتھ رسائی حاصل کی جا سکتی ہے۔ مثال کے طور پر، مندرجہ ذیل ٹکڑا لاگو ہوتا ہے۔ بلر پول TorchVision ResNet کی تکنیک:

import logging

from composer import functional as CF
import torchvision.models as models
logging.basicConfig(level=logging.INFO)

model = models.resnet50()
CF.apply_blurpool(model)

اختیاری طور پر، آپ بھی استعمال کر سکتے ہیں a ٹرینر اپنی تکنیکوں کا اپنا مجموعہ ترتیب دینے کے لیے:

from composer import Trainer
from composer.algorithms import LabelSmoothing, CutMix, ChannelsLast

trainer = Trainer(
    model=.. # must be a composer.ComposerModel
    train_dataloader=...,
    max_duration="2ep",  # can be a time, a number of epochs or batches
    algorithms=[
        LabelSmoothing(smoothing=0.1),
        CutMix(alpha=1.0),
        ChannelsLast(),
    ]
)

trainer.fit()

کمپوزر میں لاگو کیے گئے طریقوں کی مثالیں۔

کمپوزر میں دستیاب کچھ طریقے کمپیوٹر ویژن کے لیے مخصوص ہیں، مثال کے طور پر امیج کو بڑھانے کی تکنیک کول آؤٹ, کاٹ، یا پروگریسو امیج کا سائز تبدیل کرنا. دوسرے ترتیب ماڈلنگ کے لیے مخصوص ہیں، جیسے تسلسل کی لمبائی وارم اپ or علی بی. دلچسپ بات یہ ہے کہ بہت سے استعمال کے معاملے میں نادانستہ ہیں اور کمپیوٹر ویژن اور این ایل پی سے آگے مختلف قسم کے PyTorch نیورل نیٹ ورکس پر لاگو کیے جا سکتے ہیں۔ وہ عمومی عصبی نیٹ ورک ٹریننگ ایکسلریشن کے طریقے شامل ہیں۔ لیبل ہموار کرنا, سلیکٹیو بیک پروپ, اسٹاکسٹک وزن کا اوسط, پرت جمنا، اور تیز رفتار آگاہی کم سے کم (SAM).

آئیے ان میں سے کچھ کی گہرائی میں غوطہ لگائیں جو MosaicML ٹیم کے ذریعہ خاص طور پر موثر پائے گئے:

  • تیز رفتار آگاہی کم سے کم (SAM) ہر ایک اصلاحی مرحلے کے لیے دو بار گریڈینٹ کمپیوٹنگ کر کے ماڈل کے نقصان کے فنکشن اور اس کی نفاست دونوں کو کم کرنے کے مقابلے میں ایک اصلاح کار ہے۔ تھرو پٹ کو جرمانہ کرنے کے لیے اضافی کمپیوٹ کو محدود کرنے کے لیے، SAM کو وقفے وقفے سے چلایا جا سکتا ہے۔
  • لکیری تعصبات (ALiBi) کے ساتھ توجہ، کی طرف سے حوصلہ افزائی پریس وغیرہ۔، ٹرانسفارمرز ماڈلز کے لیے مخصوص ہے۔ یہ پوزیشنی ایمبیڈنگز کی ضرورت کو دور کرتا ہے، ان کی جگہ توجہ کے وزن کے لیے غیر سیکھے ہوئے تعصب سے۔
  • سلیکٹیو بیک پروپ، کی طرف سے حوصلہ افزائی جیانگ وغیرہ۔، آپ کو بیک پروپیگیشن چلانے کی اجازت دیتا ہے (وہ الگورتھم جو ماڈل کے وزن کو اس کی خرابی کی ڈھلوان پر عمل کرتے ہوئے بہتر بناتے ہیں) صرف زیادہ نقصان کے فنکشن والے ریکارڈز پر۔ یہ طریقہ آپ کو غیر ضروری حساب سے بچنے میں مدد کرتا ہے اور تھرو پٹ کو بہتر بنانے میں مدد کرتا ہے۔

ان تکنیکوں کا ایک واحد کمپیکٹ ٹریننگ فریم ورک میں دستیاب ہونا ML پریکٹیشنرز کے لیے ایک اہم قدر ہے۔ جو چیز بھی قیمتی ہے وہ قابل عمل فیلڈ فیڈ بیک ہے جو MosaicML ٹیم ہر ایک تکنیک کے لیے تیار کرتی ہے، جانچ اور درجہ بندی کی جاتی ہے۔ تاہم، اتنے بھرپور ٹول باکس کو دیکھتے ہوئے، آپ سوچ سکتے ہیں: میں کون سا طریقہ استعمال کروں؟ کیا متعدد طریقوں کے استعمال کو یکجا کرنا محفوظ ہے؟ MosaicML Explorer درج کریں۔

MosaicML ایکسپلورر

DL ٹریننگ کے طریقوں کی قدر اور مطابقت کو درست کرنے کے لیے، MosaicML ٹیم برقرار رکھتی ہے۔ ایکسپلورر, اپنی نوعیت کا پہلا لائیو ڈیش بورڈ جو پانچ ڈیٹا سیٹس اور سات ماڈلز پر درجنوں DL تربیتی تجربات کی تصویر کشی کرتا ہے۔ ڈیش بورڈ کی تصویر ہے۔ pareto بہترین سرحد لاگت/وقت/کوالٹی ٹریڈ آف میں، اور آپ کو طریقوں کے ٹاپ اسکورنگ مجموعے کو براؤز کرنے اور تلاش کرنے کی اجازت دیتا ہے۔ آپ کی ترکیبیں MosaicML دنیا میں—ایک دیئے گئے ماڈل اور ڈیٹاسیٹ کے لیے۔ مثال کے طور پر، مندرجہ ذیل گراف دکھاتے ہیں کہ 125M پیرامیٹر GPT2 ٹریننگ کے لیے، 24.11 کی الجھن کو برقرار رکھنے والی سب سے سستی تربیت AliBi، Sequence Length Warmup، اور Scale Schedule کو ملا کر حاصل کی جاتی ہے، AWS Cloud میں تقریباً $145.83 کی لاگت تک پہنچ جاتی ہے! تاہم، براہ کرم نوٹ کریں کہ لاگت کا یہ حساب کتاب اور جو اس پوسٹ میں درج ہیں وہ صرف EC2 آن ڈیمانڈ کمپیوٹ پر مبنی ہیں، آپ کے ماحول اور کاروباری ضروریات کے لحاظ سے لاگت کے دیگر تحفظات لاگو ہوسکتے ہیں۔

GPT-2 ٹریننگ کے لیے MosaicML Explorer کا اسکرین شاٹ

AWS پر کمپوزر کے ساتھ قابل ذکر کامیابیاں

AWS پر کمپوزر لائبریری چلا کر، MosaicML ٹیم نے بہت سے متاثر کن نتائج حاصل کیے۔ نوٹ کریں کہ MosaicML ٹیم کی طرف سے بتائے گئے اخراجات کے تخمینے صرف آن ڈیمانڈ کمپیوٹ چارج پر مشتمل ہوتے ہیں۔

نتیجہ

آپ اپنے لیپ ٹاپ سے لے کر بڑے GPU سے لیس کلاؤڈ سرورز تک کسی بھی مطابقت پذیر پلیٹ فارم پر کمپوزر کے ساتھ شروعات کر سکتے ہیں۔ لائبریری کی خصوصیات بدیہی ہے۔ ویلکم ٹور اور شروع دستاویزات کے صفحات. AWS میں کمپوزر کا استعمال آپ کو AWS لاگت کی اصلاح کی خدمات اور پروگراموں کے ساتھ کمپوزر لاگت کی اصلاح کی سائنس کو جمع کرنے کی اجازت دیتا ہے، بشمول اسپاٹ کمپیوٹ (ایمیزون EC2, ایمیزون سیج میکر), بچت کا منصوبہ, سیج میکر خودکار ماڈل ٹیوننگ، اور مزید. MosaicML ٹیم ایک کو برقرار رکھتی ہے۔ سبق AWS پر کمپوزر کا۔ یہ ایک مرحلہ وار مظاہرہ فراہم کرتا ہے کہ آپ کس طرح MLPerf کے نتائج کو دوبارہ پیش کر سکتے ہیں اور ResNet-50 کو AWS پر صرف 76.6 منٹ میں معیاری 1% ٹاپ-27 درستگی تک تربیت دے سکتے ہیں۔

اگر آپ نیورل نیٹ ورکس کے ساتھ جدوجہد کر رہے ہیں جو بہت سست ٹریننگ کر رہے ہیں، یا اگر آپ اپنے DL ٹریننگ کے اخراجات کو کنٹرول میں رکھنا چاہتے ہیں، تو MosaicML کو AWS پر آزمائیں اور ہمیں بتائیں کہ آپ کیا بنا رہے ہیں!


مصنفین کے بارے میں

AWS PlatoBlockchain ڈیٹا انٹیلی جنس پر MosaicML کمپوزر کے ساتھ گہری سیکھنے کی تربیت کے وقت اور لاگت کو کم کریں۔ عمودی تلاش۔ عیبندیش شاہ MosaicML میں ایک انجینئرنگ مینیجر ہے، جو بڑے پیمانے پر تقسیم شدہ نظاموں اور کارکردگی کی کمپیوٹنگ کے ساتھ موثر گہری سیکھنے کے لیے کام کر رہا ہے۔ بندش کے پاس مشین لرننگ اور انٹرپرائز ایپلی کیشنز کے لیے ایک دہائی سے زیادہ کا تجربہ ہے۔ اسے دوستوں اور کنبہ کے ساتھ وقت گزارنے، کھانا پکانے اور سٹار ٹریک دیکھنے کا مزہ آتا ہے۔

AWS PlatoBlockchain ڈیٹا انٹیلی جنس پر MosaicML کمپوزر کے ساتھ گہری سیکھنے کی تربیت کے وقت اور لاگت کو کم کریں۔ عمودی تلاش۔ عیاولیور کروچنٹ فرانس میں مقیم AWS میں مشین لرننگ اسپیشلسٹ سولیوشن آرکیٹیکٹ ہے۔ Olivier AWS صارفین کی مدد کرتا ہے – چھوٹے سٹارٹ اپ سے لے کر بڑے اداروں تک – پروڈکشن گریڈ مشین لرننگ ایپلی کیشنز کو تیار اور تعینات کرتا ہے۔ اپنے فارغ وقت میں، وہ تحقیقی مقالے پڑھنے اور دوستوں اور خاندان کے ساتھ بیابانوں کی سیر کرنے سے لطف اندوز ہوتے ہیں۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ