AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে MosaicML কম্পোজারের সাথে গভীর শিক্ষার প্রশিক্ষণের সময় এবং খরচ কমিয়ে দিন। উল্লম্ব অনুসন্ধান. আ.

AWS-এ MosaicML কম্পোজারের সাথে গভীর শিক্ষার প্রশিক্ষণের সময় এবং খরচ কমিয়ে দিন

গত এক দশকে আমরা দেখেছি ডিপ লার্নিং (ডিএল) বিজ্ঞান AWS গ্রাহকদের দ্বারা একটি অসাধারণ গতিতে গৃহীত হয়েছে. DL মডেলের প্রচুর এবং যৌথভাবে প্রশিক্ষিত পরামিতিগুলির একটি বিশাল প্রতিনিধিত্বমূলক ক্ষমতা রয়েছে যা ইমেজ এবং বক্তৃতা বিশ্লেষণ, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP), টাইম সিরিজ প্রক্রিয়াকরণ এবং আরও অনেক কিছু সহ অসংখ্য গ্রাহক ব্যবহারের ক্ষেত্রে উন্নতি এনেছে। এই পোস্টে, আমরা DL প্রশিক্ষণে সাধারণত রিপোর্ট করা চ্যালেঞ্জগুলি এবং কীভাবে ওপেন-সোর্স লাইব্রেরি মোজাইকএমএল সুরকার তাদের সমাধান করতে সাহায্য করে।

ডিএল প্রশিক্ষণের সাথে চ্যালেঞ্জ

DL মডেলগুলিকে পুনরাবৃত্তভাবে প্রশিক্ষিত করা হয়, একটি নেস্টেড ফর লুপের মধ্যে। একটি লুপ প্রশিক্ষণ ডেটাসেট খণ্ড খণ্ড দ্বারা পুনরাবৃত্ত হয় এবং, যদি প্রয়োজন হয়, এই লুপ পুরো ডেটাসেটের উপর কয়েকবার পুনরাবৃত্তি হয়। ডিএল প্রশিক্ষণে কর্মরত এমএল অনুশীলনকারীরা বেশ কয়েকটি চ্যালেঞ্জের মুখোমুখি হন:

  • প্রশিক্ষণের সময়কাল ডেটা আকারের সাথে বৃদ্ধি পায়। স্থায়ীভাবে ক্রমবর্ধমান ডেটাসেটের সাথে, প্রশিক্ষণের সময় এবং খরচও বৃদ্ধি পায় এবং বৈজ্ঞানিক আবিষ্কারের ছন্দ মন্থর হয়ে যায়।
  • DL স্ক্রিপ্টগুলির প্রায়শই বয়লারপ্লেট কোডের প্রয়োজন হয়, বিশেষত লুপ কাঠামোর জন্য উপরে উল্লিখিত ডবল যা ডেটাসেটকে মিনিব্যাচে এবং প্রশিক্ষণকে যুগে বিভক্ত করে।
  • পছন্দের প্যারাডক্স: বেশ কয়েকটি প্রশিক্ষণ অপ্টিমাইজেশান পেপার এবং লাইব্রেরি প্রকাশিত হয়েছে, তবে কোনটি প্রথমে পরীক্ষা করবেন এবং কীভাবে তাদের প্রভাবগুলিকে একত্রিত করবেন তা স্পষ্ট নয়।

গত কয়েক বছরে, বেশ কয়েকটি ওপেন সোর্স লাইব্রেরি যেমন Keras, পাইটর্চ লাইটনিং, আলিঙ্গন মুখ ট্রান্সফরমার, এবং রে ট্রেন DL প্রশিক্ষণকে আরো সহজলভ্য করার চেষ্টা করা হয়েছে, বিশেষ করে কোড ভার্বোসিটি কমিয়ে, এর ফলে কিভাবে নিউরাল নেটওয়ার্ক প্রোগ্রাম করা হয় তা সহজ করে। এই লাইব্রেরিগুলির বেশিরভাগই বিকাশকারীর অভিজ্ঞতা এবং কোড কম্প্যাক্টনেসের উপর দৃষ্টি নিবদ্ধ করেছে।

এই পোস্টে, আমরা একটি নতুন ওপেন-সোর্স লাইব্রেরি উপস্থাপন করছি যেটি DL প্রশিক্ষণে ভিন্ন অবস্থান নেয়: মোজাইকএমএল সুরকার একটি গতি-কেন্দ্রিক গ্রন্থাগার যার প্রাথমিক উদ্দেশ্য হল অ্যালগরিদমিক উদ্ভাবনের মাধ্যমে নিউরাল নেটওয়ার্ক প্রশিক্ষণ স্ক্রিপ্টগুলিকে দ্রুততর করা। ক্লাউড ডিএল ওয়ার্ল্ডে, গতির উপর ফোকাস করা বুদ্ধিমানের কাজ, কারণ কম্পিউট পরিকাঠামো প্রায়ই প্রতি ব্যবহারে অর্থ প্রদান করা হয়-এমনকি দ্বিতীয় পর্যন্ত আমাজন সেজমেকার প্রশিক্ষণ—এবং গতির উন্নতি অর্থ সঞ্চয় করতে পারে।

ঐতিহাসিকভাবে, DL প্রশিক্ষণকে ত্বরান্বিত করা বেশিরভাগই সমান্তরালভাবে কম্পিউটিং মডেলের পুনরাবৃত্তির মেশিনের সংখ্যা বৃদ্ধি করে করা হয়েছে, একটি কৌশল বলা হয় ডেটা সমান্তরালতা. যদিও ডেটা সমান্তরালতা কখনও কখনও প্রশিক্ষণকে ত্বরান্বিত করে (নিশ্চিত নয় কারণ এটি অভিসারকে বিরক্ত করে, যেমন হাইলাইট করা হয়েছে গয়াল প্রমুখ।), এটি সামগ্রিক কাজের খরচ কমায় না। বাস্তবে, এটি আন্তঃ-মেশিন যোগাযোগের ওভারহেড এবং উচ্চতর মেশিন ইউনিট খরচের কারণে এটিকে বৃদ্ধি করার প্রবণতা রয়েছে, কারণ বিতরণ করা ডিএল মেশিনগুলি হাই-এন্ড নেটওয়ার্কিং এবং ইন-সার্ভার GPU ইন্টারকানেক্ট দিয়ে সজ্জিত।

যদিও মোসাইকএমএল কম্পোজার ডেটা সমান্তরালতাকে সমর্থন করে, তবে এর মূল দর্শন ডেটা সমান্তরাল আন্দোলন থেকে আলাদা। এর লক্ষ্য হল বিজ্ঞান বাস্তবায়ন স্তরে উদ্ভাবনের মাধ্যমে আরও মেশিনের প্রয়োজন ছাড়াই প্রশিক্ষণকে ত্বরান্বিত করা। অতএব, এটির লক্ষ্য হল সময় সাশ্রয় করা যা AWS-এর প্রতি-ব্যবহার ফি কাঠামোর কারণে খরচ সাশ্রয় হবে।

ওপেন সোর্স লাইব্রেরি মোসাইকএমএল কম্পোজার উপস্থাপন করা হচ্ছে

MosaicML কম্পোজার হল একটি ওপেন-সোর্স DL ট্রেনিং লাইব্রেরি যা সর্বশেষ অ্যালগরিদমগুলিকে সহজ করে আনতে এবং সেগুলিকে অভিনব রেসিপিগুলিতে রচনা করার উদ্দেশ্যে তৈরি করা হয়েছে যা মডেল প্রশিক্ষণের গতি বাড়ায় এবং মডেলের গুণমান উন্নত করতে সহায়তা করে৷ এই লেখার সময়, এটি PyTorch সমর্থন করে এবং 25টি কৌশল অন্তর্ভুক্ত করে যাকে বলা হয় পদ্ধতি MosaicML বিশ্বে - স্ট্যান্ডার্ড মডেল, ডেটাসেট এবং বেঞ্চমার্ক সহ

সুরকার হয় পাইপের মাধ্যমে উপলব্ধ:

pip install mosaicml

কম্পোজারে প্রয়োগ করা স্পিডআপ কৌশলগুলি এর কার্যকরী API দিয়ে অ্যাক্সেস করা যেতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত স্নিপেটটি প্রযোজ্য ব্লারপুল টর্চভিশন রেসনেটের কৌশল:

import logging

from composer import functional as CF
import torchvision.models as models
logging.basicConfig(level=logging.INFO)

model = models.resnet50()
CF.apply_blurpool(model)

ঐচ্ছিকভাবে, আপনি একটি ব্যবহার করতে পারেন শিক্ষক আপনার নিজস্ব কৌশলগুলির সমন্বয় রচনা করতে:

from composer import Trainer
from composer.algorithms import LabelSmoothing, CutMix, ChannelsLast

trainer = Trainer(
    model=.. # must be a composer.ComposerModel
    train_dataloader=...,
    max_duration="2ep",  # can be a time, a number of epochs or batches
    algorithms=[
        LabelSmoothing(smoothing=0.1),
        CutMix(alpha=1.0),
        ChannelsLast(),
    ]
)

trainer.fit()

কম্পোজারে প্রয়োগ করা পদ্ধতির উদাহরণ

কম্পোজারে উপলব্ধ কিছু পদ্ধতি কম্পিউটার ভিশনের জন্য নির্দিষ্ট, উদাহরণস্বরূপ ইমেজ অগমেন্টেশন কৌশল কলআউট, cutout, বা প্রগতিশীল ইমেজ রিসাইজ করা. অন্যরা সিকোয়েন্স মডেলিংয়ের জন্য নির্দিষ্ট, যেমন সিকোয়েন্স লেন্থ ওয়ার্মআপ or ALiBi. মজার বিষয় হল, অনেকগুলি ব্যবহারের ক্ষেত্রে অজ্ঞেয়বাদী এবং কম্পিউটার ভিশন এবং এনএলপির বাইরে বিভিন্ন ধরণের পাইটর্চ নিউরাল নেটওয়ার্কগুলিতে প্রয়োগ করা যেতে পারে। যারা জেনেরিক নিউরাল নেটওয়ার্ক প্রশিক্ষণ ত্বরণ পদ্ধতি অন্তর্ভুক্ত লেবেল স্মুথিং, নির্বাচনী ব্যাকপ্রপ, স্টোকাস্টিক ওজন গড়, লেয়ার ফ্রিজিং, এবং শার্পনেস অ্যাওয়ার মিনিমাইজেশন (SAM).

আসুন মোজাইকএমএল টিম দ্বারা বিশেষভাবে কার্যকর পাওয়া যায় এমন কয়েকটির মধ্যে গভীরভাবে ডুব দেওয়া যাক:

  • শার্পনেস অ্যাওয়ার মিনিমাইজেশন (SAM) প্রতিটি অপ্টিমাইজেশান ধাপের জন্য দুবার গ্রেডিয়েন্ট কম্পিউট করে মডেল লস ফাংশন এবং এর তীক্ষ্ণতা উভয়ই কমানোর চেয়ে একটি অপ্টিমাইজার। থ্রুপুটকে শাস্তি দিতে অতিরিক্ত গণনা সীমিত করতে, SAM পর্যায়ক্রমে চালানো যেতে পারে।
  • লিনিয়ার বায়েস (ALiBi) এর সাথে মনোযোগ দিনদ্বারা অনুপ্রাণিত প্রেস এবং অন্যান্য., ট্রান্সফরমার মডেলের জন্য নির্দিষ্ট। এটি অবস্থানগত এম্বেডিংয়ের প্রয়োজনীয়তা দূর করে, মনোযোগ ওজনের জন্য একটি অ-শিক্ষিত পক্ষপাত দিয়ে প্রতিস্থাপন করে।
  • নির্বাচনী ব্যাকপ্রপদ্বারা অনুপ্রাণিত জিয়াং এট আল।, আপনাকে ব্যাক-প্রচার চালানোর অনুমতি দেয় (যে অ্যালগরিদমগুলি এর ত্রুটি ঢাল অনুসরণ করে মডেলের ওজন উন্নত করে) শুধুমাত্র উচ্চ ক্ষতির ফাংশন সহ রেকর্ডগুলিতে। এই পদ্ধতি আপনাকে অপ্রয়োজনীয় গণনা এড়াতে সাহায্য করে এবং থ্রুপুট উন্নত করতে সাহায্য করে।

একটি একক কমপ্যাক্ট প্রশিক্ষণ কাঠামোতে এই কৌশলগুলি উপলব্ধ থাকা এমএল অনুশীলনকারীদের জন্য একটি উল্লেখযোগ্য মান যুক্ত করা। MosaicML টিম প্রতিটি কৌশলের জন্য তৈরি করা কার্যকর ফিল্ড ফিডব্যাক, পরীক্ষিত এবং রেট করা মূল্যবান। যাইহোক, এই ধরনের একটি সমৃদ্ধ টুলবক্স দেওয়া হলে, আপনি ভাবতে পারেন: আমি কোন পদ্ধতি ব্যবহার করব? একাধিক পদ্ধতির ব্যবহার একত্রিত করা কি নিরাপদ? MosaicML এক্সপ্লোরার লিখুন।

মোজাইকএমএল এক্সপ্লোরার

DL প্রশিক্ষণ পদ্ধতির মান এবং সামঞ্জস্যতা পরিমাপ করতে, MosaicML টিম বজায় রাখে অনুসন্ধানকারী, এটির প্রথম ধরণের লাইভ ড্যাশবোর্ড যা পাঁচটি ডেটাসেট এবং সাতটি মডেলের উপর কয়েক ডজন DL প্রশিক্ষণের পরীক্ষাগুলি চিত্রিত করে৷ ড্যাশবোর্ড ছবি প্যারেটো সর্বোত্তম সীমান্ত খরচ/সময়/গুণমানের ট্রেড-অফের মধ্যে, এবং আপনাকে ব্রাউজ করতে এবং পদ্ধতিগুলির শীর্ষ-স্কোরিং সংমিশ্রণ খুঁজে বের করার অনুমতি দেয়—যাকে বলা হয় রেসিপি MosaicML জগতে—একটি প্রদত্ত মডেল এবং ডেটাসেটের জন্য। উদাহরণস্বরূপ, নিম্নলিখিত গ্রাফগুলি দেখায় যে একটি 125M প্যারামিটার GPT2 প্রশিক্ষণের জন্য, 24.11-এর একটি বিভ্রান্তি বজায় রাখার জন্য সবচেয়ে সস্তা প্রশিক্ষণটি AliBi, সিকোয়েন্স লেংথ ওয়ার্মআপ এবং স্কেল শিডিউলকে একত্রিত করে প্রাপ্ত হয়, AWS ক্লাউডে প্রায় $145.83 খরচ হয়! যাইহোক, দয়া করে মনে রাখবেন যে এই খরচ গণনা এবং এই পোস্টে যেগুলি অনুসরণ করা হয়েছে তা শুধুমাত্র একটি EC2 অন-ডিমান্ড কম্পিউটের উপর ভিত্তি করে, আপনার পরিবেশ এবং ব্যবসার প্রয়োজনের উপর নির্ভর করে অন্যান্য খরচ বিবেচনা প্রযোজ্য হতে পারে।

GPT-2 প্রশিক্ষণের জন্য MosaicML এক্সপ্লোরারের স্ক্রিনশট

AWS-এ কম্পোজারের সাথে উল্লেখযোগ্য অর্জন

AWS-এ কম্পোজার লাইব্রেরি চালানোর মাধ্যমে, MosaicML টিম বেশ কিছু চিত্তাকর্ষক ফলাফল অর্জন করেছে। মনে রাখবেন যে MosaicML টিমের দ্বারা রিপোর্ট করা খরচের অনুমান শুধুমাত্র অন-ডিমান্ড কম্পিউট চার্জ নিয়ে গঠিত।

উপসংহার

আপনি আপনার ল্যাপটপ থেকে শুরু করে বড় GPU-সজ্জিত ক্লাউড সার্ভারে যেকোনো সামঞ্জস্যপূর্ণ প্ল্যাটফর্মে কম্পোজার দিয়ে শুরু করতে পারেন। লাইব্রেরি স্বজ্ঞাত বৈশিষ্ট্য স্বাগত সফর এবং শুরু হচ্ছে ডকুমেন্টেশন পেজ। AWS-এ কম্পোজার ব্যবহার করা আপনাকে AWS খরচ-অপ্টিমাইজেশান পরিষেবা এবং প্রোগ্রামগুলির সাথে কম্পোজার খরচ-অপ্টিমাইজেশান বিজ্ঞান সংগ্রহ করতে দেয়, যার মধ্যে রয়েছে স্পট কম্পিউট (আমাজন EC2, আমাজন সেজমেকার), সঞ্চয় পরিকল্পনা, সেজমেকার স্বয়ংক্রিয় মডেল টিউনিং, এবং আরো. MosaicML টিম একটি বজায় রাখে অভিভাবকসংবঁধীয় AWS-এ সুরকারের। আপনি কিভাবে MLPerf ফলাফল পুনরুত্পাদন করতে পারেন এবং মাত্র 50 মিনিটের মধ্যে রেসনেট-76.6-কে AWS-এ স্ট্যান্ডার্ড 1% টপ-27 নির্ভুলতার জন্য প্রশিক্ষণ দিতে পারেন তার একটি ধাপে ধাপে প্রদর্শন প্রদান করে।

আপনি যদি নিউরাল নেটওয়ার্কগুলির সাথে লড়াই করছেন যেগুলি খুব ধীর গতিতে প্রশিক্ষণ দিচ্ছে, অথবা আপনি যদি আপনার DL প্রশিক্ষণের খরচ নিয়ন্ত্রণে রাখতে চান, তাহলে AWS-এ MosaicML ব্যবহার করে দেখুন এবং আপনি কী তৈরি করছেন তা আমাদের জানান!


লেখক সম্পর্কে

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে MosaicML কম্পোজারের সাথে গভীর শিক্ষার প্রশিক্ষণের সময় এবং খরচ কমিয়ে দিন। উল্লম্ব অনুসন্ধান. আ.বন্দিশ শাহ মোসাইকএমএল-এর একজন ইঞ্জিনিয়ারিং ম্যানেজার, বৃহৎ স্কেল ডিস্ট্রিবিউটেড সিস্টেম এবং পারফরম্যান্স কম্পিউটিং এর সাথে দক্ষ গভীর শিক্ষার সেতুবন্ধনে কাজ করছেন। মেশিন লার্নিং এবং এন্টারপ্রাইজ অ্যাপ্লিকেশনের জন্য বান্দিশের এক দশকেরও বেশি অভিজ্ঞতা রয়েছে। তিনি বন্ধু এবং পরিবারের সাথে সময় কাটাতে, রান্না করতে এবং অনুপ্রেরণার জন্য পুনরাবৃত্তিতে স্টার ট্রেক দেখতে উপভোগ করেন।

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে MosaicML কম্পোজারের সাথে গভীর শিক্ষার প্রশিক্ষণের সময় এবং খরচ কমিয়ে দিন। উল্লম্ব অনুসন্ধান. আ.অলিভিয়ার ক্রুচ্যান্ট ফ্রান্সে অবস্থিত AWS-এর একজন মেশিন লার্নিং স্পেশালিস্ট সলিউশন আর্কিটেক্ট। অলিভিয়ার AWS গ্রাহকদের সাহায্য করে - ছোট স্টার্টআপ থেকে শুরু করে বড় এন্টারপ্রাইজে - প্রোডাকশন-গ্রেড মেশিন লার্নিং অ্যাপ্লিকেশনগুলি বিকাশ এবং স্থাপন করতে। তার অবসর সময়ে, তিনি গবেষণাপত্র পড়তে এবং বন্ধু এবং পরিবারের সাথে মরুভূমি অন্বেষণ উপভোগ করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং