How Amazon Search M5 Saved 30% For LLM Training Cost By Using AWS Trainium

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

কয়েক দশক ধরে, Amazon মেশিন লার্নিং (ML) এর অগ্রগামী এবং উদ্ভাবন করেছে, এর গ্রাহকদের জন্য আনন্দদায়ক অভিজ্ঞতা এনেছে। প্রথম দিন থেকে, অ্যামাজন বিভিন্ন ব্যবহারের ক্ষেত্রে যেমন বইয়ের সুপারিশ, অনুসন্ধান এবং জালিয়াতি সনাক্তকরণের জন্য ML ব্যবহার করেছে। শিল্পের বাকি অংশের মতো, ত্বরিত হার্ডওয়্যারের অগ্রগতি অ্যামাজন দলগুলিকে নিউরাল নেটওয়ার্ক এবং গভীর শিক্ষা (ডিএল) ব্যবহার করে মডেল আর্কিটেকচারগুলি অনুসরণ করার অনুমতি দিয়েছে।

Amazon অনুসন্ধানের মধ্যে M5 প্রোগ্রামটি Amazon-এর জন্য আবিষ্কার শেখার কৌশলের মালিক এবং বহু-ভাষিক, বহু-স্থানীয়, বহু-সত্তা, মাল্টি-টাস্ক, এবং বহু-মডেল যেমন পাঠ্য, চিত্র এবং ভিডিও জুড়ে বড় আকারের মডেল তৈরি করে। M5 প্রোগ্রামটি খরচ অপ্টিমাইজেশানের উপর কঠোর নিয়ন্ত্রণ বজায় রেখে আমাজন জুড়ে শত শত এমএল টিমের কাছে সর্বজনীন এম্বেডিং এবং বৃহৎ মাপের ফাউন্ডেশন মডেল পরিবেশন করছে। এটি অর্জন করার জন্য, M5 টিম নিয়মিতভাবে খরচ কমাতে নতুন কৌশল মূল্যায়ন করে।

অনেক ML সংস্থার মতো, এক্সিলারেটরগুলি মূলত DL প্রশিক্ষণ এবং অনুমানকে ত্বরান্বিত করতে ব্যবহৃত হয়। যখন AWS প্রথম প্রকাশের সাথে উদ্দেশ্য-নির্মিত এক্সিলারেটর চালু করে এডাব্লুএস ইনফেরেন্টিয়া 2020 সালে, M5 টিম দ্রুত শুরু করে উৎপাদন কাজের চাপ আরো দক্ষতার সাথে স্থাপন করতে তাদের ব্যবহার করুন, খরচ সাশ্রয় এবং বিলম্বতা হ্রাস উভয়. গত বছর, AWS এটি চালু করেছে এডব্লিউএস ট্রেনিয়াম এক্সিলারেটর, যা পরবর্তী প্রজন্মের DL মডেলগুলি বিকাশ ও নির্মাণের জন্য খরচ প্রতি পারফরম্যান্সকে অপ্টিমাইজ করে। এই পোস্টে, আমরা আলোচনা করেছি যে M5 কীভাবে তাদের মডেলগুলিকে প্রশিক্ষণের খরচ 30% কমাতে সক্ষম হয়েছিল, এবং আমরা পথের মধ্যে শিখেছি এমন কিছু সেরা অনুশীলনগুলি ভাগ করে নিয়েছি।

ট্রেনিয়াম উদাহরণ

উদ্দেশ্য-নির্মিত এক্সিলারেটরের অগ্রগতির সাথে, Amazon AWS Inferentia এবং Trainium-এর আকারে আকর্ষক অ্যাক্সিলারেটর সরবরাহ করে। তাদের নাম থেকে বোঝা যায়, এই চিপগুলি যথাক্রমে অনুমান এবং প্রশিক্ষণের কাজের চাপের প্রয়োজনগুলি অতিক্রম করার জন্য অপ্টিমাইজ করা হয়েছে। বিশাল আকারের ফাউন্ডেশন মডেলের প্রশিক্ষণের জন্য যা আকারে বিলিয়ন প্যারামিটারে পৌঁছায়, ট্রেনিয়াম Trn1 এবং Trn1n উদাহরণ তাদের বৈশিষ্ট্যের কারণে আদর্শ পছন্দ। Trn1 দৃষ্টান্তগুলি অত্যাধুনিক দ্বারা চালিত হয়৷ নিউরনকোর-v2, এবং প্রচুর পরিমাণে অ্যাক্সিলারেটর কম্পিউট এবং মেমরি আছে। Trn1n দৃষ্টান্তগুলিও অধিক পরিমাণে নেটওয়ার্কিং ব্যান্ডউইথের (1,600 Gbs) জন্য বেছে নেওয়া যেতে পারে, তাই খরচ অপ্টিমাইজেশানকে মাথায় রেখে পারফরম্যান্ট প্রশিক্ষণের জন্য আদর্শভাবে উপযুক্ত।

এক্সিলারেটর ব্যবহার করতে, তাদের সমর্থন করার জন্য আপনার একটি সফ্টওয়্যার স্তর প্রয়োজন। Trn এবং Inf চিপ সহ, AWS নিউরন SDK PyTorch XLA-এর সাহায্যে অ্যামাজন উদ্দেশ্য-নির্মিত এক্সিলারেটর আনলক করে। PyTorch XLA PyTorch-এর আগ্রহী মোডকে অলস মোডে গ্রাফ-ভিত্তিক বাস্তবায়নে রূপান্তরিত করে। এই গ্রাফগুলি তারপর ব্যবহার করা হয় এবং আরও সংকলন করা হয় যাতে এক্সিলারেটরের সাথে ব্যবহার করা যায়। PyTorch Neuron (Neuron SDK-এর অংশ) PyTorch ব্যবহারকারীদেরকে তাদের মডেলকে ট্রেনিয়াম নিউরনকোরসে কয়েকটি লাইনের কোড দিয়ে প্রশিক্ষণ দিতে সক্ষম করে।

মডেল এবং কাজের চাপ

M5 টিম আমাজন জুড়ে বিভিন্ন দলকে আনন্দ আনতে সহায়তা করার জন্য ভিত্তিমূলক মডেল এবং সর্বজনীন উপস্থাপনা প্রশিক্ষণ দেয় এবং স্থাপন করে Amazon.com গ্রাহকদের এরকম একটি মডেল হল একটি টেক্সট এনকোডার মডেল যার পরে একটি মাল্টি-লেয়ার পারসেপ্টরন (এমএলপি) রয়েছে যেখানে কয়েক মিলিয়ন প্রশিক্ষণযোগ্য প্যারামিটার সহ নিউরাল নেটওয়ার্ক আর্কিটেকচার দ্বারা সংজ্ঞায়িত স্পষ্ট বা অন্তর্নিহিত বৈশিষ্ট্য মিথস্ক্রিয়া রয়েছে। এই মডেলটি বিলিয়ন টোকেনের উপর প্রশিক্ষিত, এবং অফলাইন ব্যাচ ইনফারেন্স সেটিংয়ে লক্ষ লক্ষ এমবেডিং তৈরি করতে ব্যবহৃত হয়। এই এমবেডিংগুলি একটি গ্রাহক-মুখী স্তর-1 অ্যামাজন পরিষেবার ইনপুট।

উৎপাদন পাইপলাইনের জন্য অবকাঠামো ব্যবহার করে AWS ব্যাচ সঙ্গে ন্যায্য শেয়ার সারিবদ্ধ কৌশল, মডেল প্রশিক্ষণের জন্য গণনা হিসাবে একটি EFA-সক্ষম মাল্টি-নোড trn1.32xlarge ক্লাস্টার ব্যবহার করে। কার্যকরীভাবে, উত্পাদন পাইপলাইন ক্রমবর্ধমান মডেল প্রশিক্ষণ, প্রশিক্ষিত মডেলের মূল্যায়ন এবং প্রশিক্ষিত মডেলের অফলাইন ব্যাচ অনুমান সম্পাদন করে, সমস্তই অন্তর্নিহিত DL লাইব্রেরি হিসাবে PyTorch ব্যবহার করে।

গোল

আমাদের গ্রাহকদের আনন্দিত করা একটি অগ্রণী নীতি। পাইপলাইনের গ্রাহক-মুখী প্রকৃতির পরিপ্রেক্ষিতে, এটি গুরুত্বপূর্ণ যে সমস্ত পরিষেবা-স্তরের চুক্তিগুলি (এসএলএ) রিগ্রেশন ছাড়াই পূরণ করা হবে। আমরা আমাদের বিদ্যমান GPU উৎপাদন পাইপলাইনকে মানিয়ে নিতে এবং এটিকে Trainium-এ রূপান্তর করার জন্য দুটি গুরুত্বপূর্ণ গ্রহণযোগ্যতার মানদণ্ড চিহ্নিত করেছি:

মডেল গুণমান - আমাদের মডেলের গুণমান গ্রাহকের অভিজ্ঞতাকে সরাসরি প্রভাবিত করে। আমরা চাই যে জিপিইউ এবং ট্রেনিয়ামের মধ্যে মডেলের মানের মধ্যে 0.1% এর কম পার্থক্য থাকা উচিত।
প্রশিক্ষণ থ্রুপুট - আমাদের গ্রাহকদের নতুন অভিজ্ঞতা প্রদানের জন্য আমরা পর্যায়ক্রমে আমাদের মডেলগুলিকে প্রশিক্ষণ দিই। আমরা চাই যে মডেল কনভারজেন্স আমাদের উত্পাদন SLA পূরণের জন্য একটি পূর্বনির্ধারিত সময়ের মধ্যে (যেমন 1 সপ্তাহ) অর্জন করতে হবে।

নিম্নলিখিত বিভাগগুলিতে, আমরা এই মানদণ্ড থেকে পিছিয়ে যাওয়ার আমাদের যাত্রা এবং অ্যামাজন-স্কেল উত্পাদন কাজের চাপকে সমর্থন করার জন্য আমাদের শিক্ষাগুলি ভাগ করি।

প্রশিক্ষণ স্ক্রিপ্ট

মডেল প্রশিক্ষণ দিয়ে শুরু করার আগে, আমাদের প্রশিক্ষণ স্ক্রিপ্টে পরিবর্তন করতে হবে যাতে এটি XLA অনুগত হয়। মডেলের আকারের পরিপ্রেক্ষিতে, আমরা মডেলটিকে প্রশিক্ষণ দিতে ডিস্ট্রিবিউটেড ডেটা প্যারালাল (ডিডিপি) ব্যবহার করি। DDP আমাদেরকে কোনো কোড পরিবর্তন ছাড়াই মডেল প্রশিক্ষণ চালানোর জন্য ব্যবহৃত মেশিনের সংখ্যা বাড়িয়ে মডেল প্রশিক্ষণের থ্রুপুট বাড়ানোর অনুমতি দেয়। আমরা প্রদত্ত নির্দেশাবলী অনুসরণ নিউরন পাইটর্চ এমএলপি প্রশিক্ষণ টিউটোরিয়াল আমাদের প্রশিক্ষণ স্ক্রিপ্টগুলিতে XLA-নির্দিষ্ট নির্মাণ যোগ করতে। এই কোড পরিবর্তনগুলি কার্যকর করা সহজ। নিম্নলিখিত অনুশীলন থেকে কিছু উল্লেখযোগ্য প্রযুক্তিগত শিক্ষা রয়েছে যা আমাদের মডেল থ্রুপুটকে ব্যাপকভাবে উন্নত করেছে:

xm.mark_step() এর বসানো - xm.mark_step() অলসভাবে সংগৃহীত গণনা গ্রাফগুলি সংকলন করে এবং চালায়। আহ্বান mark_step খুব বেশি বার ছোট গ্রাফের একটি বড় সংখ্যার দিকে নিয়ে যাবে, যেখানে এটিকে খুব কম বার আহ্বান করলে কয়েকটি, কিন্তু বড় গ্রাফ হবে৷ আপনার আবেদনের উপর নির্ভর করে, আপনার মডেল প্রশিক্ষণের থ্রুপুট এবং বাস্তবায়ন আপনার প্লেসমেন্টের উপর ভিত্তি করে পরিবর্তিত হবে xm.mark_step(). আমাদের বাস্তবায়ন একটি স্থান xm.mark_step() একটি ফরোয়ার্ড এবং ব্যাকওয়ার্ড পাসের পরে, এবং একটি অপ্টিমাইজার ধাপের পরে৷
এক্সএলএ মাল্টিপ্রসেসিং ডিভাইস লোডারের সাথে ডেটা লোডার মোড়ানো - এটি একটি গুরুত্বপূর্ণ পদক্ষেপ যা সহজেই মিস করা যেতে পারে। মাল্টিপ্রসেসিং ডিভাইস লোডার torch_xla.distributed.parallel_loader.MpDeviceLoader থ্রুপুট উন্নত করার জন্য ডিভাইস রানের সাথে প্রিলোড এবং ওভারল্যাপ করার বিকল্পগুলির সাথে প্রতিটি XLA ডিভাইসে প্রশিক্ষণ ডেটা লোড করে। ডিভাইস লোডারও আহ্বান করে xm.mark_step() এবং তাই হোস্ট থেকে ডিভাইসে ডেটা লোড করার জন্য গ্রাফ তৈরি করতে সক্ষম।

Trainium জন্য সংকলন

ঐতিহ্যগতভাবে, GPU-এর সাথে মডেল ডেভেলপমেন্ট চক্র মডেল বা প্রশিক্ষণ স্ক্রিপ্ট পরিবর্তন করা এবং সরাসরি GPU ডিভাইসে এটি চালানো জড়িত। ট্রেনিয়ামের মতো এক্সিলারেটর যেগুলি এক্সএলএ ব্যবহার করে মডেল প্রশিক্ষণের আগে এক্সিলারেটরে চালানোর জন্য একটি অতিরিক্ত পদক্ষেপের প্রয়োজন হয়। XLA গণনা গ্রাফগুলি কম্পাইল করার পরেই চালানো যেতে পারে। সাধারণত, এই সংকলনটি সম্পাদন করার দুটি উপায় রয়েছে: সময়ের আগে (AOT), যেখানে আপনি প্রথমে সমস্ত গ্রাফ ট্রেস এবং কম্পাইল করেন এবং তারপরে সেগুলি চালান, বা জাস্ট ইন টাইম (JIT), যেখানে গ্রাফগুলি ট্রেস করা হয়, কম্পাইল করা হয় এবং চালানো হয়। সম্মুখীন হয় নিউরন SDK এই দুটিই বাক্সের বাইরে সরবরাহ করে। সাধারণত, AOT সংকলন প্রথমে সঞ্চালিত হয়। এই সংকলনের পরে গ্রাফগুলি চালানো হয়। যদি নতুন গ্রাফের সম্মুখীন হয়, নিউরন রানটাইম তাদের চালানোর আগে একটি JIT সংকলন আহ্বান করে। AOT সংকলন সম্পাদন করতে, নিউরন SDK প্রদান করে neuron_parallel_compile, একটি সংকলন ইউটিলিটি যা প্রশিক্ষণ স্ক্রিপ্টের ট্রায়াল রান থেকে গ্রাফ বের করে এবং সমান্তরাল AOT সংকলন করে।

AOT সংকলনের একটি গুরুত্বপূর্ণ দিক হল প্রশিক্ষণ চলাকালীন কোনো নতুন কম্পিউটেশন গ্রাফ তৈরি না করা নিশ্চিত করা। নতুন গণনা গ্রাফের একটি উৎস (এবং সেইজন্য পুনঃসংকলন) হল মডেল প্রশিক্ষণের সময় প্রশিক্ষণ ব্যাচগুলির গতিশীল আকার। আমরা দেখেছি যে স্থির আকার এবং নির্দিষ্ট-আকারের ব্যাচগুলি ব্যবহার করা প্রশিক্ষণের সময় সংকলনকে দূর করে এবং মডেলের নির্ভুলতার উপর কোনও প্রভাব ছাড়াই প্রশিক্ষণের থ্রুপুটকে ব্যাপকভাবে উন্নত করে। প্রশিক্ষণে এই ধরনের সীমাবদ্ধতা প্রয়োগ করে, আমরা লক্ষ্য করেছি যে AOT সংকলনের সময় সমস্ত গ্রাফ ট্রেস করার জন্য মডেল প্রশিক্ষণের মাত্র 4-5 ধাপ, মডেল যাচাইকরণের এক ধাপ এবং মডেলটিকে একবার চেকপয়েন্ট করা প্রয়োজন। এটি লক্ষ্য করা গুরুত্বপূর্ণ যে নিউরন SDK ক্রমাগত বিকশিত হচ্ছে এবং ভবিষ্যতে গতিশীল আকারগুলিকেও সমর্থন করবে৷

তদ্ব্যতীত, সংকলিত গ্রাফগুলি এতে সংরক্ষণ করা হয় নিউরন পারসিস্টেন্ট ক্যাশে ডিস্কে বা একটিতে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) বালতি। এটি বিশেষ করে প্রোডাকশন ওয়ার্কলোডের জন্য উপযোগী যেখানে মডেল আর্কিটেকচার এবং ট্রেনিং কনফিগারেশন পরিবর্তন হয় না। অতএব, সংকলনের ওভারহেড মাত্র এক বার ব্যয় হয়। ক্যাশে ব্যবহার করা পরিবেশের পতাকা সেট করার মতোই সহজ:

export NEURON_COMPILE_CACHE_URL="s3://BUCKET/KEY"

নিউরন কম্পাইলার তিনটি প্রদান করে কম্পাইলার-স্তরের অপ্টিমাইজেশান অপশন (O1, O2, O3) সংকলনের সময় এবং মডেল রান থ্রুপুট ভারসাম্য বজায় রাখতে। O1 কম্পিউট গ্রাফে মূল অপ্টিমাইজেশান সক্ষম করে এবং সংকলনের সময় কমিয়ে দেয়, O3 উচ্চতর সংকলন সময়ের খরচে উন্নত মডেল রান থ্রুপুট প্রদান করে এবং O2 (ডিফল্ট বিকল্প) হল দুটির মধ্যে ভারসাম্য। আমাদের ব্যবহারের ক্ষেত্রে, আমরা O1 অপ্টিমাইজেশান ব্যবহার করেছি এবং ডিফল্ট অপ্টিমাইজেশান (O86) এর তুলনায় থ্রুপুটে প্রায় 5-7% হ্রাস পর্যবেক্ষণ করার সময় মডেল নির্ভুলতা মেট্রিক্সে কোনও পরিবর্তন ছাড়াই কম্পাইলেশন টাইমে 2% হ্রাস লক্ষ্য করেছি। ব্যবহারের ক্ষেত্রের উপর নির্ভর করে, আপনি অপ্টিমাইজেশানের বিভিন্ন স্তর বেছে নিতে পারেন।

সংক্ষেপে, আমরা সংকলনের জন্য নিম্নলিখিত পতাকা ব্যবহার করেছি:

NEURON_CC_FLAGS="--target trn1 --auto-cast all --auto-cast-type bf16 --model-type transformer --optlevel O1"

চেকপয়েন্ট সামঞ্জস্য

সংকলন সফলভাবে সম্পন্ন হলে, আমরা ট্রেনিয়ামে আমাদের মডেলগুলিকে প্রশিক্ষণ দিতে এগিয়ে যেতে পারি। পূর্বে উল্লিখিত হিসাবে, আমরা ক্রমবর্ধমানভাবে আমাদের মডেলগুলিকে প্রশিক্ষণ দিই, যার অর্থ আমরা একটি পূর্বে প্রশিক্ষিত মডেল চেকপয়েন্ট লোড করি এবং নতুন ডেটা সহ প্রশিক্ষণ চালিয়ে যাই। PyTorch এবং PyTorch XLA চেকপয়েন্ট আন্তঃঅপারেবিলিটির মাধ্যমে এক্সিলারেটরগুলির মধ্যে বিরামহীন স্থানান্তরের অনুমতি দেয়। GPU এবং Trainium-এর মধ্যে চলাফেরার নমনীয়তা থাকার ফলে আমরা পূর্ববর্তী GPU মডেলটিকে নির্বিঘ্নে লোড করতে এবং ট্রেনিয়াম মেশিনে ট্রেন করতে সক্ষম করেছি। এটি নিশ্চিত করার জন্য গুরুত্বপূর্ণ ছিল যে আমরা কোনও উত্পাদন ডাউনটাইম বা মডেলের নির্ভুলতার ক্ষতি ছাড়াই আমাদের মডেলটিকে সেরা পূর্বে প্রশিক্ষিত মডেলের সাথে শুরু করতে পারি।

যেহেতু GPU মডেলটি স্ট্যান্ডার্ড PyTorch মডেল সেভিং ইউটিলিটি ব্যবহার করে সংরক্ষণ করা হয়েছিল, তাই আমরা Trainium ডিভাইসে GPU মডেল লোড করতে PyTorch চেকপয়েন্ট লোডিং ইউটিলিটি ব্যবহার করতে সক্ষম হয়েছি।

উদাহরণস্বরূপ, GPU/CPU-তে, আপনি নিম্নলিখিত কোড দিয়ে মডেলটি সংরক্ষণ করতে পারেন:

torch.save(model.state_dict(), PATH)

তারপরে আপনি ট্রেনিয়ামে মডেলটি লোড করুন:

import torch_xla.core.xla_model as xm
xla_device = xm.xla_device()
model = MyModel(*args, **kwargs)
model.load_state_dict(torch.load(PATH))
model.to(xla_device)

একইভাবে, আপনি নিম্নলিখিত কোড সহ ট্রেনিয়ামে মডেলটি সংরক্ষণ করতে পারেন:

import torch_xla.core.xla_model as xm
# automatically moves the data to CPU for the master device
xm.save(model.state_dict(), PATH)

এবং GPU/CPU-তে মডেলটি আবার লোড করুন:

model = MyModel(*args, **kwargs)
model.load_state_dict(torch.load(PATH))
model.to(device) # can be any device

প্রকৃতপক্ষে, যেহেতু আমরা মডেল প্রশিক্ষণের জন্য DDP ব্যবহার করি, মডেল লোডিং পূর্ববর্তী চেকপয়েন্ট প্রশিক্ষণের জন্য ব্যবহৃত মেশিনের সংখ্যার অজ্ঞেয়। এটি আমাদেরকে কোন কোড পরিবর্তন বা মডেল প্রশিক্ষণের প্রতিকূল প্রভাব ছাড়াই অনুভূমিকভাবে Trn1 ফ্লিট স্কেল করতে দেয়। এই PyTorch-ভিত্তিক চেকপয়েন্টগুলি AWS Inferentia2 বা অন্যান্য অ্যাক্সিলারেটরের অনুমান ব্যবহারের ক্ষেত্রে সরাসরি ব্যবহার করা যেতে পারে বা এমনকি টর্চ-স্ক্রিপ্ট করা যেতে পারে।

অপারেশনাল স্থিতিশীলতা

এটি যথেষ্ট জোর দেওয়া যায় না যে উত্পাদনে চলমান কাজের চাপের জন্য একাধিক এসএলএ পূরণ করা প্রয়োজন। আমাদের ব্যবহারের ক্ষেত্রে, মডেলের গুণমান এবং প্রশিক্ষণের থ্রুপুট এসএলএ ছাড়াও, উত্পাদন পাইপলাইনটি কার্যকরীভাবে স্থিতিশীল হওয়া অপরিহার্য, যার অর্থ মডেল প্রশিক্ষণ, মূল্যায়ন এবং অনুমান করার সময় ন্যূনতম ডাউনটাইম এবং বাধাগুলি।

বিদ্যমান জিপিইউ ভিত্তিক পাইপলাইনের মতো, আমরা পাইপলাইনটিকে কার্যকরীভাবে স্থিতিশীল করতে অসংখ্য প্রক্রিয়া যুক্ত করেছি। মডেল প্রশিক্ষণ শুরু করার আগে, আমরা মেশিনের স্বাস্থ্যের মূল্যায়ন করার জন্য একাধিক স্যানিটি পরীক্ষা চালাই। এই পরীক্ষাগুলি সাধারণত এক্সিলারেটর ডিভাইসগুলির স্বাস্থ্য যাচাই করার জন্য সাধারণ টেনসর অপারেশনগুলিকে অন্তর্ভুক্ত করে। আমরা লক্ষ্য করেছি যে বিতরণ করা প্রশিক্ষণের জন্য, দৃষ্টান্তগুলির মধ্যে যৌথ যোগাযোগ যাচাই করার জন্য পরীক্ষা চালানো গুরুত্বপূর্ণ। আমরা ব্যবহার করি NCCOM টেস্ট স্যুট এটি অর্জনের জন্য নিউরন SDK থেকে, অল-গেদার, অল-রিডুস এবং রিডুস-স্ক্যাটারের মতো বিভিন্ন ধরনের অপারেশন চালাচ্ছে।

এমনকি আমরা উল্লেখিত পরামর্শগুলি অনুসরণ করার পরেও, আমরা লক্ষ্য করেছি যে অন্তর্নিহিত এক্সিলারেটর নির্বিশেষে যে কোনও পাইপলাইনে ক্ষণস্থায়ী সমস্যাগুলি অনিবার্য৷ যেকোনো প্রশিক্ষণ পাইপলাইনে স্থিতিস্থাপকতা তৈরি করতে, আমরা এই সম্ভাব্য সমস্যাগুলি সমাধান করার জন্য পুনরায় চেষ্টা করার প্রক্রিয়া তৈরি করার পরামর্শ দিই। আমরা ব্যাবহার করি AWS ব্যাচ স্বয়ংক্রিয় পুনরায় চেষ্টা মডেল প্রশিক্ষণের সময় একটি ক্ষণস্থায়ী ব্যর্থতার সম্মুখীন যে কাজগুলি পুনরায় চেষ্টা করতে। প্রশিক্ষণের শেষের দিকে ব্যর্থতার সম্মুখীন হলে এই পুনঃসূচনা ব্যয়বহুল হতে পারে। এই সমস্যা মোকাবেলা করার জন্য, আমরা আমাদের প্রশিক্ষণ স্ক্রিপ্টগুলিকে পূর্বে প্রশিক্ষিত মডেল চেকপয়েন্ট লোড করতে এবং সেই বিন্দু থেকে প্রশিক্ষণ চালিয়ে যাওয়ার জন্য অভিযোজিত করেছি। এই কার্যকারিতা সহ, আমরা ন্যূনতম ওভারহেড সহ ব্যর্থ প্রশিক্ষণের কাজগুলি আক্রমনাত্মকভাবে পুনরায় চালু করতে সক্ষম।

এই স্থিতিস্থাপকতা ব্যবস্থার সাথে, আমরা আমাদের বিদ্যমান GPU পাইপলাইনের সাফল্যের হারের সাথে তুলনীয়, Trn98.5-এ আমাদের কাজের চাপের জন্য 1% সাফল্যের হার অর্জন করতে সক্ষম হয়েছি।

ফলাফল

আমাদের মডেলগুলির যথার্থতা যাচাই করার জন্য, আমরা একই GPU চেকপয়েন্ট থেকে দুটি মডেল শুরু করেছি এবং একটিকে ট্রেনিয়ামে এবং অন্যটিকে তুলনামূলক GPU-তে প্রশিক্ষণ দিয়েছি। উভয় মডেল একই প্রশিক্ষণ হাইপারপ্যারামিটারের সাথে প্রশিক্ষিত হয়েছিল। মেট্রিক্স গণনার জন্য ব্যবহৃত ডেটাসেট হল একটি হোল্ডআউট ডেটাসেট, এবং আমরা প্রতিটি N গ্লোবাল ধাপে এই ডেটাসেটের মডেলের যথার্থতা মূল্যায়ন করি। X-অক্ষ হল বিশ্বব্যাপী ধাপ, এবং Y-অক্ষ হল মডেলের সঠিকতা। আমরা নিম্নলিখিত গ্রাফের প্রতিটি পয়েন্টে মডেল নির্ভুলতার মধ্যে 0.1% এর কম পার্থক্য লক্ষ্য করেছি।

উপরন্তু, মডেল প্রশিক্ষণের খরচ-কার্যকারিতা মূল্যায়ন করার জন্য, আমরা মডেল কনভারজেন্সে পৌঁছাতে নেওয়া দেয়াল ঘড়ির সময় তুলনা করতে পছন্দ করি। আমরা বিশ্বাস করি যে প্রতি টোকেন খরচ, প্রাপ্ত FLOPS/ডলার এবং অন্যান্য কারণগুলির তুলনায় এটি খরচ সাশ্রয়ের আরও বাস্তব দৃষ্টিভঙ্গি প্রদান করে। trn1.32xl এবং তুলনীয় প্রশিক্ষণের সময় বিবেচনা করে অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2) উদাহরণে, আমরা লক্ষ্য করেছি যে ট্রেনিয়াম মডেল কনভারজেন্সের জন্য 30% পর্যন্ত সস্তা খরচ অফার করে।

উপসংহার

আপনার DL কাজের চাপের জন্য বিভিন্ন এক্সিলারেটর মূল্যায়ন করার সময় বিবেচনা করার জন্য অনেকগুলি কারণ রয়েছে। সবচেয়ে গুরুত্বপূর্ণ কিছু হল মডেলের গুণমান, থ্রুপুট, খরচ এবং প্রাপ্যতা। আপনার চয়ন করা অ্যাক্সিলারেটরের উপর ভিত্তি করে আপনার মডেলের গুণমান এবং থ্রুপুট যে বলিদান না হয় তা নিশ্চিত করা সর্বোত্তম।

অন্নপূর্ণা নিউরন টিমের সাথে আমাদের অংশীদারিত্ব এবং সহযোগিতার জন্য ধন্যবাদ, Amazon Search M5 টিম ট্রেনিয়ামে যাওয়ার মাধ্যমে 30% পর্যন্ত খরচ বাঁচাতে সক্ষম হয়েছে। দলটি ট্রেনিয়াম ব্যবহার করতে এবং বাজারে তুলনীয় অ্যাক্সিলারেটরের সাথে মডেলের গুণমান এবং থ্রুপুট সমতা অর্জন করতে সক্ষম। চেকপয়েন্ট ইন্টারঅপারেবিলিটি এবং XLA-এর সমর্থন সহ ন্যূনতম কোড পরিবর্তন M5কে তাদের কাজের চাপের জন্য একাধিক অ্যাক্সিলারেটরের মধ্যে বেছে নেওয়ার অনুমতি দিয়েছে। এটি M5 টিমকে Trainium-এর বৃহৎ কম্পিউট শক্তির সুবিধা নিতে এবং Amazon.com গ্রাহকদের খুশি করার জন্য অ্যাক্সিলারেটর অজ্ঞেয়বাদী সমাধান তৈরি করতে সক্ষম করেছে। একটি অপারেশনাল দৃষ্টিকোণ থেকে, Trainium আমাজন স্কেলে টায়ার-1 পরিষেবাগুলিকে সমর্থন করতে সক্ষম বলে প্রমাণিত হয়েছে। M5 টিম সর্বনিম্ন খরচে Amazon-এর জন্য সেরা মডেলগুলি সরবরাহ করতে ট্রেনিয়ামে আরও বেশি কাজের চাপ নিয়ে চলেছে৷

সংক্ষেপে, M5 টিম এক্সিলারেটরের বহরে Trainium যুক্ত করে সাশ্রয়ী, উৎপাদন-গ্রেড ML প্রশিক্ষণ সম্পাদন করতে সক্ষম হয়েছে। এমএল ওয়ার্কলোডের জন্য উদ্দেশ্য-নির্মিত অ্যামাজন সিলিকনের সুবিধাগুলি কাটাতে আমরা আপনাকে Trainium এবং AWS Inferentia-এর মতো অন্যান্য নিউরন ডিভাইসগুলি দেখতে উৎসাহিত করি। বিভিন্ন মডেল সমন্বিত অনেক টিউটোরিয়ালের একটি দিয়ে সহজে শুরু করুন, যেমন লামা 2, ট্রেনিয়ামে উপলব্ধ.

লেখক সম্পর্কে

অভিনন্দন পাটনি অ্যামাজন অনুসন্ধানের একজন সিনিয়র সফটওয়্যার ইঞ্জিনিয়ার। তিনি স্কেলেবল ডিস্ট্রিবিউটেড ডিপ লার্নিং ট্রেনিং এবং রিয়েল টাইম ইনফারেন্সের জন্য বিল্ডিং সিস্টেম এবং টুলিংয়ের উপর ফোকাস করেন।

জেমস পার্ক অ্যামাজন ওয়েব সার্ভিসের একজন সলিউশন আর্কিটেক্ট। তিনি AWS-এ প্রযুক্তি সমাধান ডিজাইন, নির্মাণ এবং স্থাপন করতে Amazon.com-এর সাথে কাজ করেন এবং AI এবং মেশিন লার্নিং-এ তার বিশেষ আগ্রহ রয়েছে। অবসর সময়ে তিনি নতুন সংস্কৃতি, নতুন অভিজ্ঞতা খুঁজে পেতে এবং সাম্প্রতিক প্রযুক্তির প্রবণতাগুলির সাথে আপ টু ডেট থাকতে উপভোগ করেন৷ আপনি তাকে খুঁজে পেতে পারেন লিঙ্কডইন.

জেরি মানিল অ্যামাজন সার্চে একজন সফটওয়্যার ইঞ্জিনিয়ার। তিনি বিতরণকৃত প্রশিক্ষণ অবকাঠামোর দক্ষতা, দৃঢ়তা এবং মাপযোগ্যতা উন্নত করার জন্য কাজ করেন।

কেন সু অ্যামাজন সার্চে একজন সফটওয়্যার ইঞ্জিনিয়ার। তিনি প্রশিক্ষণের দক্ষতা এবং মাপযোগ্য বিতরণকৃত প্রশিক্ষণ কর্মপ্রবাহের উন্নতিতে কাজ করেন। কাজের বাইরে, তিনি হাইকিং এবং টেনিস পছন্দ করেন।

RJ আমাজনের মধ্যে একজন প্রকৌশলী। তিনি প্রশিক্ষণের জন্য বিতরণ করা সিস্টেমগুলির জন্য সিস্টেমগুলি তৈরি এবং অপ্টিমাইজ করেন এবং এমএল ইনফারেন্সের জন্য লেটেন্সি কমাতে দত্তক নেওয়ার সিস্টেমগুলিকে অপ্টিমাইজ করার উপর কাজ করেন। কাজের বাইরে, তিনি খাবারের রেসিপি তৈরির জন্য জেনারেটিভ এআই ব্যবহার করে অন্বেষণ করছেন।

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
উত্স: https://aws.amazon.com/blogs/machine-learning/how-amazon-search-m5-saved-30-for-llm-training-cost-by-using-aws-trainium/

সময় স্ট্যাম্প: নভেম্বর 22, 2023

সময় স্ট্যাম্প: নভেম্বর 10, 2022

প্লেটো দ্বারা প্রকাশিত

AWS DeepRacer এর সাথে Parsons-এ কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং ব্যবহার করা

Amazon SageMaker এ রিয়েল-টাইম মডেল স্থাপনের সাথে শুরু করা

খুচরা শিল্পে অ্যামাজন পূর্বাভাস বাস্তবায়ন করা: POC থেকে উৎপাদন পর্যন্ত একটি যাত্রা

AWS Media Intelligence এবং Hugging Face BERT ব্যবহার করে শ্রেণীবিন্যাস-ভিত্তিক প্রাসঙ্গিক টার্গেটিং তৈরি করুন

AWS প্যানোরামা এখন NVIDIA JetPack SDK 4.6.2 সমর্থন করে

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব