গত কয়েক বছরে প্রাকৃতিক ভাষা প্রক্রিয়াকরণের (এনএলপি) ক্ষেত্রে দ্রুত বিকাশ ঘটেছে। যদিও হার্ডওয়্যার উন্নত হয়েছে, যেমন NVIDIA এবং Amazon-এর সাম্প্রতিক প্রজন্মের এক্সিলারেটরগুলির সাথে, উন্নত মেশিন লার্নিং (ML) অনুশীলনকারীরা এখনও নিয়মিতভাবে একাধিক GPU-তে তাদের বৃহৎ ভাষার মডেলগুলিকে স্কেল করার সমস্যায় পড়েন।
এই ব্লগ পোস্টে, আমরা সংক্ষিপ্তভাবে বৃহৎ এবং ছোট আকারের NLP মডেলের উত্থানের সংক্ষিপ্তসার তুলে ধরছি, প্রাথমিকভাবে Hugging Face এবং Amazon SageMaker-এর মডুলার ব্যাকএন্ডের মাধ্যমে প্রদত্ত বিমূর্ততার মাধ্যমে। বিশেষ করে আমরা সেজমেকার মডেলের সমান্তরাল লাইব্রেরির মধ্যে চারটি অতিরিক্ত বৈশিষ্ট্যের লঞ্চ হাইলাইট করি যা গ্রাহকদের জন্য 175 বিলিয়ন প্যারামিটার এনএলপি মডেল প্রিট্রেনিং এবং ফাইন-টিউনিং আনলক করে।
আমরা SageMaker প্রশিক্ষণ প্ল্যাটফর্মে এই লাইব্রেরিটি ব্যবহার করেছি এবং 32 ml.p120d.4x বড় দৃষ্টান্ত এবং 24 বিলিয়ন প্যারামিটারে প্রতি সেকেন্ডে 175টি নমুনার থ্রুপুট অর্জন করেছি। আমরা অনুমান করি যে যদি আমরা এটিকে 240টি দৃষ্টান্ত পর্যন্ত বাড়াই, তাহলে সম্পূর্ণ মডেলটি প্রশিক্ষণের জন্য 25 দিন সময় লাগবে।
মডেল সমান্তরাল সম্পর্কে আরো তথ্যের জন্য, কাগজ দেখুন অ্যামাজন সেজমেকার মডেল সমান্তরালতা: বড় মডেল প্রশিক্ষণের জন্য একটি সাধারণ এবং নমনীয় কাঠামো.
আপনি GPT2 নোটবুকটিও দেখতে পারেন যা আমরা আমাদের এই পারফরম্যান্স নম্বরগুলি তৈরি করতে ব্যবহার করি৷ GitHub সংগ্রহস্থল.
SageMaker মডেলের সমান্তরালে নতুন বৈশিষ্ট্যগুলি কীভাবে ব্যবহার করবেন সে সম্পর্কে আরও জানতে, পড়ুন PyTorch-এর জন্য SageMaker মডেল প্যারালাল লাইব্রেরির বর্ধিত বৈশিষ্ট্য, এবং SageMaker Python SDK এর সাথে ব্যবহার করুন.
অ্যামাজন সেজমেকারে এনএলপি - আলিঙ্গন করা মুখ এবং মডেল সমান্তরালতা
আপনি যদি হাগিং ফেস এবং এনএলপি-তে নতুন হয়ে থাকেন, তবে আপনার সবচেয়ে বড় হাইলাইটটি জানা দরকার যে ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) ব্যবহার করা অ্যাপ্লিকেশনগুলি মানব স্তরের কর্মক্ষমতা অর্জন করতে শুরু করেছে। এটি মূলত একটি শেখার প্রক্রিয়া দ্বারা চালিত হয়, যাকে বলা হয় মনোযোগ, যা একটি গভীর শিক্ষার মডেলের জন্ম দিয়েছে, যাকে বলা হয় ট্রান্সফরমার, যা পূর্ববর্তী গভীর শিক্ষার অনুক্রমিক পদ্ধতির তুলনায় অনেক বেশি মাপযোগ্য। এখনকার বিখ্যাত BERT মডেল ট্রান্সফরমারকে পুঁজি করার জন্য বিকশিত করা হয়েছিল, এবং পথে বেশ কয়েকটি দরকারী NLP কৌশল তৈরি করা হয়েছিল। ট্রান্সফরমার এবং মডেলের স্যুট, NLP-এর ভিতরে এবং বাইরে উভয়ই, যা সবই BERT দ্বারা অনুপ্রাণিত হয়েছে, আপনার Google অনুসন্ধান ফলাফলের পিছনে প্রাথমিক ইঞ্জিন, আপনার গুগল অনুবাদ ফলাফল, এবং অনেক নতুন স্টার্টআপ.
SageMaker এবং Hugging Face গ্রাহকদের জন্য এটিকে আগের চেয়ে সহজ করতে অংশীদারিত্ব করেছে। আমরা আপনার জন্য হাগিং ফেস ডিপ লার্নিং কন্টেইনার (DLC's) চালু করেছি যাতে আপনি সরাসরি হাগিং ফেস থেকে প্রি-প্রশিক্ষিত মডেলগুলিকে প্রশিক্ষণ এবং হোস্ট করতে পারেন 26,000 টিরও বেশি মডেলের সংগ্রহস্থল। আমরা চালু করেছি সেজমেকার ট্রেনিং কম্পাইলার আপনার হাগিং ফেস ট্রেনিং লুপের রানটাইম 50% পর্যন্ত গতি বাড়াতে। আমরাও সংহত করেছি আলিঙ্গন মুখ ফ্ল্যাগশিপ ট্রান্সফরমার SDK সঙ্গে আমাদের বিতরণ করা প্রশিক্ষণ লাইব্রেরি আপনার NLP মডেল স্কেল করা আগের চেয়ে সহজ করতে।
Amazon SageMaker-এ Hugging Face Transformer মডেল সম্পর্কে আরও তথ্যের জন্য, দেখুন আলিঙ্গন ফেস ট্রান্সফরমার মডেলের জন্য সমর্থন।
SageMaker মডেলের সমান্তরাল লাইব্রেরির সাথে বড় আকারের NLP মডেল প্রশিক্ষণের জন্য নতুন বৈশিষ্ট্য
AWS re:Invent 2020-এ, সেজমেকার বিতরণ করা লাইব্রেরি চালু করেছে যা কম্পিউটার ভিশন মডেলের প্রশিক্ষণের জন্য ক্লাউডে সেরা কর্মক্ষমতা প্রদান করে মাস্ক-আরসিএনএন এবং NLP মডেল পছন্দ করে T5-3B. এটি উন্নত যোগাযোগের আদিম যা AWS-এ NCCL-এর থেকে 20-40% দ্রুত, এবং মডেল বিতরণ কৌশলগুলির মাধ্যমে সম্ভব যা অত্যন্ত বড় ভাষা মডেলগুলিকে দশ থেকে কয়েক হাজার GPU-তে স্কেল করতে সক্ষম করে৷
SageMaker মডেল সমান্তরাল লাইব্রেরি (SMP) আপনাকে সবসময় PyTorch-এ আপনার পূর্বনির্ধারিত NLP মডেল নেওয়ার ক্ষমতা দিয়েছে, সেটা হগিং ফেস বা অন্য কোথাও, এবং সেই মডেলটিকে আপনার ক্লাস্টারের একাধিক GPU-তে পার্টিশন করার ক্ষমতা দিয়েছে। অন্য উপায়ে বলেছে, SMP আপনার মডেলটিকে ছোট ছোট অংশে বিভক্ত করে যাতে আপনি মেমরির (OOM) ত্রুটির অভিজ্ঞতা না পান। আমরা অতিরিক্ত মেমরি-সংরক্ষণ কৌশলগুলি যোগ করতে পেরে খুশি যেগুলি বড় আকারের মডেলগুলির জন্য গুরুত্বপূর্ণ, যথা:
- টেনসর সমান্তরালতা
- অপ্টিমাইজার স্টেট শার্ডিং
- সক্রিয়করণ চেকপয়েন্টিং
- অ্যাক্টিভেশন অফলোডিং
আপনি এই চারটি বৈশিষ্ট্য একত্রিত করতে পারেন মেমরিকে আরও দক্ষতার সাথে ব্যবহার করতে এবং পরবর্তী প্রজন্মের চরম স্কেল NLP মডেলগুলিকে প্রশিক্ষণ দিতে।
বিতরণ করা প্রশিক্ষণ এবং টেনসর সমান্তরালতা
টেনসর সমান্তরালতা বোঝার জন্য, এটি জানা সহায়ক যে অনেক ধরণের বিতরণ প্রশিক্ষণ বা সমান্তরালতা রয়েছে. আপনি সম্ভবত ইতিমধ্যেই সবচেয়ে সাধারণ প্রকারের সাথে পরিচিত, ডেটা সমান্তরালতা। ডেটা সমান্তরালতার মূল এইভাবে কাজ করে: আপনি আপনার ক্লাস্টারে একটি অতিরিক্ত নোড যোগ করেন, যেমন আপনার সেজমেকার অনুমানকারীতে এক থেকে দুই মিলি ইসি2 দৃষ্টান্তে যাওয়া। তারপর, আপনি Horovod, PyTorch Distributed Data Parallel, বা SageMaker Distributed এর মত একটি ডেটা সমান্তরাল ফ্রেমওয়ার্ক ব্যবহার করুন৷ এটি আপনার মডেলের প্রতিলিপি তৈরি করে, প্রতি অ্যাক্সিলারেটরে একটি করে, এবং আপনার নিউরাল নেটওয়ার্কের পিছনের প্রচারের ধাপের সময় সমস্ত ফলাফল একসাথে আনার সাথে সাথে প্রতিটি নোডে ডেটা শার্ডিং পরিচালনা করে। ডিস্ট্রিবিউটেড গ্রেডিয়েন্ট ডিসেন্ট ভাবুন। ডেটা সমান্তরালতা সার্ভারের মধ্যেও জনপ্রিয়; আপনি আপনার সমস্ত নোডের সমস্ত GPU এবং মাঝে মাঝে CPU-তে ডেটা ভাগ করছেন। নিম্নলিখিত চিত্রটি ডেটা সমান্তরালতাকে চিত্রিত করে।
মডেল সমান্তরালতা সামান্য ভিন্ন। একই মডেলের অনুলিপি তৈরি করার পরিবর্তে, আমরা আপনার মডেলকে টুকরো টুকরো করে বিভক্ত করি। তারপরে আমরা এটি চালানো পরিচালনা করি, তাই আপনার ডেটা এখনও গাণিতিকভাবে ঠিক একইভাবে আপনার নিউরাল নেটওয়ার্কের মাধ্যমে প্রবাহিত হচ্ছে, তবে আপনার মডেলের বিভিন্ন অংশ বিভিন্ন GPU-তে বসে আছে। আপনি যদি একটি ml.p3.8xlarge ব্যবহার করেন, তাহলে আপনার কাছে চারটি NVIDIA V100 আছে, তাই আপনি সম্ভবত আপনার মডেলটিকে 4 টুকরা করতে চান, প্রতি GPU-এ এক টুকরো। আপনি যদি দুটি ml.p4d.24xlarge's পর্যন্ত লাফ দেন, তাহলে সেটি আপনার ক্লাস্টারে মোট 16 A100, তাই আপনি আপনার মডেলকে 16 টুকরা করতে পারেন। এটি কখনও কখনও বলা হয় পাইপলাইন সমান্তরালতা। এর কারণ হল নেটওয়ার্কের স্তরগুলির সেটগুলি GPU গুলি জুড়ে বিভাজন করা হয় এবং GPU ব্যবহার সর্বাধিক করার জন্য একটি পাইপলাইন পদ্ধতিতে চালানো হয়। নিম্নলিখিত চিত্রটি মডেলের সমান্তরালতাকে চিত্রিত করে।
মডেলের সমান্তরালতা স্কেলে ঘটতে, আমাদের তৃতীয় ধরনের বিতরণ প্রয়োজন: টেনসর সমান্তরালতা. টেনসর সমান্তরালতা আরও এক ধাপে একই ধারণাগুলি প্রয়োগ করে—আমরা আপনার নিউরাল নেটওয়ার্কের বৃহত্তম স্তরগুলিকে ভেঙে ফেলি এবং স্তরগুলির অংশগুলিকে বিভিন্ন ডিভাইসে নিজেরাই স্থাপন করি। আপনি যখন 175 বিলিয়ন বা তার বেশি প্যারামিটার নিয়ে কাজ করছেন এবং সেই ট্রান্সফরমারকে প্রশিক্ষণ দেওয়ার জন্য আপনার মডেলের অংশ সহ RAM-তে এমনকি কয়েকটি রেকর্ড ফিট করার চেষ্টা করছেন তখন এটি প্রাসঙ্গিক। নিম্নলিখিত চিত্রটি টেনসর সমান্তরালতাকে চিত্রিত করে।
সক্রিয় করতে টেনসর সমান্তরালতা, এটি smp বিকল্পের মধ্যে সেট করুন আপনি আপনার অনুমানকারী পাস.
পূর্ববর্তী কোডে, pipeline_parallel_degree
আমরা উপরে আলোচনা করা পাইপলাইনের সমান্তরালতার উপর ভিত্তি করে, আপনার মডেলটি কতগুলি অংশে শার্ড করা উচিত তা বর্ণনা করে। এর জন্য আরেকটি শব্দ পার্টিশন.
টেনসর সমান্তরাল সক্ষম করতে, সেট করুন tensor_parallel_degree
আপনার পছন্দসই স্তরে। নিশ্চিত করুন যে আপনি প্রতি উদাহরণে GPU-এর সংখ্যার সমান বা তার চেয়ে ছোট একটি সংখ্যা বাছাই করছেন, তাই ml.p8d.4xlarge মেশিনের জন্য 24-এর বেশি নয়। অতিরিক্ত স্ক্রিপ্ট পরিবর্তনের জন্য, পড়ুন টেনসর সমান্তরালতার সাথে একটি সেজমেকার বিতরণ করা মডেল সমান্তরাল প্রশিক্ষণের কাজ চালান.
ডিডিপি প্যারামিটারটি সমান্তরালভাবে বিতরণ করা ডেটা বোঝায়। আপনি সাধারণত এটি সক্ষম করেন যদি আপনি ডেটা সমান্তরালতা বা টেনসর সমান্তরালতা ব্যবহার করেন, কারণ মডেল সমান্তরাল লাইব্রেরি এই বৈশিষ্ট্যগুলির জন্য DDP-এর উপর নির্ভর করে।
অপ্টিমাইজার স্টেট শার্ডিং, অ্যাক্টিভেশন অফলোডিং এবং চেকপয়েন্ট
আপনার যদি একটি অত্যন্ত বড় মডেল থাকে তবে আপনার একটি অত্যন্ত বড় অপ্টিমাইজার অবস্থারও প্রয়োজন৷ SMP-এর জন্য আপনার অপ্টিমাইজার প্রস্তুত করা সহজ: এটিকে আপনার স্ক্রিপ্টের ডিস্ক থেকে তুলে নিন এবং লোড করুন smp.DistributedOptimizer()
অবজেক্ট।
নিশ্চিত করুন যে আপনি সেট করে অনুমানকারীতে এটি সক্ষম করেছেন shard_optimizer_state
মধ্যে সত্য smp_options
আপনি SMP কনফিগার করতে ব্যবহার করেন:
টেনসর এবং পাইপলাইন সমান্তরালতার অনুরূপ, সেরা স্থান নির্ধারণের কৌশলগুলি খুঁজে পেতে SMP আপনার মডেল এবং আপনার বিশ্বের আকার (আপনার সমস্ত প্রশিক্ষণ নোডে মোট GPU-এর সংখ্যা) প্রোফাইল করে।
গভীর শিক্ষায় ইন্টারমিডিয়েট লেয়ার আউটপুটকে অ্যাক্টিভেশনও বলা হয় এবং ফরওয়ার্ড পাসের সময় এগুলো সংরক্ষণ করা প্রয়োজন। এর কারণ হল ব্যাকওয়ার্ড পাসে গ্রেডিয়েন্ট কম্পিউটেশনের জন্য তাদের ব্যবহার করা দরকার। একটি বড় মডেলে, এই সমস্ত অ্যাক্টিভেশনগুলিকে একই সাথে মেমরিতে সংরক্ষণ করা গুরুত্বপূর্ণ মেমরির বাধা তৈরি করতে পারে। এই বাধা মোকাবেলা করতে, আপনি ব্যবহার করতে পারেন সক্রিয়করণ চেকপয়েন্টিং, SageMaker মডেল সমান্তরাল লাইব্রেরিতে তৃতীয় নতুন বৈশিষ্ট্য। সক্রিয়করণ চেকপয়েন্টিং, বা গ্রেডিয়েন্ট চেকপয়েন্টিং, নির্দিষ্ট স্তরের সক্রিয়করণ সাফ করে এবং একটি পশ্চাদগামী পাসের সময় তাদের পুনরায় গণনা করে মেমরির ব্যবহার হ্রাস করার একটি কৌশল। এটি কার্যকরভাবে কম মেমরি ব্যবহারের জন্য অতিরিক্ত গণনা সময় ব্যবসা করে।
সর্বশেষে, সক্রিয়করণ অফলোডিং সরাসরি সক্রিয়করণ চেকপয়েন্টিং ব্যবহার করে। মডেল প্রশিক্ষণের সময় GPU RAM-তে শুধুমাত্র কয়েকটি টেনসর অ্যাক্টিভেশন রাখার কৌশল। বিশেষত, আমরা ফরোয়ার্ড পাসের সময় চেকপয়েন্টেড অ্যাক্টিভেশনগুলিকে CPU মেমরিতে নিয়ে যাই এবং একটি নির্দিষ্ট মাইক্রো-ব্যাচের ব্যাকওয়ার্ড পাসের জন্য সেগুলিকে GPU-তে লোড করি।
মাইক্রো-ব্যাচ এবং প্লেসমেন্ট কৌশল
অন্যান্য বিষয় যা কখনও কখনও গ্রাহকদের বিভ্রান্তি সৃষ্টি করে তা হল মাইক্রো-ব্যাচ এবং স্থান নির্ধারণের কৌশল। এই দুটিই হাইপারপ্যারামিটার যা আপনি SageMaker মডেলের সমান্তরাল লাইব্রেরিতে সরবরাহ করতে পারেন। পাইপলাইন সমান্তরালতার উপর নির্ভর করে এমন মডেলগুলি বাস্তবায়ন করার সময় বিশেষত মাইক্রো-ব্যাচগুলি প্রাসঙ্গিক, যেমন আকারে কমপক্ষে 30 বিলিয়ন প্যারামিটার বা তার বেশি।
মাইক্রো-ব্যাচগুলি মিনিব্যাচগুলির উপসেট। যখন আপনার মডেলটি তার প্রশিক্ষণ লুপে থাকে, তখন আপনি একটি নির্দিষ্ট সংখ্যক রেকর্ডগুলিকে বাছাই করতে এবং স্তরগুলির মধ্য দিয়ে এগিয়ে এবং পিছনে যাওয়ার জন্য সংজ্ঞায়িত করেন- একে বলা হয় মিনিব্যাচ, অথবা কখনও কখনও শুধু একটি দল. আপনার ডেটাসেটের মাধ্যমে একটি সম্পূর্ণ পাস বলা হয় একটি কাল. পাইপলাইন সমান্তরালতার সাথে এগিয়ে এবং পিছনের পাসগুলি চালানোর জন্য, সেজমেকার মডেল সমান্তরাল লাইব্রেরি ব্যাচগুলিকে ছোট ছোট উপসেটে ভাগ করে যাকে বলা হয় মাইক্রো-ব্যাচ, যেগুলি GPU ব্যবহার সর্বাধিক করার জন্য এক সময়ে চালানো হয়। ফলস্বরূপ, প্রতি-GPU-এর উদাহরণের অনেক ছোট সেটকে মাইক্রো-ব্যাচ বলা হয়। আমাদের GPT-2 উদাহরণে, আমরা সরাসরি প্রশিক্ষণ স্ক্রিপ্টে 1 মাইক্রোব্যাচের একটি ডিফল্ট যোগ করেছি.
আপনি আপনার প্রশিক্ষণ কনফিগারেশন স্কেল হিসাবে, সেই অনুযায়ী আপনার ব্যাচের আকার এবং মাইক্রো-ব্যাচের আকার পরিবর্তন করার জন্য আপনাকে দৃঢ়ভাবে সুপারিশ করা হচ্ছে. ভাল কার্যক্ষমতা নিশ্চিত করার এটিই একমাত্র উপায়: পাইপলাইনের সমান্তরালতার উপর নির্ভর করার সময় আপনাকে অবশ্যই ব্যাচের আকার এবং মাইক্রো-ব্যাচের আকারগুলিকে আপনার সামগ্রিক বিশ্ব আকারের একটি ফাংশন হিসাবে বিবেচনা করতে হবে।
প্লেসমেন্ট কৌশল হল কিভাবে SageMaker কে শারীরিকভাবে বলবেন যে আপনার মডেল পার্টিশনগুলি কোথায় রাখবেন। আপনি যদি মডেল সমান্তরাল এবং ডেটা সমান্তরাল, সেটিং উভয়ই ব্যবহার করছেন placement_strategy
থেকে “cluster”
ডিভাইস আইডিতে (GPUs) মডেলের প্রতিলিপি স্থাপন করে যা শারীরিকভাবে একে অপরের কাছাকাছি। যাইহোক, যদি আপনি সত্যিই আপনার সমান্তরাল কৌশল সম্পর্কে আরও নির্দেশমূলক হতে চান তবে আপনি এটিকে তিনটি অক্ষরের বিভিন্ন সংমিশ্রণ সহ একটি একক স্ট্রিংয়ে ভেঙে দিতে পারেন: ডেটা সমান্তরালতার জন্য D, P
পাইপলাইনের সমান্তরালতা নির্দেশ করে, এবং T
টেনসর সমান্তরালতার জন্য। আমরা সাধারণত এর ডিফল্ট প্লেসমেন্ট রাখার সুপারিশ করি "cluster"
, কারণ এটি বড় আকারের মডেল প্রশিক্ষণের জন্য সবচেয়ে উপযুক্ত। "ক্লাস্টার" প্লেসমেন্ট "এর সাথে মিলে যায়DPT
"।
বসানো কৌশল সম্পর্কে আরও তথ্যের জন্য, দেখুন টেনসর সমান্তরালতার সাথে প্লেসমেন্ট কৌশল.
উদাহরণ ব্যবহার ক্ষেত্রে
কল্পনা করুন যে আপনার প্রশিক্ষণের চাকরিতে আপনার একটি ml.p3.16x বড় আছে। যে আপনাকে দেয় 8টি NVIDIA V100's প্রতি নোড. মনে রাখবেন, যতবার আপনি একটি অতিরিক্ত উদাহরণ যোগ করেন, আপনি অতিরিক্ত ব্যান্ডউইথ ওভারহেড অনুভব করেন, তাই একটি একক নোডে আরও GP’Us থাকা সর্বদা ভাল। এই ক্ষেত্রে, আপনি একটি ml.p3.16xlarge এর চেয়ে ভালো, উদাহরণস্বরূপ, দুটি ml.p3.8xlarges. যদিও GPU গুলির সংখ্যা একই, অতিরিক্ত নোডের অতিরিক্ত ব্যান্ডউইথ ওভারহেড আপনার থ্রুপুটকে ধীর করে দেয়।
নিম্নলিখিত চিত্রটি দ্বিমুখী ডেটা সমান্তরালতার সাথে মিলিত চার-মুখী মডেল সমান্তরালতাকে চিত্রিত করে। এর অর্থ হল আপনার কাছে আসলে আপনার মডেলের দুটি প্রতিলিপি রয়েছে (ডেটা সমান্তরাল ভাবেন), তাদের প্রত্যেকটি চারটি জিপিইউ (মডেল সমান্তরাল) জুড়ে বিভক্ত।
যদি এই মডেল পার্টিশনগুলির মধ্যে একটি একক GPU-তে মাপসই করার জন্য খুব বড় হয়, আপনি একটি অতিরিক্ত ধরনের ডিস্ট্রিবিউশন যোগ করতে পারেন-টেনসর সমান্তরালতা-এটিকে থুতু ফেলার জন্য এবং উভয় ডিভাইস ব্যবহার করতে।
উপসংহার
এই ব্লগ পোস্টে আমরা আলোচনা করেছি সেজমেকার বিতরণ প্রশিক্ষণ লাইব্রেরি, বিশেষ করে মডেল সমান্তরালতার উপর ফোকাস করে। আমরা আমাদের সাম্প্রতিক পরীক্ষা থেকে পারফরম্যান্স বেঞ্চমার্ক শেয়ার করেছি, Amazon SageMaker-এ 32 ml.p120d.4x বড় উদাহরণ এবং 24B প্যারামিটার জুড়ে প্রতি সেকেন্ডে 175টি নমুনা অর্জন করেছি। আমরা অনুমান করি যে যদি আমরা এটিকে 240 p4 দৃষ্টান্তে বৃদ্ধি করি তবে আমরা 175 দিনের মধ্যে একটি 25B প্যারামিটার মডেলকে প্রশিক্ষণ দিতে পারি।
আমরা নতুন বৈশিষ্ট্যগুলি নিয়েও আলোচনা করেছি যা বড়-স্কেল প্রশিক্ষণ সক্ষম করে, যথা টেনসর সমান্তরালতা, অপ্টিমাইজার স্টেট শার্ডিং, অ্যাক্টিভেশন চেকপয়েন্টিং, এবং অ্যাক্টিভেশন অফলোডিং। আমরা Amazon SageMaker-এ প্রশিক্ষণের মাধ্যমে এটি সক্ষম করার জন্য কিছু টিপস এবং কৌশল শেয়ার করেছি।
নিজে চেষ্টা করে দেখুন একই নোটবুক ব্যবহার করে যা আমাদের নম্বর তৈরি করেছে, যা এখানে GitHub-এ উপলব্ধ. আপনি এর মাধ্যমে আপনার AWS অ্যাকাউন্টের জন্য আরও GPU-এর অনুরোধ করতে পারেন এখানে একটি পরিষেবা সীমা অনুমোদনের জন্য অনুরোধ করা হচ্ছে.
লেখক সম্পর্কে
এমিলি ওয়েবার SageMaker চালু হওয়ার ঠিক পরে AWS-এ যোগদান করেছে, এবং তখন থেকেই বিশ্বকে এটি সম্পর্কে জানানোর চেষ্টা করছে! গ্রাহকদের জন্য নতুন ML অভিজ্ঞতা তৈরির বাইরে, এমিলি তিব্বতি বৌদ্ধধর্মের ধ্যান ও অধ্যয়ন উপভোগ করেন।
আদিত্য বিন্দল AWS ডিপ লার্নিং এর জন্য একজন সিনিয়র প্রোডাক্ট ম্যানেজার। তিনি এমন পণ্যগুলিতে কাজ করেন যা গ্রাহকদের AWS-এ গভীর শিক্ষার মডেলগুলিকে প্রশিক্ষণ দেওয়া সহজ করে তোলে৷ তার অবসর সময়ে, তিনি তার মেয়ের সাথে সময় কাটাতে, টেনিস খেলা, ঐতিহাসিক কথাসাহিত্য পড়া এবং ভ্রমণ উপভোগ করেন।
লুইস কুইন্টেলা AWS SageMaker মডেলের সমান্তরাল লাইব্রেরির জন্য সফটওয়্যার ডেভেলপার ম্যানেজার। তার অবসর সময়ে, তাকে এসএফ বে এরিয়াতে তার হার্লেতে চড়তে দেখা যায়।
- Coinsmart. ইউরোপের সেরা বিটকয়েন এবং ক্রিপ্টো এক্সচেঞ্জ।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. বিনামূল্যে এক্সেস.
- ক্রিপ্টোহক। Altcoin রাডার। বিনামূল্যে ট্রায়াল.
- সূত্র: https://aws.amazon.com/blogs/machine-learning/train-175-billion-parameter-nlp-models-with-model-parallel-additions-and-hugging-face-on-amazon-sagemaker/
- "
- 000
- 100
- 2020
- 39
- সম্পর্কে
- বেগবর্ধক ব্যক্তি
- হিসাব
- অর্জন
- দিয়ে
- অতিরিক্ত
- ঠিকানা
- অগ্রসর
- সব
- ইতিমধ্যে
- মর্দানী স্ত্রীলোক
- অন্য
- অ্যাপ্লিকেশন
- এলাকায়
- সহজলভ্য
- ডেস্কটপ AWS
- উপসাগর
- সর্বোত্তম
- বৃহত্তম
- বিলিয়ন
- ব্লগ
- ভবন
- কারণ
- পরিবর্তন
- মেঘ
- কোড
- সমন্বয়
- সাধারণ
- যোগাযোগ
- কনফিগারেশন
- বিশৃঙ্খলা
- কন্টেনারগুলি
- মূল
- পারা
- গ্রাহকদের
- উপাত্ত
- উন্নত
- বিকাশকারী
- উন্নয়ন
- যন্ত্র
- ডিভাইস
- বিভিন্ন
- বণ্টিত
- বিতরণ
- নিচে
- চালিত
- সক্রিয়
- বিশেষত
- উদাহরণ
- অভিজ্ঞতা
- অভিজ্ঞতা
- চরম
- মুখ
- দ্রুত
- বৈশিষ্ট্য
- বৈশিষ্ট্য
- উপন্যাস
- ফিট
- অনুসরণ
- অগ্রবর্তী
- পাওয়া
- ফ্রেমওয়ার্ক
- সম্পূর্ণ
- ক্রিয়া
- সাধারণ
- উত্পাদন করা
- GitHub
- চালু
- ভাল
- গুগল
- Google অনুসন্ধান
- জিপিইউ
- হার্ডওয়্যারের
- সহায়ক
- লক্ষণীয় করা
- ঐতিহাসিক
- কিভাবে
- কিভাবে
- HTTPS দ্বারা
- শত শত
- বর্ধিত
- তথ্য
- অনুপ্রাণিত
- সংহত
- সমস্যা
- IT
- কাজ
- যোগদান
- ঝাঁপ
- পালন
- ভাষা
- বড়
- সর্বশেষ
- শুরু করা
- শিখতে
- শিক্ষা
- উচ্চতা
- লাইব্রেরি
- বোঝা
- মেশিন
- মেশিন লার্নিং
- মেশিন
- মেকিং
- পরিচালক
- স্মৃতি
- ML
- মডেল
- মডেল
- মডুলার
- সেতু
- পদক্ষেপ
- যথা
- প্রাকৃতিক
- নেটওয়ার্ক
- নতুন বৈশিষ্ট
- নোড
- নোটবই
- সংখ্যার
- অন্যান্য
- কাগজ
- যৌথভাবে কাজ
- পিডিএফ
- কর্মক্ষমতা
- টুকরা
- মাচা
- জনপ্রিয়
- সম্ভব
- প্রাথমিক
- পণ্য
- পণ্য
- প্রোফাইল
- প্রদান
- র্যাম
- RE
- পড়া
- সুপারিশ করা
- রেকর্ড
- হ্রাস করা
- ফলাফল
- চালান
- দৌড়
- বলেছেন
- মাপযোগ্য
- স্কেল
- আরোহী
- SDK
- সার্চ
- সেবা
- সেট
- বিন্যাস
- শারডিং
- ভাগ
- গুরুত্বপূর্ণ
- আয়তন
- So
- সফটওয়্যার
- বিশেষভাবে
- স্পীড
- খরচ
- বিভক্ত করা
- রাষ্ট্র
- কৌশল
- কৌশল
- সরবরাহ
- কার্যপদ্ধতি
- প্রযুক্তি
- পরীক্ষা
- বিশ্ব
- হাজার হাজার
- দ্বারা
- সময়
- পরামর্শ
- কৌশল
- একসঙ্গে
- টপিক
- ব্যবসা
- প্রশিক্ষণ
- বোঝা
- ব্যবহার
- সদ্ব্যবহার করা
- দৃষ্টি
- মধ্যে
- কাজ
- কাজ
- বিশ্ব
- বছর