গভীর শিক্ষার সাম্প্রতিক উন্নয়নগুলি GPT-3, BLOOM এবং OPT-এর মতো ক্রমবর্ধমান বড় মডেলগুলির দিকে পরিচালিত করেছে, যার মধ্যে কিছু ইতিমধ্যেই 100 বিলিয়ন প্যারামিটারের বেশি। যদিও বড় মডেলগুলি আরও শক্তিশালী হতে থাকে, এই ধরনের মডেলগুলিকে প্রশিক্ষণের জন্য উল্লেখযোগ্য গণনামূলক সংস্থানগুলির প্রয়োজন হয়। এমনকি FSDP এবং DeepSpeed-এর মতো উন্নত বিতরণকৃত প্রশিক্ষণ লাইব্রেরি ব্যবহার করেও, প্রশিক্ষণের চাকরির জন্য এক সময়ে কয়েক সপ্তাহ বা মাস ধরে শত শত অ্যাক্সিলারেটর ডিভাইসের প্রয়োজন হয়।
2022 সালের শেষের দিকে, AWS এর সাধারণ প্রাপ্যতা ঘোষণা করেছে Amazon EC2 Trn1 উদাহরণ দ্বারা চালিত এডব্লিউএস ট্রেনিয়াম—একটি উদ্দেশ্য-নির্মিত মেশিন লার্নিং (ML) এক্সিলারেটর ক্লাউডে গভীর শিক্ষার মডেল প্রশিক্ষণের জন্য একটি উচ্চ-কর্মক্ষমতা, ব্যয়-কার্যকর, এবং ব্যাপকভাবে মাপযোগ্য প্ল্যাটফর্ম প্রদানের জন্য অপ্টিমাইজ করা হয়েছে। Trn1 দৃষ্টান্তগুলি বিভিন্ন আকারে পাওয়া যায় (নিম্নলিখিত সারণীটি দেখুন), প্রতি উদাহরণে 16টি পর্যন্ত ট্রেনিয়াম এক্সিলারেটর।
উদাহরণের আকার | ট্রেনিয়াম এক্সিলারেটর | এক্সিলারেটর মেমরি (GB) | vCPUs | ইনস্ট্যান্স মেমরি (GiB) | নেটওয়ার্ক ব্যান্ডউইথ (Gbps) |
trn1.2x বড় | 1 | 32 | 8 | 32 | 12.5 পর্যন্ত |
trn1.32x বড় | 16 | 512 | 128 | 512 | 800 |
trn1n.32xlarge (শীঘ্রই আসছে) | 16 | 512 | 128 | 512 | 1600 |
Trn1 দৃষ্টান্তগুলি হয় ছোট প্রশিক্ষণের কাজের জন্য স্বতন্ত্র দৃষ্টান্ত হিসাবে স্থাপন করা যেতে পারে, বা উচ্চ মাপযোগ্য আল্ট্রাক্লাস্টারগুলিতে যা হাজার হাজার ট্রেনিয়াম এক্সিলারেটর জুড়ে বিতরণ করা প্রশিক্ষণকে সমর্থন করে। সমস্ত Trn1 দৃষ্টান্ত স্বতন্ত্র কনফিগারেশন সমর্থন করে, যেখানে Trn1 আল্ট্রাক্লাস্টারগুলির জন্য trn1.32xlarge বা trn1n.32xlarge দৃষ্টান্ত প্রয়োজন। একটি আল্ট্রাক্লাস্টারে, একাধিক Trn1 দৃষ্টান্ত একটি প্রদত্ত AWS প্রাপ্যতা অঞ্চলে সহ-অবস্থিত থাকে এবং উচ্চ-গতি, কম লেটেন্সি, ইলাস্টিক ফ্যাব্রিক অ্যাডাপ্টার (EFA) নেটওয়ার্কিংয়ের সাথে সংযুক্ত থাকে যা যৌথ গণনা অপারেশনের জন্য প্রতি দৃষ্টান্তে 800 Gbps ননব্লকিং নেটওয়ার্ক ব্যান্ডউইথ প্রদান করে। . trn1n.32xlarge ইন্সট্যান্স টাইপ, 2023 সালের প্রথম দিকে লঞ্চ হচ্ছে, এই ব্যান্ডউইথ প্রতি দৃষ্টান্তে 1600 Gbps-এ বৃদ্ধি করবে।
অনেক এন্টারপ্রাইজ গ্রাহকরা কুবারনেটস-ক্লাউডে কন্টেইনার অর্কেস্ট্রেশনের জন্য ডি ফ্যাক্টো স্ট্যান্ডার্ড ব্যবহার করে তাদের গভীর শিক্ষার কাজের চাপ নিয়োজিত করতে বেছে নেয়। AWS গ্রাহকরা প্রায়ই এই কাজের চাপ ব্যবহার করে স্থাপন করে অ্যামাজন ইলাস্টিক কুবারনেটস পরিষেবা (আমাজন ইকেএস)। Amazon EKS হল একটি পরিচালিত Kubernetes পরিষেবা যা কুবারনেটস ক্লাস্টার তৈরি, কনফিগারেশন, লাইফসাইকেল এবং পর্যবেক্ষণকে সহজ করে যখন এখনও আপস্ট্রিম কুবারনেটসের সম্পূর্ণ নমনীয়তা প্রদান করে।
আজ, আমরা Amazon EKS এবং EC2 Trn1 দৃষ্টান্ত ব্যবহার করে বিতরণকৃত প্রশিক্ষণের চাকরির জন্য অফিসিয়াল সমর্থন ঘোষণা করতে পেরে আনন্দিত। এই ঘোষণার মাধ্যমে, আপনি এখন সহজেই Amazon EKS-এর মধ্যে বৃহৎ-স্কেল কন্টেইনারাইজড প্রশিক্ষণের কাজ চালাতে পারবেন এবং Trn1 দৃষ্টান্তগুলির দ্বারা প্রদত্ত মূল্য-কর্মক্ষমতা, মাপযোগ্যতা এবং ব্যবহারের সহজলভ্যতার সম্পূর্ণ সুবিধা গ্রহণ করতে পারবেন।
এই ঘোষণার সাথে, আমরা একটি বিশদ টিউটোরিয়ালও প্রকাশ করছি যা আপনাকে Amazon EKS এবং Trn1 দৃষ্টান্ত ব্যবহার করে একটি মাল্টি-ইনস্ট্যান্স ডিস্ট্রিবিউটেড ট্রেনিং জব (BERT ফেজ 1 প্রাক-প্রশিক্ষণ) চালানোর জন্য প্রয়োজনীয় পদক্ষেপগুলির মাধ্যমে গাইড করে। এই পোস্টে, আপনি সমাধান আর্কিটেকচার সম্পর্কে শিখবেন এবং টিউটোরিয়াল থেকে কয়েকটি মূল পদক্ষেপ পর্যালোচনা করবেন। পড়ুন অফিসিয়াল টিউটোরিয়াল সংগ্রহস্থল সম্পূর্ণ এন্ড-টু-এন্ড ওয়ার্কফ্লো জন্য।
অনুসরণ করার জন্য, মূল AWS পরিষেবাগুলির সাথে একটি বিস্তৃত পরিচিতি যেমন অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2) এবং Amazon EKS নিহিত, এবং গভীর শিক্ষা এবং PyTorch এর সাথে প্রাথমিক পরিচিতি সহায়ক হবে।
সমাধান আর্কিটেকচার
নিম্নলিখিত চিত্রটি সমাধানের স্থাপত্যকে চিত্রিত করে।
সমাধানটি নিম্নলিখিত প্রধান উপাদানগুলি নিয়ে গঠিত:
- একটি EKS ক্লাস্টার
- একটি EKS নোড গ্রুপ যা trn1.32x বড় দৃষ্টান্ত নিয়ে গঠিত
- সার্জারির AWS নিউরন SDK এর
- নিউরন এবং EFA এর জন্য EKS প্লাগইন
- An অ্যামাজন ইলাস্টিক কনটেইনার রেজিস্ট্রি (আমাজন ইসিআর) রিপোজিটরি
- একটি প্রশিক্ষণ ধারক ছবি
- An দীপ্তি জন্য Amazon FSx নথি ব্যবস্থা
- একটি আগ্নেয়গিরি ব্যাচ শিডিউলার এবং etcd সার্ভার
- টর্চএক্স ইউনিভার্সাল জব লঞ্চার
- ট্রেনিয়ামের জন্য টর্চএক্স ডিডিপি মডিউল
সমাধানের কেন্দ্রবিন্দুতে রয়েছে একটি EKS ক্লাস্টার যা আপনাকে EKS পরিষেবা শেষ পয়েন্টের মাধ্যমে কোর কুবারনেটস ম্যানেজমেন্ট কার্যকারিতা প্রদান করে। Amazon EKS-এর একটি সুবিধা হল যে পরিষেবাটি সক্রিয়ভাবে লোডের উপর ভিত্তি করে কন্ট্রোল প্লেনকে নিরীক্ষণ এবং স্কেল করে, যা বিতরণ করা প্রশিক্ষণের মতো বড় কাজের চাপের জন্য উচ্চ কার্যক্ষমতা নিশ্চিত করে। ইকেএস ক্লাস্টারের ভিতরে একটি নোড গ্রুপ রয়েছে যা একই প্রাপ্যতা অঞ্চলে বসবাসকারী দুই বা তার বেশি trn1.32x বড় ট্রেনিয়াম-ভিত্তিক উদাহরণ নিয়ে গঠিত।
নিউরন SDK হল সফ্টওয়্যার স্ট্যাক যা ড্রাইভার, কম্পাইলার, রানটাইম, ফ্রেমওয়ার্ক ইন্টিগ্রেশন (উদাহরণস্বরূপ, পাইটর্চ নিউরন), এবং ব্যবহারকারীর সরঞ্জামগুলি সরবরাহ করে যা আপনাকে ট্রেনিয়াম এক্সিলারেটরগুলির সুবিধাগুলি অ্যাক্সেস করতে দেয়। নিউরন ডিভাইস ড্রাইভার সরাসরি EKS নোডগুলিতে (Trn1 দৃষ্টান্ত) চালায় এবং নোডগুলিতে চালু হওয়া প্রশিক্ষণ পাত্রের মধ্যে থেকে ট্রেনিয়াম চিপগুলিতে অ্যাক্সেস সরবরাহ করে। বিতরণ করা প্রশিক্ষণের জন্য প্রয়োজনীয় ট্রেনিয়াম চিপস এবং ইএফএ নেটওয়ার্কিং ডিভাইসগুলিতে অ্যাক্সেস প্রদান করতে ইকেএস ক্লাস্টারের মধ্যে নিউরন এবং ইএফএ প্লাগইনগুলি ইনস্টল করা হয়েছে।
একটি ECR সংগ্রহস্থল প্রশিক্ষণ কন্টেইনার ইমেজ সংরক্ষণ করতে ব্যবহার করা হয়. এই চিত্রগুলিতে নিউরন SDK (নিউরন ড্রাইভার ব্যতীত, যা সরাসরি Trn1 দৃষ্টান্তে চলে), PyTorch প্রশিক্ষণ স্ক্রিপ্ট এবং প্রয়োজনীয় নির্ভরতা রয়েছে৷ যখন ইকেএস ক্লাস্টারে একটি প্রশিক্ষণ কাজ চালু করা হয়, তখন কন্টেইনারের ছবিগুলি প্রথমে অ্যামাজন ইসিআর থেকে ইকেএস নোডগুলিতে টেনে আনা হয়, এবং পাইটর্চ কর্মী কন্টেইনারগুলিকে ছবিগুলি থেকে তাত্ক্ষণিক করা হয়।
ভাগ করা সঞ্চয়স্থানটি Luster ফাইল সিস্টেমের জন্য একটি উচ্চ-পারফরম্যান্স FSx ব্যবহার করে সরবরাহ করা হয় যা trn1.32xlarge দৃষ্টান্তগুলির মতো একই উপলব্ধতা অঞ্চলে বিদ্যমান। EKS ক্লাস্টারে Luster ফাইল সিস্টেমের জন্য FSx তৈরি এবং সংযুক্তি মধ্যস্থতা করে Luster CSI ড্রাইভারের জন্য Amazon FSx. এই সলিউশনে, শেয়ার্ড স্টোরেজ ট্রেনিং ডেটাসেট এবং ট্রেনিং প্রক্রিয়া চলাকালীন তৈরি করা যেকোনো লগ বা আর্টিফ্যাক্ট সংরক্ষণ করতে ব্যবহৃত হয়।
সমাধান ব্যবহার করে টর্চএক্স ইউনিভার্সাল জব লঞ্চার Amazon EKS-এর মধ্যে বিতরণকৃত প্রশিক্ষণের কাজ চালু করতে। TorchX এর দুটি গুরুত্বপূর্ণ নির্ভরতা রয়েছে: আগ্নেয়গিরি ব্যাচ শিডিউলার এবং etcd সার্ভার। আগ্নেয়গিরি প্রশিক্ষণ কাজের সময়সূচী এবং সারিবদ্ধকরণ পরিচালনা করে, যখন etcd সার্ভার হল একটি মূল-মূল্যের স্টোর যা টর্চইলাস্টিক দ্বারা কাজ শুরুর সময় সিঙ্ক্রোনাইজেশন এবং পিয়ার আবিষ্কারের জন্য ব্যবহৃত হয়।
যখন TorchX ব্যবহার করে একটি প্রশিক্ষণ কাজ চালু করা হয়, তখন লঞ্চ কমান্ড সামগ্রিক প্রশিক্ষণের কাজ কনফিগার করার জন্য ট্রেনিয়ামের জন্য প্রদত্ত TorchX বিতরণ করা DDP মডিউল ব্যবহার করে এবং তারপর PyTorch কর্মী পডগুলির প্রতিটিতে উপযুক্ত টর্চরুন কমান্ড চালায়। যখন একটি কাজ চলছে, তখন এটি স্ট্যান্ডার্ড Kubernetes টুল (যেমন kubectl) ব্যবহার করে বা টেনসরবোর্ডের মতো স্ট্যান্ডার্ড ML টুলসেটের মাধ্যমে পর্যবেক্ষণ করা যেতে পারে।
সমাধান ওভারভিউ
আসুন এই সমাধানের গুরুত্বপূর্ণ পদক্ষেপগুলি দেখুন। এই ওভারভিউ জুড়ে, আমরা পড়ুন টর্চএক্স এবং ইকেএস ব্যবহার করে ট্রেনিয়ামে একটি মাল্টি-নোড পাইটর্চ নিউরন প্রশিক্ষণের কাজ চালু করুন গিটহাবের টিউটোরিয়াল।
একটি EKS ক্লাস্টার তৈরি করুন
Amazon EKS-এ Trn1 দৃষ্টান্ত সহ বিতরণ করা প্রশিক্ষণের কাজ শুরু করতে, আপনি প্রথমে একটি EKS ক্লাস্টার তৈরি করুন যেমনটি উল্লেখ করা হয়েছে গিটহাবের টিউটোরিয়াল. ক্লাস্টার তৈরি যেমন মানক সরঞ্জাম ব্যবহার করে অর্জন করা যেতে পারে eksctl
এবং এডাব্লুএস ক্লাউডফর্মেশন.
একটি EKS নোড গ্রুপ তৈরি করুন
এর পরে, আমাদের একটি EKS নোড গ্রুপ তৈরি করতে হবে যাতে একটি সমর্থিত অঞ্চলে দুই বা তার বেশি trn1.32x বড় দৃষ্টান্ত রয়েছে। টিউটোরিয়ালে, AWS CloudFormation একটি Trainium-নির্দিষ্ট EC2 লঞ্চ টেমপ্লেট তৈরি করতে ব্যবহৃত হয়, যা নিশ্চিত করে যে Trn1 দৃষ্টান্তগুলি একটি উপযুক্ত Amazon Machine Image (AMI) এবং বিতরণ করা প্রশিক্ষণ সমর্থন করার জন্য প্রয়োজনীয় সঠিক EFA নেটওয়ার্ক কনফিগারেশনের সাথে চালু হয়েছে। এএমআই-তে নিউরন ডিভাইস ড্রাইভারও রয়েছে যা ট্রেনিয়াম এক্সিলারেটর চিপগুলির জন্য সমর্থন প্রদান করে। সঙ্গে eksctl
Amazon EKS ম্যানেজমেন্ট টুল, আপনি একটি বেসিক YAML ম্যানিফেস্ট ব্যবহার করে সহজেই একটি Trainium নোড গ্রুপ তৈরি করতে পারেন যা নতুন তৈরি লঞ্চ টেমপ্লেটকে উল্লেখ করে। উদাহরণ স্বরূপ:
পূর্ববর্তী ম্যানিফেস্টে, EKS ক্লাস্টারে Trn1 দৃষ্টান্ত ব্যবহারের অনুমতি দেওয়ার জন্য বেশ কিছু বৈশিষ্ট্য কনফিগার করা হয়েছে। প্রথম, metadata.region
Trn1 দৃষ্টান্ত সমর্থন করে এমন একটি অঞ্চলে সেট করা হয়েছে (বর্তমানে us-east-1
এবং us-west-2
) এরপরে, availabilityZones-এর জন্য, Amazon EKS-এর জন্য দুটি প্রাপ্যতা অঞ্চল নির্দিষ্ট করা প্রয়োজন। এই উপলব্ধতা অঞ্চলগুলির মধ্যে একটিকে অবশ্যই Trn1 দৃষ্টান্তগুলির ব্যবহার সমর্থন করতে হবে, অন্যটি এলোমেলোভাবে বেছে নেওয়া যেতে পারে। টিউটোরিয়াল দেখায় কিভাবে করতে হবে আপনার AWS অ্যাকাউন্টের মধ্যে কোন উপলভ্যতা অঞ্চলগুলি Trn1 দৃষ্টান্তগুলির জন্য অনুমতি দেবে তা নির্ধারণ করুন. একই Trn1-সমর্থক প্রাপ্যতা অঞ্চলটিও ব্যবহার করে নির্দিষ্ট করতে হবে availabiltyZones
EKS নোড গ্রুপের সাথে যুক্ত বৈশিষ্ট্য। efaEnabled
তৈরি true
বিতরণ করা প্রশিক্ষণের জন্য প্রয়োজনীয় EFA নেটওয়ার্ক কনফিগারেশনের সাথে নোডগুলি কনফিগার করতে। সবশেষে, দ launchTemplate.id
নোড গ্রুপের সাথে যুক্ত অ্যাট্রিবিউট পূর্বের ধাপে AWS CloudFormation এর মাধ্যমে তৈরি EC2 লঞ্চ টেমপ্লেটের দিকে নির্দেশ করে।
ধরে নিচ্ছি যে আপনি ইতিমধ্যে ক্লাউডফর্মেশন টেমপ্লেটটি প্রয়োগ করেছেন এবং ইনস্টল করেছেন eksctl
ম্যানেজমেন্ট টুল, আপনি নিম্নলিখিত কোড চালানোর মাধ্যমে একটি Trainium-সক্ষম EKS নোড গ্রুপ তৈরি করতে পারেন:
Trainium এবং EFA ডিভাইসের জন্য Kubernetes প্লাগইন ইনস্টল করুন
নোড গ্রুপের জায়গায়, পরবর্তী ধাপ হল Kubernetes প্লাগইন ইনস্টল করা যা ট্রেনিয়াম এক্সিলারেটর (নিউরন প্লাগইনের মাধ্যমে) এবং EFA ডিভাইস (EFA প্লাগইনের মাধ্যমে) জন্য সমর্থন প্রদান করে। এই প্লাগইনগুলি সহজেই ক্লাস্টারে স্ট্যান্ডার্ড ব্যবহার করে ইনস্টল করা যেতে পারে kubectl
ম্যানেজমেন্ট টুল টিউটোরিয়ালে দেখানো হয়েছে।
বিতরণকৃত প্রশিক্ষণের কাজ চালু করতে TorchX সার্বজনীন PyTorch লঞ্চার ব্যবহার করতে, দুটি পূর্বশর্ত প্রয়োজন: ভলকানো ব্যাচ শিডিউলার এবং etcd সার্ভার। অনেকটা নিউরন এবং ইএফএ প্লাগইনগুলির মতো, আমরা ব্যবহার করতে পারি kubectl
EKS ক্লাস্টারে Volcano এবং etcd সার্ভার ইনস্টল করার টুল।
EKS ক্লাস্টারে শেয়ার করা স্টোরেজ সংযুক্ত করুন
টিউটোরিয়ালে, FSx for Luster একটি উচ্চ-কর্মক্ষমতা শেয়ার করা ফাইল সিস্টেম প্রদান করতে ব্যবহৃত হয় যা বিভিন্ন EKS কর্মী পড দ্বারা অ্যাক্সেস করা যেতে পারে। এই ভাগ করা সঞ্চয়স্থানটি প্রশিক্ষণ ডেটাসেট হোস্ট করতে ব্যবহৃত হয়, সেইসাথে প্রশিক্ষণ প্রক্রিয়া চলাকালীন যে কোনও শিল্পকর্ম এবং লগ তৈরি করা হয়। টিউটোরিয়ালটি বর্ণনা করে যে কীভাবে ভাগ করা স্টোরেজটি ব্যবহার করে ক্লাস্টারে তৈরি এবং সংযুক্ত করতে হয় Luster CSI ড্রাইভারের জন্য Amazon FSx.
একটি প্রশিক্ষণ ধারক ইমেজ তৈরি করুন
এর পরে, আমাদের একটি প্রশিক্ষণ কন্টেইনার ইমেজ তৈরি করতে হবে যাতে যেকোনো নির্ভরতা সহ PyTorch প্রশিক্ষণ স্ক্রিপ্ট অন্তর্ভুক্ত থাকে। একটি উদাহরণ ডকারফাইল টিউটোরিয়ালটিতে অন্তর্ভুক্ত করা হয়েছে, যা এর সফ্টওয়্যার নির্ভরতার সাথে BERT প্রাক-প্রশিক্ষণ স্ক্রিপ্টকে অন্তর্ভুক্ত করে। ডকারফাইলটি ট্রেনিং কন্টেইনার ইমেজ তৈরি করতে ব্যবহার করা হয়, এবং ইমেজটিকে একটি ইসিআর রিপোজিটরিতে ঠেলে দেওয়া হয় যেখান থেকে পাইটর্চ কর্মীরা ক্লাস্টারে একটি ট্রেনিং কাজ চালু হলে ইমেজটি টানতে সক্ষম হয়।
প্রশিক্ষণ ডেটা সেট আপ করুন
প্রশিক্ষণের কাজ শুরু করার আগে, প্রশিক্ষণের ডেটা প্রথমে Lustre-এর জন্য FSx-এ শেয়ার করা স্টোরেজ ভলিউমে কপি করা হয়। টিউটোরিয়ালটি কীভাবে একটি অস্থায়ী কুবারনেটস পড তৈরি করতে হয় যা শেয়ার্ড স্টোরেজ ভলিউমে অ্যাক্সেস রয়েছে তার রূপরেখা দেয় এবং স্ট্যান্ডার্ড লিনাক্স শেল কমান্ড ব্যবহার করে প্রশিক্ষণ ডেটাসেট ডাউনলোড এবং নিষ্কাশন করার জন্য কীভাবে পডে লগ ইন করতে হয় তা দেখায়।
বিভিন্ন অবকাঠামো এবং সফ্টওয়্যার পূর্বশর্তগুলির সাথে, আমরা এখন সমাধানের ট্রেনিয়ামের দিকগুলিতে ফোকাস করতে পারি।
আপনার মডেল প্রি-কম্পাইল করুন
নিউরন SDK একটি ইন্টিগ্রেশন লেয়ার নামে PyTorch সমর্থন করে পাইটর্চ নিউরন. ডিফল্টরূপে, পাইটর্চ নিউরন ঠিক সময়ে সংকলনের সাথে কাজ করে, যেখানে প্রশিক্ষণের কাজের মধ্যে বিভিন্ন নিউরাল নেটওয়ার্ক কম্পিউট গ্রাফ সংকলিত হয় যেহেতু তারা প্রশিক্ষণের সময় সম্মুখীন হয়। বড় মডেলের জন্য, প্রদত্ত ব্যবহার করা আরও সুবিধাজনক হতে পারে neuron_parallel_compile
প্রশিক্ষণের সময় গ্রাফ সংকলন এড়াতে বিভিন্ন কম্পিউট গ্রাফ আগে থেকে প্রি-কম্পাইল এবং ক্যাশে করার টুল। ইকেএস ক্লাস্টারে প্রশিক্ষণের কাজ শুরু করার আগে, টিউটোরিয়ালটি দেখায় কিভাবে প্রথমে টর্চএক্স ব্যবহার করে একটি প্রি-কম্পাইলেশন কাজ চালু করতে হয় neuron_parallel_compile
টুল. প্রি-কম্পাইলেশন কাজ শেষ হওয়ার পরে, নিউরন কম্পাইলার সমস্ত নিউরাল নেটওয়ার্ক কম্পিউট গ্রাফ চিহ্নিত করে কম্পাইল করবে এবং প্রকৃত BERT প্রাক-প্রশিক্ষণ কাজের সময় পরবর্তীতে ব্যবহারের জন্য শেয়ার্ড স্টোরেজ ভলিউমে ক্যাশে করবে।
বিতরণকৃত প্রশিক্ষণ কাজ চালু করুন
প্রি-কম্পাইলেশন সম্পূর্ণ হলে, টর্চএক্স তারপরে প্রতি দৃষ্টান্তে 64 জন কর্মী সহ দুটি trn1.32x বড় দৃষ্টান্ত জুড়ে একটি 32-কর্মী বিতরণ করা প্রশিক্ষণ কাজ চালু করতে ব্যবহৃত হয়। আমরা প্রতি দৃষ্টান্তে 32 জন কর্মী ব্যবহার করি কারণ প্রতিটি trn1.32x বড় উদাহরণে 16টি ট্রেনিয়াম এক্সিলারেটর রয়েছে, প্রতিটি অ্যাক্সিলারেটর 2টি সরবরাহ করে নিউরনকোরস. প্রতিটি নিউরনকোর একটি অনন্য হিসাবে অ্যাক্সেস করা যেতে পারে PyTorch XLA ডিভাইস প্রশিক্ষণের স্ক্রিপ্টে। টিউটোরিয়াল থেকে একটি উদাহরণ TorchX লঞ্চ কমান্ড নিম্নলিখিত কোড মত দেখায়:
পূর্ববর্তী TorchX কমান্ডের বিভিন্ন কমান্ড লাইন আর্গুমেন্ট টিউটোরিয়ালে বিস্তারিতভাবে বর্ণনা করা হয়েছে। যাইহোক, প্রশিক্ষণের কাজ কনফিগার করার ক্ষেত্রে নিম্নলিখিত যুক্তিগুলি সবচেয়ে গুরুত্বপূর্ণ:
- -cfg সারি = পরীক্ষা - প্রশিক্ষণ কাজের জন্য ব্যবহার করা আগ্নেয়গিরি সারি নির্দিষ্ট করে
- -cfg image_repo - টর্চএক্স কন্টেইনার ইমেজগুলির জন্য ব্যবহার করার জন্য ECR সংগ্রহস্থল নির্দিষ্ট করে
- –script_args – PyTorch প্রশিক্ষণ স্ক্রিপ্টে পাস করা উচিত এমন কোনো আর্গুমেন্ট নির্দিষ্ট করে
- –nnodes এবং –nproc_per_node - প্রশিক্ষণ কাজের জন্য ব্যবহার করার জন্য প্রতি দৃষ্টান্ত এবং কর্মীদের সংখ্যা
- -লিপি - প্রশিক্ষণ পাত্রের মধ্যে চালু করার জন্য PyTorch প্রশিক্ষণ স্ক্রিপ্টের নাম
- - ইমেজ - আমাজন ইসিআর-এ প্রশিক্ষণ কন্টেইনার চিত্রের পথ
- -bf16 - BF16 ডেটা টাইপ সক্ষম করবেন কি না
প্রশিক্ষণ কাজ নিরীক্ষণ
প্রশিক্ষণের কাজ চালু হওয়ার পরে, বিভিন্ন উপায়ে কাজটি পর্যবেক্ষণ করা যেতে পারে। টিউটোরিয়ালটি দেখায় কিভাবে কমান্ড লাইন ব্যবহার করে প্রাথমিক প্রশিক্ষণ স্ক্রিপ্ট মেট্রিক্স নিরীক্ষণ করা যায় kubectl
, কিভাবে TensorBoard-এ প্রশিক্ষণের স্ক্রিপ্টের অগ্রগতি চাক্ষুষভাবে নিরীক্ষণ করা যায় (নিম্নলিখিত স্ক্রিনশট দেখুন), এবং কীভাবে ট্রেনিয়াম এক্সিলারেটর ব্যবহার করে নিরীক্ষণ করা যায় neuron-top
নিউরন SDK থেকে টুল।
পরিবেশ পরিষ্কার করুন বা পুনরায় ব্যবহার করুন
প্রশিক্ষণের কাজটি সম্পূর্ণ হলে, ক্লাস্টারটি অতিরিক্ত প্রশিক্ষণের কাজের জন্য পুনরায় ব্যবহার বা পুনরায় কনফিগার করা যেতে পারে। উদাহরণস্বরূপ, EKS নোড গ্রুপটি ব্যবহার করে দ্রুত স্কেল করা যেতে পারে eksctl
অতিরিক্ত Trn1 দৃষ্টান্ত প্রয়োজন যে প্রশিক্ষণ কাজ সমর্থন করার জন্য কমান্ড. একইভাবে, প্রদত্ত ডকারফাইল এবং টর্চএক্স লঞ্চ কমান্ডগুলি অতিরিক্ত গভীর শিক্ষার মডেল এবং প্রশিক্ষণ টপোলজি বিতরণকে সমর্থন করার জন্য সহজেই পরিবর্তন করা যেতে পারে।
যদি ক্লাস্টারের আর প্রয়োজন না হয়, টিউটোরিয়ালটিতে EKS অবকাঠামো এবং সম্পর্কিত সংস্থানগুলি সরানোর জন্য প্রয়োজনীয় সমস্ত পদক্ষেপও অন্তর্ভুক্ত রয়েছে।
উপসংহার
এই পোস্টে, আমরা অন্বেষণ করেছি কিভাবে Trn1 দৃষ্টান্ত এবং Amazon EKS গভীর শিক্ষার মডেলগুলির উচ্চ-কর্মক্ষমতা, ব্যয়-কার্যকর, এবং ব্যাপকভাবে স্কেলযোগ্য বিতরণ প্রশিক্ষণের জন্য একটি পরিচালিত প্ল্যাটফর্ম প্রদান করে। আমরা একটি বিস্তৃত টিউটোরিয়ালও শেয়ার করেছি যেটি দেখানো হচ্ছে কিভাবে Trn1 দৃষ্টান্ত ব্যবহার করে Amazon EKS-এ একটি বাস্তব-বিশ্ব মাল্টি-ইন্সট্যান্স বিতরণ করা প্রশিক্ষণ কাজ চালানো যায় এবং সমাধানের বেশ কয়েকটি মূল পদক্ষেপ এবং উপাদানগুলিকে হাইলাইট করেছি। এই টিউটোরিয়াল বিষয়বস্তু সহজেই অন্যান্য মডেল এবং কাজের চাপের জন্য অভিযোজিত হতে পারে এবং আপনাকে AWS-এ গভীর শিক্ষার মডেলগুলির বিতরণ প্রশিক্ষণের জন্য একটি মৌলিক সমাধান প্রদান করে।
ট্রেনিয়াম-চালিত Trn1 দৃষ্টান্তগুলির সাথে কীভাবে শুরু করবেন সে সম্পর্কে আরও জানতে, পড়ুন নিউরন ডকুমেন্টেশন.
লেখক সম্পর্কে
স্কট পেরি তিনি AWS-এ অন্নপূর্ণা এমএল এক্সিলারেটর টিমের একজন সলিউশন আর্কিটেক্ট। কানাডায় অবস্থিত, তিনি AWS Inferentia এবং AWS Trainium ব্যবহার করে গ্রাহকদের ডিপ লার্নিং ট্রেনিং এবং ইনফারেন্স ওয়ার্কলোড স্থাপন ও অপ্টিমাইজ করতে সাহায্য করেন। তার আগ্রহের মধ্যে রয়েছে বৃহৎ ভাষার মডেল, গভীর শক্তিবৃদ্ধি শিক্ষা, আইওটি এবং জিনোমিক্স।
লোরিয়া আরিজাবালাগা UK পাবলিক সেক্টরের সাথে সংযুক্ত একজন সলিউশন আর্কিটেক্ট, যেখানে তিনি গ্রাহকদের Amazon SageMaker-এর সাথে ML সলিউশন ডিজাইন করতে সাহায্য করেন। তিনি হার্ডওয়্যার ত্বরণের জন্য নিবেদিত প্রযুক্তিগত ক্ষেত্র সম্প্রদায়েরও অংশ এবং AWS Inferentia এবং AWS Trainium ওয়ার্কলোড পরীক্ষা এবং বেঞ্চমার্কিং করতে সহায়তা করেন।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/machine-learning/scaling-distributed-training-with-aws-trainium-and-amazon-eks/
- 1
- 100
- 11
- 2022
- 2023
- 7
- a
- সক্ষম
- সম্পর্কে
- বেগবর্ধক ব্যক্তি
- ত্বক
- প্রবেশ
- অ্যাক্সেসড
- অর্জন
- দিয়ে
- সক্রিয়ভাবে
- অতিরিক্ত
- আগাম
- অগ্রসর
- সুবিধা
- প্রান্তিককৃত
- সব
- ইতিমধ্যে
- যদিও
- মর্দানী স্ত্রীলোক
- আমাজন EC2
- আমাজন সেজমেকার
- এবং
- ঘোষণা করা
- ঘোষিত
- ঘোষণা
- ফলিত
- যথাযথ
- স্থাপত্য
- আর্গুমেন্ট
- আ
- যুক্ত
- সংযুক্ত
- বৈশিষ্ট্যাবলী
- উপস্থিতি
- সহজলভ্য
- ডেস্কটপ AWS
- এডাব্লুএস ক্লাউডফর্মেশন
- এডাব্লুএস ইনফেরেন্টিয়া
- ব্যান্ডউইথ
- ভিত্তি
- মৌলিক
- কারণ
- আগে
- মাপকাঠিতে
- সুবিধা
- বিলিয়ন
- পুষ্প
- প্রশস্ত
- নির্মাণ করা
- আচ্ছাদন
- নামক
- কানাডা
- চিপস
- বেছে নিন
- মনোনীত
- মেঘ
- গুচ্ছ
- কোড
- সমষ্টিগত
- আসছে
- শীঘ্রই আসছে
- সাধারণ
- সম্প্রদায়
- সম্পূর্ণ
- পরিপূরণ
- উপাদান
- ব্যাপক
- গনা
- কনফিগারেশন
- সংযুক্ত
- গঠিত
- আধার
- কন্টেনারগুলি
- ধারণ
- বিষয়বস্তু
- নিয়ন্ত্রণ
- সুবিধাজনক
- মূল
- সাশ্রয়ের
- সৃষ্টি
- নির্মিত
- তৈরি করা হচ্ছে
- সৃষ্টি
- সিএসআই
- এখন
- গ্রাহকদের
- উপাত্ত
- DDP
- নিবেদিত
- গভীর
- গভীর জ্ঞানার্জন
- ডিফল্ট
- স্থাপন
- মোতায়েন
- বর্ণিত
- নকশা
- বিস্তারিত
- বিশদ
- উন্নয়ন
- যন্ত্র
- ডিভাইস
- সরাসরি
- আবিষ্কার
- বণ্টিত
- বিতরণ করা প্রশিক্ষণ
- বিভাজক
- ডাউনলোড
- চালক
- সময়
- প্রতি
- পূর্বে
- গোড়ার দিকে
- ব্যবহারে সহজ
- সহজে
- পারেন
- সক্ষম করা
- সর্বশেষ সীমা
- শেষপ্রান্ত
- নিশ্চিত
- উদ্যোগ
- এমন কি
- উদাহরণ
- উত্তেজিত
- অপসারণ
- বিদ্যমান
- অন্বেষণ করা
- নির্যাস
- ফ্যাব্রিক
- ঘনিষ্ঠতা
- ক্ষেত্র
- ফাইল
- প্রথম
- নমনীয়তা
- কেন্দ্রবিন্দু
- অনুসরণ করা
- অনুসরণ
- ফ্রেমওয়ার্ক
- থেকে
- সম্পূর্ণ
- কার্যকারিতা
- সাধারণ
- জিনোমিক্স
- পাওয়া
- GitHub
- প্রদত্ত
- চিত্রলেখ
- গ্রাফ
- গ্রুপ
- নির্দেশিকা
- হ্যান্ডলগুলি
- হার্ডওয়্যারের
- হৃদয়
- সহায়ক
- সাহায্য
- উচ্চ
- উচ্চ পারদর্শিতা
- হাইলাইট করা
- অত্যন্ত
- নিমন্ত্রণকর্তা
- কিভাবে
- কিভাবে
- যাহোক
- এইচটিএমএল
- HTTPS দ্বারা
- শত শত
- ID
- চিহ্নিত
- ভাবমূর্তি
- চিত্র
- ঊহ্য
- গুরুত্বপূর্ণ
- in
- অন্তর্ভুক্ত করা
- অন্তর্ভুক্ত
- অন্তর্ভুক্ত
- বৃদ্ধি
- ক্রমবর্ধমানভাবে
- পরিকাঠামো
- ইনস্টল
- ইনস্টল
- উদাহরণ
- ইন্টিগ্রেশন
- মধ্যে রয়েছে
- IOT
- IT
- কাজ
- জবস
- চাবি
- রকম
- ভাষা
- বড়
- বড় আকারের
- বৃহত্তর
- বিলম্বে
- শুরু করা
- চালু
- চালু করা
- স্তর
- শিখতে
- শিক্ষা
- বরফ
- লাইব্রেরি
- লাইন
- লিনাক্স
- বোঝা
- আর
- দেখুন
- সৌন্দর্য
- মেশিন
- মেশিন লার্নিং
- প্রধান
- পরিচালিত
- ব্যবস্থাপনা
- ব্যাপক
- স্মৃতি
- মেটাডাটা
- ছন্দোবিজ্ঞান
- ML
- মডেল
- পরিবর্তিত
- মডিউল
- মনিটর
- পর্যবেক্ষণ করা
- পর্যবেক্ষণ
- মনিটর
- মাসের
- অধিক
- সেতু
- বহু
- নাম
- প্রয়োজন
- নেটওয়ার্ক
- নেটওয়ার্কিং
- স্নায়বিক নেটওয়ার্ক
- পরবর্তী
- নোড
- নোড
- সংখ্যা
- প্রদত্ত
- নৈবেদ্য
- কর্মকর্তা
- ONE
- পরিচালনা
- অপারেশনস
- অপ্টিমিজ
- অপ্টিমাইজ
- অর্কেস্ট্রারচনা
- ক্রম
- অন্যান্য
- রূপরেখা
- প্রান্তরেখা
- সামগ্রিক
- ওভারভিউ
- পরামিতি
- অংশ
- গৃহীত
- পথ
- সমকক্ষ ব্যক্তি
- কর্মক্ষমতা
- ফেজ
- জায়গা
- মাচা
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- প্লাগ লাগানো
- প্লাগ-ইন
- পয়েন্ট
- পোস্ট
- চালিত
- ক্ষমতাশালী
- পূর্বশর্ত
- প্রক্রিয়া
- উন্নতি
- প্রদান
- প্রদত্ত
- উপলব্ধ
- প্রদানের
- প্রকাশ্য
- প্রকাশক
- ধাক্কা
- পাইটার্চ
- দ্রুত
- এলোমেলো
- বাস্তব জগতে
- রেফারেন্স
- এলাকা
- অঞ্চল
- সংশ্লিষ্ট
- অপসারণ
- সংগ্রহস্থলের
- প্রয়োজন
- প্রয়োজনীয়
- প্রয়োজন
- Resources
- এখানে ক্লিক করুন
- চালান
- দৌড়
- ঋষি নির্মাতা
- একই
- স্কেলেবিলিটি
- মাপযোগ্য
- দাঁড়িপাল্লা
- আরোহী
- SDK
- সেক্টর
- সেবা
- সেবা
- সেট
- বিভিন্ন
- ভাগ
- খোল
- উচিত
- প্রদর্শিত
- শো
- গুরুত্বপূর্ণ
- একভাবে
- মাপ
- ক্ষুদ্রতর
- So
- সফটওয়্যার
- সমাধান
- সলিউশন
- কিছু
- নিদিষ্ট
- গাদা
- স্বতন্ত্র
- মান
- শুরু
- প্রারম্ভকালে
- ধাপ
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- এখনো
- স্টোরেজ
- দোকান
- এমন
- সমর্থন
- সমর্থিত
- সমর্থন
- সিঙ্ক্রোনাইজেশন
- পদ্ধতি
- টেবিল
- গ্রহণ
- টীম
- কারিগরী
- টেমপ্লেট
- অস্থায়ী
- পরীক্ষামূলক
- সার্জারির
- যুক্তরাজ্য
- তাদের
- হাজার হাজার
- দ্বারা
- সর্বত্র
- সময়
- থেকে
- টুল
- সরঞ্জাম
- প্রশিক্ষণ
- সত্য
- অভিভাবকসংবঁধীয়
- Uk
- অনন্য
- সার্বজনীন
- ব্যবহার
- ব্যবহারকারী
- বিভিন্ন
- সংস্করণ
- মাধ্যমে
- আয়তন
- উপায়
- সপ্তাহ
- কিনা
- যে
- যখন
- ইচ্ছা
- মধ্যে
- কর্মী
- শ্রমিকদের
- would
- ইয়ামল
- আপনি
- আপনার
- zephyrnet
- এলাকার