মিতব্যয়িতা সঠিকতা পূরণ করে: AWS ট্রেনিয়াম সহ GPT NeoX এবং Pythia মডেলের খরচ-দক্ষ প্রশিক্ষণ

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

বৃহৎ ভাষার মডেল (বা এলএলএম) দৈনন্দিন কথোপকথনের একটি বিষয় হয়ে উঠেছে। তাদের দ্রুত গ্রহণ 100 মিলিয়ন ব্যবহারকারীর কাছে পৌঁছানোর জন্য প্রয়োজনীয় সময়ের পরিমাণ দ্বারা স্পষ্ট হয়, যা “facebook দ্বারা 4.5 বছর” থেকে সর্বকালের সর্বনিম্ন “ChatGPT দ্বারা 2 মাস”-এ চলে গেছে। একটি জেনারেটিভ প্রাক-প্রশিক্ষিত ট্রান্সফরমার (GPT) ভবিষ্যদ্বাণী করতে কার্যকারণ অটোরিগ্রেসিভ আপডেট ব্যবহার করে। স্পিচ রিকগনিশন, টেক্সট জেনারেশন এবং প্রশ্নের উত্তর দেওয়ার মতো বিভিন্ন ধরনের কাজ এই মডেল আর্কিটেকচারের দ্বারা অসাধারন পারফরম্যান্স দেখানো হয়। বেশ কিছু সাম্প্রতিক মডেল যেমন নিওএক্স, বাজপাখি, শিখা একটি মেরুদণ্ড হিসাবে GPT আর্কিটেকচার ব্যবহার করুন. এলএলএম প্রশিক্ষণের জন্য প্রচুর পরিমাণ গণনা সময় প্রয়োজন, যার জন্য মিলিয়ন ডলার খরচ হয়। এই পোস্টে, আমরা GPT এর প্রশিক্ষণ পদ্ধতির সংক্ষিপ্ত বিবরণ দেব নিওএক্স on এডব্লিউএস ট্রেনিয়াম, একটি উদ্দেশ্য-নির্মিত মেশিন লার্নিং (ML) এক্সিলারেটর গভীর শিক্ষার প্রশিক্ষণের জন্য অপ্টিমাইজ করা হয়েছে। আমরা রূপরেখা করব কিভাবে আমরা খরচ-কার্যকরভাবে (3.2 M টোকেন/$) এই ধরনের মডেলগুলিকে AWS Trainium-এর সাথে কোনো মডেলের গুণমান হারানো ছাড়াই প্রশিক্ষণ দিয়েছি।

সমাধান ওভারভিউ

GPT NeoX এবং Pythia মডেল

জিপিটি নিওএক্স এবং পাইথিয়া NeoX-এ প্রায় 20 বিলিয়ন প্যারামিটার এবং Pythia-তে 6.9 বিলিয়ন প্যারামিটার সহ Eleuther-AI-এর ওপেন-সোর্স কার্যকারণ ভাষার মডেল। উভয়ই ডিকোডার মডেল যা চ্যাট GPT3 এর মতো অনুরূপ স্থাপত্য নকশা অনুসরণ করে। যাইহোক, তাদের বেশ কিছু সংযোজনও রয়েছে, যা সাম্প্রতিক মডেল যেমন লামাতেও ব্যাপকভাবে গৃহীত হয়েছে। বিশেষত, তাদের মাথার মাত্রা জুড়ে আংশিক ঘূর্ণন সহ ঘূর্ণনশীল অবস্থানগত এম্বেডিং (ROPE) রয়েছে। আসল মডেলগুলি (NeoX এবং Pythia 6.9B) খোলাখুলি উপলব্ধের উপর প্রশিক্ষিত পাইল ডেটাসেট ডিডপ্লিকেশন সহ এবং মেগাট্রন এবং ডিপস্পিড ব্যাকএন্ড ব্যবহার করে।

আমরা AWS Trainium-ভিত্তিক Trn1 উদাহরণ ব্যবহার করে এই মডেলগুলির প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-টিউনিং প্রদর্শন করি নিউরন নিমো লাইব্রেরি ধারণার প্রমাণ এবং দ্রুত পুনরুত্পাদন প্রতিষ্ঠা করতে, আমরা GPT2 বাইট-পেয়ার এনকোডিং (BPE) টোকেনাইজার ব্যবহার করে একটি ছোট উইকিপিডিয়া ডেটাসেট উপসেট ব্যবহার করব।

walkthrough

প্রি-টোকেনাইজড উইকিপিডিয়া ডেটাসেট ডাউনলোড করুন যেমন দেখানো হয়েছে:

export DATA_DIR=~/examples_datasets/gpt2 mkdir -p ${DATA_DIR} && cd ${DATA_DIR} wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-vocab.json
wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-merges.txt
aws s3 cp s3://neuron-s3/training_datasets/gpt/wikipedia/my-gpt2_text_document.bin . --no-sign-request
aws s3 cp s3://neuron-s3/training_datasets/gpt/wikipedia/my-gpt2_text_document.idx . --no-sign-request
aws s3 cp s3://neuron-s3/training_datasets/gpt/wikipedia/license.txt . --no-sign-request

NeoX 20B এবং Pythia 6.9B উভয়ই আংশিক ঘূর্ণন সহ ROPE ব্যবহার করে, উদাহরণস্বরূপ, মাথার মাত্রার 25% ঘোরানো এবং বাকিগুলিকে অপরিবর্তিত রাখা। AWS ট্রেনিয়াম এক্সিলারেটরে আংশিক ঘূর্ণন কার্যকর করার জন্য, ঘূর্ণায়মান এবং নন-ঘূর্ণায়মান মাত্রাগুলিকে একত্রিত করার পরিবর্তে, আমরা নন-ঘূর্ণায়মান মাত্রাগুলির জন্য শূন্য ফ্রিকোয়েন্সি যুক্ত করি এবং তারপর মাথার মাত্রাগুলির সম্পূর্ণ সেটটি ঘোরান। এই সহজ কৌশলটি আমাদের AWS Trainium-এ থ্রুপুট (প্রতি সেকেন্ডে প্রক্রিয়াকৃত ক্রম) উন্নত করতে সাহায্য করেছে।

প্রশিক্ষণ পদক্ষেপ

প্রশিক্ষণ চালানোর জন্য, আমরা SLURM পরিচালিত মাল্টি-নোড অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড ব্যবহার করি (আমাজন EC2) Trn1 ক্লাস্টার, প্রতিটি নোডের সাথে একটি trn1.32xl উদাহরণ রয়েছে। প্রতিটি trn1.32xl 16 টি এক্সিলারেটর আছে যার প্রতি এক্সিলারেটরে দুইজন কর্মী আছে। সর্বশেষ ডাউনলোড করার পর নিউরন নিমো প্যাকেজ, প্রদত্ত ব্যবহার করুন neox এবং pythia অপ্টিমাইজড হাইপার-প্যারামিটার সহ প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-টিউনিং স্ক্রিপ্ট এবং চার নোড প্রশিক্ষণের জন্য নিম্নলিখিতগুলি সম্পাদন করুন।

কম্পাইল: গ্রাফ তৈরি করতে এবং সংরক্ষণ করতে তিনটি ট্রেনের পুনরাবৃত্তি সহ মডেলটি প্রাক-কম্পাইল করুন:
```
sbatch --nodes 4 compile.slurm ./neoX_20B_slurm.sh
```
চালান: প্রথম ধাপ থেকে ক্যাশে করা গ্রাফগুলি লোড করে প্রশিক্ষণটি চালান
```
sbatch --nodes 4 run.slurm ./neoX_20B_slurm.sh
```

ফলাফল মনিটর

tensorboard --logdir=nemo_experiments/megatron_neox

Pythia 6.9B মডেলটি প্রতিস্থাপনের সাথে চালানোর জন্য একই পদক্ষেপগুলি অনুসরণ করা প্রয়োজন৷ neox_20B_slurm.sh by pythia_6.9B_slurm.sh.

প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম টিউনিং পরীক্ষা

আমরা AWS Trainium ব্যবহার করে GPT-NeoX এবং Pythia মডেলের প্রাক-প্রশিক্ষণ প্রদর্শন করি নিউরন নিমো 10k পুনরাবৃত্তির জন্য লাইব্রেরি, এবং 1k ধাপের জন্য এই মডেলগুলির ফাইন-টিউনিংও দেখায়। প্রাক-প্রশিক্ষণের জন্য, আমরা NeMo-এর ভিতরে GPT2 BPE টোকেনাইজার ব্যবহার করি এবং একই অনুসরণ করি কনফিগ মূল মডেলে ব্যবহৃত হিসাবে। AWS Trainium-এ ফাইন-টিউনিংয়ের জন্য কয়েকটি প্যারামিটারের পরিবর্তন প্রয়োজন (যেমন ভোকাব সাইজ ডিভিশন ফ্যাক্টর), যা মেগাট্রন বনাম NeMo পার্থক্য এবং GPU বনাম AWS ট্রেনিয়াম পরিবর্তনের জন্য মিটমাট করার জন্য ফাইন-টিউনিং স্ক্রিপ্টে সরবরাহ করা হয়েছে। বিভিন্ন সংখ্যক নোড সহ মাল্টি-নোড বিতরণকৃত প্রশিক্ষণ থ্রুপুট টেবিল-1 এ দেখানো হয়েছে।

মডেল	টেনসর সমান্তরাল	পাইপলাইন সমান্তরাল	দৃষ্টান্তের সংখ্যা	খরচ ($/ঘন্টা)	সিকোয়েন্স দৈর্ঘ্য	গ্লোবাল ব্যাচের আকার	থ্রুপুট (সেক/সেকেন্ড)	খরচ-থ্রুপুট অনুপাত (টোকেন/$)
Pythia 6.9B	8	1	1	7.59	2048	256	10.4	10,102,387
Pythia 6.9B	8	1	4	30.36	2048	256	35.8	8,693,881
NeoX 20B	8	4	4	30.36	2048	16384	13.60	3,302,704
	8	4	8	60.72	2048	16384	26.80	3,254,134
	8	4	16	121.44	2048	16384	54.30	3,296,632
	8	4	32	242.88	2048	16384	107.50	3,263,241
	8	4	64	485.76	2048	16384	212.00	3,217,708

টেবিল 1 নোডের সংখ্যা পরিবর্তনের সাথে 500 ধাপ পর্যন্ত প্রশিক্ষণের জন্য GPT NeoX এবং Pythia মডেলের গড় থ্রুপুট তুলনা করা। দ্য trn1.32xl এর মূল্য 3 বছরের সংরক্ষিত কার্যকর প্রতি ঘন্টা হারের উপর ভিত্তি করে।

এর পরে, আমরা AWS Trainium-এ মডেল প্রশিক্ষণের ক্ষতির গতিপথও মূল্যায়ন করি এবং P4d (Nvidia A100 GPU কোর) ক্লাস্টারে সংশ্লিষ্ট রানের সাথে তুলনা করি। প্রশিক্ষণের ক্ষতির পাশাপাশি, আমরা গ্রেডিয়েন্ট নর্মের মতো দরকারী সূচকও তুলনা করি, যা প্রশিক্ষণের অগ্রগতি নিরীক্ষণের জন্য প্রতিটি প্রশিক্ষণের পুনরাবৃত্তিতে গণনা করা মডেল গ্রেডিয়েন্টের 2-নর্ম। প্রশিক্ষণের ফলাফল চিত্র-1, 2 এবং চিত্র-20-এ NeoX 3B-এর ফাইন-টিউনিং-এ দেখানো হয়েছে।

প্রতিটি ধাপে প্রশিক্ষণের সময় সমস্ত কর্মী (বাম) এবং গ্রেডিয়েন্ট নর্ম (ডান) জুড়ে প্রশিক্ষণ ক্ষতি গড়।

চিত্র 1. প্রতিটি ধাপে প্রশিক্ষণের সময় সমস্ত কর্মী (বাম) এবং গ্রেডিয়েন্ট নর্ম (ডান) জুড়ে প্রশিক্ষণ ক্ষতি গড়। NeoX 20B 4টি নোডে প্রশিক্ষিত হয় GPU-এ ছোট উইকি ডেটাসেট সহ ট্রেনিয়ামে একই ট্রেনিং হাইপার-প্যারামিটার সহ (গ্লোবাল ব্যাচ সাইজ=256)। GPU BF16 এবং ডিফল্ট মিশ্র-নির্ভুলতা ব্যবহার করছে যখন AWS Trainium স্টোকাস্টিক রাউন্ডিং সহ সম্পূর্ণ BF16 ব্যবহার করছে। GPU এবং AWS Trainium-এর জন্য ক্ষতি এবং গ্রেডিয়েন্ট নর্ম ট্র্যাজেক্টোরিজ মেলে।

প্রতিটি ধাপে (পাইথিয়া) প্রশিক্ষণের সময় সমস্ত কর্মী (বাম) এবং গ্রেডিয়েন্ট নর্ম (ডান) জুড়ে প্রশিক্ষণের ক্ষতি গড়।

চিত্র 2. প্রতিটি ধাপে প্রশিক্ষণের সময় সমস্ত কর্মী (বাম) এবং গ্রেডিয়েন্ট নর্ম (ডান) জুড়ে প্রশিক্ষণ ক্ষতি গড়। চিত্র-1-এর GPT NeoX-এর মতো, Pythia 6.9B কে GPU-এ ছোট উইকি ডেটাসেট সহ 4 নোডে প্রশিক্ষণ দেওয়া হয়েছে এবং একই প্রশিক্ষণ হাইপার-প্যারামিটার সহ ট্রেনিয়াম (গ্লোবাল ব্যাচ সাইজ=256)। GPU এবং Trainium-এর জন্য ক্ষতি এবং গ্রেডিয়েন্ট নর্ম ট্র্যাজেক্টোরিজ মেলে।

GPU এবং AWS Trainium-এ ফাইন-টিউনিং GPT NeoX 20B মডেল সমস্ত কর্মী (বাম) এবং গ্রেডিয়েন্ট নর্ম (ডানে) জুড়ে প্রশিক্ষণের হারের গড়।

চিত্র 3. GPU এবং AWS Trainium-এ ফাইন-টিউনিং GPT NeoX 20B মডেল সমস্ত কর্মী (বাম) এবং গ্রেডিয়েন্ট নর্ম (ডানে) জুড়ে প্রশিক্ষণের হারের গড়। একটি ছোট উইকি ডেটাসেট ফাইন-টিউনিং প্রদর্শনের জন্য ব্যবহার করা হয়। GPU এবং AWS Trainium-এর জন্য ক্ষতি এবং গ্রেডিয়েন্ট নর্ম ট্র্যাজেক্টোরিজ মেলে।

এই পোস্টে, আমরা AWS ডিপ লার্নিং হার্ডওয়্যারে LLM-এর খরচ-দক্ষ প্রশিক্ষণ দেখিয়েছি। আমরা Neuron NeMo লাইব্রেরির সাথে AWS Trn20-এ GPT NeoX 6.9B এবং Pythia 1B মডেলকে প্রশিক্ষণ দিয়েছি। AWS Trainium-এর সাথে 20 বিলিয়ন মডেলের জন্য স্বাভাবিক থ্রুপুট খরচ প্রায় 3.2M টোকেন/$ খরচ হয়েছে। AWS Trainium-এ ব্যয়-দক্ষ প্রশিক্ষণের পাশাপাশি, আমরা অনুরূপ মডেল নির্ভুলতা পাই, যা প্রশিক্ষণের ধাপ ক্ষয় এবং গ্রেডিয়েন্ট নর্ম ট্র্যাজেক্টোরি থেকে স্পষ্ট। এছাড়াও আমরা AWS Trainium-এ NeoX 20B মডেলের জন্য উপলব্ধ চেকপয়েন্টগুলিকে সূক্ষ্মভাবে তৈরি করেছি। AWS Trainium-এ NeMo Megatron-এর সাথে বিতরণ করা প্রশিক্ষণের অতিরিক্ত তথ্যের জন্য, দেখুন NeMo Megatron এর জন্য AWS নিউরন রেফারেন্স. লামা মডেলের ফাইন-টিউনিং শুরু করার জন্য একটি ভাল সংস্থান এখানে পাওয়া যেতে পারে, Llama2 ফাইন-টিউনিং. পরিচালিত AWS Trainium চালু করার জন্য আমাজন সেজমেকারদেখুন AWS Trainium এবং Amazon SageMaker এর সাথে আপনার ML মডেলগুলিকে প্রশিক্ষণ দিন৷.

লেখক সম্পর্কে

গৌরব গুপ্ত বর্তমানে Amazon Web Services (AWS) AI ল্যাব-এ একজন ফলিত বিজ্ঞানী। ডঃ গুপ্তা ইউএসসি ভিটারবি থেকে পিএইচডি সম্পন্ন করেছেন। তার গবেষণার আগ্রহগুলি অনুক্রমিক ডেটা মডেলিং, আংশিক ডিফারেনশিয়াল সমীকরণ শেখা, মেশিন লার্নিংয়ের জন্য তথ্য তত্ত্ব, ভগ্নাংশীয় গতিশীল মডেল এবং জটিল নেটওয়ার্কগুলির ডোমেনে বিস্তৃত। তিনি বর্তমানে এলএলএম প্রশিক্ষণের আচরণ, পিডিই সহ দৃষ্টি মডেল, তথ্য-তাত্ত্বিক মাল্টি-মোডালিটি মডেলের উপর প্রয়োগ ও গাণিতিক সমস্যা নিয়ে কাজ করছেন। নিউরিপস, আইসিএলআর, আইসিএমএল, নেচার, আইইইই কন্ট্রোল সোসাইটি, এসিএম সাইবার-ফিজিক্যাল সোসাইটির মতো শীর্ষ জার্নাল/সম্মেলনে ড. গুপ্তার প্রকাশনা রয়েছে।

বেন স্নাইডার AWS ডিপ লার্নিং সহ একজন ফলিত বিজ্ঞানী। তার গবেষণার আগ্রহের মধ্যে রয়েছে ফাউন্ডেশনাল মডেল, রিইনফোর্সমেন্ট লার্নিং এবং অ্যাসিঙ্ক্রোনাস অপ্টিমাইজেশন। কাজের বাইরে, তিনি সাইক্লিং এবং ব্যাককন্ট্রি ক্যাম্পিং উপভোগ করেন।

অমিথ (রাঃ) মমিদালা AWS অন্নপূর্ণা ল্যাবসের সিনিয়র মেশিন লার্নিং অ্যাপ্লিকেশন ইঞ্জিনিয়ারিং। ডঃ মমিদালা ওহাইও স্টেট ইউনিভার্সিটিতে উচ্চ কর্মক্ষমতা কম্পিউটিং এবং যোগাযোগে পিএইচডি সম্পন্ন করেছেন। আইবিএম গবেষণায় তার মেয়াদকালে, ডঃ মামিদালা ব্লুজিন ক্লাসের কম্পিউটারের প্রতি অবদান রেখেছিলেন যা প্রায়শই সবচেয়ে শক্তিশালী এবং শক্তি-দক্ষ সুপার কম্পিউটারের শীর্ষ 500 র‌্যাঙ্কিংয়ে নেতৃত্ব দেয়। প্রকল্পটি 2009 সালে প্রযুক্তি ও উদ্ভাবনের জাতীয় পদক প্রদান করে। একটি আর্থিক হেজ ফান্ডে একজন এআই ইঞ্জিনিয়ার হিসাবে একটি সংক্ষিপ্ত কার্যকালের পর, ডঃ মমিদালা অন্নপূর্ণা ল্যাবগুলিতে যোগদান করেন যা বৃহৎ ভাষার মডেল প্রশিক্ষণকে কেন্দ্র করে।

জুন (লুক) হুয়ান AWS AI ল্যাবসের একজন প্রধান বিজ্ঞানী। ডঃ হুয়ান এআই এবং ডেটা সায়েন্স নিয়ে কাজ করেন। তিনি শীর্ষস্থানীয় সম্মেলন এবং জার্নালে 180 টিরও বেশি পিয়ার-পর্যালোচিত কাগজপত্র প্রকাশ করেছেন। তিনি 2009 সালে NSF ফ্যাকাল্টি আর্লি ক্যারিয়ার ডেভেলপমেন্ট অ্যাওয়ার্ডের প্রাপক ছিলেন। AWS-এ যোগদানের আগে, তিনি একজন বিশিষ্ট বিজ্ঞানী এবং Baidu বিগ ডেটা ল্যাবরেটরির প্রধান হিসাবে Baidu গবেষণায় কাজ করেছিলেন। তিনি StylingAI Inc., একটি AI স্টার্ট-আপ প্রতিষ্ঠা করেন এবং 2019-2021 সালে সিইও এবং প্রধান বিজ্ঞানী হিসেবে কাজ করেন। শিল্পে যোগদানের আগে, তিনি কানসাস বিশ্ববিদ্যালয়ের EECS বিভাগে চার্লস ই. এবং মেরি জেন স্পাহর অধ্যাপক ছিলেন।

শ্রুতি কোপারকার AWS-এর একজন সিনিয়র প্রোডাক্ট মার্কেটিং ম্যানেজার। তিনি গ্রাহকদের তাদের মেশিন লার্নিং প্রয়োজনের জন্য Amazon EC2 ত্বরিত কম্পিউটিং অবকাঠামো অন্বেষণ, মূল্যায়ন এবং গ্রহণ করতে সহায়তা করেন।

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
উত্স: https://aws.amazon.com/blogs/machine-learning/frugality-meets-accuracy-cost-efficient-training-of-gpt-neox-and-pythia-models-with-aws-trainium/

সময় স্ট্যাম্প: ডিসেম্বর 12, 2023

সময় স্ট্যাম্প: নভেম্বর 29, 2023

মিতব্যয়িতা সঠিকতা পূরণ করে: AWS Trainium-এর সাথে GPT NeoX এবং Pythia মডেলের খরচ-দক্ষ প্রশিক্ষণ | আমাজন ওয়েব সার্ভিসেস

প্লেটো দ্বারা প্রকাশিত

সমাধান ওভারভিউ

GPT NeoX এবং Pythia মডেল

walkthrough

প্রশিক্ষণ পদক্ষেপ

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

ক্লিনিকাল রিপোর্ট সংক্ষিপ্তকরণের জন্য জেনারেটিভ এআই কৌশলগুলির মূল্যায়ন | আমাজন ওয়েব সার্ভিসেস

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব