মিতব্যয়িতা সঠিকতা পূরণ করে: AWS Trainium-এর সাথে GPT NeoX এবং Pythia মডেলের খরচ-দক্ষ প্রশিক্ষণ | আমাজন ওয়েব সার্ভিসেস

মিতব্যয়িতা সঠিকতা পূরণ করে: AWS Trainium-এর সাথে GPT NeoX এবং Pythia মডেলের খরচ-দক্ষ প্রশিক্ষণ | আমাজন ওয়েব সার্ভিসেস

বৃহৎ ভাষার মডেল (বা এলএলএম) দৈনন্দিন কথোপকথনের একটি বিষয় হয়ে উঠেছে। তাদের দ্রুত গ্রহণ 100 মিলিয়ন ব্যবহারকারীর কাছে পৌঁছানোর জন্য প্রয়োজনীয় সময়ের পরিমাণ দ্বারা স্পষ্ট হয়, যা “facebook দ্বারা 4.5 বছর” থেকে সর্বকালের সর্বনিম্ন “ChatGPT দ্বারা 2 মাস”-এ চলে গেছে। একটি জেনারেটিভ প্রাক-প্রশিক্ষিত ট্রান্সফরমার (GPT) ভবিষ্যদ্বাণী করতে কার্যকারণ অটোরিগ্রেসিভ আপডেট ব্যবহার করে। স্পিচ রিকগনিশন, টেক্সট জেনারেশন এবং প্রশ্নের উত্তর দেওয়ার মতো বিভিন্ন ধরনের কাজ এই মডেল আর্কিটেকচারের দ্বারা অসাধারন পারফরম্যান্স দেখানো হয়। বেশ কিছু সাম্প্রতিক মডেল যেমন নিওএক্স, বাজপাখি, শিখা একটি মেরুদণ্ড হিসাবে GPT আর্কিটেকচার ব্যবহার করুন. এলএলএম প্রশিক্ষণের জন্য প্রচুর পরিমাণ গণনা সময় প্রয়োজন, যার জন্য মিলিয়ন ডলার খরচ হয়। এই পোস্টে, আমরা GPT এর প্রশিক্ষণ পদ্ধতির সংক্ষিপ্ত বিবরণ দেব নিওএক্স on এডব্লিউএস ট্রেনিয়াম, একটি উদ্দেশ্য-নির্মিত মেশিন লার্নিং (ML) এক্সিলারেটর গভীর শিক্ষার প্রশিক্ষণের জন্য অপ্টিমাইজ করা হয়েছে। আমরা রূপরেখা করব কিভাবে আমরা খরচ-কার্যকরভাবে (3.2 M টোকেন/$) এই ধরনের মডেলগুলিকে AWS Trainium-এর সাথে কোনো মডেলের গুণমান হারানো ছাড়াই প্রশিক্ষণ দিয়েছি।

সমাধান ওভারভিউ

GPT NeoX এবং Pythia মডেল

জিপিটি নিওএক্স এবং পাইথিয়া NeoX-এ প্রায় 20 বিলিয়ন প্যারামিটার এবং Pythia-তে 6.9 বিলিয়ন প্যারামিটার সহ Eleuther-AI-এর ওপেন-সোর্স কার্যকারণ ভাষার মডেল। উভয়ই ডিকোডার মডেল যা চ্যাট GPT3 এর মতো অনুরূপ স্থাপত্য নকশা অনুসরণ করে। যাইহোক, তাদের বেশ কিছু সংযোজনও রয়েছে, যা সাম্প্রতিক মডেল যেমন লামাতেও ব্যাপকভাবে গৃহীত হয়েছে। বিশেষত, তাদের মাথার মাত্রা জুড়ে আংশিক ঘূর্ণন সহ ঘূর্ণনশীল অবস্থানগত এম্বেডিং (ROPE) রয়েছে। আসল মডেলগুলি (NeoX এবং Pythia 6.9B) খোলাখুলি উপলব্ধের উপর প্রশিক্ষিত পাইল ডেটাসেট ডিডপ্লিকেশন সহ এবং মেগাট্রন এবং ডিপস্পিড ব্যাকএন্ড ব্যবহার করে।

আমরা AWS Trainium-ভিত্তিক Trn1 উদাহরণ ব্যবহার করে এই মডেলগুলির প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-টিউনিং প্রদর্শন করি নিউরন নিমো লাইব্রেরি ধারণার প্রমাণ এবং দ্রুত পুনরুত্পাদন প্রতিষ্ঠা করতে, আমরা GPT2 বাইট-পেয়ার এনকোডিং (BPE) টোকেনাইজার ব্যবহার করে একটি ছোট উইকিপিডিয়া ডেটাসেট উপসেট ব্যবহার করব।

walkthrough

প্রি-টোকেনাইজড উইকিপিডিয়া ডেটাসেট ডাউনলোড করুন যেমন দেখানো হয়েছে:

export DATA_DIR=~/examples_datasets/gpt2 mkdir -p ${DATA_DIR} && cd ${DATA_DIR} wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-vocab.json
wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-merges.txt
aws s3 cp s3://neuron-s3/training_datasets/gpt/wikipedia/my-gpt2_text_document.bin . --no-sign-request
aws s3 cp s3://neuron-s3/training_datasets/gpt/wikipedia/my-gpt2_text_document.idx . --no-sign-request
aws s3 cp s3://neuron-s3/training_datasets/gpt/wikipedia/license.txt . --no-sign-request

NeoX 20B এবং Pythia 6.9B উভয়ই আংশিক ঘূর্ণন সহ ROPE ব্যবহার করে, উদাহরণস্বরূপ, মাথার মাত্রার 25% ঘোরানো এবং বাকিগুলিকে অপরিবর্তিত রাখা। AWS ট্রেনিয়াম এক্সিলারেটরে আংশিক ঘূর্ণন কার্যকর করার জন্য, ঘূর্ণায়মান এবং নন-ঘূর্ণায়মান মাত্রাগুলিকে একত্রিত করার পরিবর্তে, আমরা নন-ঘূর্ণায়মান মাত্রাগুলির জন্য শূন্য ফ্রিকোয়েন্সি যুক্ত করি এবং তারপর মাথার মাত্রাগুলির সম্পূর্ণ সেটটি ঘোরান। এই সহজ কৌশলটি আমাদের AWS Trainium-এ থ্রুপুট (প্রতি সেকেন্ডে প্রক্রিয়াকৃত ক্রম) উন্নত করতে সাহায্য করেছে।

প্রশিক্ষণ পদক্ষেপ

প্রশিক্ষণ চালানোর জন্য, আমরা SLURM পরিচালিত মাল্টি-নোড অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড ব্যবহার করি (আমাজন EC2) Trn1 ক্লাস্টার, প্রতিটি নোডের সাথে একটি trn1.32xl উদাহরণ রয়েছে। প্রতিটি trn1.32xl 16 টি এক্সিলারেটর আছে যার প্রতি এক্সিলারেটরে দুইজন কর্মী আছে। সর্বশেষ ডাউনলোড করার পর নিউরন নিমো প্যাকেজ, প্রদত্ত ব্যবহার করুন neox এবং pythia অপ্টিমাইজড হাইপার-প্যারামিটার সহ প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-টিউনিং স্ক্রিপ্ট এবং চার নোড প্রশিক্ষণের জন্য নিম্নলিখিতগুলি সম্পাদন করুন।

  1. কম্পাইল: গ্রাফ তৈরি করতে এবং সংরক্ষণ করতে তিনটি ট্রেনের পুনরাবৃত্তি সহ মডেলটি প্রাক-কম্পাইল করুন:
    sbatch --nodes 4 compile.slurm ./neoX_20B_slurm.sh

  2. চালান: প্রথম ধাপ থেকে ক্যাশে করা গ্রাফগুলি লোড করে প্রশিক্ষণটি চালান
    sbatch --nodes 4 run.slurm ./neoX_20B_slurm.sh

  3. ফলাফল মনিটর
    tensorboard --logdir=nemo_experiments/megatron_neox

Pythia 6.9B মডেলটি প্রতিস্থাপনের সাথে চালানোর জন্য একই পদক্ষেপগুলি অনুসরণ করা প্রয়োজন৷ neox_20B_slurm.sh by pythia_6.9B_slurm.sh.

প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম টিউনিং পরীক্ষা

আমরা AWS Trainium ব্যবহার করে GPT-NeoX এবং Pythia মডেলের প্রাক-প্রশিক্ষণ প্রদর্শন করি নিউরন নিমো 10k পুনরাবৃত্তির জন্য লাইব্রেরি, এবং 1k ধাপের জন্য এই মডেলগুলির ফাইন-টিউনিংও দেখায়। প্রাক-প্রশিক্ষণের জন্য, আমরা NeMo-এর ভিতরে GPT2 BPE টোকেনাইজার ব্যবহার করি এবং একই অনুসরণ করি কনফিগ মূল মডেলে ব্যবহৃত হিসাবে। AWS Trainium-এ ফাইন-টিউনিংয়ের জন্য কয়েকটি প্যারামিটারের পরিবর্তন প্রয়োজন (যেমন ভোকাব সাইজ ডিভিশন ফ্যাক্টর), যা মেগাট্রন বনাম NeMo পার্থক্য এবং GPU বনাম AWS ট্রেনিয়াম পরিবর্তনের জন্য মিটমাট করার জন্য ফাইন-টিউনিং স্ক্রিপ্টে সরবরাহ করা হয়েছে। বিভিন্ন সংখ্যক নোড সহ মাল্টি-নোড বিতরণকৃত প্রশিক্ষণ থ্রুপুট টেবিল-1 এ দেখানো হয়েছে।

মডেল টেনসর সমান্তরাল পাইপলাইন সমান্তরাল দৃষ্টান্তের সংখ্যা খরচ ($/ঘন্টা) সিকোয়েন্স দৈর্ঘ্য গ্লোবাল ব্যাচের আকার থ্রুপুট (সেক/সেকেন্ড) খরচ-থ্রুপুট অনুপাত (টোকেন/$)
Pythia 6.9B 8 1 1 7.59 2048 256 10.4 10,102,387
8 1 4 30.36 2048 256 35.8 8,693,881
NeoX 20B 8 4 4 30.36 2048 16384 13.60 3,302,704
8 4 8 60.72 2048 16384 26.80 3,254,134
8 4 16 121.44 2048 16384 54.30 3,296,632
8 4 32 242.88 2048 16384 107.50 3,263,241
8 4 64 485.76 2048 16384 212.00 3,217,708

টেবিল 1 নোডের সংখ্যা পরিবর্তনের সাথে 500 ধাপ পর্যন্ত প্রশিক্ষণের জন্য GPT NeoX এবং Pythia মডেলের গড় থ্রুপুট তুলনা করা। দ্য trn1.32xl এর মূল্য 3 বছরের সংরক্ষিত কার্যকর প্রতি ঘন্টা হারের উপর ভিত্তি করে।

এর পরে, আমরা AWS Trainium-এ মডেল প্রশিক্ষণের ক্ষতির গতিপথও মূল্যায়ন করি এবং P4d (Nvidia A100 GPU কোর) ক্লাস্টারে সংশ্লিষ্ট রানের সাথে তুলনা করি। প্রশিক্ষণের ক্ষতির পাশাপাশি, আমরা গ্রেডিয়েন্ট নর্মের মতো দরকারী সূচকও তুলনা করি, যা প্রশিক্ষণের অগ্রগতি নিরীক্ষণের জন্য প্রতিটি প্রশিক্ষণের পুনরাবৃত্তিতে গণনা করা মডেল গ্রেডিয়েন্টের 2-নর্ম। প্রশিক্ষণের ফলাফল চিত্র-1, 2 এবং চিত্র-20-এ NeoX 3B-এর ফাইন-টিউনিং-এ দেখানো হয়েছে।

প্রতিটি ধাপে প্রশিক্ষণের সময় সমস্ত কর্মী (বাম) এবং গ্রেডিয়েন্ট নর্ম (ডান) জুড়ে প্রশিক্ষণ ক্ষতি গড়।

চিত্র 1. প্রতিটি ধাপে প্রশিক্ষণের সময় সমস্ত কর্মী (বাম) এবং গ্রেডিয়েন্ট নর্ম (ডান) জুড়ে প্রশিক্ষণ ক্ষতি গড়। NeoX 20B 4টি নোডে প্রশিক্ষিত হয় GPU-এ ছোট উইকি ডেটাসেট সহ ট্রেনিয়ামে একই ট্রেনিং হাইপার-প্যারামিটার সহ (গ্লোবাল ব্যাচ সাইজ=256)। GPU BF16 এবং ডিফল্ট মিশ্র-নির্ভুলতা ব্যবহার করছে যখন AWS Trainium স্টোকাস্টিক রাউন্ডিং সহ সম্পূর্ণ BF16 ব্যবহার করছে। GPU এবং AWS Trainium-এর জন্য ক্ষতি এবং গ্রেডিয়েন্ট নর্ম ট্র্যাজেক্টোরিজ মেলে।

প্রতিটি ধাপে (পাইথিয়া) প্রশিক্ষণের সময় সমস্ত কর্মী (বাম) এবং গ্রেডিয়েন্ট নর্ম (ডান) জুড়ে প্রশিক্ষণের ক্ষতি গড়।

চিত্র 2. প্রতিটি ধাপে প্রশিক্ষণের সময় সমস্ত কর্মী (বাম) এবং গ্রেডিয়েন্ট নর্ম (ডান) জুড়ে প্রশিক্ষণ ক্ষতি গড়। চিত্র-1-এর GPT NeoX-এর মতো, Pythia 6.9B কে GPU-এ ছোট উইকি ডেটাসেট সহ 4 নোডে প্রশিক্ষণ দেওয়া হয়েছে এবং একই প্রশিক্ষণ হাইপার-প্যারামিটার সহ ট্রেনিয়াম (গ্লোবাল ব্যাচ সাইজ=256)। GPU এবং Trainium-এর জন্য ক্ষতি এবং গ্রেডিয়েন্ট নর্ম ট্র্যাজেক্টোরিজ মেলে।

GPU এবং AWS Trainium-এ ফাইন-টিউনিং GPT NeoX 20B মডেল সমস্ত কর্মী (বাম) এবং গ্রেডিয়েন্ট নর্ম (ডানে) জুড়ে প্রশিক্ষণের হারের গড়।

চিত্র 3. GPU এবং AWS Trainium-এ ফাইন-টিউনিং GPT NeoX 20B মডেল সমস্ত কর্মী (বাম) এবং গ্রেডিয়েন্ট নর্ম (ডানে) জুড়ে প্রশিক্ষণের হারের গড়। একটি ছোট উইকি ডেটাসেট ফাইন-টিউনিং প্রদর্শনের জন্য ব্যবহার করা হয়। GPU এবং AWS Trainium-এর জন্য ক্ষতি এবং গ্রেডিয়েন্ট নর্ম ট্র্যাজেক্টোরিজ মেলে।

এই পোস্টে, আমরা AWS ডিপ লার্নিং হার্ডওয়্যারে LLM-এর খরচ-দক্ষ প্রশিক্ষণ দেখিয়েছি। আমরা Neuron NeMo লাইব্রেরির সাথে AWS Trn20-এ GPT NeoX 6.9B এবং Pythia 1B মডেলকে প্রশিক্ষণ দিয়েছি। AWS Trainium-এর সাথে 20 বিলিয়ন মডেলের জন্য স্বাভাবিক থ্রুপুট খরচ প্রায় 3.2M টোকেন/$ খরচ হয়েছে। AWS Trainium-এ ব্যয়-দক্ষ প্রশিক্ষণের পাশাপাশি, আমরা অনুরূপ মডেল নির্ভুলতা পাই, যা প্রশিক্ষণের ধাপ ক্ষয় এবং গ্রেডিয়েন্ট নর্ম ট্র্যাজেক্টোরি থেকে স্পষ্ট। এছাড়াও আমরা AWS Trainium-এ NeoX 20B মডেলের জন্য উপলব্ধ চেকপয়েন্টগুলিকে সূক্ষ্মভাবে তৈরি করেছি। AWS Trainium-এ NeMo Megatron-এর সাথে বিতরণ করা প্রশিক্ষণের অতিরিক্ত তথ্যের জন্য, দেখুন NeMo Megatron এর জন্য AWS নিউরন রেফারেন্স. লামা মডেলের ফাইন-টিউনিং শুরু করার জন্য একটি ভাল সংস্থান এখানে পাওয়া যেতে পারে, Llama2 ফাইন-টিউনিং. পরিচালিত AWS Trainium চালু করার জন্য আমাজন সেজমেকারদেখুন AWS Trainium এবং Amazon SageMaker এর সাথে আপনার ML মডেলগুলিকে প্রশিক্ষণ দিন৷.


লেখক সম্পর্কে

মিতব্যয়িতা সঠিকতা পূরণ করে: AWS Trainium-এর সাথে GPT NeoX এবং Pythia মডেলের খরচ-দক্ষ প্রশিক্ষণ | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.গৌরব গুপ্ত বর্তমানে Amazon Web Services (AWS) AI ল্যাব-এ একজন ফলিত বিজ্ঞানী। ডঃ গুপ্তা ইউএসসি ভিটারবি থেকে পিএইচডি সম্পন্ন করেছেন। তার গবেষণার আগ্রহগুলি অনুক্রমিক ডেটা মডেলিং, আংশিক ডিফারেনশিয়াল সমীকরণ শেখা, মেশিন লার্নিংয়ের জন্য তথ্য তত্ত্ব, ভগ্নাংশীয় গতিশীল মডেল এবং জটিল নেটওয়ার্কগুলির ডোমেনে বিস্তৃত। তিনি বর্তমানে এলএলএম প্রশিক্ষণের আচরণ, পিডিই সহ দৃষ্টি মডেল, তথ্য-তাত্ত্বিক মাল্টি-মোডালিটি মডেলের উপর প্রয়োগ ও গাণিতিক সমস্যা নিয়ে কাজ করছেন। নিউরিপস, আইসিএলআর, আইসিএমএল, নেচার, আইইইই কন্ট্রোল সোসাইটি, এসিএম সাইবার-ফিজিক্যাল সোসাইটির মতো শীর্ষ জার্নাল/সম্মেলনে ড. গুপ্তার প্রকাশনা রয়েছে।

মিতব্যয়িতা সঠিকতা পূরণ করে: AWS Trainium-এর সাথে GPT NeoX এবং Pythia মডেলের খরচ-দক্ষ প্রশিক্ষণ | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.বেন স্নাইডার AWS ডিপ লার্নিং সহ একজন ফলিত বিজ্ঞানী। তার গবেষণার আগ্রহের মধ্যে রয়েছে ফাউন্ডেশনাল মডেল, রিইনফোর্সমেন্ট লার্নিং এবং অ্যাসিঙ্ক্রোনাস অপ্টিমাইজেশন। কাজের বাইরে, তিনি সাইক্লিং এবং ব্যাককন্ট্রি ক্যাম্পিং উপভোগ করেন।

মিতব্যয়িতা সঠিকতা পূরণ করে: AWS Trainium-এর সাথে GPT NeoX এবং Pythia মডেলের খরচ-দক্ষ প্রশিক্ষণ | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.অমিথ (রাঃ) মমিদালা AWS অন্নপূর্ণা ল্যাবসের সিনিয়র মেশিন লার্নিং অ্যাপ্লিকেশন ইঞ্জিনিয়ারিং। ডঃ মমিদালা ওহাইও স্টেট ইউনিভার্সিটিতে উচ্চ কর্মক্ষমতা কম্পিউটিং এবং যোগাযোগে পিএইচডি সম্পন্ন করেছেন। আইবিএম গবেষণায় তার মেয়াদকালে, ডঃ মামিদালা ব্লুজিন ক্লাসের কম্পিউটারের প্রতি অবদান রেখেছিলেন যা প্রায়শই সবচেয়ে শক্তিশালী এবং শক্তি-দক্ষ সুপার কম্পিউটারের শীর্ষ 500 র‌্যাঙ্কিংয়ে নেতৃত্ব দেয়। প্রকল্পটি 2009 সালে প্রযুক্তি ও উদ্ভাবনের জাতীয় পদক প্রদান করে। একটি আর্থিক হেজ ফান্ডে একজন এআই ইঞ্জিনিয়ার হিসাবে একটি সংক্ষিপ্ত কার্যকালের পর, ডঃ মমিদালা অন্নপূর্ণা ল্যাবগুলিতে যোগদান করেন যা বৃহৎ ভাষার মডেল প্রশিক্ষণকে কেন্দ্র করে।

মিতব্যয়িতা সঠিকতা পূরণ করে: AWS Trainium-এর সাথে GPT NeoX এবং Pythia মডেলের খরচ-দক্ষ প্রশিক্ষণ | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.জুন (লুক) হুয়ান AWS AI ল্যাবসের একজন প্রধান বিজ্ঞানী। ডঃ হুয়ান এআই এবং ডেটা সায়েন্স নিয়ে কাজ করেন। তিনি শীর্ষস্থানীয় সম্মেলন এবং জার্নালে 180 টিরও বেশি পিয়ার-পর্যালোচিত কাগজপত্র প্রকাশ করেছেন। তিনি 2009 সালে NSF ফ্যাকাল্টি আর্লি ক্যারিয়ার ডেভেলপমেন্ট অ্যাওয়ার্ডের প্রাপক ছিলেন। AWS-এ যোগদানের আগে, তিনি একজন বিশিষ্ট বিজ্ঞানী এবং Baidu বিগ ডেটা ল্যাবরেটরির প্রধান হিসাবে Baidu গবেষণায় কাজ করেছিলেন। তিনি StylingAI Inc., একটি AI স্টার্ট-আপ প্রতিষ্ঠা করেন এবং 2019-2021 সালে সিইও এবং প্রধান বিজ্ঞানী হিসেবে কাজ করেন। শিল্পে যোগদানের আগে, তিনি কানসাস বিশ্ববিদ্যালয়ের EECS বিভাগে চার্লস ই. এবং মেরি জেন ​​স্পাহর অধ্যাপক ছিলেন।

মিতব্যয়িতা সঠিকতা পূরণ করে: AWS Trainium-এর সাথে GPT NeoX এবং Pythia মডেলের খরচ-দক্ষ প্রশিক্ষণ | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.শ্রুতি কোপারকার AWS-এর একজন সিনিয়র প্রোডাক্ট মার্কেটিং ম্যানেজার। তিনি গ্রাহকদের তাদের মেশিন লার্নিং প্রয়োজনের জন্য Amazon EC2 ত্বরিত কম্পিউটিং অবকাঠামো অন্বেষণ, মূল্যায়ন এবং গ্রহণ করতে সহায়তা করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং