AWS Inferentia2 1x উচ্চতর থ্রুপুট এবং 4x কম লেটেন্সি প্রদান করে AWS Inferentia10 এর উপর তৈরি করে | আমাজন ওয়েব সার্ভিসেস

AWS Inferentia2 1x উচ্চতর থ্রুপুট এবং 4x কম লেটেন্সি প্রদান করে AWS Inferentia10 এর উপর তৈরি করে | আমাজন ওয়েব সার্ভিসেস

মেশিন লার্নিং (এমএল) মডেলের আকার––বড় ভাষা মডেল (এলএলএম) এবং ভিত্তি মডেল (এফএম)––বছরের পর বছর দ্রুত বাড়ছে, এবং এই মডেলগুলির জন্য দ্রুত এবং আরও শক্তিশালী এক্সিলারেটর প্রয়োজন, বিশেষ করে জেনারেটিভ AI এর জন্য। AWS Inferentia2 এলএলএম এবং জেনারেটিভ এআই ইনফারেন্সের খরচ কমিয়ে উচ্চ কার্যক্ষমতা প্রদানের জন্য গ্রাউন্ড আপ থেকে ডিজাইন করা হয়েছে।

এই পোস্টে, আমরা দেখাই যে কিভাবে AWS Inferentia-এর দ্বিতীয় প্রজন্ম AWS Inferentia1 এর সাথে প্রবর্তিত ক্ষমতার উপর ভিত্তি করে তৈরি করে এবং LLM এবং FM গুলি স্থাপন ও চালানোর অনন্য চাহিদা পূরণ করে।

AWS Inferentia-এর প্রথম প্রজন্ম, একটি উদ্দেশ্য-নির্মিত অ্যাক্সিলারেটর যা 2019 সালে চালু করা হয়েছে, গভীর শিক্ষার অনুমানকে ত্বরান্বিত করার জন্য অপ্টিমাইজ করা হয়েছে। AWS Inferentia ML ব্যবহারকারীদের তাদের অনুমান খরচ কমাতে এবং তাদের পূর্বাভাস থ্রুপুট এবং লেটেন্সি উন্নত করতে সাহায্য করেছে। AWS Inferentia1 এর সাথে, গ্রাহকরা তুলনামূলক অনুমান-অপ্টিমাইজডের তুলনায় 2.3x বেশি থ্রুপুট এবং প্রতি অনুমান প্রতি 70% পর্যন্ত কম খরচ দেখেছেন অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2) উদাহরণ।

AWS Inferentia2, নতুনটিতে বৈশিষ্ট্যযুক্ত Amazon EC2 Inf2 দৃষ্টান্ত এবং সমর্থিত আমাজন সেজমেকার, বড় আকারের জেনারেটিভ AI অনুমানের জন্য অপ্টিমাইজ করা হয়েছে এবং এটি AWS থেকে প্রথম অনুমান ফোকাসড উদাহরণ যা ডিস্ট্রিবিউটেড ইনফারেন্সের জন্য অপ্টিমাইজ করা হয়েছে, উচ্চ-গতি, ত্বরণকারীর মধ্যে কম লেটেন্সি সংযোগ সহ।

আপনি এখন ব্যয়বহুল প্রশিক্ষণের দৃষ্টান্তের প্রয়োজন ছাড়াই একটি একক Inf175 দৃষ্টান্তে একাধিক অ্যাক্সিলারেটর জুড়ে অনুমানের জন্য একটি 2-বিলিয়ন-প্যারামিটার মডেল দক্ষতার সাথে স্থাপন করতে পারেন। এখন অবধি, যাদের কাছে বড় মডেল ছিল তারা শুধুমাত্র প্রশিক্ষণের জন্য তৈরি করা উদাহরণগুলি ব্যবহার করতে পারে, কিন্তু এটি সম্পদের অপচয়––প্রদত্ত যে তারা আরও ব্যয়বহুল, আরও শক্তি খরচ করে এবং তাদের কাজের চাপ সমস্ত কিছু ব্যবহার করে না উপলব্ধ সংস্থান (যেমন দ্রুত নেটওয়ার্কিং এবং স্টোরেজ)। AWS Inferentia2 এর সাথে, আপনি AWS Inferentia4 এর তুলনায় 10 গুণ বেশি থ্রুপুট এবং 1 গুণ কম লেটেন্সি অর্জন করতে পারেন। এছাড়াও, AWS Inferentia-এর দ্বিতীয় প্রজন্ম আরও ডেটা প্রকার, কাস্টম অপারেটর, গতিশীল টেনসর এবং আরও অনেক কিছুর জন্য উন্নত সমর্থন যোগ করে।

AWS Inferentia2-এর 4 গুণ বেশি মেমরি ক্ষমতা, AWS Inferentia16.4-এর চেয়ে 1 গুণ বেশি মেমরি ব্যান্ডউইথ এবং একাধিক অ্যাক্সিলারেটর জুড়ে বড় মডেলগুলিকে শার্ড করার জন্য স্থানীয় সমর্থন রয়েছে। এক্সিলারেটর ব্যবহার করে নিউরন লিঙ্ক এবং নিউরন কালেকটিভ কমিউনিকেশন তাদের মধ্যে বা একটি অ্যাক্সিলারেটর এবং নেটওয়ার্ক অ্যাডাপ্টারের মধ্যে ডেটা স্থানান্তরের গতি সর্বাধিক করতে। AWS Inferentia2 বড় মডেলগুলির জন্য আরও উপযুক্ত, যার জন্য একাধিক অ্যাক্সিলারেটর জুড়ে শার্ডিং প্রয়োজন, যদিও AWS Inferentia1 এখনও ছোট মডেলগুলির জন্য একটি দুর্দান্ত বিকল্প কারণ এটি বিকল্পগুলির তুলনায় ভাল মূল্য-কর্মক্ষমতা প্রদান করে।

স্থাপত্যের বিবর্তন

AWS Inferentia এর উভয় প্রজন্মের তুলনা করতে, আসুন পর্যালোচনা করি AWS Inferentia1 এর আর্কিটেকচার. এটির প্রতি চিপে চারটি নিউরনকোরস v1 রয়েছে, যা নিম্নলিখিত চিত্রটিতে দেখানো হয়েছে।

AWS Inferentia2 1x উচ্চতর থ্রুপুট এবং 4x কম লেটেন্সি প্রদান করে AWS Inferentia10 এর উপর তৈরি করে | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

চিপ প্রতি স্পেসিফিকেশন:

  • গনা - মোট 128 INT8 TOPS এবং 64FP16/BF16 TFLOPS-এ চারটি কোর বিতরণ করছে
  • স্মৃতি - 8 GB DRAM (50 GB/সেকেন্ড ব্যান্ডউইথ), চারটি কোর দ্বারা ভাগ করা
  • নিউরন লিঙ্ক - দুই বা ততোধিক কোর জুড়ে মডেল শার্ডিংয়ের জন্য কোরের মধ্যে লিঙ্ক

আসুন AWS Inferentia2 কিভাবে সংগঠিত হয় তা দেখি। প্রতিটি AWS Inferentia2 চিপের উপর ভিত্তি করে দুটি আপগ্রেড করা কোর রয়েছে NeuronCore-v2 আর্কিটেকচার। AWS Inferentia1-এর মতো, আপনি প্রতিটি নিউরনকোরে বিভিন্ন মডেল চালাতে পারেন বা শার্ড বড় মডেলগুলিতে একাধিক কোর একত্রিত করতে পারেন।

AWS Inferentia2 1x উচ্চতর থ্রুপুট এবং 4x কম লেটেন্সি প্রদান করে AWS Inferentia10 এর উপর তৈরি করে | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

চিপ প্রতি স্পেসিফিকেশন:

  • গনা - দুটি কোর মোট 380 INT8 TOPS, 190 FP16/BF16/cFP8/TF32 TFLOPS, এবং 47.5 FP32 TFLOPS বিতরণ করছে
  • স্মৃতি - 32 GB HBM, উভয় কোর দ্বারা ভাগ করা হয়েছে৷
  • নিউরন লিঙ্ক - দুই বা ততোধিক কোর জুড়ে মডেল শার্ডিংয়ের জন্য চিপগুলির মধ্যে লিঙ্ক (প্রতি ডিভাইসে 384 জিবি/সেকেন্ড)

NeuronCore-v2 আছে a চারটি স্বাধীন ইঞ্জিন সহ মডুলার ডিজাইন:

  • ScalarEngine (v3 এর চেয়ে 1 গুণ দ্রুত) – ফ্লোটিং পয়েন্ট সংখ্যা––১৬০০ (BF1600/FP16) FLOPS-এ কাজ করে
  • ভেক্টর ইঞ্জিন (v10 এর চেয়ে 1 গুণ দ্রুত) - নর্মালাইজেশন, পুলিং এবং অন্যদের মতো গণনার জন্য একক অপারেশন সহ সংখ্যার ভেক্টরগুলিতে কাজ করে।
  • TensorEngine (v6 এর চেয়ে 1 গুণ দ্রুত) - কনভ, রিশেপ, ট্রান্সপোজ এবং অন্যান্যের মতো টেনসর গণনা সম্পাদন করে।
  • GPSIMD-ইঞ্জিন - আপনার তৈরি করার জন্য আটটি সম্পূর্ণ প্রোগ্রামেবল 512-বিট প্রশস্ত সাধারণ-উদ্দেশ্য প্রসেসর রয়েছে কাস্টম অপারেটর সঙ্গে স্ট্যান্ডার্ড PyTorch কাস্টম C++ অপারেটর API. এটি একটি নতুন বৈশিষ্ট্য, যা NeuronCore-v2 এ চালু করা হয়েছে।

AWS Inferentia2 NeuronCore-v2 দ্রুত এবং আরও অপ্টিমাইজ করা হয়েছে। এছাড়াও, এটি রেসনেট 50 এর মতো সাধারণ মডেল থেকে শুরু করে বৃহৎ ভাষার মডেল বা GPT-3 (175 বিলিয়ন প্যারামিটার) এর মতো বিলিয়ন প্যারামিটার সহ ফাউন্ডেশন মডেল পর্যন্ত বিভিন্ন ধরণের এবং আকারের মডেলগুলিকে ত্বরান্বিত করতে সক্ষম। AWS Inferentia2 এর একটি বড় এবং দ্রুত অভ্যন্তরীণ মেমরি রয়েছে, যখন AWS Inferentia1 এর সাথে তুলনা করা হয়েছে, যেমনটি নিম্নলিখিত টেবিলে দেখানো হয়েছে।

চিপ নিউরন কোর মেমরি প্রকার মেমরি সাইজ স্মৃতি ব্যান্ডউইথ
এডাব্লুএস ইনফেরেন্টিয়া x4 (v1) DDR4 8GB 50GB/S
AWS Inferentia 2 x2 (v2) HBM 32GB 820GB/S

আপনি AWS Inferentia2-এ যে মেমরিটি খুঁজে পান তা হল হাই-ব্যান্ডউইথ মেমরি (HBM) টাইপ। প্রতিটি AWS Inferentia2 চিপে 32 GB থাকে এবং নিউরনলিঙ্ক (ডিভাইস-টু-ডিভাইস ইন্টারকানেক্ট) ব্যবহার করে খুব বড় মডেলগুলি বিতরণ করতে অন্যান্য চিপের সাথে একত্রিত করা যেতে পারে। উদাহরণস্বরূপ, একটি inf2.48xlarge-এ 12 AWS Inferentia2 এক্সিলারেটর রয়েছে যার মোট 384 GB অ্যাক্সিলারেটেড মেমরি রয়েছে। AWS Inferentia2 মেমরির গতি AWS Inferentia16.4 এর চেয়ে 1 গুণ বেশি, যেমনটি আগের টেবিলে দেখানো হয়েছে।

অন্যান্য বৈশিষ্ট্য

AWS Inferentia2 নিম্নলিখিত অতিরিক্ত বৈশিষ্ট্যগুলি অফার করে:

  • হার্ডওয়্যার সমর্থিত – cFP8 (নতুন, কনফিগারযোগ্য FP8), FP16, BF16, TF32, FP32, INT8, INT16 এবং INT32। আরো তথ্যের জন্য, পড়ুন তথ্যের ধরণ.
  • অলস টেনসর অনুমান - আমরা আলোচনা করি অলস টেনসর অনুমান পরে এই পোস্টে।
  • কাস্টম অপারেটর - বিকাশকারীরা ব্যবহার করতে স্ট্যান্ডার্ড PyTorch কাস্টম অপারেটর প্রোগ্রামিং ইন্টারফেস ব্যবহার করতে পারেন কাস্টম সি++ অপারেটর বৈশিষ্ট্য একটি কাস্টম অপারেটর নিম্ন-স্তরের আদিম দ্বারা গঠিত টেনসর কারখানার কার্যাবলী এবং GPSIMD-ইঞ্জিন দ্বারা ত্বরান্বিত।
  • নিয়ন্ত্রণ-প্রবাহ (শীঘ্রই আসছে) - এটি মডেলের ভিতরে নেটিভ প্রোগ্রামিং ল্যাঙ্গুয়েজ কন্ট্রোল প্রবাহের জন্য শেষ পর্যন্ত প্রিপ্রসেস এবং পোস্টপ্রসেস ডেটা এক স্তর থেকে অন্য স্তরে।
  • গতিশীল-আকৃতি (শীঘ্রই আসছে) - যখন আপনার মডেল গতিশীলভাবে যেকোনো অভ্যন্তরীণ স্তরের আউটপুটের আকার পরিবর্তন করে তখন এটি কার্যকর। উদাহরণস্বরূপ: একটি ফিল্টার যা ইনপুট ডেটার উপর ভিত্তি করে মডেলের ভিতরে আউটপুট টেনসরের আকার বা আকৃতি হ্রাস করে।

AWS Inferentia1 এবং AWS Inferentia2-এ ত্বরান্বিত মডেল

সার্জারির AWS নিউরন SDK আপনার মডেল কম্পাইল এবং চালানোর জন্য ব্যবহৃত হয়। এটি স্থানীয়ভাবে PyTorch এবং TensorFlow এর সাথে একত্রিত। এইভাবে, আপনাকে একটি অতিরিক্ত টুল চালানোর প্রয়োজন নেই। এই ML ফ্রেমওয়ার্কগুলির মধ্যে একটিতে লেখা আপনার আসল কোডটি ব্যবহার করুন এবং কোড পরিবর্তনের কয়েকটি লাইন সহ, আপনি AWS Inferentia এর সাথে যেতে পারেন।

আসুন দেখি কিভাবে PyTorch ব্যবহার করে AWS Inferentia1 এবং AWS Inferentia2 এ একটি মডেল কম্পাইল এবং রান করা যায়।

টর্চভিশন থেকে একটি প্রাক-প্রশিক্ষিত মডেল (ResNet 50) লোড করুন

একটি প্রাক-প্রশিক্ষিত মডেল লোড করুন এবং এটিকে উষ্ণ করার জন্য একবার চালান:

import torch
import torchvision model = torchvision.models.resnet50(weights='IMAGENET1K_V1').eval().cpu()
x = torch.rand(1,3,224,224).float().cpu() # dummy input
y = model(x) # warmup model

Inferentia1 এ ত্বরিত মডেলটি ট্রেস করুন এবং স্থাপন করুন

মডেলটিকে AWS Inferentia-এ ট্রেস করতে, আমদানি করুন torch_neuron এবং ট্রেসিং ফাংশন আহ্বান করুন। মনে রাখবেন যে মডেলটি কাজ করার জন্য PyTorch Jit হতে হবে।

ট্রেসিং প্রক্রিয়া শেষে, মডেলটিকে একটি সাধারণ PyTorch মডেল হিসাবে সংরক্ষণ করুন। মডেলটি একবার কম্পাইল করুন এবং যতবার প্রয়োজন ততবার লোড করুন। নিউরন SDK রানটাইম ইতিমধ্যেই PyTorch-এ একত্রিত হয়েছে এবং আপনার মডেলকে ত্বরান্বিত করতে স্বয়ংক্রিয়ভাবে AWS Inferentia1 চিপে অপারেটরদের পাঠানোর জন্য দায়ী৷

আপনার অনুমান কোডে, আপনাকে সর্বদা আমদানি করতে হবে torch_neuron ইন্টিগ্রেটেড রানটাইম সক্রিয় করতে।

আপনি পাস করতে পারেন অতিরিক্ত পরামিতি কম্পাইলারকে মডেলটিকে অপ্টিমাইজ করার উপায় কাস্টমাইজ করতে বা নিউরন-পাইপলাইন-কোরগুলির মতো বিশেষ বৈশিষ্ট্যগুলি সক্ষম করতে। থ্রুপুট বাড়ানোর জন্য আপনার মডেলকে একাধিক কোর জুড়ে ভাগ করুন।

import torch_neuron # Tracing the model using AWS NeuronSDK
neuron_model = torch_neuron.trace(model,x) # trace model to Inferentia
# Saving for future use
neuron_model.save('neuron_resnet50.pt') # Next time you don't need to trace the model again
# Just load it and AWS NeuronSDK will send it to Inferentia automatically
neuron_model = torch.jit.load('neuron_resnet50.pt') # accelerated inference on Inferentia
y = neuron_model(x)

Inferentia2 এ ত্বরিত মডেলের ট্রেসিং এবং স্থাপন করা

AWS Inferentia2 এর জন্য, প্রক্রিয়াটি একই রকম। শুধুমাত্র পার্থক্য হল আপনি যে প্যাকেজটি আমদানি করেন তা x দিয়ে শেষ হয়: torch_neuronx. নিউরন SDK আপনার জন্য স্বচ্ছভাবে মডেলের সংকলন এবং চালানোর যত্ন নেয়। আপনিও পাস করতে পারেন কম্পাইলারের অতিরিক্ত পরামিতি অপারেশন সূক্ষ্ম-টিউন বা নির্দিষ্ট কার্যকারিতা সক্রিয় করতে.

import torch_neuronx # Tracing the model using NeuronSDK
neuron_model = torch_neuronx.trace(model,x) # trace model to Inferentia
# Saving for future use
neuron_model.save('neuron_resnet50.pt') # Next time you don't need to trace the model again
# Just load it and NeuronSDK will send it to Inferentia automatically
neuron_model = torch.jit.load('neuron_resnet50.pt') # accelerated inference on Inferentia
y = neuron_model(x)

AWS Inferentia2 নামক একটি মডেল চালানোর জন্য একটি দ্বিতীয় পদ্ধতির প্রস্তাব দেয় অলস টেনসর অনুমান. এই মোডে, আপনি আগে মডেলটিকে ট্রেস বা কম্পাইল করবেন না; পরিবর্তে, আপনি যখনই আপনার কোড চালান তখন কম্পাইলারটি ফ্লাইতে চলে। এটি উৎপাদনের জন্য সুপারিশ করা হয় না, যে ট্রেসড মোড আছে অনেক সুবিধা অলস টেনসর অনুমানের উপর। যাইহোক, আপনি যদি এখনও আপনার মডেলটি বিকাশ করেন এবং এটি দ্রুত পরীক্ষা করার প্রয়োজন হয়, তাহলে অলস টেনসর অনুমান একটি ভাল বিকল্প হতে পারে। অলস টেনসর ব্যবহার করে কীভাবে একটি মডেল কম্পাইল এবং চালানো যায় তা এখানে:

import torch
import torchvision
import torch_neuronx
import torch_xla.core.xla_model as xm device = xm.xla_device() # Create XLA device
model = torchvision.models.resnet50(weights='IMAGENET1K_V1').eval().cpu()
model.to(device) x = torch.rand((1,3,224,224), device=device) # dummy input
with torch.no_grad(): y = model(x) xm.mark_step() # Compilation occurs here

এখন যেহেতু আপনি AWS Inferentia2 এর সাথে পরিচিত, একটি ভাল পরবর্তী পদক্ষেপ হল শুরু করা পাইটর্চ or টেনসরফ্লো এবং কিভাবে একটি dev পরিবেশ সেট আপ করতে হয় এবং টিউটোরিয়াল এবং উদাহরণগুলি চালাতে হয় তা শিখুন। এছাড়াও, চেক করুন AWS নিউরন নমুনা GitHub রেপো, যেখানে আপনি Inf2, Inf1, এবং Trn1 চালানোর জন্য মডেলগুলি কীভাবে প্রস্তুত করবেন তার একাধিক উদাহরণ খুঁজে পেতে পারেন।

AWS Inferentia1 এবং AWS Inferentia2 এর মধ্যে বৈশিষ্ট্য তুলনার সারাংশ

AWS Inferentia2 কম্পাইলার হল XLA-ভিত্তিক, এবং AWS এর অংশ OpenXLA উদ্যোগ। এটি AWS Inferentia1 এর থেকে সবচেয়ে বড় পার্থক্য, এবং এটি প্রাসঙ্গিক কারণ PyTorch, TensorFlow এবং JAX-এর নেটিভ XLA ইন্টিগ্রেশন রয়েছে। XLA অনেক কর্মক্ষমতা উন্নতি নিয়ে আসে, এটি একটি একক কার্নেল লঞ্চের ফলাফল গণনা করার জন্য গ্রাফটিকে অপ্টিমাইজ করে। এটি পরপর টেনসর ক্রিয়াকলাপকে একত্রে ফিউজ করে এবং AWS Inferentia2-এ ত্বরান্বিত মডেল চালানোর জন্য সর্বোত্তম মেশিন কোড আউটপুট করে। নিউরন SDK-এর অন্যান্য অংশগুলিও AWS Inferentia2-তে উন্নত করা হয়েছিল, মডেলগুলি ট্রেসিং এবং চালানোর সময় ব্যবহারকারীর অভিজ্ঞতাকে যতটা সম্ভব সহজ রেখে৷ নিম্নলিখিত টেবিলটি কম্পাইলার এবং রানটাইম উভয় সংস্করণে উপলব্ধ বৈশিষ্ট্যগুলি দেখায়।

বৈশিষ্ট্য টর্চ-নিউরন টর্চ-নিউরনক্স
টেনসরবোর্ড হাঁ হাঁ
সমর্থিত উদাহরণ Inf1 Inf2 এবং Trn1
অনুমান সমর্থন হাঁ হাঁ
প্রশিক্ষণ সহায়তা না হাঁ
স্থাপত্য নিউরনকোর-v1 নিউরনকোর-v2
ট্রেস API torch_neuron.trace() torch_neuronx.trace()
বিতরণকৃত অনুমান নিউরনকোর পাইপলাইন যৌথ যোগাযোগ
IR গ্রাফডিফ এইচএলও
সংকলনকারী নিউরন-সিসি neuronx-cc
পর্যবেক্ষণ নিউরন-মনিটর / মনিটর-টপ নিউরন-মনিটর / মনিটর-টপ

মধ্যে আরো বিস্তারিত তুলনা জন্য torch-neuron (Inf1) এবং torch-neuronx (Inf2), পড়ুন অনুমানের জন্য টর্চ-নিউরন (Inf1) বনাম টর্চ-নিউরনক্স (Inf2 এবং Trn1) এর তুলনা.

মডেল পরিবেশন

Inf2 এ স্থাপন করার জন্য একটি মডেল ট্রেস করার পরে, আপনার কাছে অনেকগুলি স্থাপনার বিকল্প রয়েছে। আপনি বিভিন্ন উপায়ে রিয়েল-টাইম ভবিষ্যদ্বাণী বা ব্যাচ পূর্বাভাস চালাতে পারেন। Inf2 উপলব্ধ কারণ EC2 দৃষ্টান্তগুলি স্থানীয়ভাবে অন্যান্য AWS পরিষেবাগুলির সাথে একত্রিত হয় যা ব্যবহার করে গভীর শিক্ষার পাত্রে (DLCs) যেমন অ্যামাজন ইলাস্টিক কনটেইনার পরিষেবা (আমাজন ইসিএস), অ্যামাজন ইলাস্টিক কুবারনেটস পরিষেবা (আমাজন ইকেএস), এবং সেজমেকার।

AWS Inferentia2 সবচেয়ে জনপ্রিয় স্থাপনার প্রযুক্তির সাথে সামঞ্জস্যপূর্ণ। AWS Inferentia2 ব্যবহার করে মডেল স্থাপনের জন্য আপনার কাছে থাকা কয়েকটি বিকল্পের একটি তালিকা এখানে রয়েছে:

  • SageMaker - ডেটা প্রস্তুত করতে এবং এমএল মডেল তৈরি, প্রশিক্ষণ এবং স্থাপন করতে সম্পূর্ণরূপে পরিচালিত পরিষেবা৷
  • টর্চ সার্ভ - পাইটর্চ ইন্টিগ্রেটেড ডিপ্লয়মেন্ট মেকানিজম
  • টেনসরফ্লো পরিবেশন করা - টেনসরফ্লো ইন্টিগ্রেটেড ডিপ্লয়মেন্ট মেকানিজম
  • গভীর জাভা লাইব্রেরি - মডেল স্থাপন এবং প্রশিক্ষণের জন্য ওপেন সোর্স জাভা মেকানিজম
  • Triton, - মডেল স্থাপনের জন্য NVIDIA ওপেন সোর্স পরিষেবা

উচ্চতার চিহ্ন

নিম্নলিখিত সারণী AWS Inferentia2 AWS Inferentia1 এর উপর যে উন্নতিগুলি এনেছে তা হাইলাইট করে। বিশেষ করে, আমরা লেটেন্সি পরিমাপ করি (প্রতিটি অ্যাক্সিলারেটর ব্যবহার করে মডেলটি কত দ্রুত একটি ভবিষ্যদ্বাণী করতে পারে), থ্রুপুট (প্রতি সেকেন্ডে কতগুলি অনুমান), এবং প্রতি অনুমানের খরচ (মার্কিন ডলারে প্রতিটি অনুমানের মূল্য কত)। মিলিসেকেন্ডে লেটেন্সি যত কম হবে এবং ইউএস ডলারে খরচ হবে তত ভালো। থ্রুপুট যত বেশি হবে তত ভালো।

এই প্রক্রিয়ায় দুটি মডেল ব্যবহার করা হয়েছিল—–উভয় বৃহৎ ভাষার মডেল: ELECTRA বড় বৈষম্যকারী এবং BERT বড় আনকেসড। PyTorch (1.13.1) এবং Hugging Face transformers (v4.7.0), এই পরীক্ষায় ব্যবহৃত প্রধান লাইব্রেরিগুলি পাইথন 3.8-এ চলে। ব্যাচের আকার = 1 এবং 10 (একটি রেফারেন্স হিসাবে পূর্ববর্তী বিভাগ থেকে কোড ব্যবহার করে) এর জন্য মডেলগুলি কম্পাইল করার পরে, প্রতিটি মডেলকে উষ্ণ করা হয়েছিল (প্রসঙ্গ শুরু করার জন্য একবার আহ্বান করা হয়েছিল) এবং তারপরে একটি সারিতে 10 বার আহ্বান করা হয়েছিল। নিম্নলিখিত সারণী এই সাধারণ বেঞ্চমার্কে সংগৃহীত গড় সংখ্যা দেখায়।

ণশড ব্যাচ আকার বাক্যের দৈর্ঘ্য Latency (ms) Inf2 থেকে Inf1 উন্নতি (x টাইমস) থ্রুপুট (প্রতি সেকেন্ডে অনুমান) অনুমান প্রতি খরচ (EC2 us-east-1) **
Inf1 Inf2 Inf1 Inf2 Inf1 Inf2
ইলেক্ট্রালার্জ ডিসক্রিমিনেটর 1 256 35.7 8.31 4.30 28.01 120.34 $0.0000023 $0.0000018
ইলেক্ট্রালার্জ ডিসক্রিমিনেটর 10 256 343.7 72.9 4.71 2.91 13.72 $0.0000022 $0.0000015
বার্টলার্জ আনকেসড 1 128 28.2 3.1 9.10 35.46 322.58 $0.0000018 $0.0000007
বার্টলার্জ আনকেসড 10 128 121.1 23.6 5.13 8.26 42.37 $0.0000008 $0.0000005

* c6a.8x বড় এই বেঞ্চমার্কে 32 AMD Epyc 7313 CPU ব্যবহার করা হয়েছিল।

**EC2 পাবলিক প্রাইসিং us-east-1-এ 20 এপ্রিল: inf2.xlarge: $0.7582/hr; inf1.xlarge: $0.228/ঘন্টা। অনুমানের প্রতি খরচ একটি ব্যাচের উপাদান প্রতি খরচ বিবেচনা করে। (প্রতি অনুমানে খরচ মডেল আহ্বান/ব্যাচ আকারের মোট খরচের সমান।)

প্রশিক্ষণ এবং অনুমান কর্মক্ষমতা সম্পর্কে অতিরিক্ত তথ্যের জন্য, পড়ুন Trn1/Trn1n পারফরম্যান্স.

উপসংহার

AWS Inferentia2 হল একটি শক্তিশালী প্রযুক্তি যা কর্মক্ষমতা উন্নত করতে এবং গভীর শিক্ষার মডেল অনুমানের খরচ কমানোর জন্য ডিজাইন করা হয়েছে। AWS Inferentia1 এর চেয়ে বেশি পারফরম্যান্স, এটি 4 গুণ বেশি থ্রুপুট পর্যন্ত, 10 গুণ কম লেটেন্সি পর্যন্ত, এবং অন্যান্য তুলনাযোগ্য অনুমান-অপ্টিমাইজ করা EC50 দৃষ্টান্তগুলির তুলনায় 2% ভাল পারফরম্যান্স/ওয়াট পর্যন্ত অফার করে। শেষ পর্যন্ত, আপনি কম অর্থ প্রদান করেন, একটি দ্রুত আবেদন করেন এবং আপনার স্থায়িত্বের লক্ষ্যগুলি পূরণ করেন।

আপনার অনুমান কোডকে AWS Inferentia2-এ স্থানান্তর করা সহজ এবং সহজ, যা জেনারেটিভ এআই-এর জন্য বৃহৎ ভাষার মডেল এবং ফাউন্ডেশন মডেল সহ বিস্তৃত বিভিন্ন মডেলকে সমর্থন করে।

আপনি অনুসরণ করে শুরু করতে পারেন AWS নিউরন SDK ডকুমেন্টেশন একটি উন্নয়ন পরিবেশ সেট আপ করতে এবং আপনার ত্বরিত গভীর শিক্ষা প্রকল্প শুরু করতে। আপনাকে শুরু করতে সাহায্য করার জন্য, Hugging Face তাদের নিউরন সমর্থন যোগ করেছে সর্বোত্তম লাইব্রেরি, যা দ্রুত প্রশিক্ষণ এবং অনুমানের জন্য মডেলগুলিকে অপ্টিমাইজ করে, এবং তাদের কাছে Inf2-এ চালানোর জন্য প্রস্তুত অনেক উদাহরণ কাজ রয়েছে। এছাড়াও, আমাদের চেক করুন AWS Inferentia2 এ বড় মডেল ইনফারেন্স কন্টেনার ব্যবহার করে বড় ভাষার মডেল স্থাপন করুন মডেল ইনফারেন্স কন্টেনার ব্যবহার করে AWS Inferentia2-এ LLM স্থাপন করার বিষয়ে জানতে। অতিরিক্ত উদাহরণের জন্য, দেখুন AWS নিউরন নমুনা GitHub রেপো.


লেখক সম্পর্কে

AWS Inferentia2 1x উচ্চতর থ্রুপুট এবং 4x কম লেটেন্সি প্রদান করে AWS Inferentia10 এর উপর তৈরি করে | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.সমীর আরাজ্জো এডাব্লুএসে একটি এআই / এমএল সলিউশন আর্কিটেক্ট। তিনি এআই / এমএল সমাধান তৈরি করতে গ্রাহকদের সহায়তা করেন যা এডাব্লুএস ব্যবহার করে তাদের ব্যবসায়ের চ্যালেঞ্জগুলি সমাধান করে। তিনি কম্পিউটার ভিশন, প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণ, পূর্বাভাস, এমএল প্রান্তে এবং আরও অনেকগুলি সম্পর্কিত বেশ কয়েকটি এআই / এমএল প্রকল্পগুলিতে কাজ করছেন। তিনি তার ফ্রি সময়ে হার্ডওয়্যার এবং অটোমেশন প্রকল্পগুলির সাথে খেলতে পছন্দ করেন এবং রোবোটিকের প্রতি তাঁর বিশেষ আগ্রহ রয়েছে।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজন সেজমেকার ক্যানভাসের সাথে কোনও কোড এমএল মডেল তৈরি করার সময় সাধারণ ডেটা সমস্যাগুলি সনাক্ত করা এবং এড়ানো

উত্স নোড: 1753344
সময় স্ট্যাম্প: নভেম্বর 10, 2022