NVIDIA NIM Microservices کے ساتھ Amazon SageMaker انٹیگریشن کا استعمال کرتے ہوئے NVIDIA GPUs پر LLM انفرنس کی قیمت کی کارکردگی کو بہتر بنائیں۔ ایمیزون ویب سروسز

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

NVIDIA اسے m icroservices اب کے ساتھ ضم ایمیزون سیج میکر، آپ کو صنعت کے معروف بڑے زبان کے ماڈلز (LLMs) کو تعینات کرنے اور ماڈل کی کارکردگی اور لاگت کو بہتر بنانے کی اجازت دیتا ہے۔ آپ جدید ترین LLMs کو دن کے بجائے منٹوں میں تعینات کر سکتے ہیں جیسے کہ ٹیکنالوجیز کا استعمال کرتے ہوئے NVIDIA TensorRT, NVIDIA TensorRT-LLM، اور NVIDIA ٹرائٹن انفرنس سرور سیج میکر کے زیر اہتمام NVIDIA تیز رفتار مثالوں پر۔

NIM، کا حصہ NVIDIA AI انٹرپرائز سافٹ ویئر پلیٹ فارم پر درج ہے۔ AWS بازار, inference microservices کا ایک مجموعہ ہے جو آپ کی ایپلی کیشنز میں جدید ترین LLMs کی طاقت لاتا ہے، قدرتی زبان کی پروسیسنگ (NLP) اور سمجھنے کی صلاحیتیں فراہم کرتا ہے، چاہے آپ چیٹ بوٹس تیار کر رہے ہوں، دستاویزات کا خلاصہ کر رہے ہوں، یا دیگر NLP کو لاگو کر رہے ہوں۔ طاقتور ایپلی کیشنز. آپ پہلے سے بنے ہوئے NVIDIA کنٹینرز کو مقبول LLM کی میزبانی کے لیے استعمال کر سکتے ہیں جو فوری تعیناتی کے لیے مخصوص NVIDIA GPUs کے لیے موزوں ہیں یا اپنے کنٹینرز بنانے کے لیے NIM ٹولز استعمال کر سکتے ہیں۔

اس پوسٹ میں، ہم NIM کا ایک اعلیٰ سطحی تعارف فراہم کرتے ہیں اور دکھاتے ہیں کہ آپ اسے SageMaker کے ساتھ کیسے استعمال کر سکتے ہیں۔

NVIDIA NIM کا تعارف

NIM مختلف قسم کے مشہور ماڈلز کے لیے بہتر اور پہلے سے تیار کردہ انجن فراہم کرتا ہے۔ یہ مائیکرو سروسز مختلف قسم کے LLMs کو سپورٹ کرتی ہیں، جیسے Llama 2 (7B، 13B، اور 70B)، Mistral-7B-Instruct، Mixtral-8x7B، NVIDIA Nemotron-3 22B Persona، اور Code Llama 70B، پری کا استعمال کرتے ہوئے باکس سے باہر۔ زیادہ سے زیادہ کارکردگی اور استعمال کے لیے مخصوص NVIDIA GPUs کے لیے تیار کردہ NVIDIA TensorRT انجن۔ یہ ماڈلز آسانی کے ساتھ ایپلی کیشنز کو تعینات کرنے کے لیے ماڈل ہوسٹنگ کی کارکردگی کے لیے بہترین ہائپر پیرامیٹر کے ساتھ تیار کیے گئے ہیں۔

اگر آپ کا ماڈل NVIDIA کے کیوریٹڈ ماڈلز کے سیٹ میں نہیں ہے، تو NIM ضروری یوٹیلیٹیز پیش کرتا ہے جیسے کہ ماڈل ریپو جنریٹر، جو ایک سیدھی YAML فائل کے ذریعے TensorRT-LLM-ایکسلریٹڈ انجن اور NIM-فارمیٹ ماڈل ڈائرکٹری بنانے میں سہولت فراہم کرتا ہے۔ مزید برآں، vLLM کا ایک مربوط کمیونٹی بیک اینڈ جدید ماڈلز اور ابھرتی ہوئی خصوصیات کے لیے معاونت فراہم کرتا ہے جو TensorRT-LLM-آپٹمائزڈ اسٹیک میں بغیر کسی رکاوٹ کے ضم نہیں ہو سکتے ہیں۔

تخمینہ کے لیے بہتر کردہ LLMs بنانے کے علاوہ، NIM جدید ترین ہوسٹنگ ٹیکنالوجیز فراہم کرتا ہے جیسا کہ آپٹمائزڈ شیڈولنگ تکنیک جیسے کہ ان فلائٹ بیچنگ، جو کہ ماڈل پر ایک سے زیادہ تکرار میں LLM کے لیے ٹیکسٹ جنریشن کے مجموعی عمل کو توڑ سکتی ہے۔ ان فلائٹ بیچنگ کے ساتھ، درخواستوں کے اگلے سیٹ پر جانے سے پہلے پورے بیچ کے ختم ہونے کا انتظار کرنے کے بجائے، NIM رن ٹائم فوری طور پر بیچ سے مکمل شدہ ترتیبوں کو نکال دیتا ہے۔ اس کے بعد رن ٹائم نئی درخواستیں چلانا شروع کر دیتا ہے جب کہ دیگر درخواستیں ابھی بھی پرواز میں ہیں، آپ کی کمپیوٹ مثالوں اور GPUs کا بہترین استعمال کرتے ہوئے

SageMaker پر NIM تعینات کرنا

NIM SageMaker کے ساتھ ضم ہوتا ہے، جس سے آپ SageMaker کی صلاحیتوں سے فائدہ اٹھاتے ہوئے کارکردگی اور لاگت کی اصلاح کے ساتھ اپنے LLM کی میزبانی کر سکتے ہیں۔ جب آپ SageMaker پر NIM استعمال کرتے ہیں، تو آپ اپنے ماڈل کی میزبانی کرنے کے لیے مثالوں کی تعداد کو پیمانہ کرنے، نیلی/سبز تعیناتیوں کو انجام دینے، اور شیڈو ٹیسٹنگ کا استعمال کرتے ہوئے کام کے بوجھ کا جائزہ لینے جیسی صلاحیتوں کا استعمال کر سکتے ہیں۔ ایمیزون کلاؤڈ واچ.

نتیجہ

بہتر بنائے گئے LLMs کو تعینات کرنے کے لیے NIM کا استعمال کارکردگی اور لاگت دونوں کے لیے ایک بہترین آپشن ہو سکتا ہے۔ یہ LLMs کی تعیناتی کو آسان بنانے میں بھی مدد کرتا ہے۔ مستقبل میں، NIM پیرامیٹر-ایفشینٹ فائن-ٹیوننگ (PEFT) حسب ضرورت طریقوں جیسے LoRA اور P-tuning کی بھی اجازت دے گا۔ NIM بھی Triton Inference Server، TensorRT-LLM، اور vLLM بیک اینڈس کو سپورٹ کرکے LLM سپورٹ حاصل کرنے کا ارادہ رکھتا ہے۔

ہم آپ کی حوصلہ افزائی کرتے ہیں کہ NVIDIA مائیکرو سروسز کے بارے میں مزید جانیں اور SageMaker کا استعمال کرتے ہوئے اپنے LLMs کو کیسے تعینات کیا جائے اور آپ کے لیے دستیاب فوائد کو آزمائیں۔ NIM NVIDIA AI انٹرپرائز سافٹ ویئر سبسکرپشن کے حصے کے طور پر ایک ادا شدہ پیشکش کے طور پر دستیاب ہے۔ AWS مارکیٹ پلیس پر دستیاب ہے۔.

مستقبل قریب میں، ہم SageMaker پر NIM کے لیے ایک گہرائی سے گائیڈ پوسٹ کریں گے۔

مصنفین کے بارے میں

NVIDIA NIM Microservices کے ساتھ Amazon SageMaker انضمام کا استعمال کرتے ہوئے NVIDIA GPUs پر LLM تخمینہ کی قیمت کی کارکردگی کو بہتر بنائیں۔ ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی جیمز پارک ایمیزون ویب سروسز میں ایک حل آرکیٹیکٹ ہے۔ وہ Amazon.com کے ساتھ AWS پر ٹکنالوجی کے حل کو ڈیزائن کرنے، بنانے اور ان کی تعیناتی کے لیے کام کرتا ہے، اور اسے AI اور مشین لرننگ میں خاص دلچسپی ہے۔ فارغ وقت میں وہ نئی ثقافتوں، نئے تجربات، اور جدید ترین ٹیکنالوجی کے رجحانات کے ساتھ اپ ٹو ڈیٹ رہنے سے لطف اندوز ہوتا ہے۔ آپ اسے اس پر تلاش کر سکتے ہیں۔ لنکڈ.

سوربھ تریکنڈے Amazon SageMaker Inference کے لیے ایک سینئر پروڈکٹ مینیجر ہے۔ وہ صارفین کے ساتھ کام کرنے کا شوق رکھتا ہے اور مشین لرننگ کو جمہوری بنانے کے مقصد سے حوصلہ افزائی کرتا ہے۔ وہ پیچیدہ ایم ایل ایپلی کیشنز، ملٹی ٹیننٹ ایم ایل ماڈلز، لاگت کی اصلاح، اور ڈیپ لرننگ ماڈلز کی تعیناتی کو مزید قابل رسائی بنانے سے متعلق بنیادی چیلنجوں پر توجہ مرکوز کرتا ہے۔ اپنے فارغ وقت میں، سوربھ کو پیدل سفر کرنا، اختراعی ٹیکنالوجیز کے بارے میں سیکھنا، TechCrunch کی پیروی کرنا، اور اپنے خاندان کے ساتھ وقت گزارنا پسند ہے۔

NVIDIA NIM Microservices کے ساتھ Amazon SageMaker انضمام کا استعمال کرتے ہوئے NVIDIA GPUs پر LLM تخمینہ کی قیمت کی کارکردگی کو بہتر بنائیں۔ ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی کنگ لین AWS میں سافٹ ویئر ڈویلپمنٹ انجینئر ہے۔ وہ Amazon میں کئی چیلنجنگ پروڈکٹس پر کام کر رہا ہے، بشمول ہائی پرفارمنس ایم ایل انفرنس سلوشنز اور ہائی پرفارمنس لاگنگ سسٹم۔ Qing کی ٹیم نے بہت کم تاخیر کے ساتھ Amazon Advertising میں پہلا بلین پیرامیٹر ماڈل کامیابی کے ساتھ لانچ کیا۔ کنگ کو بنیادی ڈھانچے کی اصلاح اور گہری سیکھنے کی سرعت کے بارے میں گہرائی سے علم ہے۔

نکھل کلکرنی AWS مشین لرننگ کے ساتھ ایک سافٹ ویئر ڈویلپر ہے، جو کلاؤڈ پر مشین لرننگ کے کام کے بوجھ کو زیادہ پرفارمنس بنانے پر توجہ مرکوز کرتا ہے، اور تربیت اور اندازہ کے لیے AWS ڈیپ لرننگ کنٹینرز کا شریک تخلیق کار ہے۔ وہ تقسیم شدہ ڈیپ لرننگ سسٹمز کے بارے میں پرجوش ہے۔ کام سے باہر، وہ کتابیں پڑھنا، گٹار بجانا، اور پیزا بنانا پسند کرتا ہے۔

NVIDIA NIM Microservices کے ساتھ Amazon SageMaker انضمام کا استعمال کرتے ہوئے NVIDIA GPUs پر LLM تخمینہ کی قیمت کی کارکردگی کو بہتر بنائیں۔ ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی ہریش تممالچرلا سیج میکر میں ڈیپ لرننگ پرفارمنس ٹیم کے ساتھ سافٹ ویئر انجینئر ہے۔ وہ SageMaker پر بڑے لینگویج ماڈلز کو موثر انداز میں پیش کرنے کے لیے پرفارمنس انجینئرنگ پر کام کرتا ہے۔ اپنے فارغ وقت میں وہ دوڑنے، سائیکل چلانے اور سکی کوہ پیمائی سے لطف اندوز ہوتے ہیں۔

ایلیوتھ ٹریانا اسزا NVIDIA میں ایک ڈویلپر ریلیشنز مینیجر ہے جو Amazon کے AI MLOps، DevOps، سائنسدانوں اور AWS تکنیکی ماہرین کو NVIDIA کمپیوٹنگ اسٹیک میں مہارت حاصل کرنے کے لیے بااختیار بناتا ہے تاکہ ڈیٹا کیوریشن، GPU ٹریننگ، ماڈل انفرنس اور GPUSstan میں GPUSstan میں پروڈکشن کی تعیناتی سے پھیلے جنریٹیو AI فاؤنڈیشن ماڈلز کو تیز اور بہتر بنایا جا سکے۔ . اس کے علاوہ، ایلیوتھ ایک پرجوش ماؤنٹین بائیکر، اسکیئر، ٹینس اور پوکر کھلاڑی ہے۔

جیاہونگ لیو NVIDIA میں کلاؤڈ سروس پرووائیڈر ٹیم میں ایک حل آرکیٹیکٹ ہے۔ وہ مشین لرننگ اور AI سلوشنز کو اپنانے میں کلائنٹس کی مدد کرتا ہے جو NVIDIA ایکسلریٹڈ کمپیوٹنگ کو ان کی ٹریننگ اور انفرنس چیلنجز سے نمٹنے کے لیے فائدہ اٹھاتے ہیں۔ اپنے فارغ وقت میں، وہ اوریگامی، DIY پروجیکٹس، اور باسکٹ بال کھیلنا پسند کرتا ہے۔

کشتیز گپتا NVIDIA میں ایک حل آرکیٹیکٹ ہے۔ وہ کلاؤڈ صارفین کو GPU AI ٹیکنالوجیز کے بارے میں تعلیم دینے سے لطف اندوز ہوتا ہے جو NVIDIA کو پیش کرنا ہے اور ان کی مشین لرننگ اور ڈیپ لرننگ ایپلی کیشنز کو تیز کرنے میں ان کی مدد کرنا ہے۔ کام سے باہر، وہ دوڑنا، پیدل سفر کرنے اور جنگلی حیات کو دیکھنے سے لطف اندوز ہوتا ہے۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

ٹائم اسٹیمپ: مارچ 18، 2024

ٹائم اسٹیمپ: اکتوبر 10، 2023

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

ایمیزون سیج میکر کے ساتھ فاؤنڈیشن ماڈلز تعینات کریں، ٹرو ایرا کے ساتھ اعادہ کریں اور مانیٹر کریں۔ ایمیزون ویب سروسز

بے ضابطگیوں کا پتہ لگانے کے لیے Amazon Athena کو Amazon Lookout for Metrics کے ساتھ بغیر کسی رکاوٹ کے جوڑیں۔

نالج ایمبیڈنگ کے لیے ڈیپ گراف لائبریری کے ساتھ Trumid میں جدید مشین لرننگ سسٹم تیار کرنا

AWS اور Mistral AI مضبوط تعاون کے ساتھ جنریٹیو AI کو جمہوری بنانے کا عہد کرتے ہیں۔ ایمیزون ویب سروسز

AWS DeepRacer ملٹی یوزر اکاؤنٹ موڈ کا استعمال کرتے ہوئے پیمانے پر مشین لرننگ ایبلمنٹ ایونٹس چلائیں۔

ایمیزون سیج میکر کینوس میں نئی - بغیر کوڈ سے پیدا ہونے والی AI صلاحیتیں اب دستیاب ہیں۔ ایمیزون ویب سروسز

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ