تحسين أداء السعر لاستدلال LLM على وحدات معالجة الرسومات NVIDIA باستخدام تكامل Amazon SageMaker مع خدمات NVIDIA NIM Microservices

أعاد نشره أفلاطون

المتابعون: 0

NVIDIA نيم m com.icroservices تتكامل الآن مع الأمازون SageMaker، مما يسمح لك بنشر نماذج اللغات الكبيرة الرائدة في الصناعة (LLMs) وتحسين أداء النموذج وتكلفته. يمكنك نشر أحدث برامج LLM في دقائق بدلاً من أيام باستخدام تقنيات مثل نفيديا تينسوررت, نفيديا TensorRT-LLMو خادم الاستدلال NVIDIA Triton على مثيلات NVIDIA المسرَّعة التي يستضيفها SageMaker.

نيم، جزء من نفيديا الذكاء الاصطناعي المؤسسة منصة البرمجيات المدرجة على سوق AWS، عبارة عن مجموعة من الخدمات الصغيرة للاستدلال التي توفر قوة أحدث برامج LLM لتطبيقاتك، مما يوفر معالجة اللغة الطبيعية (NLP) وإمكانيات الفهم، سواء كنت تقوم بتطوير برامج الدردشة الآلية، أو تلخيص المستندات، أو تنفيذ البرمجة اللغوية العصبية الأخرى. التطبيقات التي تعمل بالطاقة. يمكنك استخدام حاويات NVIDIA المعدة مسبقًا لاستضافة LLMs الشائعة التي تم تحسينها لوحدات معالجة رسومات NVIDIA محددة للنشر السريع أو استخدام أدوات NIM لإنشاء حاوياتك الخاصة.

في هذا المنشور، نقدم مقدمة عالية المستوى لـ NIM ونوضح كيف يمكنك استخدامه مع SageMaker.

مقدمة إلى NVIDIA NIM

توفر NIM محركات محسنة ومُنشأة مسبقًا لمجموعة متنوعة من النماذج الشائعة للاستدلال. تدعم هذه الخدمات الصغيرة مجموعة متنوعة من LLMs، مثل Llama 2 (7B و13B و70B) وMistral-7B-Instruct وMixtral-8x7B وNVIDIA Nemotron-3 22B Persona وCode Llama 70B، خارج الصندوق باستخدام ما قبل- محركات NVIDIA TensorRT مصممة خصيصًا لوحدات معالجة الرسومات NVIDIA محددة لتحقيق أقصى قدر من الأداء والاستخدام. يتم تنظيم هذه النماذج باستخدام المعلمات الفائقة المثالية لأداء استضافة النماذج لنشر التطبيقات بسهولة.

إذا لم يكن النموذج الخاص بك موجودًا في مجموعة نماذج NVIDIA المنسقة، فإن NIM تقدم أدوات مساعدة أساسية مثل Model Repo Generator، الذي يسهل إنشاء محرك TensorRT-LLM المتسارع ودليل نموذج بتنسيق NIM من خلال ملف YAML مباشر. علاوة على ذلك، توفر الواجهة الخلفية المجتمعية المتكاملة لـ vLLM الدعم للنماذج المتطورة والميزات الناشئة التي ربما لم يتم دمجها بسلاسة في حزمة TensorRT-LLM المحسنة.

بالإضافة إلى إنشاء LLMs محسنة للاستدلال، توفر NIM تقنيات استضافة متقدمة مثل تقنيات الجدولة المحسنة مثل التجميع على متن الطائرة، والتي يمكن أن تقسم عملية إنشاء النص الشاملة لـ LLM إلى تكرارات متعددة على النموذج. باستخدام الدفعات أثناء الرحلة، بدلاً من انتظار انتهاء الدفعة بأكملها قبل الانتقال إلى مجموعة الطلبات التالية، يقوم وقت تشغيل NIM على الفور بطرد التسلسلات النهائية من الدفعة. يبدأ وقت التشغيل بعد ذلك في تشغيل طلبات جديدة بينما لا تزال الطلبات الأخرى قيد التنفيذ، مما يحقق أفضل استفادة من مثيلات الحوسبة ووحدات معالجة الرسومات الخاصة بك.

نشر NIM على SageMaker

يتكامل NIM مع SageMaker، مما يسمح لك باستضافة LLMs الخاصة بك مع تحسين الأداء والتكلفة مع الاستفادة من إمكانيات SageMaker. عند استخدام NIM على SageMaker، يمكنك استخدام إمكانات مثل توسيع عدد المثيلات لاستضافة النموذج الخاص بك، وتنفيذ عمليات النشر باللون الأزرق/الأخضر، وتقييم أعباء العمل باستخدام اختبار الظل — كل ذلك مع إمكانية المراقبة والمراقبة الأفضل في فئتها باستخدام الأمازون CloudWatch.

وفي الختام

يمكن أن يكون استخدام NIM لنشر LLMs المحسّنة خيارًا رائعًا لكل من الأداء والتكلفة. كما أنه يساعد في جعل نشر LLMs أمرًا سهلاً. في المستقبل، ستسمح NIM أيضًا بطرق تخصيص الضبط الدقيق بكفاءة المعلمات (PEFT) مثل LoRA وP-tuning. تخطط NIM أيضًا للحصول على دعم LLM من خلال دعم الواجهات الخلفية Triton Inference Server وTensorRT-LLM وvLLM.

نحن نشجعك على معرفة المزيد حول خدمات NVIDIA الصغيرة وكيفية نشر LLMs باستخدام SageMaker وتجربة المزايا المتاحة لك. يتوفر NIM كعرض مدفوع كجزء من اشتراك برنامج NVIDIA AI Enterprise متاح على AWS Marketplace.

في المستقبل القريب، سننشر دليلًا متعمقًا لـ NIM على SageMaker.

عن المؤلفين

تحسين أداء السعر لاستدلال LLM على وحدات معالجة الرسومات NVIDIA باستخدام تكامل Amazon SageMaker مع NVIDIA NIM Microservices | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. جيمس بارك مهندس حلول في Amazon Web Services. يعمل مع Amazon.com لتصميم وبناء ونشر الحلول التقنية على AWS ، ولديه اهتمام خاص بالذكاء الاصطناعي والتعلم الآلي. في h هو وقت فراغ ، يستمتع بالبحث عن ثقافات جديدة وخبرات جديدة ومواكبة أحدث اتجاهات التكنولوجيا. لينكدين:.

سوراب تريكاندي هو مدير أول للمنتجات في Amazon SageMaker Inference. إنه متحمس للعمل مع العملاء وتحفزه هدف إضفاء الطابع الديمقراطي على التعلم الآلي. يركز على التحديات الأساسية المتعلقة بنشر تطبيقات ML المعقدة ، ونماذج ML متعددة المستأجرين ، وتحسين التكلفة ، وجعل نشر نماذج التعلم العميق أكثر سهولة. في أوقات فراغه ، يستمتع سوراب بالمشي لمسافات طويلة والتعرف على التقنيات المبتكرة واتباع TechCrunch وقضاء الوقت مع أسرته.

تحسين أداء السعر لاستدلال LLM على وحدات معالجة الرسومات NVIDIA باستخدام تكامل Amazon SageMaker مع NVIDIA NIM Microservices | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. تشينغ لان هو مهندس تطوير برمجيات في AWS. لقد كان يعمل على العديد من المنتجات الصعبة في Amazon ، بما في ذلك حلول استدلال ML عالية الأداء ونظام تسجيل عالي الأداء. أطلق فريق Qing بنجاح أول نموذج مليار معلمة في إعلانات أمازون بزمن انتقال منخفض للغاية مطلوب. تتمتع Qing بمعرفة متعمقة حول تحسين البنية التحتية وتسريع التعلم العميق.

نيخيل كولكارني هو مطور برامج لدى AWS Machine Learning، ويركز على جعل أعباء عمل التعلم الآلي أكثر أداءً على السحابة، وهو أحد مؤسسي حاويات AWS Deep Learning Containers للتدريب والاستدلال. إنه شغوف بأنظمة التعلم العميق الموزعة. خارج العمل، يستمتع بقراءة الكتب والعزف على الجيتار وصنع البيتزا.

تحسين أداء السعر لاستدلال LLM على وحدات معالجة الرسومات NVIDIA باستخدام تكامل Amazon SageMaker مع NVIDIA NIM Microservices | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. هاريش تومالاشيرلا هو مهندس برمجيات مع فريق أداء التعلم العميق في SageMaker. وهو يعمل على هندسة الأداء لخدمة نماذج اللغات الكبيرة بكفاءة على SageMaker. وفي أوقات فراغه، يستمتع بالجري وركوب الدراجات وتسلق الجبال.

إليوث تريانا إيزازا هو مدير علاقات المطورين في NVIDIA، حيث يقوم بتمكين AI MLOps وDevOps والعلماء والخبراء الفنيين في AWS من إتقان مجموعة حوسبة NVIDIA لتسريع وتحسين نماذج مؤسسة الذكاء الاصطناعي التوليدية التي تمتد من تنظيم البيانات وتدريب وحدة معالجة الرسومات واستدلال النماذج ونشر الإنتاج على مثيلات AWS GPU. . بالإضافة إلى ذلك، إليوث هو سائق دراجات جبلية شغوف، ومتزلج، ولاعب تنس وبوكر.

جياهونغ ليو هو مهندس حلول في فريق مزود الخدمة السحابية في NVIDIA. يساعد العملاء في تبني حلول التعلم الآلي والذكاء الاصطناعي التي تستفيد من حوسبة NVIDIA المتسارعة لمواجهة تحديات التدريب والاستدلال. في أوقات فراغه ، يستمتع بالأوريغامي ومشاريع DIY ولعب كرة السلة.

كشيتيز جوبتا مهندس حلول في NVIDIA. إنه يستمتع بتثقيف عملاء السحابة حول تقنيات GPU AI التي يجب أن تقدمها NVIDIA ومساعدتهم في تسريع التعلم الآلي وتطبيقات التعلم العميق. خارج العمل ، يستمتع بالركض والمشي لمسافات طويلة ومشاهدة الحياة البرية.

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
المصدر https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

الطابع الزمني: 18 آذار، 2024

الطابع الزمني: 4 مايو 2023

أعاد نشره أفلاطون

تنقيح بيانات PII في The Very Group باستخدام Amazon Comprehend

عزز تجربة المتصل من خلال التلميحات في Amazon Lex

كيف تعمل SIGNAL IDUNA على تشغيل مشاريع التعلم الآلي على AWS

الإعلان عن إطلاق ميزة نسخ النموذج لملصقات Amazon Rekognition المخصصة

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي