NVIDIA نيم mcom.icroservices تتكامل الآن مع الأمازون SageMaker، مما يسمح لك بنشر نماذج اللغات الكبيرة الرائدة في الصناعة (LLMs) وتحسين أداء النموذج وتكلفته. يمكنك نشر أحدث برامج LLM في دقائق بدلاً من أيام باستخدام تقنيات مثل نفيديا تينسوررت, نفيديا TensorRT-LLMو خادم الاستدلال NVIDIA Triton على مثيلات NVIDIA المسرَّعة التي يستضيفها SageMaker.
نيم، جزء من نفيديا الذكاء الاصطناعي المؤسسة منصة البرمجيات المدرجة على سوق AWS، عبارة عن مجموعة من الخدمات الصغيرة للاستدلال التي توفر قوة أحدث برامج LLM لتطبيقاتك، مما يوفر معالجة اللغة الطبيعية (NLP) وإمكانيات الفهم، سواء كنت تقوم بتطوير برامج الدردشة الآلية، أو تلخيص المستندات، أو تنفيذ البرمجة اللغوية العصبية الأخرى. التطبيقات التي تعمل بالطاقة. يمكنك استخدام حاويات NVIDIA المعدة مسبقًا لاستضافة LLMs الشائعة التي تم تحسينها لوحدات معالجة رسومات NVIDIA محددة للنشر السريع أو استخدام أدوات NIM لإنشاء حاوياتك الخاصة.
في هذا المنشور، نقدم مقدمة عالية المستوى لـ NIM ونوضح كيف يمكنك استخدامه مع SageMaker.
مقدمة إلى NVIDIA NIM
توفر NIM محركات محسنة ومُنشأة مسبقًا لمجموعة متنوعة من النماذج الشائعة للاستدلال. تدعم هذه الخدمات الصغيرة مجموعة متنوعة من LLMs، مثل Llama 2 (7B و13B و70B) وMistral-7B-Instruct وMixtral-8x7B وNVIDIA Nemotron-3 22B Persona وCode Llama 70B، خارج الصندوق باستخدام ما قبل- محركات NVIDIA TensorRT مصممة خصيصًا لوحدات معالجة الرسومات NVIDIA محددة لتحقيق أقصى قدر من الأداء والاستخدام. يتم تنظيم هذه النماذج باستخدام المعلمات الفائقة المثالية لأداء استضافة النماذج لنشر التطبيقات بسهولة.
إذا لم يكن النموذج الخاص بك موجودًا في مجموعة نماذج NVIDIA المنسقة، فإن NIM تقدم أدوات مساعدة أساسية مثل Model Repo Generator، الذي يسهل إنشاء محرك TensorRT-LLM المتسارع ودليل نموذج بتنسيق NIM من خلال ملف YAML مباشر. علاوة على ذلك، توفر الواجهة الخلفية المجتمعية المتكاملة لـ vLLM الدعم للنماذج المتطورة والميزات الناشئة التي ربما لم يتم دمجها بسلاسة في حزمة TensorRT-LLM المحسنة.
بالإضافة إلى إنشاء LLMs محسنة للاستدلال، توفر NIM تقنيات استضافة متقدمة مثل تقنيات الجدولة المحسنة مثل التجميع على متن الطائرة، والتي يمكن أن تقسم عملية إنشاء النص الشاملة لـ LLM إلى تكرارات متعددة على النموذج. باستخدام الدفعات أثناء الرحلة، بدلاً من انتظار انتهاء الدفعة بأكملها قبل الانتقال إلى مجموعة الطلبات التالية، يقوم وقت تشغيل NIM على الفور بطرد التسلسلات النهائية من الدفعة. يبدأ وقت التشغيل بعد ذلك في تشغيل طلبات جديدة بينما لا تزال الطلبات الأخرى قيد التنفيذ، مما يحقق أفضل استفادة من مثيلات الحوسبة ووحدات معالجة الرسومات الخاصة بك.
نشر NIM على SageMaker
يتكامل NIM مع SageMaker، مما يسمح لك باستضافة LLMs الخاصة بك مع تحسين الأداء والتكلفة مع الاستفادة من إمكانيات SageMaker. عند استخدام NIM على SageMaker، يمكنك استخدام إمكانات مثل توسيع عدد المثيلات لاستضافة النموذج الخاص بك، وتنفيذ عمليات النشر باللون الأزرق/الأخضر، وتقييم أعباء العمل باستخدام اختبار الظل — كل ذلك مع إمكانية المراقبة والمراقبة الأفضل في فئتها باستخدام الأمازون CloudWatch.
وفي الختام
يمكن أن يكون استخدام NIM لنشر LLMs المحسّنة خيارًا رائعًا لكل من الأداء والتكلفة. كما أنه يساعد في جعل نشر LLMs أمرًا سهلاً. في المستقبل، ستسمح NIM أيضًا بطرق تخصيص الضبط الدقيق بكفاءة المعلمات (PEFT) مثل LoRA وP-tuning. تخطط NIM أيضًا للحصول على دعم LLM من خلال دعم الواجهات الخلفية Triton Inference Server وTensorRT-LLM وvLLM.
نحن نشجعك على معرفة المزيد حول خدمات NVIDIA الصغيرة وكيفية نشر LLMs باستخدام SageMaker وتجربة المزايا المتاحة لك. يتوفر NIM كعرض مدفوع كجزء من اشتراك برنامج NVIDIA AI Enterprise متاح على AWS Marketplace.
في المستقبل القريب، سننشر دليلًا متعمقًا لـ NIM على SageMaker.
عن المؤلفين
جيمس بارك مهندس حلول في Amazon Web Services. يعمل مع Amazon.com لتصميم وبناء ونشر الحلول التقنية على AWS ، ولديه اهتمام خاص بالذكاء الاصطناعي والتعلم الآلي. في h هو وقت فراغ ، يستمتع بالبحث عن ثقافات جديدة وخبرات جديدة ومواكبة أحدث اتجاهات التكنولوجيا. لينكدين:.
سوراب تريكاندي هو مدير أول للمنتجات في Amazon SageMaker Inference. إنه متحمس للعمل مع العملاء وتحفزه هدف إضفاء الطابع الديمقراطي على التعلم الآلي. يركز على التحديات الأساسية المتعلقة بنشر تطبيقات ML المعقدة ، ونماذج ML متعددة المستأجرين ، وتحسين التكلفة ، وجعل نشر نماذج التعلم العميق أكثر سهولة. في أوقات فراغه ، يستمتع سوراب بالمشي لمسافات طويلة والتعرف على التقنيات المبتكرة واتباع TechCrunch وقضاء الوقت مع أسرته.
تشينغ لان هو مهندس تطوير برمجيات في AWS. لقد كان يعمل على العديد من المنتجات الصعبة في Amazon ، بما في ذلك حلول استدلال ML عالية الأداء ونظام تسجيل عالي الأداء. أطلق فريق Qing بنجاح أول نموذج مليار معلمة في إعلانات أمازون بزمن انتقال منخفض للغاية مطلوب. تتمتع Qing بمعرفة متعمقة حول تحسين البنية التحتية وتسريع التعلم العميق.
نيخيل كولكارني هو مطور برامج لدى AWS Machine Learning، ويركز على جعل أعباء عمل التعلم الآلي أكثر أداءً على السحابة، وهو أحد مؤسسي حاويات AWS Deep Learning Containers للتدريب والاستدلال. إنه شغوف بأنظمة التعلم العميق الموزعة. خارج العمل، يستمتع بقراءة الكتب والعزف على الجيتار وصنع البيتزا.
هاريش تومالاشيرلا هو مهندس برمجيات مع فريق أداء التعلم العميق في SageMaker. وهو يعمل على هندسة الأداء لخدمة نماذج اللغات الكبيرة بكفاءة على SageMaker. وفي أوقات فراغه، يستمتع بالجري وركوب الدراجات وتسلق الجبال.
إليوث تريانا إيزازا هو مدير علاقات المطورين في NVIDIA، حيث يقوم بتمكين AI MLOps وDevOps والعلماء والخبراء الفنيين في AWS من إتقان مجموعة حوسبة NVIDIA لتسريع وتحسين نماذج مؤسسة الذكاء الاصطناعي التوليدية التي تمتد من تنظيم البيانات وتدريب وحدة معالجة الرسومات واستدلال النماذج ونشر الإنتاج على مثيلات AWS GPU. . بالإضافة إلى ذلك، إليوث هو سائق دراجات جبلية شغوف، ومتزلج، ولاعب تنس وبوكر.
جياهونغ ليو هو مهندس حلول في فريق مزود الخدمة السحابية في NVIDIA. يساعد العملاء في تبني حلول التعلم الآلي والذكاء الاصطناعي التي تستفيد من حوسبة NVIDIA المتسارعة لمواجهة تحديات التدريب والاستدلال. في أوقات فراغه ، يستمتع بالأوريغامي ومشاريع DIY ولعب كرة السلة.
كشيتيز جوبتا مهندس حلول في NVIDIA. إنه يستمتع بتثقيف عملاء السحابة حول تقنيات GPU AI التي يجب أن تقدمها NVIDIA ومساعدتهم في تسريع التعلم الآلي وتطبيقات التعلم العميق. خارج العمل ، يستمتع بالركض والمشي لمسافات طويلة ومشاهدة الحياة البرية.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/
- :لديها
- :يكون
- :ليس
- $ UP
- 100
- 121
- 7
- a
- من نحن
- معجل
- تسريع
- تسارع
- يمكن الوصول
- إضافة
- العنوان
- اعتماد
- متقدم
- دعاية
- AI
- السماح
- السماح
- أيضا
- أمازون
- الأمازون SageMaker
- أمازون ويب سيرفيسز
- Amazon.com
- an
- و
- التطبيقات
- هي
- AS
- مساعدة
- يساعد
- At
- متاح
- AWS
- التعلم الآلي من AWS
- الخلفية
- الخلفيات
- كره السلة
- الخلط
- BE
- كان
- قبل
- يبدأ
- الاستفادة
- الفوائد
- أفضل
- كُتُب
- على حد سواء
- صندوق
- استراحة
- جلب
- نساعدك في بناء
- by
- CAN
- قدرات
- التحديات
- تحدي
- chatbots
- عميل
- سحابة
- الكود
- COM
- مجتمع
- مجمع
- إحصاء
- الحوسبة
- حاويات
- جوهر
- التكلفة
- خلق
- خلق
- خلق
- الثقافات
- من تنسيق
- كرأيشن
- العملاء
- التخصيص
- المتطور والحديث
- البيانات
- التاريخ
- أيام
- عميق
- التعلم العميق
- الديمقراطية
- نشر
- نشر
- نشر
- نشر
- تصميم
- المطور
- تطوير
- التطوير التجاري
- دليل
- وزعت
- اليدويه
- وثائق
- إلى أسفل
- سهولة
- تعليم
- بكفاءة
- هين
- الناشئة
- تمكين
- شجع
- محرك
- مهندس
- الهندسة
- محركات
- مشروع
- المشاريع والبرامج
- أساسي
- تقييم
- خبرة
- خبرائنا
- يسهل
- للعائلات
- المميزات
- قم بتقديم
- نهاية
- الاسم الأول
- طيران
- ويركز
- التركيز
- متابعيك
- في حالة
- دورة تأسيسية
- تبدأ من
- علاوة على ذلك
- مستقبل
- جيل
- توليدي
- الذكاء الاصطناعي التوليدي
- مولد كهربائي
- هدف
- وحدة معالجة الرسوميات:
- وحدات معالجة الرسومات
- عظيم
- توجيه
- يملك
- he
- يساعد
- مرتفع
- رفيع المستوى
- وسلم
- له
- مضيف
- استضافت
- استضافة
- كيفية
- كيفية
- HTTP
- HTTPS
- فورا
- تحقيق
- in
- في العمق
- بما فيه
- الرائدة في صناعة
- البنية التحتية
- مبتكرة
- تقنيات مبتكرة
- بدلًا من ذلك
- دمج
- المتكاملة
- يدمج
- التكامل
- مصلحة
- إلى
- المُقدّمة
- IT
- التكرارات
- الحياة السياسية في فرنسا
- JPG
- المعرفة
- لغة
- كبير
- كمون
- آخر
- أطلقت
- تعلم
- تعلم
- الرافعة المالية
- مثل
- لينكدين:
- المدرج
- اللاما نوع من الجمال
- LLM
- تسجيل
- منخفض
- آلة
- آلة التعلم
- جعل
- القيام ب
- مدير
- رئيسي
- أقصى
- مايو..
- طرق
- microservices
- دقيقة
- ML
- MLOps
- نموذج
- عارضات ازياء
- مراقبة
- الأكثر من ذلك
- الدافع
- جبل
- يتحرك
- متعدد
- طبيعي
- معالجة اللغات الطبيعية
- قرب
- جديد
- التالي
- البرمجة اللغوية العصبية
- الآن
- عدد
- NVIDIA
- of
- عرض
- الوهب
- عروض
- on
- الأمثل
- التحسين
- تحسينات
- الأمثل
- الأمثل
- تحسين
- خيار
- or
- أخرى
- خارج
- في الخارج
- الكلي
- الخاصة
- مدفوع
- جزء
- خاص
- عاطفي
- أداء
- أداء
- البيتزا
- خطط
- المنصة
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- لاعب
- لعب
- لعبة البوكر
- الرائج
- منشور
- قوة
- عملية المعالجة
- معالجة
- المنتج
- مدير المنتج
- الإنتــاج
- المنتجات
- مشروع ناجح
- تزود
- مزود
- ويوفر
- توفير
- سريع
- بدلا
- نادي القراءة
- ذات صلة
- العلاقات
- طلبات
- مطلوب
- تشغيل
- وقت التشغيل
- sagemaker
- الاستدلال SageMaker
- التحجيم
- جدولة
- العلماء
- بسلاسة
- تسعى
- كبير
- الخادم
- الخدمة
- مقدم الخدمة
- خدماتنا
- خدمة
- طقم
- عدة
- شادو
- إظهار
- تطبيقات الكمبيوتر
- تطوير البرمجيات
- مهندس البرمجيات
- حل
- الحلول
- توتر
- محدد
- الإنفاق
- كومة
- دولة من بين الفن
- البقاء
- لا يزال
- صريح
- اشتراك
- بنجاح
- هذه
- الدعم
- دعم
- نظام
- أنظمة
- تناسب
- فريق
- تشكرونش
- تقني
- تقنيات
- التكنولوجيا
- تكنولوجيا
- كرة المضرب
- نص
- من
- أن
- •
- المستقبل
- من مشاركة
- منهم
- then
- تشبه
- عبر
- الوقت
- إلى
- أدوات
- قادة الإيمان
- جديد الموضة
- تريتون نصف إله عند الإغريق
- محاولة
- فهم
- تستخدم
- استخدام
- خدمات
- تشكيلة
- جدا
- انتظار
- مراقبة
- we
- الويب
- خدمات ويب
- متى
- سواء
- التي
- في حين
- كامل
- سوف
- مع
- للعمل
- عامل
- أعمال
- يامل
- أنت
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت