Amazon SageMaker Entegrasyonunu NVIDIA NIM Mikro Hizmetleriyle Kullanarak NVIDIA GPU'larında Yüksek Lisans Çıkarımının Fiyat Performansını Optimize Edin

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

NVIDIA O m mikro hizmetler şimdi entegre ol Amazon Adaçayı Yapıcı, sektör lideri büyük dil modellerini (LLM'ler) dağıtmanıza ve model performansını ve maliyetini optimize etmenize olanak tanır. Aşağıdaki gibi teknolojileri kullanarak en son teknolojiye sahip LLM'leri günler yerine dakikalar içinde dağıtabilirsiniz. NVIDIA TensorRT, NVIDIA TensorRT-LLM, ve NVIDIA Triton Çıkarım Sunucusu SageMaker tarafından barındırılan NVIDIA hızlandırılmış örneklerde.

NIM'in bir parçası NVIDIA Yapay Zeka Kurumsal listelenen yazılım platformu AWS pazar yeri, ister sohbet robotları geliştiriyor, ister belgeleri özetliyor veya diğer NLP'leri uyguluyor olun, doğal dil işleme (NLP) ve anlama yetenekleri sağlayan, son teknoloji ürünü LLM'lerin gücünü uygulamalarınıza getiren bir çıkarım mikro hizmetleri kümesidir. destekli uygulamalar. Hızlı dağıtım için belirli NVIDIA GPU'lar için optimize edilmiş popüler LLM'leri barındırmak amacıyla önceden oluşturulmuş NVIDIA kapsayıcılarını kullanabilir veya kendi kapsayıcılarınızı oluşturmak için NIM araçlarını kullanabilirsiniz.

Bu yazıda NIM'e üst düzey bir giriş sağlıyoruz ve onu SageMaker ile nasıl kullanabileceğinizi gösteriyoruz.

NVIDIA NIM'e giriş

NIM, çıkarım için çeşitli popüler modeller için optimize edilmiş ve önceden oluşturulmuş motorlar sağlar. Bu mikro hizmetler, Llama 2 (7B, 13B ve 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona ve Code Llama 70B gibi çeşitli LLM'leri kutudan çıktığı gibi destekler. Maksimum performans ve kullanım için belirli NVIDIA GPU'lara özel olarak tasarlanmış NVIDIA TensorRT motorları. Bu modeller, uygulamaların kolaylıkla dağıtılması için model barındırma performansına yönelik en uygun hiper parametrelerle seçilmiştir.

Modeliniz NVIDIA'nın seçilmiş modelleri arasında değilse NIM, basit bir YAML dosyası aracılığıyla TensorRT-LLM ile hızlandırılmış bir motor ve NIM formatlı bir model dizini oluşturulmasını kolaylaştıran Model Repo Oluşturucu gibi temel yardımcı programlar sunar. Ayrıca vLLM'nin entegre topluluk arka ucu, TensorRT-LLM için optimize edilmiş yığına sorunsuz bir şekilde entegre edilmemiş olabilecek en son modeller ve yeni ortaya çıkan özellikler için destek sağlar.

NIM, çıkarım için optimize edilmiş LLM'ler oluşturmanın yanı sıra, bir LLM için genel metin oluşturma sürecini model üzerinde birden fazla yinelemeye bölebilen, uçuş sırasında toplu işlem gibi optimize edilmiş planlama teknikleri gibi gelişmiş barındırma teknolojileri sağlar. Uçuş sırasında toplu işleme ile, bir sonraki istek kümesine geçmeden önce tüm toplu işin bitmesini beklemek yerine, NIM çalışma zamanı, bitmiş dizileri toplu işten hemen çıkarır. Daha sonra çalışma zamanı, diğer istekler hâlâ yayındayken yeni istekleri çalıştırmaya başlar ve bilgi işlem bulut sunucularınızdan ve GPU'larınızdan en iyi şekilde yararlanır.

SageMaker'da NIM'i dağıtma

NIM, SageMaker ile entegre olarak, SageMaker'ın yeteneklerinden yararlanırken yüksek lisans eğitimlerinizi performans ve maliyet optimizasyonuyla barındırmanıza olanak tanır. SageMaker'da NIM kullandığınızda, modelinizi barındırmak için bulut sunucusu sayısını ölçeklendirmek, mavi/yeşil dağıtımlar gerçekleştirmek ve gölge testi kullanarak iş yüklerini değerlendirmek gibi yetenekleri kullanabilirsiniz; bunların tümünü sınıfının en iyisi gözlemlenebilirlik ve izleme ile gerçekleştirebilirsiniz. Amazon Bulut İzleme.

Sonuç

Optimize edilmiş LLM'leri dağıtmak için NIM'i kullanmak, hem performans hem de maliyet açısından mükemmel bir seçenek olabilir. Ayrıca LLM'lerin dağıtımını zahmetsiz hale getirmeye yardımcı olur. Gelecekte NIM, LoRA ve P-tuning gibi Parametre Açısından Verimli İnce Ayar (PEFT) özelleştirme yöntemlerine de olanak tanıyacak. NIM ayrıca Triton Inference Server, TensorRT-LLM ve vLLM arka uçlarını destekleyerek LLM desteğine sahip olmayı planlıyor.

NVIDIA mikro hizmetleri ve LLM'lerinizi SageMaker kullanarak nasıl dağıtacağınız hakkında daha fazla bilgi edinmenizi ve size sunulan avantajları denemenizi öneririz. NIM, NVIDIA AI Enterprise yazılım aboneliğinin bir parçası olarak ücretli bir teklif olarak mevcuttur AWS Marketplace'te mevcuttur.

Yakın gelecekte SageMaker'da NIM için ayrıntılı bir kılavuz yayınlayacağız.

yazarlar hakkında

Amazon SageMaker'ın NVIDIA NIM Mikro Hizmetleriyle entegrasyonunu kullanarak NVIDIA GPU'larında Yüksek Lisans çıkarımının fiyat-performansını optimize edin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai. James Park Amazon Web Services'ta bir Çözüm Mimarıdır. AWS'de teknoloji çözümleri tasarlamak, oluşturmak ve dağıtmak için Amazon.com ile birlikte çalışıyor ve yapay zeka ve makine öğrenimine özel bir ilgisi var. Boş zamanlarında yeni kültürler, yeni deneyimler aramayı ve en son teknoloji trendlerini takip etmeyi seviyor.Onu şu adreste bulabilirsiniz: LinkedIn.

Saurabh Trikande Amazon SageMaker Inference için Kıdemli Ürün Yöneticisidir. Müşterilerle çalışma konusunda tutkulu ve makine öğrenimini demokratikleştirme hedefiyle motive oluyor. Karmaşık makine öğrenimi uygulamaları, çok kiracılı makine öğrenimi modelleri, maliyet optimizasyonları ve derin öğrenme modellerinin dağıtımını daha erişilebilir hale getirmeyle ilgili temel zorluklara odaklanıyor. Saurabh boş zamanlarında yürüyüş yapmaktan, yenilikçi teknolojiler hakkında bilgi edinmekten, TechCrunch'ı takip etmekten ve ailesiyle vakit geçirmekten hoşlanıyor.

Amazon SageMaker'ın NVIDIA NIM Mikro Hizmetleriyle entegrasyonunu kullanarak NVIDIA GPU'larında Yüksek Lisans çıkarımının fiyat-performansını optimize edin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai. Qing Lan AWS'de Yazılım Geliştirme Mühendisidir. Amazon'da yüksek performanslı ML çıkarım çözümleri ve yüksek performanslı günlük kaydı sistemi dahil olmak üzere birçok zorlu ürün üzerinde çalışıyor. Qing'in ekibi, Amazon Advertising'de çok düşük gecikme süresi gerektiren ilk Milyar parametre modelini başarıyla başlattı. Qing, altyapı optimizasyonu ve Derin Öğrenme hızlandırması hakkında derinlemesine bilgi sahibidir.

Nikhil Kulkarni AWS Machine Learning'de çalışan bir yazılım geliştiricisidir ve makine öğrenimi iş yüklerini bulutta daha performanslı hale getirmeye odaklanır ve eğitim ve çıkarımlara yönelik AWS Deep Learning Containers'ın ortak yaratıcısıdır. Dağıtılmış Derin Öğrenme Sistemleri konusunda tutkulu. İş dışında kitap okumaktan, gitarla oynamaktan ve pizza yapmaktan hoşlanıyor.

Amazon SageMaker'ın NVIDIA NIM Mikro Hizmetleriyle entegrasyonunu kullanarak NVIDIA GPU'larında Yüksek Lisans çıkarımının fiyat-performansını optimize edin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai. Harish Tummalacherla SageMaker'da Derin Öğrenme Performansı ekibinde Yazılım Mühendisidir. SageMaker'da büyük dil modellerinin verimli bir şekilde sunulması için performans mühendisliği üzerinde çalışıyor. Boş zamanlarında koşmaktan, bisiklete binmekten ve kayakla dağcılık yapmaktan hoşlanıyor.

Eliuth Triana Isaza NVIDIA'da, Amazon'un AI MLOps'unu, DevOps'unu, Bilim Adamlarını ve AWS teknik uzmanlarını veri iyileştirme, GPU eğitimi, model çıkarımı ve AWS GPU bulut sunucularında üretim dağıtımına kadar uzanan Generative AI Foundation modellerini hızlandırmak ve optimize etmek için NVIDIA bilgi işlem yığınında uzmanlaşmaya teşvik eden bir Geliştirici İlişkileri Yöneticisidir. . Ayrıca Eliuth tutkulu bir dağ bisikletçisi, kayakçı, tenis ve poker oyuncusudur.

Jiahong Liu NVIDIA'da Bulut Hizmeti Sağlayıcı ekibinde bir Çözüm Mimarıdır. Müşterilere, eğitim ve çıkarım zorluklarını ele almak için NVIDIA hızlandırılmış bilgi işlemden yararlanan makine öğrenimi ve yapay zeka çözümlerini benimsemelerinde yardımcı olur. Boş zamanlarında origami yapmaktan, kendin yap projelerinden ve basketbol oynamaktan hoşlanıyor.

Kşitiz Gupta NVIDIA'da Çözüm Mimarıdır. Bulut müşterilerini NVIDIA'nın sunduğu GPU AI teknolojileri hakkında eğitmekten ve makine öğrenimi ve derin öğrenme uygulamalarını hızlandırmalarında onlara yardımcı olmaktan keyif alıyor. İş dışında koşmayı, yürüyüş yapmayı ve vahşi yaşamı izlemeyi seviyor.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

Zaman Damgası: 18 Mart, 2024

Zaman Damgası: Haziran 15, 2022

Plato tarafından yeniden yayınlandı

Amazon Transcribe, Amazon Translate ve Amazon Polly ile dil engellerini aşın

Veri deneyimini yeniden keşfetme: Öngörüleri ortaya çıkarmak için üretken yapay zekayı ve modern veri mimarisini kullanın | Amazon Web Hizmetleri

Amazon SageMaker ve AWS SSO ile ekip ve kullanıcı yönetimi

Amazon SageMaker Data Wrangler'da PySpark ve Altair kod parçacıklarıyla verileri daha hızlı hazırlayın

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap