Optimalkan Harga-kinerja Inferensi LLM Pada GPU NVIDIA Menggunakan Integrasi Amazon SageMaker Dengan Layanan Mikro NVIDIA NIM

Diterbitkan Ulang Oleh Plato

Followers: 0

NVIDIA NIM m layanan icro sekarang berintegrasi dengan Amazon SageMaker, memungkinkan Anda menerapkan model bahasa besar (LLM) terdepan di industri serta mengoptimalkan kinerja dan biaya model. Anda dapat menerapkan LLM canggih dalam hitungan menit, bukan berhari-hari, menggunakan teknologi seperti NVIDIA TensorRT, NVIDIA TensorRT-LLM, dan Server Inferensi NVIDIA Triton pada instans akselerasi NVIDIA yang dihosting oleh SageMaker.

NIM, bagian dari Perusahaan NVIDIA AI platform perangkat lunak terdaftar di Pasar AWS, adalah serangkaian layanan mikro inferensi yang menghadirkan kekuatan LLM canggih ke aplikasi Anda, menyediakan pemrosesan bahasa alami (NLP) dan kemampuan pemahaman, baik Anda mengembangkan chatbot, meringkas dokumen, atau mengimplementasikan NLP- aplikasi bertenaga. Anda dapat menggunakan kontainer NVIDIA yang sudah dibuat sebelumnya untuk menghosting LLM populer yang dioptimalkan untuk GPU NVIDIA tertentu untuk penerapan cepat atau menggunakan alat NIM untuk membuat kontainer Anda sendiri.

Dalam postingan ini, kami memberikan pengenalan tingkat tinggi tentang NIM dan menunjukkan bagaimana Anda dapat menggunakannya dengan SageMaker.

Pengantar NVIDIA NIM

NIM menyediakan mesin yang dioptimalkan dan dibuat sebelumnya untuk berbagai model populer untuk inferensi. Layanan mikro ini mendukung berbagai LLM, seperti Llama 2 (7B, 13B, dan 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona, dan Code Llama 70B, langsung menggunakan pra- membangun mesin NVIDIA TensorRT yang disesuaikan untuk GPU NVIDIA tertentu untuk performa dan pemanfaatan maksimum. Model-model ini dikurasi dengan hyperparameter optimal untuk kinerja model-hosting untuk menerapkan aplikasi dengan mudah.

Jika model Anda tidak termasuk dalam rangkaian model kurasi NVIDIA, NIM menawarkan utilitas penting seperti Model Repo Generator, yang memfasilitasi pembuatan mesin yang dipercepat TensorRT-LLM dan direktori model berformat NIM melalui file YAML langsung. Selain itu, backend komunitas vLLM yang terintegrasi memberikan dukungan untuk model mutakhir dan fitur baru yang mungkin belum terintegrasi secara mulus ke dalam tumpukan yang dioptimalkan TensorRT-LLM.

Selain membuat LLM yang dioptimalkan untuk inferensi, NIM menyediakan teknologi hosting tingkat lanjut seperti teknik penjadwalan yang dioptimalkan seperti batching dalam penerbangan, yang dapat memecah keseluruhan proses pembuatan teks untuk LLM menjadi beberapa iterasi pada model. Dengan batching dalam penerbangan, daripada menunggu seluruh batch selesai sebelum melanjutkan ke rangkaian permintaan berikutnya, runtime NIM segera mengeluarkan urutan yang sudah selesai dari batch. Runtime kemudian mulai menjalankan permintaan baru sementara permintaan lainnya masih berjalan, memanfaatkan instans komputasi dan GPU Anda sebaik-baiknya.

Menerapkan NIM di SageMaker

NIM terintegrasi dengan SageMaker, memungkinkan Anda menghosting LLM Anda dengan optimalisasi kinerja dan biaya sambil memanfaatkan kemampuan SageMaker. Saat Anda menggunakan NIM di SageMaker, Anda dapat menggunakan kemampuan seperti memperkecil jumlah instans untuk menghosting model Anda, melakukan penerapan biru/hijau, dan mengevaluasi beban kerja menggunakan pengujian bayangan—semuanya dengan kemampuan observasi dan pemantauan terbaik di kelasnya dengan amazoncloudwatch.

Kesimpulan

Menggunakan NIM untuk menerapkan LLM yang dioptimalkan dapat menjadi pilihan bagus baik dari segi kinerja maupun biaya. Ini juga membantu membuat penerapan LLM menjadi mudah. Di masa depan, NIM juga akan memungkinkan metode penyesuaian Parameter-Efficient Fine-Tuning (PEFT) seperti LoRA dan P-tuning. NIM juga berencana mendapatkan dukungan LLM dengan mendukung Triton Inference Server, TensorRT-LLM, dan vLLM backends.

Kami mendorong Anda untuk mempelajari lebih lanjut tentang layanan mikro NVIDIA dan cara menerapkan LLM Anda menggunakan SageMaker dan mencoba manfaat yang tersedia untuk Anda. NIM tersedia sebagai penawaran berbayar sebagai bagian dari langganan perangkat lunak NVIDIA AI Enterprise tersedia di AWS Marketplace.

Dalam waktu dekat, kami akan memposting panduan mendalam untuk NIM di SageMaker.

Tentang penulis

Optimalkan kinerja harga inferensi LLM pada GPU NVIDIA menggunakan integrasi Amazon SageMaker dengan NVIDIA NIM Microservices | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai. James Taman adalah Arsitek Solusi di Amazon Web Services. Dia bekerja dengan Amazon.com untuk merancang, membangun, dan menerapkan solusi teknologi di AWS, dan memiliki minat khusus pada AI dan pembelajaran mesin. Di waktu senggangnya, dia senang mencari budaya baru, pengalaman baru, dan tetap up to date dengan tren teknologi terkini. Anda dapat menemukannya di LinkedIn.

Saurabh Trikande adalah Manajer Produk Senior untuk Inferensi Amazon SageMaker. Dia bersemangat bekerja dengan pelanggan dan termotivasi oleh tujuan mendemokratisasi pembelajaran mesin. Dia berfokus pada tantangan inti yang terkait dengan penerapan aplikasi ML yang kompleks, model ML multi-penyewa, pengoptimalan biaya, dan membuat penerapan model pembelajaran mendalam lebih mudah diakses. Di waktu luangnya, Saurabh menikmati hiking, belajar tentang teknologi inovatif, mengikuti TechCrunch, dan menghabiskan waktu bersama keluarganya.

Optimalkan kinerja harga inferensi LLM pada GPU NVIDIA menggunakan integrasi Amazon SageMaker dengan NVIDIA NIM Microservices | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai. Qinglan adalah Insinyur Pengembangan Perangkat Lunak di AWS. Dia telah mengerjakan beberapa produk yang menantang di Amazon, termasuk solusi inferensi ML kinerja tinggi dan sistem logging kinerja tinggi. Tim Qing berhasil meluncurkan model Billion-parameter pertama di Amazon Advertising dengan latensi yang sangat rendah. Qing memiliki pengetahuan mendalam tentang pengoptimalan infrastruktur dan akselerasi Deep Learning.

Nikhil Kulkarni adalah pengembang perangkat lunak dengan AWS Machine Learning, yang berfokus untuk menjadikan beban kerja pembelajaran mesin lebih berkinerja di cloud, dan merupakan salah satu pencipta AWS Deep Learning Containers untuk pelatihan dan inferensi. Dia tertarik dengan Sistem Pembelajaran Mendalam yang terdistribusi. Di luar pekerjaan, dia suka membaca buku, bermain gitar, dan membuat pizza.

Optimalkan kinerja harga inferensi LLM pada GPU NVIDIA menggunakan integrasi Amazon SageMaker dengan NVIDIA NIM Microservices | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai. Harish Tummalacherla adalah Insinyur Perangkat Lunak dengan tim Kinerja Pembelajaran Mendalam di SageMaker. Dia bekerja pada rekayasa kinerja untuk menyajikan model bahasa besar secara efisien di SageMaker. Di waktu luangnya, ia menikmati lari, bersepeda, dan mendaki gunung ski.

Eliuth Triana Isaza adalah Manajer Hubungan Pengembang di NVIDIA yang memberdayakan AI MLOps, DevOps, Ilmuwan, dan pakar teknis AWS dari Amazon untuk menguasai tumpukan komputasi NVIDIA guna mempercepat dan mengoptimalkan model Generative AI Foundation mulai dari kurasi data, pelatihan GPU, inferensi model, dan penerapan produksi pada instans GPU AWS . Selain itu, Eliuth adalah pengendara sepeda gunung, pemain ski, tenis, dan pemain poker yang bersemangat.

Jia Hong Liu adalah Arsitek Solusi di tim Penyedia Layanan Cloud di NVIDIA. Dia membantu klien dalam mengadopsi pembelajaran mesin dan solusi AI yang memanfaatkan komputasi akselerasi NVIDIA untuk mengatasi tantangan pelatihan dan inferensi mereka. Di waktu senggang, ia menikmati origami, proyek DIY, dan bermain basket.

Kshitiz Gupta adalah Arsitek Solusi di NVIDIA. Dia senang mendidik pelanggan cloud tentang teknologi GPU AI yang ditawarkan NVIDIA dan membantu mereka mempercepat pembelajaran mesin dan aplikasi pembelajaran mendalam mereka. Di luar pekerjaan, ia menikmati lari, hiking, dan mengamati satwa liar.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

Stempel Waktu: 18 Maret, 2024

Stempel Waktu: Juni 15, 2022

Diterbitkan Ulang Oleh Plato

Menembus hambatan bahasa dengan Amazon Transcribe, Amazon Translate, dan Amazon Polly

Menciptakan kembali pengalaman data: Gunakan AI generatif dan arsitektur data modern untuk membuka wawasan | Layanan Web Amazon

Manajemen tim dan pengguna dengan Amazon SageMaker dan AWS SSO

Siapkan data lebih cepat dengan cuplikan kode PySpark dan Altair di Amazon SageMaker Data Wrangler

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun