เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับไมโครเซอร์วิส NVIDIA NIM อเมซอนเว็บเซอร์วิส

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

NVIDIA ส่วนต่างอัตราดอกเบี้ย m ไมโครเซอร์วิส ตอนนี้รวมเข้ากับ อเมซอน SageMakerช่วยให้คุณสามารถปรับใช้โมเดลภาษาขนาดใหญ่ (LLM) ชั้นนำของอุตสาหกรรม และปรับประสิทธิภาพและต้นทุนของโมเดลให้เหมาะสม คุณสามารถปรับใช้ LLM ที่ล้ำสมัยได้ภายในไม่กี่นาที แทนที่จะใช้เวลาเป็นวันโดยใช้เทคโนโลยี เช่น NVIDIA TensorRT, NVIDIA TensorRT-LLMและ เซิร์ฟเวอร์การอนุมาน NVIDIA Triton บนอินสแตนซ์เร่งความเร็วของ NVIDIA ที่โฮสต์โดย SageMaker

NIM ส่วนหนึ่งของ NVIDIA AI องค์กร แพลตฟอร์มซอฟต์แวร์ที่ระบุไว้ใน ตลาด AWSคือชุดไมโครเซอร์วิสอนุมานที่นำพลังของ LLM ที่ล้ำสมัยมาสู่แอปพลิเคชันของคุณ โดยให้การประมวลผลภาษาธรรมชาติ (NLP) และความสามารถในการทำความเข้าใจ ไม่ว่าคุณจะพัฒนาแชทบอท สรุปเอกสาร หรือใช้ NLP อื่นๆ แอปพลิเคชั่นที่ขับเคลื่อน คุณสามารถใช้คอนเทนเนอร์ NVIDIA ที่สร้างไว้ล่วงหน้าเพื่อโฮสต์ LLM ยอดนิยมที่ได้รับการปรับให้เหมาะสมสำหรับ NVIDIA GPU เฉพาะเพื่อการปรับใช้อย่างรวดเร็ว หรือใช้เครื่องมือ NIM เพื่อสร้างคอนเทนเนอร์ของคุณเอง

ในโพสต์นี้ เราจะให้ข้อมูลเบื้องต้นระดับสูงเกี่ยวกับ NIM และแสดงให้เห็นว่าคุณสามารถใช้งาน NIM กับ SageMaker ได้อย่างไร

ข้อมูลเบื้องต้นเกี่ยวกับ NVIDIA NIM

NIM จัดเตรียมเอ็นจิ้นที่ได้รับการปรับปรุงและสร้างไว้ล่วงหน้าสำหรับโมเดลยอดนิยมต่างๆ เพื่อการอนุมาน ไมโครเซอร์วิสเหล่านี้รองรับ LLM ที่หลากหลาย เช่น Llama 2 (7B, 13B และ 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona และ Code Llama 70B ทันทีที่แกะกล่องโดยใช้ pre- สร้างเอ็นจิ้น NVIDIA TensorRT ที่ปรับแต่งสำหรับ NVIDIA GPU เฉพาะเพื่อประสิทธิภาพและการใช้งานสูงสุด โมเดลเหล่านี้ได้รับการดูแลจัดการด้วยไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุดสำหรับประสิทธิภาพการโฮสต์โมเดลเพื่อการปรับใช้แอปพลิเคชันได้อย่างง่ายดาย

หากโมเดลของคุณไม่ได้อยู่ในชุดโมเดลที่ได้รับการดูแลจัดการของ NVIDIA NIM จะนำเสนอยูทิลิตี้ที่จำเป็น เช่น Model Repo Generator ซึ่งอำนวยความสะดวกในการสร้างกลไกที่เร่งด้วย TensorRT-LLM และไดเร็กทอรีโมเดลในรูปแบบ NIM ผ่านไฟล์ YAML ที่ไม่ซับซ้อน นอกจากนี้ แบ็กเอนด์ชุมชนที่ผสานรวมของ vLLM ยังให้การสนับสนุนโมเดลล้ำสมัยและฟีเจอร์ใหม่ๆ ที่อาจไม่ได้ผสานรวมเข้ากับสแต็กที่ปรับให้เหมาะสมสำหรับ TensorRT-LLM อย่างราบรื่น

นอกเหนือจากการสร้าง LLM ที่ปรับให้เหมาะสมสำหรับการอนุมานแล้ว NIM ยังมีเทคโนโลยีโฮสติ้งขั้นสูง เช่น เทคนิคการจัดตารางเวลาที่ปรับให้เหมาะสม เช่น การแบทช์ในเที่ยวบิน ซึ่งสามารถแยกย่อยกระบวนการสร้างข้อความโดยรวมสำหรับ LLM เป็นการวนซ้ำหลายครั้งในโมเดล ด้วยแบตช์ในเที่ยวบิน แทนที่จะรอให้ทั้งแบตช์เสร็จสิ้นก่อนที่จะย้ายไปยังชุดคำขอถัดไป รันไทม์ของ NIM จะขับไล่ลำดับที่เสร็จสิ้นแล้วออกจากแบตช์ทันที จากนั้นรันไทม์จะเริ่มเรียกใช้คำขอใหม่ในขณะที่คำขออื่นๆ ยังคงดำเนินการอยู่ ซึ่งจะทำให้ใช้อินสแตนซ์การประมวลผลและ GPU ของคุณให้เกิดประโยชน์สูงสุด

การปรับใช้ NIM บน SageMaker

NIM ทำงานร่วมกับ SageMaker ช่วยให้คุณสามารถโฮสต์ LLM ของคุณด้วยประสิทธิภาพและการปรับต้นทุนให้เหมาะสม ในขณะเดียวกันก็ได้รับประโยชน์จากความสามารถของ SageMaker เมื่อคุณใช้ NIM บน SageMaker คุณสามารถใช้ความสามารถต่างๆ เช่น การขยายจำนวนอินสแตนซ์เพื่อโฮสต์โมเดลของคุณ ดำเนินการปรับใช้สีน้ำเงิน/เขียว และประเมินปริมาณงานโดยใช้การทดสอบเงา ทั้งหมดนี้มาพร้อมกับความสามารถในการสังเกตและการตรวจสอบที่ดีที่สุดในระดับเดียวกันด้วย อเมซอน คลาวด์วอตช์.

สรุป

การใช้ NIM เพื่อปรับใช้ LLM ที่ปรับให้เหมาะสมอาจเป็นตัวเลือกที่ยอดเยี่ยมสำหรับทั้งประสิทธิภาพและต้นทุน นอกจากนี้ยังช่วยทำให้การปรับใช้ LLM ง่ายดายอีกด้วย ในอนาคต NIM จะอนุญาตให้มีวิธีการปรับแต่งพารามิเตอร์แบบละเอียดที่มีประสิทธิภาพ (PEFT) เช่น LoRA และ P-tuning NIM ยังวางแผนที่จะรองรับ LLM โดยรองรับแบ็กเอนด์ Triton Inference Server, TensorRT-LLM และ vLLM

เราขอแนะนำให้คุณเรียนรู้เพิ่มเติมเกี่ยวกับไมโครเซอร์วิสของ NVIDIA และวิธีการปรับใช้ LLM ของคุณโดยใช้ SageMaker และลองใช้สิทธิประโยชน์ที่มีให้คุณ NIM มีให้บริการแบบชำระเงินโดยเป็นส่วนหนึ่งของการสมัครสมาชิกซอฟต์แวร์ NVIDIA AI Enterprise พร้อมใช้งานบน AWS Marketplace.

ในอนาคตอันใกล้นี้ เราจะโพสต์คำแนะนำเชิงลึกสำหรับ NIM บน SageMaker

เกี่ยวกับผู้แต่ง

เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI. เจมส์พาร์ค เป็นสถาปนิกโซลูชันที่ Amazon Web Services เขาทำงานร่วมกับ Amazon.com ในการออกแบบ สร้าง และปรับใช้โซลูชันเทคโนโลยีบน AWS และมีความสนใจเป็นพิเศษใน AI และการเรียนรู้ของเครื่อง ในเวลาว่างเขาชอบที่จะแสวงหาวัฒนธรรมใหม่ๆ ประสบการณ์ใหม่ๆ และติดตามเทรนด์เทคโนโลยีล่าสุด คุณสามารถพบเขาได้ที่ LinkedIn.

ซอราภ ตรีกันเด เป็นผู้จัดการผลิตภัณฑ์อาวุโสสำหรับการอนุมานของ Amazon SageMaker เขาหลงใหลในการทำงานกับลูกค้าและมีแรงจูงใจโดยเป้าหมายของการทำให้แมชชีนเลิร์นนิงเป็นประชาธิปไตย เขามุ่งเน้นไปที่ความท้าทายหลักที่เกี่ยวข้องกับการปรับใช้แอปพลิเคชัน ML ที่ซับซ้อน โมเดล ML แบบหลายผู้เช่า การเพิ่มประสิทธิภาพต้นทุน และทำให้การปรับใช้โมเดลการเรียนรู้เชิงลึกเข้าถึงได้ง่ายขึ้น ในเวลาว่าง Saurabh สนุกกับการเดินป่า เรียนรู้เกี่ยวกับเทคโนโลยีที่เป็นนวัตกรรม ติดตาม TechCrunch และใช้เวลากับครอบครัว

เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI. ชิงหลาน เป็นวิศวกรพัฒนาซอฟต์แวร์ใน AWS เขาทำงานเกี่ยวกับผลิตภัณฑ์ที่ท้าทายหลายอย่างใน Amazon รวมถึงโซลูชันการอนุมาน ML ประสิทธิภาพสูงและระบบการบันทึกที่มีประสิทธิภาพสูง ทีมของ Qing ประสบความสำเร็จในการเปิดตัวโมเดลพารามิเตอร์พันล้านรายการแรกใน Amazon Advertising โดยต้องมีเวลาแฝงที่ต่ำมาก Qing มีความรู้เชิงลึกเกี่ยวกับการเพิ่มประสิทธิภาพโครงสร้างพื้นฐานและการเร่งการเรียนรู้เชิงลึก

นิกิล กุลคาร์นิ เป็นนักพัฒนาซอฟต์แวร์ที่มี AWS Machine Learning โดยมุ่งเน้นที่การทำให้ปริมาณงานการเรียนรู้ของเครื่องมีประสิทธิภาพมากขึ้นบนระบบคลาวด์ และเป็นผู้ร่วมสร้าง AWS Deep Learning Containers สำหรับการฝึกอบรมและการอนุมาน เขาหลงใหลเกี่ยวกับระบบการเรียนรู้เชิงลึกแบบกระจาย นอกเหนือจากงาน เขาชอบอ่านหนังสือ เล่นกีตาร์ และทำพิซซ่า

เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI. ฮาริช ตุมมาลาเชอร์ลา เป็นวิศวกรซอฟต์แวร์พร้อมทีมประสิทธิภาพการเรียนรู้เชิงลึกที่ SageMaker เขาทำงานด้านวิศวกรรมประสิทธิภาพเพื่อให้บริการโมเดลภาษาขนาดใหญ่บน SageMaker อย่างมีประสิทธิภาพ ในเวลาว่าง เขาสนุกกับการวิ่ง ปั่นจักรยาน และเล่นสกีภูเขา

เอลิวธ ทริอานา อิซาซา เป็นผู้จัดการฝ่ายนักพัฒนาสัมพันธ์ที่ NVIDIA เสริมศักยภาพ AI MLOps, DevOps, นักวิทยาศาสตร์ และผู้เชี่ยวชาญด้านเทคนิคของ Amazon ของ Amazon เพื่อเชี่ยวชาญสแต็กการประมวลผล NVIDIA สำหรับการเร่งและเพิ่มประสิทธิภาพโมเดล Generative AI Foundation ครอบคลุมตั้งแต่การดูแลจัดการข้อมูล การฝึกอบรม GPU การอนุมานโมเดล และการปรับใช้การผลิตบนอินสแตนซ์ AWS GPU . นอกจากนี้ Eliuth ยังเป็นนักขี่จักรยานเสือภูเขา นักเล่นสกี เทนนิส และโป๊กเกอร์ผู้หลงใหล

เจียหงหลิว เป็น Solution Architect ในทีม Cloud Service Provider ที่ NVIDIA เขาช่วยลูกค้าในการใช้การเรียนรู้ด้วยเครื่องและโซลูชัน AI ที่ใช้ประโยชน์จากการประมวลผลแบบเร่งความเร็วของ NVIDIA เพื่อจัดการกับความท้าทายในการฝึกอบรมและการอนุมาน ในยามว่าง เขาสนุกกับการพับกระดาษ โปรเจกต์ทำเอง และเล่นบาสเก็ตบอล

กษิติซ กุปตะ เป็นสถาปนิกโซลูชันที่ NVIDIA เขาสนุกกับการให้ความรู้แก่ลูกค้าคลาวด์เกี่ยวกับเทคโนโลยี GPU AI ที่ NVIDIA นำเสนอและช่วยเหลือพวกเขาในการเร่งการเรียนรู้ด้วยเครื่องและแอปพลิเคชันการเรียนรู้เชิงลึก นอกเวลางาน เขาชอบวิ่ง เดินป่า และชมสัตว์ป่า

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

ประทับเวลา: March 18, 2024

ประทับเวลา: มิถุนายน 15, 2022

เผยแพร่ซ้ำโดยเพลโต

ก้าวข้ามอุปสรรคด้านภาษาด้วย Amazon Transcribe, Amazon Translate และ Amazon Polly

การจัดการทีมและผู้ใช้ด้วย Amazon SageMaker และ AWS SSO

เตรียมข้อมูลได้เร็วยิ่งขึ้นด้วยข้อมูลโค้ด PySpark และ Altair ใน Amazon SageMaker Data Wrangler

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้