เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices อเมซอนเว็บเซอร์วิส

เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices อเมซอนเว็บเซอร์วิส

NVIDIA ส่วนต่างอัตราดอกเบี้ย mไมโครเซอร์วิส ตอนนี้รวมเข้ากับ อเมซอน SageMakerช่วยให้คุณสามารถปรับใช้โมเดลภาษาขนาดใหญ่ (LLM) ชั้นนำของอุตสาหกรรม และปรับประสิทธิภาพและต้นทุนของโมเดลให้เหมาะสม คุณสามารถปรับใช้ LLM ที่ล้ำสมัยได้ภายในไม่กี่นาที แทนที่จะใช้เวลาเป็นวันโดยใช้เทคโนโลยี เช่น NVIDIA TensorRT, NVIDIA TensorRT-LLMและ เซิร์ฟเวอร์การอนุมาน NVIDIA Triton บนอินสแตนซ์เร่งความเร็วของ NVIDIA ที่โฮสต์โดย SageMaker

NIM ส่วนหนึ่งของ NVIDIA AI องค์กร แพลตฟอร์มซอฟต์แวร์ที่ระบุไว้ใน ตลาด AWSคือชุดไมโครเซอร์วิสอนุมานที่นำพลังของ LLM ที่ล้ำสมัยมาสู่แอปพลิเคชันของคุณ โดยให้การประมวลผลภาษาธรรมชาติ (NLP) และความสามารถในการทำความเข้าใจ ไม่ว่าคุณจะพัฒนาแชทบอท สรุปเอกสาร หรือใช้ NLP อื่นๆ แอปพลิเคชั่นที่ขับเคลื่อน คุณสามารถใช้คอนเทนเนอร์ NVIDIA ที่สร้างไว้ล่วงหน้าเพื่อโฮสต์ LLM ยอดนิยมที่ได้รับการปรับให้เหมาะสมสำหรับ NVIDIA GPU เฉพาะเพื่อการปรับใช้อย่างรวดเร็ว หรือใช้เครื่องมือ NIM เพื่อสร้างคอนเทนเนอร์ของคุณเอง

ในโพสต์นี้ เราจะให้ข้อมูลเบื้องต้นระดับสูงเกี่ยวกับ NIM และแสดงให้เห็นว่าคุณสามารถใช้งาน NIM กับ SageMaker ได้อย่างไร

ข้อมูลเบื้องต้นเกี่ยวกับ NVIDIA NIM

NIM จัดเตรียมเอ็นจิ้นที่ได้รับการปรับปรุงและสร้างไว้ล่วงหน้าสำหรับโมเดลยอดนิยมต่างๆ เพื่อการอนุมาน ไมโครเซอร์วิสเหล่านี้รองรับ LLM ที่หลากหลาย เช่น Llama 2 (7B, 13B และ 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona และ Code Llama 70B ทันทีที่แกะกล่องโดยใช้ pre- สร้างเอ็นจิ้น NVIDIA TensorRT ที่ปรับแต่งสำหรับ NVIDIA GPU เฉพาะเพื่อประสิทธิภาพและการใช้งานสูงสุด โมเดลเหล่านี้ได้รับการดูแลจัดการด้วยไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุดสำหรับประสิทธิภาพการโฮสต์โมเดลเพื่อการปรับใช้แอปพลิเคชันได้อย่างง่ายดาย

หากโมเดลของคุณไม่ได้อยู่ในชุดโมเดลที่ได้รับการดูแลจัดการของ NVIDIA NIM จะนำเสนอยูทิลิตี้ที่จำเป็น เช่น Model Repo Generator ซึ่งอำนวยความสะดวกในการสร้างกลไกที่เร่งด้วย TensorRT-LLM และไดเร็กทอรีโมเดลในรูปแบบ NIM ผ่านไฟล์ YAML ที่ไม่ซับซ้อน นอกจากนี้ แบ็กเอนด์ชุมชนที่ผสานรวมของ vLLM ยังให้การสนับสนุนโมเดลล้ำสมัยและฟีเจอร์ใหม่ๆ ที่อาจไม่ได้ผสานรวมเข้ากับสแต็กที่ปรับให้เหมาะสมสำหรับ TensorRT-LLM อย่างราบรื่น

นอกเหนือจากการสร้าง LLM ที่ปรับให้เหมาะสมสำหรับการอนุมานแล้ว NIM ยังมีเทคโนโลยีโฮสติ้งขั้นสูง เช่น เทคนิคการจัดตารางเวลาที่ปรับให้เหมาะสม เช่น การแบทช์ในเที่ยวบิน ซึ่งสามารถแยกย่อยกระบวนการสร้างข้อความโดยรวมสำหรับ LLM เป็นการวนซ้ำหลายครั้งในโมเดล ด้วยแบตช์ในเที่ยวบิน แทนที่จะรอให้ทั้งแบตช์เสร็จสิ้นก่อนที่จะย้ายไปยังชุดคำขอถัดไป รันไทม์ของ NIM จะขับไล่ลำดับที่เสร็จสิ้นแล้วออกจากแบตช์ทันที จากนั้นรันไทม์จะเริ่มเรียกใช้คำขอใหม่ในขณะที่คำขออื่นๆ ยังคงดำเนินการอยู่ ซึ่งจะทำให้ใช้อินสแตนซ์การประมวลผลและ GPU ของคุณให้เกิดประโยชน์สูงสุด

การปรับใช้ NIM บน SageMaker

NIM ทำงานร่วมกับ SageMaker ช่วยให้คุณสามารถโฮสต์ LLM ของคุณด้วยประสิทธิภาพและการปรับต้นทุนให้เหมาะสม ในขณะเดียวกันก็ได้รับประโยชน์จากความสามารถของ SageMaker เมื่อคุณใช้ NIM บน SageMaker คุณสามารถใช้ความสามารถต่างๆ เช่น การขยายจำนวนอินสแตนซ์เพื่อโฮสต์โมเดลของคุณ ดำเนินการปรับใช้สีน้ำเงิน/เขียว และประเมินปริมาณงานโดยใช้การทดสอบเงา ทั้งหมดนี้มาพร้อมกับความสามารถในการสังเกตและการตรวจสอบที่ดีที่สุดในระดับเดียวกันด้วย อเมซอน คลาวด์วอตช์.

สรุป

การใช้ NIM เพื่อปรับใช้ LLM ที่ปรับให้เหมาะสมอาจเป็นตัวเลือกที่ยอดเยี่ยมสำหรับทั้งประสิทธิภาพและต้นทุน นอกจากนี้ยังช่วยทำให้การปรับใช้ LLM ง่ายดายอีกด้วย ในอนาคต NIM จะอนุญาตให้มีวิธีการปรับแต่งพารามิเตอร์แบบละเอียดที่มีประสิทธิภาพ (PEFT) เช่น LoRA และ P-tuning NIM ยังวางแผนที่จะรองรับ LLM โดยรองรับแบ็กเอนด์ Triton Inference Server, TensorRT-LLM และ vLLM

เราขอแนะนำให้คุณเรียนรู้เพิ่มเติมเกี่ยวกับไมโครเซอร์วิสของ NVIDIA และวิธีการปรับใช้ LLM ของคุณโดยใช้ SageMaker และลองใช้สิทธิประโยชน์ที่มีให้คุณ NIM มีให้บริการแบบชำระเงินโดยเป็นส่วนหนึ่งของการสมัครสมาชิกซอฟต์แวร์ NVIDIA AI Enterprise พร้อมใช้งานบน AWS Marketplace.

ในอนาคตอันใกล้นี้ เราจะโพสต์คำแนะนำเชิงลึกสำหรับ NIM บน SageMaker


เกี่ยวกับผู้แต่ง

เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.เจมส์พาร์ค เป็นสถาปนิกโซลูชันที่ Amazon Web Services เขาทำงานร่วมกับ Amazon.com ในการออกแบบ สร้าง และปรับใช้โซลูชันเทคโนโลยีบน AWS และมีความสนใจเป็นพิเศษใน AI และการเรียนรู้ของเครื่อง ในเวลาว่างเขาชอบที่จะแสวงหาวัฒนธรรมใหม่ๆ ประสบการณ์ใหม่ๆ และติดตามเทรนด์เทคโนโลยีล่าสุด คุณสามารถพบเขาได้ที่ LinkedIn.

เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.ซอราภ ตรีกันเด เป็นผู้จัดการผลิตภัณฑ์อาวุโสสำหรับการอนุมานของ Amazon SageMaker เขาหลงใหลในการทำงานกับลูกค้าและมีแรงจูงใจโดยเป้าหมายของการทำให้แมชชีนเลิร์นนิงเป็นประชาธิปไตย เขามุ่งเน้นไปที่ความท้าทายหลักที่เกี่ยวข้องกับการปรับใช้แอปพลิเคชัน ML ที่ซับซ้อน โมเดล ML แบบหลายผู้เช่า การเพิ่มประสิทธิภาพต้นทุน และทำให้การปรับใช้โมเดลการเรียนรู้เชิงลึกเข้าถึงได้ง่ายขึ้น ในเวลาว่าง Saurabh สนุกกับการเดินป่า เรียนรู้เกี่ยวกับเทคโนโลยีที่เป็นนวัตกรรม ติดตาม TechCrunch และใช้เวลากับครอบครัว

เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.ชิงหลาน เป็นวิศวกรพัฒนาซอฟต์แวร์ใน AWS เขาทำงานเกี่ยวกับผลิตภัณฑ์ที่ท้าทายหลายอย่างใน Amazon รวมถึงโซลูชันการอนุมาน ML ประสิทธิภาพสูงและระบบการบันทึกที่มีประสิทธิภาพสูง ทีมของ Qing ประสบความสำเร็จในการเปิดตัวโมเดลพารามิเตอร์พันล้านรายการแรกใน Amazon Advertising โดยต้องมีเวลาแฝงที่ต่ำมาก Qing มีความรู้เชิงลึกเกี่ยวกับการเพิ่มประสิทธิภาพโครงสร้างพื้นฐานและการเร่งการเรียนรู้เชิงลึก

เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.นิกิล กุลคาร์นิ เป็นนักพัฒนาซอฟต์แวร์ที่มี AWS Machine Learning โดยมุ่งเน้นที่การทำให้ปริมาณงานการเรียนรู้ของเครื่องมีประสิทธิภาพมากขึ้นบนระบบคลาวด์ และเป็นผู้ร่วมสร้าง AWS Deep Learning Containers สำหรับการฝึกอบรมและการอนุมาน เขาหลงใหลเกี่ยวกับระบบการเรียนรู้เชิงลึกแบบกระจาย นอกเหนือจากงาน เขาชอบอ่านหนังสือ เล่นกีตาร์ และทำพิซซ่า

เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.ฮาริช ตุมมาลาเชอร์ลา เป็นวิศวกรซอฟต์แวร์พร้อมทีมประสิทธิภาพการเรียนรู้เชิงลึกที่ SageMaker เขาทำงานด้านวิศวกรรมประสิทธิภาพเพื่อให้บริการโมเดลภาษาขนาดใหญ่บน SageMaker อย่างมีประสิทธิภาพ ในเวลาว่าง เขาสนุกกับการวิ่ง ปั่นจักรยาน และเล่นสกีภูเขา

เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.เอลิวธ ทริอานา อิซาซา เป็นผู้จัดการฝ่ายนักพัฒนาสัมพันธ์ที่ NVIDIA เสริมศักยภาพ AI MLOps, DevOps, นักวิทยาศาสตร์ และผู้เชี่ยวชาญด้านเทคนิคของ Amazon ของ Amazon เพื่อเชี่ยวชาญสแต็กการประมวลผล NVIDIA สำหรับการเร่งและเพิ่มประสิทธิภาพโมเดล Generative AI Foundation ครอบคลุมตั้งแต่การดูแลจัดการข้อมูล การฝึกอบรม GPU การอนุมานโมเดล และการปรับใช้การผลิตบนอินสแตนซ์ AWS GPU . นอกจากนี้ Eliuth ยังเป็นนักขี่จักรยานเสือภูเขา นักเล่นสกี เทนนิส และโป๊กเกอร์ผู้หลงใหล

เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.เจียหงหลิว เป็น Solution Architect ในทีม Cloud Service Provider ที่ NVIDIA เขาช่วยลูกค้าในการใช้การเรียนรู้ด้วยเครื่องและโซลูชัน AI ที่ใช้ประโยชน์จากการประมวลผลแบบเร่งความเร็วของ NVIDIA เพื่อจัดการกับความท้าทายในการฝึกอบรมและการอนุมาน ในยามว่าง เขาสนุกกับการพับกระดาษ โปรเจกต์ทำเอง และเล่นบาสเก็ตบอล

เพิ่มประสิทธิภาพด้านราคาของการอนุมาน LLM บน NVIDIA GPU โดยใช้การผสานรวม Amazon SageMaker กับ NVIDIA NIM Microservices Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.กษิติซ กุปตะ เป็นสถาปนิกโซลูชันที่ NVIDIA เขาสนุกกับการให้ความรู้แก่ลูกค้าคลาวด์เกี่ยวกับเทคโนโลยี GPU AI ที่ NVIDIA นำเสนอและช่วยเหลือพวกเขาในการเร่งการเรียนรู้ด้วยเครื่องและแอปพลิเคชันการเรียนรู้เชิงลึก นอกเวลางาน เขาชอบวิ่ง เดินป่า และชมสัตว์ป่า

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS

รวบรวมข้อมูลเชิงลึกด้านสาธารณสุขได้รวดเร็วยิ่งขึ้นด้วยแมชชีนเลิร์นนิงแบบไม่ใช้โค้ดโดยใช้ Amazon SageMaker Canvas | บริการเว็บอเมซอน

โหนดต้นทาง: 1853345
ประทับเวลา: มิถุนายน 28, 2023