NVIDIA ส่วนต่างอัตราดอกเบี้ย mไมโครเซอร์วิส ตอนนี้รวมเข้ากับ อเมซอน SageMakerช่วยให้คุณสามารถปรับใช้โมเดลภาษาขนาดใหญ่ (LLM) ชั้นนำของอุตสาหกรรม และปรับประสิทธิภาพและต้นทุนของโมเดลให้เหมาะสม คุณสามารถปรับใช้ LLM ที่ล้ำสมัยได้ภายในไม่กี่นาที แทนที่จะใช้เวลาเป็นวันโดยใช้เทคโนโลยี เช่น NVIDIA TensorRT, NVIDIA TensorRT-LLMและ เซิร์ฟเวอร์การอนุมาน NVIDIA Triton บนอินสแตนซ์เร่งความเร็วของ NVIDIA ที่โฮสต์โดย SageMaker
NIM ส่วนหนึ่งของ NVIDIA AI องค์กร แพลตฟอร์มซอฟต์แวร์ที่ระบุไว้ใน ตลาด AWSคือชุดไมโครเซอร์วิสอนุมานที่นำพลังของ LLM ที่ล้ำสมัยมาสู่แอปพลิเคชันของคุณ โดยให้การประมวลผลภาษาธรรมชาติ (NLP) และความสามารถในการทำความเข้าใจ ไม่ว่าคุณจะพัฒนาแชทบอท สรุปเอกสาร หรือใช้ NLP อื่นๆ แอปพลิเคชั่นที่ขับเคลื่อน คุณสามารถใช้คอนเทนเนอร์ NVIDIA ที่สร้างไว้ล่วงหน้าเพื่อโฮสต์ LLM ยอดนิยมที่ได้รับการปรับให้เหมาะสมสำหรับ NVIDIA GPU เฉพาะเพื่อการปรับใช้อย่างรวดเร็ว หรือใช้เครื่องมือ NIM เพื่อสร้างคอนเทนเนอร์ของคุณเอง
ในโพสต์นี้ เราจะให้ข้อมูลเบื้องต้นระดับสูงเกี่ยวกับ NIM และแสดงให้เห็นว่าคุณสามารถใช้งาน NIM กับ SageMaker ได้อย่างไร
ข้อมูลเบื้องต้นเกี่ยวกับ NVIDIA NIM
NIM จัดเตรียมเอ็นจิ้นที่ได้รับการปรับปรุงและสร้างไว้ล่วงหน้าสำหรับโมเดลยอดนิยมต่างๆ เพื่อการอนุมาน ไมโครเซอร์วิสเหล่านี้รองรับ LLM ที่หลากหลาย เช่น Llama 2 (7B, 13B และ 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona และ Code Llama 70B ทันทีที่แกะกล่องโดยใช้ pre- สร้างเอ็นจิ้น NVIDIA TensorRT ที่ปรับแต่งสำหรับ NVIDIA GPU เฉพาะเพื่อประสิทธิภาพและการใช้งานสูงสุด โมเดลเหล่านี้ได้รับการดูแลจัดการด้วยไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุดสำหรับประสิทธิภาพการโฮสต์โมเดลเพื่อการปรับใช้แอปพลิเคชันได้อย่างง่ายดาย
หากโมเดลของคุณไม่ได้อยู่ในชุดโมเดลที่ได้รับการดูแลจัดการของ NVIDIA NIM จะนำเสนอยูทิลิตี้ที่จำเป็น เช่น Model Repo Generator ซึ่งอำนวยความสะดวกในการสร้างกลไกที่เร่งด้วย TensorRT-LLM และไดเร็กทอรีโมเดลในรูปแบบ NIM ผ่านไฟล์ YAML ที่ไม่ซับซ้อน นอกจากนี้ แบ็กเอนด์ชุมชนที่ผสานรวมของ vLLM ยังให้การสนับสนุนโมเดลล้ำสมัยและฟีเจอร์ใหม่ๆ ที่อาจไม่ได้ผสานรวมเข้ากับสแต็กที่ปรับให้เหมาะสมสำหรับ TensorRT-LLM อย่างราบรื่น
นอกเหนือจากการสร้าง LLM ที่ปรับให้เหมาะสมสำหรับการอนุมานแล้ว NIM ยังมีเทคโนโลยีโฮสติ้งขั้นสูง เช่น เทคนิคการจัดตารางเวลาที่ปรับให้เหมาะสม เช่น การแบทช์ในเที่ยวบิน ซึ่งสามารถแยกย่อยกระบวนการสร้างข้อความโดยรวมสำหรับ LLM เป็นการวนซ้ำหลายครั้งในโมเดล ด้วยแบตช์ในเที่ยวบิน แทนที่จะรอให้ทั้งแบตช์เสร็จสิ้นก่อนที่จะย้ายไปยังชุดคำขอถัดไป รันไทม์ของ NIM จะขับไล่ลำดับที่เสร็จสิ้นแล้วออกจากแบตช์ทันที จากนั้นรันไทม์จะเริ่มเรียกใช้คำขอใหม่ในขณะที่คำขออื่นๆ ยังคงดำเนินการอยู่ ซึ่งจะทำให้ใช้อินสแตนซ์การประมวลผลและ GPU ของคุณให้เกิดประโยชน์สูงสุด
การปรับใช้ NIM บน SageMaker
NIM ทำงานร่วมกับ SageMaker ช่วยให้คุณสามารถโฮสต์ LLM ของคุณด้วยประสิทธิภาพและการปรับต้นทุนให้เหมาะสม ในขณะเดียวกันก็ได้รับประโยชน์จากความสามารถของ SageMaker เมื่อคุณใช้ NIM บน SageMaker คุณสามารถใช้ความสามารถต่างๆ เช่น การขยายจำนวนอินสแตนซ์เพื่อโฮสต์โมเดลของคุณ ดำเนินการปรับใช้สีน้ำเงิน/เขียว และประเมินปริมาณงานโดยใช้การทดสอบเงา ทั้งหมดนี้มาพร้อมกับความสามารถในการสังเกตและการตรวจสอบที่ดีที่สุดในระดับเดียวกันด้วย อเมซอน คลาวด์วอตช์.
สรุป
การใช้ NIM เพื่อปรับใช้ LLM ที่ปรับให้เหมาะสมอาจเป็นตัวเลือกที่ยอดเยี่ยมสำหรับทั้งประสิทธิภาพและต้นทุน นอกจากนี้ยังช่วยทำให้การปรับใช้ LLM ง่ายดายอีกด้วย ในอนาคต NIM จะอนุญาตให้มีวิธีการปรับแต่งพารามิเตอร์แบบละเอียดที่มีประสิทธิภาพ (PEFT) เช่น LoRA และ P-tuning NIM ยังวางแผนที่จะรองรับ LLM โดยรองรับแบ็กเอนด์ Triton Inference Server, TensorRT-LLM และ vLLM
เราขอแนะนำให้คุณเรียนรู้เพิ่มเติมเกี่ยวกับไมโครเซอร์วิสของ NVIDIA และวิธีการปรับใช้ LLM ของคุณโดยใช้ SageMaker และลองใช้สิทธิประโยชน์ที่มีให้คุณ NIM มีให้บริการแบบชำระเงินโดยเป็นส่วนหนึ่งของการสมัครสมาชิกซอฟต์แวร์ NVIDIA AI Enterprise พร้อมใช้งานบน AWS Marketplace.
ในอนาคตอันใกล้นี้ เราจะโพสต์คำแนะนำเชิงลึกสำหรับ NIM บน SageMaker
เกี่ยวกับผู้แต่ง
เจมส์พาร์ค เป็นสถาปนิกโซลูชันที่ Amazon Web Services เขาทำงานร่วมกับ Amazon.com ในการออกแบบ สร้าง และปรับใช้โซลูชันเทคโนโลยีบน AWS และมีความสนใจเป็นพิเศษใน AI และการเรียนรู้ของเครื่อง ในเวลาว่างเขาชอบที่จะแสวงหาวัฒนธรรมใหม่ๆ ประสบการณ์ใหม่ๆ และติดตามเทรนด์เทคโนโลยีล่าสุด คุณสามารถพบเขาได้ที่ LinkedIn.
ซอราภ ตรีกันเด เป็นผู้จัดการผลิตภัณฑ์อาวุโสสำหรับการอนุมานของ Amazon SageMaker เขาหลงใหลในการทำงานกับลูกค้าและมีแรงจูงใจโดยเป้าหมายของการทำให้แมชชีนเลิร์นนิงเป็นประชาธิปไตย เขามุ่งเน้นไปที่ความท้าทายหลักที่เกี่ยวข้องกับการปรับใช้แอปพลิเคชัน ML ที่ซับซ้อน โมเดล ML แบบหลายผู้เช่า การเพิ่มประสิทธิภาพต้นทุน และทำให้การปรับใช้โมเดลการเรียนรู้เชิงลึกเข้าถึงได้ง่ายขึ้น ในเวลาว่าง Saurabh สนุกกับการเดินป่า เรียนรู้เกี่ยวกับเทคโนโลยีที่เป็นนวัตกรรม ติดตาม TechCrunch และใช้เวลากับครอบครัว
ชิงหลาน เป็นวิศวกรพัฒนาซอฟต์แวร์ใน AWS เขาทำงานเกี่ยวกับผลิตภัณฑ์ที่ท้าทายหลายอย่างใน Amazon รวมถึงโซลูชันการอนุมาน ML ประสิทธิภาพสูงและระบบการบันทึกที่มีประสิทธิภาพสูง ทีมของ Qing ประสบความสำเร็จในการเปิดตัวโมเดลพารามิเตอร์พันล้านรายการแรกใน Amazon Advertising โดยต้องมีเวลาแฝงที่ต่ำมาก Qing มีความรู้เชิงลึกเกี่ยวกับการเพิ่มประสิทธิภาพโครงสร้างพื้นฐานและการเร่งการเรียนรู้เชิงลึก
นิกิล กุลคาร์นิ เป็นนักพัฒนาซอฟต์แวร์ที่มี AWS Machine Learning โดยมุ่งเน้นที่การทำให้ปริมาณงานการเรียนรู้ของเครื่องมีประสิทธิภาพมากขึ้นบนระบบคลาวด์ และเป็นผู้ร่วมสร้าง AWS Deep Learning Containers สำหรับการฝึกอบรมและการอนุมาน เขาหลงใหลเกี่ยวกับระบบการเรียนรู้เชิงลึกแบบกระจาย นอกเหนือจากงาน เขาชอบอ่านหนังสือ เล่นกีตาร์ และทำพิซซ่า
ฮาริช ตุมมาลาเชอร์ลา เป็นวิศวกรซอฟต์แวร์พร้อมทีมประสิทธิภาพการเรียนรู้เชิงลึกที่ SageMaker เขาทำงานด้านวิศวกรรมประสิทธิภาพเพื่อให้บริการโมเดลภาษาขนาดใหญ่บน SageMaker อย่างมีประสิทธิภาพ ในเวลาว่าง เขาสนุกกับการวิ่ง ปั่นจักรยาน และเล่นสกีภูเขา
เอลิวธ ทริอานา อิซาซา เป็นผู้จัดการฝ่ายนักพัฒนาสัมพันธ์ที่ NVIDIA เสริมศักยภาพ AI MLOps, DevOps, นักวิทยาศาสตร์ และผู้เชี่ยวชาญด้านเทคนิคของ Amazon ของ Amazon เพื่อเชี่ยวชาญสแต็กการประมวลผล NVIDIA สำหรับการเร่งและเพิ่มประสิทธิภาพโมเดล Generative AI Foundation ครอบคลุมตั้งแต่การดูแลจัดการข้อมูล การฝึกอบรม GPU การอนุมานโมเดล และการปรับใช้การผลิตบนอินสแตนซ์ AWS GPU . นอกจากนี้ Eliuth ยังเป็นนักขี่จักรยานเสือภูเขา นักเล่นสกี เทนนิส และโป๊กเกอร์ผู้หลงใหล
เจียหงหลิว เป็น Solution Architect ในทีม Cloud Service Provider ที่ NVIDIA เขาช่วยลูกค้าในการใช้การเรียนรู้ด้วยเครื่องและโซลูชัน AI ที่ใช้ประโยชน์จากการประมวลผลแบบเร่งความเร็วของ NVIDIA เพื่อจัดการกับความท้าทายในการฝึกอบรมและการอนุมาน ในยามว่าง เขาสนุกกับการพับกระดาษ โปรเจกต์ทำเอง และเล่นบาสเก็ตบอล
กษิติซ กุปตะ เป็นสถาปนิกโซลูชันที่ NVIDIA เขาสนุกกับการให้ความรู้แก่ลูกค้าคลาวด์เกี่ยวกับเทคโนโลยี GPU AI ที่ NVIDIA นำเสนอและช่วยเหลือพวกเขาในการเร่งการเรียนรู้ด้วยเครื่องและแอปพลิเคชันการเรียนรู้เชิงลึก นอกเวลางาน เขาชอบวิ่ง เดินป่า และชมสัตว์ป่า
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/
- :มี
- :เป็น
- :ไม่
- $ ขึ้น
- 100
- 121
- 7
- a
- เกี่ยวกับเรา
- เร่ง
- เร่ง
- การเร่งความเร็ว
- สามารถเข้าถึงได้
- นอกจากนี้
- ที่อยู่
- การนำ
- สูง
- การโฆษณา
- AI
- อนุญาต
- การอนุญาต
- ด้วย
- อเมซอน
- อเมซอน SageMaker
- Amazon Web Services
- Amazon.com
- an
- และ
- การใช้งาน
- เป็น
- AS
- การให้ความช่วยเหลือ
- ช่วย
- At
- ใช้ได้
- AWS
- AWS Machine Learning AWS
- แบ็กเอนด์
- แบ็กเอนด์
- บาสเกตบอล
- เครื่องผสม
- BE
- รับ
- ก่อน
- เริ่มต้น
- ได้รับประโยชน์
- ประโยชน์ที่ได้รับ
- ที่ดีที่สุด
- ร้านหนังสือเกาหลี
- ทั้งสอง
- กล่อง
- ทำลาย
- นำมาซึ่ง
- สร้าง
- by
- CAN
- ความสามารถในการ
- ความท้าทาย
- ท้าทาย
- chatbots
- ลูกค้า
- เมฆ
- รหัส
- COM
- ชุมชน
- ซับซ้อน
- คำนวณ
- การคำนวณ
- ภาชนะบรรจุ
- แกน
- ราคา
- สร้าง
- การสร้าง
- การสร้าง
- วัฒนธรรม
- curated
- curation
- ลูกค้า
- การปรับแต่ง
- ตัดขอบ
- ข้อมูล
- วันที่
- วัน
- ลึก
- การเรียนรู้ลึก ๆ
- democratizing
- ปรับใช้
- ปรับใช้
- การใช้งาน
- การใช้งาน
- ออกแบบ
- ผู้พัฒนา
- ที่กำลังพัฒนา
- พัฒนาการ
- ไดเรกทอรี
- กระจาย
- DIY
- เอกสาร
- ลง
- ความสะดวก
- การให้ความรู้
- อย่างมีประสิทธิภาพ
- ง่ายดาย
- กากกะรุน
- เพิ่มขีดความสามารถ
- ส่งเสริม
- เครื่องยนต์
- วิศวกร
- ชั้นเยี่ยม
- เครื่องยนต์
- Enterprise
- ซอฟต์แวร์ระดับองค์กร
- จำเป็น
- การประเมินการ
- ประสบการณ์
- ผู้เชี่ยวชาญ
- อำนวยความสะดวก
- ครอบครัว
- คุณสมบัติ
- เนื้อไม่มีมัน
- หา
- เสร็จสิ้น
- ชื่อจริง
- เที่ยวบิน
- มุ่งเน้นไปที่
- โดยมุ่งเน้น
- ดังต่อไปนี้
- สำหรับ
- รากฐาน
- ราคาเริ่มต้นที่
- นอกจากนี้
- อนาคต
- รุ่น
- กำเนิด
- กำเนิด AI
- เครื่องกำเนิดไฟฟ้า
- เป้าหมาย
- GPU
- GPUs
- ยิ่งใหญ่
- ให้คำแนะนำ
- มี
- he
- จะช่วยให้
- จุดสูง
- ระดับสูง
- พระองค์
- ของเขา
- เจ้าภาพ
- เป็นเจ้าภาพ
- โฮสติ้ง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- ที่ http
- HTTPS
- ทันที
- การดำเนินการ
- in
- ลึกซึ้ง
- รวมทั้ง
- ชั้นนำของอุตสาหกรรม
- โครงสร้างพื้นฐาน
- นวัตกรรม
- เทคโนโลยีที่เป็นนวัตกรรม
- แทน
- รวบรวม
- แบบบูรณาการ
- รวม
- บูรณาการ
- อยากเรียนรู้
- เข้าไป
- บทนำ
- IT
- ซ้ำ
- jpeg
- jpg
- ความรู้
- ภาษา
- ใหญ่
- ความแอบแฝง
- ล่าสุด
- เปิดตัว
- เรียนรู้
- การเรียนรู้
- เลฟเวอเรจ
- กดไลก์
- จดทะเบียน
- ดูรายละเอียด
- LLM
- การเข้าสู่ระบบ
- ต่ำ
- เครื่อง
- เรียนรู้เครื่อง
- ทำ
- การทำ
- ผู้จัดการ
- เจ้านาย
- สูงสุด
- อาจ..
- วิธีการ
- microservices
- นาที
- ML
- ม.ป.ป
- แบบ
- โมเดล
- การตรวจสอบ
- ข้อมูลเพิ่มเติม
- แรงบันดาลใจ
- ภูเขา
- การย้าย
- หลาย
- โดยธรรมชาติ
- ประมวลผลภาษาธรรมชาติ
- ใกล้
- ใหม่
- ถัดไป
- NLP
- ตอนนี้
- จำนวน
- Nvidia
- of
- เสนอ
- การเสนอ
- เสนอ
- on
- ดีที่สุด
- การเพิ่มประสิทธิภาพ
- การเพิ่มประสิทธิภาพ
- เพิ่มประสิทธิภาพ
- การปรับให้เหมาะสม
- การเพิ่มประสิทธิภาพ
- ตัวเลือกเสริม (Option)
- or
- อื่นๆ
- ออก
- ด้านนอก
- ทั้งหมด
- ของตนเอง
- ต้องจ่าย
- ส่วนหนึ่ง
- ในสิ่งที่สนใจ
- หลงใหล
- การปฏิบัติ
- ที่มีประสิทธิภาพ
- พิซซ่า
- แผน
- เวที
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- ผู้เล่น
- เล่น
- โป๊กเกอร์
- ยอดนิยม
- โพสต์
- อำนาจ
- กระบวนการ
- การประมวลผล
- ผลิตภัณฑ์
- ผู้จัดการผลิตภัณฑ์
- การผลิต
- ผลิตภัณฑ์
- โครงการ
- ให้
- ผู้จัดหา
- ให้
- การให้
- รวดเร็ว
- ค่อนข้าง
- การอ่าน
- ที่เกี่ยวข้อง
- ความสัมพันธ์
- การร้องขอ
- จำเป็นต้องใช้
- วิ่ง
- รันไทม์
- sagemaker
- การอนุมาน SageMaker
- ปรับ
- การกำหนด
- นักวิทยาศาสตร์
- ได้อย่างลงตัว
- ที่กำลังมองหา
- ระดับอาวุโส
- เซิร์ฟเวอร์
- บริการ
- ผู้ให้บริการ
- บริการ
- การให้บริการ
- ชุด
- หลาย
- เงา
- โชว์
- ซอฟต์แวร์
- การพัฒนาซอฟต์แวร์
- วิศวกรซอฟต์แวร์
- ทางออก
- โซลูชัน
- ความตึงเครียด
- โดยเฉพาะ
- การใช้จ่าย
- กอง
- รัฐของศิลปะ
- การเข้าพัก
- ยังคง
- ซื่อตรง
- การสมัครสมาชิก
- ประสบความสำเร็จ
- อย่างเช่น
- สนับสนุน
- ที่สนับสนุน
- ระบบ
- ระบบ
- ปรับปรุง
- ทีม
- TechCrunch
- วิชาการ
- เทคนิค
- เทคโนโลยี
- เทคโนโลยี
- เทนนิส
- ข้อความ
- กว่า
- ที่
- พื้นที่
- ก้าวสู่อนาคต
- ของพวกเขา
- พวกเขา
- แล้วก็
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- นี้
- ตลอด
- เวลา
- ไปยัง
- เครื่องมือ
- การฝึกอบรม
- แนวโน้ม
- ไทรทัน
- ลอง
- ความเข้าใจ
- ใช้
- การใช้
- ยูทิลิตี้
- ความหลากหลาย
- มาก
- ที่รอ
- ชม
- we
- เว็บ
- บริการเว็บ
- เมื่อ
- ว่า
- ที่
- ในขณะที่
- ทั้งหมด
- จะ
- กับ
- งาน
- การทำงาน
- โรงงาน
- มันแกว
- คุณ
- ของคุณ
- ลมทะเล