บรรลุประสิทธิภาพสูงด้วยต้นทุนที่ต่ำที่สุดสำหรับการอนุมาน Generative AI โดยใช้ AWS Inferentia2 และ AWS Trainium บน Amazon SageMaker

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

โลกของปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิง (ML) ได้เห็นการเปลี่ยนแปลงกระบวนทัศน์ด้วยการเพิ่มขึ้นของแบบจำลอง AI ที่สามารถสร้างข้อความ รูปภาพ รหัส และเสียงที่เหมือนมนุษย์ เมื่อเทียบกับโมเดล ML แบบคลาสสิก โมเดล AI กำเนิดมีขนาดใหญ่กว่าและซับซ้อนกว่ามาก อย่างไรก็ตาม ความซับซ้อนที่เพิ่มขึ้นยังมาพร้อมกับค่าใช้จ่ายสูงสำหรับการอนุมานและความต้องการที่เพิ่มขึ้นสำหรับทรัพยากรการประมวลผลที่ทรงพลัง ค่าใช้จ่ายสูงในการอนุมานสำหรับโมเดล AI เชิงกำเนิดอาจเป็นอุปสรรคในการเข้าสู่ธุรกิจและนักวิจัยที่มีทรัพยากรจำกัด ทำให้จำเป็นต้องใช้โซลูชันที่มีประสิทธิภาพและคุ้มค่ามากขึ้น นอกจากนี้ กรณีการใช้งาน AI เชิงกำเนิดส่วนใหญ่เกี่ยวข้องกับการโต้ตอบของมนุษย์หรือสถานการณ์ในโลกแห่งความเป็นจริง ซึ่งจำเป็นต้องใช้ฮาร์ดแวร์ที่สามารถให้ประสิทธิภาพความหน่วงต่ำได้ AWS ได้สร้างสรรค์นวัตกรรมด้วยชิปที่สร้างขึ้นตามวัตถุประสงค์เพื่อตอบสนองความต้องการที่เพิ่มขึ้นสำหรับฮาร์ดแวร์การประมวลผลที่ทรงพลัง มีประสิทธิภาพ และคุ้มค่า

วันนี้เรารู้สึกตื่นเต้นที่จะประกาศว่า อเมซอน SageMaker สนับสนุน AWS Inferentia2 (ml.inf2) และ การฝึกอบรม AWS (ml.trn1) ตามอินสแตนซ์ SageMaker เพื่อโฮสต์โมเดล AI เชิงกำเนิดสำหรับการอนุมานแบบเรียลไทม์และแบบอะซิงโครนัส อินสแตนซ์ ml.inf2 พร้อมใช้งานสำหรับการปรับใช้โมเดลบน SageMaker ในสหรัฐอเมริกาฝั่งตะวันออก (โอไฮโอ) และอินสแตนซ์ ml.trn1 ในสหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียเหนือ)

คุณสามารถใช้อินสแตนซ์เหล่านี้บน SageMaker เพื่อให้ได้ประสิทธิภาพสูงด้วยต้นทุนที่ต่ำสำหรับโมเดล AI เชิงกำเนิด รวมถึงโมเดลภาษาขนาดใหญ่ (LLM) การแพร่กระจายที่เสถียร และทรานส์ฟอร์มการมองเห็น นอกจากนี้ คุณสามารถใช้ ผู้แนะนำการอนุมานของ Amazon SageMaker เพื่อช่วยคุณรันการทดสอบโหลดและประเมินประโยชน์ต่อประสิทธิภาพด้านราคาของการปรับใช้โมเดลของคุณในอินสแตนซ์เหล่านี้

คุณสามารถใช้อินสแตนซ์ ml.inf2 และ ml.trn1 เพื่อเรียกใช้แอปพลิเคชัน ML ของคุณบน SageMaker สำหรับการสรุปข้อความ การสร้างรหัส การสร้างวิดีโอและรูปภาพ การรู้จำเสียง การตั้งค่าส่วนบุคคล การตรวจจับการฉ้อโกง และอื่นๆ คุณสามารถเริ่มต้นได้ง่ายๆ โดยระบุอินสแตนซ์ ml.trn1 หรือ ml.inf2 เมื่อกำหนดค่าตำแหน่งข้อมูล SageMaker ของคุณ คุณสามารถใช้ AWS Deep Learning Containers (DLC) ที่เข้ากันได้กับ ml.trn1 และ ml.inf2 สำหรับ PyTorch, TensorFlow, Hugging Face และการอนุมานโมเดลขนาดใหญ่ (LMI) เพื่อเริ่มต้นใช้งานได้อย่างง่ายดาย สำหรับรายการเวอร์ชันทั้งหมด โปรดดูที่ รูปภาพคอนเทนเนอร์การเรียนรู้เชิงลึกที่มีอยู่.

ในโพสต์นี้ เราแสดงขั้นตอนการปรับใช้โมเดลภาษาขนาดใหญ่บน AWS Inferentia2 โดยใช้ SageMaker โดยไม่ต้องมีการเข้ารหัสเพิ่มเติม โดยใช้ประโยชน์จากคอนเทนเนอร์ LMI เราใช้ GPT4ALL-Jซึ่งเป็นโมเดล GPT-J 7B ที่ปรับแต่งอย่างละเอียดซึ่งให้การโต้ตอบแบบแชทบอท

ภาพรวมของอินสแตนซ์ ml.trn1 และ ml.inf2

อินสแตนซ์ ml.trn1 ขับเคลื่อนโดย Trainium accelerator ซึ่งสร้างขึ้นโดยมีวัตถุประสงค์หลักเพื่อการฝึกอบรมการเรียนรู้เชิงลึกที่มีประสิทธิภาพสูงของโมเดล AI เชิงกำเนิด รวมถึง LLM อย่างไรก็ตาม อินสแตนซ์เหล่านี้ยังรองรับปริมาณงานการอนุมานสำหรับโมเดลที่มีขนาดใหญ่กว่าที่เหมาะกับ Inf2 ขนาดอินสแตนซ์ที่ใหญ่ที่สุด อินสแตนซ์ trn1.32xlarge คุณลักษณะ 16 ตัวเร่งความเร็ว Trainium ด้วยหน่วยความจำตัวเร่งความเร็ว 512 GB ในอินสแตนซ์เดียวที่ให้กำลังประมวลผล FP3.4/BF16 สูงถึง 16 เพตาฟล็อป 16 ตัวเร่งความเร็ว Trainium เชื่อมต่อกับ NeuronLinkv2 ความเร็วสูงเป็นพิเศษเพื่อการสื่อสารแบบรวมที่คล่องตัว

อินสแตนซ์ ml.Inf2 ขับเคลื่อนโดย ตัวเร่ง AWS Inferentia2, ตัวเร่งความเร็วที่สร้างขึ้นเพื่อจุดประสงค์สำหรับการอนุมาน ให้ประสิทธิภาพการประมวลผลที่สูงขึ้นสามเท่า ทรูพุตที่สูงขึ้นถึงสี่เท่า และเวลาแฝงที่ต่ำกว่าถึง 10 เท่าเมื่อเทียบกับ AWS Inferentia รุ่นแรก ขนาดอินสแตนซ์ที่ใหญ่ที่สุด Inf2.48xlarge มีตัวเร่งความเร็ว AWS Inferentia12 2 ตัวพร้อมหน่วยความจำตัวเร่งความเร็ว 384 GB ในอินสแตนซ์เดียวสำหรับพลังประมวลผลรวม 2.3 เพตาฟล็อปสำหรับ BF16/FP16 ช่วยให้คุณสามารถปรับใช้โมเดลได้ถึง 175 พันล้านพารามิเตอร์ในอินสแตนซ์เดียว Inf2 เป็นอินสแตนซ์ที่ปรับให้เหมาะสมสำหรับการอนุมานเท่านั้นที่นำเสนอการเชื่อมต่อระหว่างกัน ซึ่งเป็นคุณลักษณะที่มีให้เฉพาะในอินสแตนซ์การฝึกอบรมที่มีราคาแพงกว่าเท่านั้น สำหรับรุ่นขนาดใหญ่พิเศษที่ไม่พอดีกับตัวเร่งความเร็วเดียว ข้อมูลจะไหลโดยตรงระหว่างตัวเร่งความเร็วด้วย NeuronLink โดยผ่าน CPU ไปโดยสิ้นเชิง ด้วย NeuronLink ทำให้ Inf2 รองรับการอนุมานแบบกระจายที่เร็วขึ้นและปรับปรุงทรูพุตและเวลาแฝง

ทั้ง AWS Inferentia2 และ Trainium Accelerator มีสองตัว NeuronCores-v2, สแต็กหน่วยความจำ HBM ขนาด 32 GB และเอ็นจิ้นการประมวลผลแบบรวมเฉพาะ ซึ่งปรับรันไทม์ให้เหมาะสมโดยอัตโนมัติด้วยการคำนวณและการสื่อสารที่ทับซ้อนกันเมื่อทำการอนุมานแบบหลายตัวเร่งความเร็ว สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับสถาปัตยกรรม โปรดดูที่ อุปกรณ์ Trainium และ Inferentia.

แผนภาพต่อไปนี้แสดงสถาปัตยกรรมตัวอย่างที่ใช้ AWS Inferentia2

AWS Neuron SDK

AWS เซลล์ประสาท เป็น SDK ที่ใช้ในการเรียกใช้ปริมาณงานการเรียนรู้เชิงลึกบนอินสแตนซ์ที่ใช้ AWS Inferentia และ Trainium AWS Neuron มีคอมไพเลอร์การเรียนรู้เชิงลึก รันไทม์ และเครื่องมือที่รวมเข้ากับ TensorFlow และ PyTorch โดยกำเนิด ด้วย Neuron คุณสามารถพัฒนา สร้างโปรไฟล์ และใช้งานปริมาณงาน ML ประสิทธิภาพสูงบน ml.trn1 และ ml.inf2

พื้นที่ คอมไพเลอร์เซลล์ประสาท ยอมรับโมเดล ML ในรูปแบบต่างๆ (TensorFlow, PyTorch, XLA HLO) และปรับแต่งให้ทำงานบนอุปกรณ์ Neuron คอมไพเลอร์ Neuron ถูกเรียกใช้ภายในเฟรมเวิร์ก ML โดยที่โมเดล ML จะถูกส่งไปยังคอมไพเลอร์โดยปลั๊กอิน Neuron framework สิ่งประดิษฐ์คอมไพเลอร์ที่เป็นผลลัพธ์เรียกว่าไฟล์ NEFF (รูปแบบไฟล์ปฏิบัติการ Neuron) ซึ่งรันไทม์ของ Neuron จะโหลดไปยังอุปกรณ์ Neuron

พื้นที่ รันไทม์ของเซลล์ประสาท ประกอบด้วยไดรเวอร์เคอร์เนลและไลบรารี C/C++ ซึ่งมี API เพื่อเข้าถึงอุปกรณ์ AWS Inferentia และ Trainium Neuron ปลั๊กอินเฟรมเวิร์ก Neuron ML สำหรับ TensorFlow และ PyTorch ใช้รันไทม์ของ Neuron เพื่อโหลดและรันโมเดลบน NeuronCores รันไทม์ของ Neuron โหลดโมเดลการเรียนรู้เชิงลึก (NEFF) ที่คอมไพล์แล้วไปยังอุปกรณ์ Neuron และปรับให้เหมาะสมสำหรับปริมาณงานสูงและเวลาแฝงต่ำ

โฮสต์โมเดล NLP โดยใช้อินสแตนซ์ SageMaker ml.inf2

ก่อนที่เราจะลงลึกในการให้บริการ LLMs กับ Transformers-neuronxซึ่งเป็นไลบรารีแบบโอเพ่นซอร์สสำหรับแยกย่อยเมทริกซ์น้ำหนักขนาดใหญ่ของโมเดลไปยัง NeuronCore หลายตัว เราจะมาพูดถึงขั้นตอนการปรับใช้โดยทั่วไปสำหรับโมเดลที่สามารถใส่ลงใน NeuronCore เดียวโดยสังเขป

ตรวจสอบ รายการรุ่นที่รองรับ เพื่อให้แน่ใจว่าโมเดลได้รับการสนับสนุนบน AWS Inferentia2 ถัดไป โมเดลจะต้องได้รับการคอมไพล์ล่วงหน้าโดย Neuron Compiler คุณสามารถใช้สมุดบันทึก SageMaker หรือ อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (Amazon EC2) เพื่อรวบรวมโมเดล คุณสามารถใช้ SageMaker Python SDK เพื่อปรับใช้โมเดลโดยใช้เฟรมเวิร์กการเรียนรู้เชิงลึกยอดนิยม เช่น PyTorch ดังที่แสดงในโค้ดต่อไปนี้ คุณสามารถปรับใช้โมเดลของคุณกับบริการโฮสติ้งของ SageMaker และรับตำแหน่งข้อมูลที่สามารถใช้ในการอนุมานได้ ตำแหน่งข้อมูลเหล่านี้ได้รับการจัดการอย่างสมบูรณ์และรองรับการปรับขนาดอัตโนมัติ

from sagemaker.pytorch.model import PyTorchModel pytorch_model = PyTorchModel( model_data=s3_model_uri, role=role, source_dir="code", entry_point="inference.py", image_uri=ecr_image
) predictor = pytorch_model.deploy( initial_instance_count=1, instance_type="ml.inf2.xlarge"
)

เอ่ยถึง โฟลว์ของนักพัฒนา สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับขั้นตอนการพัฒนาทั่วไปของ Inf2 บน SageMaker พร้อมสคริปต์ตัวอย่าง

โฮสต์ LLM โดยใช้อินสแตนซ์ SageMaker ml.inf2

โมเดลภาษาขนาดใหญ่ที่มีพารามิเตอร์หลายพันล้านตัวมักจะใหญ่เกินไปที่จะพอดีกับตัวเร่งความเร็วตัวเดียว สิ่งนี้จำเป็นต้องใช้เทคนิคแบบคู่ขนานสำหรับการโฮสต์ LLM ผ่านตัวเร่งความเร็วหลายตัว ข้อกำหนดที่สำคัญอีกประการหนึ่งสำหรับการโฮสต์ LLM คือการใช้โซลูชันการแสดงแบบจำลองที่มีประสิทธิภาพสูง โซลูชันนี้ควรโหลดโมเดลอย่างมีประสิทธิภาพ จัดการการแบ่งพาร์ติชัน และให้บริการคำขออย่างราบรื่นผ่านปลายทาง HTTP

SageMaker ประกอบด้วยคอนเทนเนอร์การเรียนรู้เชิงลึก (DLC) พิเศษ ไลบรารี และเครื่องมือสำหรับการขนานแบบจำลองและการอนุมานแบบจำลองขนาดใหญ่ สำหรับแหล่งข้อมูลในการเริ่มต้นใช้งาน LMI บน SageMaker โปรดดูที่ ความขนานของแบบจำลองและการอนุมานแบบจำลองขนาดใหญ่. SageMaker รักษา DLC ด้วยไลบรารีโอเพ่นซอร์สยอดนิยมสำหรับการโฮสต์โมเดลขนาดใหญ่ เช่น GPT, T5, OPT, BLOOM และ Stable Diffusion บนโครงสร้างพื้นฐาน AWS DLC พิเศษเหล่านี้เรียกว่าคอนเทนเนอร์ SageMaker LMI

คอนเทนเนอร์ SageMaker LMI ใช้ DJLServing ซึ่งเป็นเซิร์ฟเวอร์รุ่นที่รวมเข้ากับไลบรารี Transformers-neuronx เพื่อรองรับการขนานของเทนเซอร์ใน NeuronCores หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการทำงานของ DJLServing โปรดดูที่ ปรับใช้โมเดลขนาดใหญ่บน Amazon SageMaker โดยใช้ DJLServing และการอนุมานแบบขนานของโมเดล DeepSpeed. เซิร์ฟเวอร์โมเดล DJL และไลบรารี Transformers-neuronx ทำหน้าที่เป็นส่วนประกอบหลักของคอนเทนเนอร์ ซึ่งรวมถึง Neuron SDK ด้วย การตั้งค่านี้อำนวยความสะดวกในการโหลดโมเดลไปยัง AWS Inferentia2 accelerator ทำให้โมเดลเป็นแบบขนานใน NeuronCores หลายตัว และเปิดใช้การให้บริการผ่านจุดสิ้นสุด HTTP

คอนเทนเนอร์ LMI รองรับการโหลดโมเดลจาก บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) ที่ฝากข้อมูลหรือ Hugging Face Hub สคริปต์ตัวจัดการเริ่มต้นจะโหลดโมเดล คอมไพล์และแปลงเป็นรูปแบบที่ปรับให้เหมาะกับ Neuron แล้วโหลด หากต้องการใช้คอนเทนเนอร์ LMI เพื่อโฮสต์ LLM เรามีสองตัวเลือก:

ไม่มีรหัส (แนะนำ) – นี่เป็นวิธีที่ง่ายที่สุดในการปรับใช้ LLM โดยใช้คอนเทนเนอร์ LMI ในวิธีนี้ คุณสามารถใช้สิ่งที่ให้มา ตัวจัดการเริ่มต้น และเพียงแค่ส่งชื่อรุ่นและพารามิเตอร์ที่จำเป็นเข้าไป serving.properties ไฟล์สำหรับโหลดและโฮสต์โมเดล หากต้องการใช้ตัวจัดการเริ่มต้น เรามีให้ entryPoint พารามิเตอร์เป็น djl_python.transformers-neuronx.
นำสคริปต์ของคุณเอง – ในแนวทางนี้ คุณมีตัวเลือกในการสร้างไฟล์ model.py ของคุณเอง ซึ่งมีโค้ดที่จำเป็นสำหรับการโหลดและให้บริการโมเดล ไฟล์นี้ทำหน้าที่เป็นสื่อกลางระหว่าง DJLServing API และ transformers-neuronx API หากต้องการปรับแต่งกระบวนการโหลดโมเดล คุณสามารถระบุได้ serving.properties ด้วยพารามิเตอร์ที่กำหนดค่าได้ สำหรับรายการพารามิเตอร์ที่กำหนดค่าได้แบบครอบคลุม โปรดดูที่ ตัวเลือกการกำหนดค่า DJL ทั้งหมด. นี่คือตัวอย่างของ model.py ไฟล์

สถาปัตยกรรมรันไทม์

พื้นที่ tensor_parallel_degree ค่าคุณสมบัติกำหนดการกระจายของโมดูลคู่ขนานของเทนเซอร์ใน NeuronCores หลายตัว ตัวอย่างเช่น inf2.24xlarge มีตัวเร่งความเร็ว AWS Inferentia2 หกตัว AWS Inferentia2 Accelerator แต่ละตัวมี NeuronCore สองตัว NeuronCore แต่ละตัวมีหน่วยความจำแบนด์วิธสูง (HBM) เฉพาะ 16 GB ที่จัดเก็บโมดูลคู่ขนานของเทนเซอร์ ด้วยระดับขนานของเทนเซอร์ที่ 4 LMI จะจัดสรรสำเนาโมเดลสามชุดของโมเดลเดียวกัน โดยแต่ละชุดจะใช้ NeuronCore สี่ชุด ดังที่แสดงในไดอะแกรมต่อไปนี้ เมื่อคอนเทนเนอร์ LMI เริ่มทำงาน โมเดลจะถูกโหลดและติดตามก่อนในหน่วยความจำ CPU แอดเดรส เมื่อการติดตามเสร็จสิ้น โมเดลจะถูกแบ่งพาร์ติชันใน NeuronCores ตามองศาการขนานของเทนเซอร์

LMI ใช้ DJLServing เป็นโมเดลที่ให้บริการสแตก หลังจากผ่านการตรวจสอบความสมบูรณ์ของคอนเทนเนอร์ใน SageMaker แล้ว คอนเทนเนอร์ก็พร้อมที่จะให้บริการคำขอการอนุมาน DJLServing เปิดตัวกระบวนการ Python หลายกระบวนการเทียบเท่ากับ TOTAL NUMBER OF NEURON CORES/TENSOR_PARALLEL_DEGREE. แต่ละกระบวนการ Python มีเธรดใน C ++ ที่เทียบเท่ากับ TENSOR_PARALLEL_DEGREE. เธรด C++ แต่ละอันเก็บชิ้นส่วนของโมเดลไว้บน NeuronCore หนึ่งอัน

ผู้ปฏิบัติงานจำนวนมาก (กระบวนการ Python) มักจะเรียกใช้การอนุมานตามลำดับเมื่อเซิร์ฟเวอร์ถูกเรียกใช้ด้วยคำขออิสระหลายรายการ แม้ว่าจะตั้งค่าได้ง่ายกว่า แต่โดยปกติแล้วไม่ใช่แนวทางปฏิบัติที่ดีที่สุดในการใช้พลังการประมวลผลของตัวเร่งความเร็ว เพื่อแก้ปัญหานี้ DJLServing เสนอการปรับให้เหมาะสมในตัวของการแบทช์แบบไดนามิกเพื่อรวมคำขอการอนุมานอิสระเหล่านี้บนฝั่งเซิร์ฟเวอร์เพื่อสร้างแบทช์ที่ใหญ่ขึ้นแบบไดนามิกเพื่อเพิ่มปริมาณงาน คำขอทั้งหมดจะไปถึงตัวแบทช์แบบไดนามิกก่อนที่จะเข้าสู่คิวงานจริงเพื่อรอการอนุมาน คุณสามารถกำหนดขนาดแบทช์ที่คุณต้องการสำหรับการแบทช์แบบไดนามิกโดยใช้ปุ่ม batch_size การตั้งค่าใน serving.properties. คุณยังสามารถกำหนดค่า max_batch_delay เพื่อระบุเวลาหน่วงสูงสุดในแบทช์เพื่อรอคำขออื่นๆ เพื่อเข้าร่วมแบทช์ตามข้อกำหนดด้านเวลาแฝงของคุณ ทรูพุตยังขึ้นอยู่กับจำนวนของสำเนาโมเดลและกลุ่มกระบวนการ Python ที่เปิดใช้งานในคอนเทนเนอร์ ดังที่แสดงในแผนภาพต่อไปนี้ เมื่อตั้งค่าระดับขนานของเทนเซอร์เป็น 4 คอนเทนเนอร์ LMI จะเรียกใช้กลุ่มกระบวนการ Python สามกลุ่ม โดยแต่ละกลุ่มมีสำเนาทั้งหมดของแบบจำลอง สิ่งนี้ช่วยให้คุณเพิ่มขนาดแบทช์และรับปริมาณงานที่สูงขึ้น

สมุดบันทึก SageMaker สำหรับการปรับใช้ LLM

ในส่วนนี้ เรามีคำแนะนำแบบทีละขั้นตอนในการปรับใช้ GPT4All-J ซึ่งเป็นโมเดล 6 พันล้านพารามิเตอร์ที่มีขนาด 24 GB ใน FP32 GPT4All-J เป็นแชทบอทยอดนิยมที่ได้รับการฝึกอบรมเกี่ยวกับเนื้อหาการโต้ตอบที่หลากหลาย เช่น ปัญหาคำศัพท์ บทสนทนา รหัส บทกวี เพลง และเรื่องราว GPT4all-J เป็นโมเดล GPT-J ที่ปรับแต่งอย่างละเอียดซึ่งสร้างการตอบสนองที่คล้ายกับการโต้ตอบของมนุษย์

สมุดบันทึกที่สมบูรณ์สำหรับตัวอย่างนี้มีให้ใน GitHub. เราสามารถใช้ SageMaker Python SDK เพื่อปรับใช้โมเดลกับอินสแตนซ์ Inf2 เราใช้ที่ให้มา ตัวจัดการเริ่มต้น เพื่อโหลดโมเดล ด้วยสิ่งนี้ เราเพียงแค่ต้องจัดเตรียม สรรพคุณ ไฟล์. ไฟล์นี้มีการกำหนดค่าที่จำเป็นสำหรับเซิร์ฟเวอร์โมเดล DJL เพื่อดาวน์โหลดและโฮสต์โมเดล เราสามารถระบุชื่อรุ่น Hugging Face ได้โดยใช้ model_id พารามิเตอร์เพื่อดาวน์โหลดโมเดลโดยตรงจาก repo Hugging Face หรือคุณสามารถดาวน์โหลดโมเดลจาก Amazon S3 โดยระบุ s3url พารามิเตอร์. entryPoint พารามิเตอร์ถูกกำหนดค่าให้ชี้ไปที่ไลบรารีเพื่อโหลดโมเดล ดูรายละเอียดเพิ่มเติมได้ที่ djl_python.fastertransformerอ้างถึง รหัส GitHub.

พื้นที่ tensor_parallel_degree ค่าคุณสมบัติกำหนดการกระจายของโมดูลขนานเทนเซอร์ในอุปกรณ์ต่างๆ ตัวอย่างเช่น ด้วย 12 NeuronCores และระดับขนานของเทนเซอร์ที่ 4 LMI จะจัดสรรสำเนาโมเดลสามชุด แต่ละชุดใช้ NeuronCores สี่ชุด คุณยังสามารถกำหนดประเภทความแม่นยำได้โดยใช้คุณสมบัติ dtype. n_position พารามิเตอร์กำหนดผลรวมของความยาวลำดับอินพุตและเอาต์พุตสูงสุดสำหรับโมเดล ดูรหัสต่อไปนี้:

%%writefile serving.properties# Start writing content here
engine=Python
option.entryPoint=djl_python.transformers-neuronx
#option.model_id=nomic-ai/gpt4all-j
option.s3url = {{s3url}}
option.tensor_parallel_degree=2
option.model_loading_timeout=2400
option.n_positions=512

สร้าง tarball ที่มี serving.properties และอัปโหลดไปยังบัคเก็ต S3 แม้ว่าตัวจัดการเริ่มต้นจะใช้ในตัวอย่างนี้ คุณสามารถพัฒนา model.py ไฟล์สำหรับปรับแต่งกระบวนการโหลดและเสิร์ฟ หากมีแพ็คเกจใดที่ต้องติดตั้ง ให้รวมไว้ใน requirements.txt ไฟล์. ดูรหัสต่อไปนี้:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket() # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

รับอิมเมจคอนเทนเนอร์ DJL และสร้างโมเดล SageMaker:

##Retrieve djl container image
image_uri = image_uris.retrieve( framework="djl-deepspeed", region=sess.boto_session.region_name, version="0.21.0" )
image_uri = image_uri.split(":")[0] + ":" + "0.22.1-neuronx-sdk2.9.0" model = Model(image_uri=image_uri, model_data=code_artifact, env=env, role=role)

ต่อไป เราสร้างตำแหน่งข้อมูล SageMaker ด้วยการกำหนดค่าโมเดลที่กำหนดไว้ก่อนหน้านี้ คอนเทนเนอร์ดาวน์โหลดโมเดลลงใน /tmp พื้นที่เนื่องจาก SageMaker ทำแผนที่ /tmp ไปยัง ร้านค้า Amazon Elastic Block (อีบีเอสของอเมซอน). เราต้องเพิ่ม volume_size พารามิเตอร์เพื่อให้แน่ใจว่า /tmp ไดเร็กทอรีมีพื้นที่เพียงพอสำหรับดาวน์โหลดและคอมไพล์โมเดล เราตั้ง container_startup_health_check_timeout ถึง 3,600 วินาทีเพื่อให้แน่ใจว่าการตรวจสุขภาพจะเริ่มขึ้นหลังจากที่โมเดลพร้อม เราใช้อินสแตนซ์ ml.inf2.8xlarge ดูรหัสต่อไปนี้:

instance_type = "ml.inf2.8xlarge"
endpoint_name = sagemaker.utils.name_from_base("lmi-model") model.deploy(initial_instance_count=1, instance_type=instance_type, endpoint_name=endpoint_name, container_startup_health_check_timeout=3600, volume_size=256 )

หลังจากสร้างตำแหน่งข้อมูล SageMaker แล้ว เราสามารถคาดการณ์ตามเวลาจริงเทียบกับตำแหน่งข้อมูล SageMaker โดยใช้ Predictor วัตถุ:

# our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor( endpoint_name=endpoint_name, sagemaker_session=sess, serializer=serializers.JSONSerializer(), deserializer=deserializers.JSONDeserializer(),
) predictor.predict( {"inputs": "write a blog on new York", "parameters": {}}
)

ทำความสะอาด

ลบปลายทางเพื่อประหยัดค่าใช้จ่ายหลังจากเสร็จสิ้นการทดสอบ:

# - Delete the end point
sess.delete_endpoint(endpoint_name)
sess.delete_endpoint_config(endpoint_name)
model.delete_model()

สรุป

ในโพสต์นี้ เราได้แสดงความสามารถที่เพิ่งเปิดตัวใหม่ของ SageMaker ซึ่งขณะนี้รองรับอินสแตนซ์ ml.inf2 และ ml.trn1 สำหรับการโฮสต์โมเดล AI เชิงกำเนิด เราสาธิตวิธีปรับใช้ GPT4ALL-J ซึ่งเป็นโมเดล AI เชิงกำเนิด บน AWS Inferentia2 โดยใช้ SageMaker และคอนเทนเนอร์ LMI โดยไม่ต้องเขียนโค้ดใดๆ เรายังแสดงวิธีที่คุณสามารถใช้ DJLServing และ transformers-neuronx เพื่อโหลดโมเดล แบ่งพาร์ติชัน และให้บริการ

อินสแตนซ์ Inf2 มอบวิธีที่คุ้มค่าที่สุดในการรันโมเดล AI เชิงกำเนิดบน AWS สำหรับรายละเอียดประสิทธิภาพ โปรดดูที่ ประสิทธิภาพของ Inf2.

วันที่ออก GitHub repo สำหรับสมุดบันทึกตัวอย่าง ลองใช้และแจ้งให้เราทราบหากคุณมีคำถามใดๆ!

เกี่ยวกับผู้เขียน

วิเวกกังสนิ เป็นสถาปนิกอาวุโสด้านโซลูชันการเรียนรู้ของเครื่องที่ Amazon Web Services เขาทำงานร่วมกับ Machine Learning Startups เพื่อสร้างและปรับใช้แอปพลิเคชัน AI/ML บน AWS ปัจจุบันเขามุ่งเน้นไปที่การนำเสนอโซลูชันสำหรับ MLOps, ML Inference และ ML แบบโค้ดต่ำ เขาทำงานในโครงการต่างๆ ในโดเมนต่างๆ รวมถึง Natural Language Processing และ Computer Vision

ฮิโรชิ โทโคโยะ เป็นสถาปนิกโซลูชันที่ AWS Annapurna Labs เขาเข้าร่วมกับ Annapurna Labs ซึ่งตั้งอยู่ในประเทศญี่ปุ่นก่อนที่จะถูก AWS ซื้อกิจการเสียอีก และได้ช่วยเหลือลูกค้าอย่างต่อเนื่องด้วยเทคโนโลยี Annapurna Labs ความสนใจล่าสุดของเขาคือโซลูชันแมชชีนเลิร์นนิงที่ใช้ซิลิคอน AWS Inferentia และ Trainium ที่สร้างขึ้นตามวัตถุประสงค์

ดาวัล พาเทล เป็นหัวหน้าสถาปนิก Machine Learning ที่ AWS เขาได้ทำงานร่วมกับองค์กรต่างๆ ตั้งแต่องค์กรขนาดใหญ่ไปจนถึงสตาร์ทอัพขนาดกลางในปัญหาที่เกี่ยวข้องกับการคำนวณแบบกระจายและปัญญาประดิษฐ์ เขามุ่งเน้นไปที่การเรียนรู้อย่างลึกซึ้งรวมถึงโดเมน NLP และ Computer Vision เขาช่วยให้ลูกค้าบรรลุการอนุมานแบบจำลองประสิทธิภาพสูงบน SageMaker

ชิงหลาน เป็นวิศวกรพัฒนาซอฟต์แวร์ใน AWS เขาทำงานเกี่ยวกับผลิตภัณฑ์ที่ท้าทายหลายอย่างใน Amazon รวมถึงโซลูชันการอนุมาน ML ประสิทธิภาพสูงและระบบการบันทึกที่มีประสิทธิภาพสูง ทีมของ Qing ประสบความสำเร็จในการเปิดตัวโมเดลพารามิเตอร์พันล้านรายการแรกใน Amazon Advertising โดยต้องมีเวลาแฝงที่ต่ำมาก Qing มีความรู้เชิงลึกเกี่ยวกับการเพิ่มประสิทธิภาพโครงสร้างพื้นฐานและการเร่งการเรียนรู้เชิงลึก

ชิงเหว่ย ลี่ เป็นผู้เชี่ยวชาญด้าน Machine Learning ที่ Amazon Web Services เขาได้รับปริญญาเอกของเขา ใน Operations Research หลังจากที่เขาทำลายบัญชีทุนวิจัยของที่ปรึกษาและล้มเหลวในการมอบรางวัลโนเบลที่เขาสัญญาไว้ ปัจจุบันเขาช่วยลูกค้าในอุตสาหกรรมบริการทางการเงินและประกันภัยสร้างโซลูชันแมชชีนเลิร์นนิงบน AWS เวลาว่างชอบอ่านหนังสือและสอน

อลัน ตัน เป็นผู้จัดการผลิตภัณฑ์อาวุโสที่มี SageMaker เป็นผู้นำในการอนุมานแบบจำลองขนาดใหญ่ เขาหลงใหลในการใช้แมชชีนเลิร์นนิงในด้านการวิเคราะห์ นอกเวลางาน เขาสนุกกับกิจกรรมกลางแจ้ง

บรรลุประสิทธิภาพสูงด้วยต้นทุนที่ต่ำที่สุดสำหรับการอนุมาน Generative AI โดยใช้ AWS Inferentia2 และ AWS Trainium บน Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. วรุณ ศัล เป็นวิศวกรพัฒนาซอฟต์แวร์ของ AWS Sagemaker ซึ่งทำงานเกี่ยวกับฟีเจอร์สำคัญที่ลูกค้าต้องเผชิญสำหรับแพลตฟอร์ม ML Inference เขามีความกระตือรือร้นในการทำงานด้าน Distributed Systems และ AI เวลาว่างชอบอ่านหนังสือและทำสวน