Minimize Real-time Inference Latency By Using Amazon SageMaker Routing Strategies

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

อเมซอน SageMaker ทำให้ง่ายต่อการปรับใช้โมเดล Machine Learning (ML) สำหรับการอนุมานแบบเรียลไทม์ และเสนออินสแตนซ์ ML ที่หลากหลายซึ่งครอบคลุม CPU และตัวเร่งความเร็ว เช่น การอนุมาน AWS. ในฐานะบริการที่มีการจัดการเต็มรูปแบบ คุณสามารถปรับขนาดการปรับใช้โมเดลของคุณ ลดต้นทุนการอนุมาน และจัดการโมเดลของคุณได้อย่างมีประสิทธิภาพมากขึ้นในการผลิตด้วยภาระในการดำเนินงานที่ลดลง ตำแหน่งข้อมูลการอนุมานแบบเรียลไทม์ของ SageMaker ประกอบด้วยตำแหน่งข้อมูล HTTP และอินสแตนซ์ ML ที่ใช้งานทั่วทั้ง Availability Zone หลายแห่งเพื่อความพร้อมใช้งานสูง SageMaker แอปพลิเคชันปรับขนาดอัตโนมัติ สามารถปรับจำนวนอินสแตนซ์ ML ที่จัดเตรียมไว้สำหรับโมเดลได้แบบไดนามิกเพื่อตอบสนองต่อการเปลี่ยนแปลงปริมาณงาน ตำแหน่งข้อมูลจะกระจายคำขอขาเข้าไปยังอินสแตนซ์ ML อย่างสม่ำเสมอโดยใช้อัลกอริธึมแบบ Round-robin

เมื่อโมเดล ML ที่ใช้งานบนอินสแตนซ์ได้รับการเรียก API จากไคลเอนต์จำนวนมาก การกระจายคำขอแบบสุ่มจะทำงานได้ดีมากเมื่อคำขอและการตอบกลับของคุณไม่มีความแปรปรวนมากนัก แต่ในระบบที่มีปริมาณงาน AI เชิงสร้างสรรค์ คำขอและการตอบสนองอาจมีการเปลี่ยนแปลงอย่างมาก ในกรณีเหล่านี้ มักเป็นที่พึงปรารถนาที่จะปรับสมดุลโหลดโดยคำนึงถึงความจุและการใช้งานของอินสแตนซ์ แทนที่จะพิจารณาการปรับสมดุลโหลดแบบสุ่ม

ในโพสต์นี้ เราจะพูดถึงกลยุทธ์การกำหนดเส้นทางคำขอที่โดดเด่นน้อยที่สุด (LOR) ของ SageMaker และวิธีที่กลยุทธ์สามารถลดเวลาแฝงสำหรับปริมาณงานการอนุมานแบบเรียลไทม์บางประเภทโดยคำนึงถึงความจุและการใช้งานของอินสแตนซ์ ML เราพูดถึงคุณประโยชน์ของกลไกการกำหนดเส้นทางเริ่มต้น และวิธีที่คุณสามารถเปิดใช้งาน LOR สำหรับการปรับใช้โมเดลของคุณ สุดท้ายนี้ เราจะนำเสนอการวิเคราะห์เชิงเปรียบเทียบของการปรับปรุงเวลาแฝงด้วย LOR เหนือกลยุทธ์การกำหนดเส้นทางเริ่มต้นของการกำหนดเส้นทางแบบสุ่ม

กลยุทธ์ SageMaker LOR

ตามค่าเริ่มต้น ตำแหน่งข้อมูล SageMaker จะมีกลยุทธ์การกำหนดเส้นทางแบบสุ่ม ขณะนี้ SageMaker รองรับกลยุทธ์ LOR ซึ่งช่วยให้ SageMaker สามารถกำหนดเส้นทางคำขอไปยังอินสแตนซ์ที่เหมาะสมที่สุดที่จะตอบสนองคำขอนั้นได้อย่างเหมาะสมที่สุด SageMaker ทำให้สิ่งนี้เป็นไปได้โดยการตรวจสอบโหลดของอินสแตนซ์ที่อยู่ด้านหลังตำแหน่งข้อมูลของคุณและโมเดลหรือส่วนประกอบการอนุมานที่ใช้งานในแต่ละอินสแตนซ์

แผนภาพเชิงโต้ตอบต่อไปนี้แสดงนโยบายการกำหนดเส้นทางเริ่มต้นที่คำขอที่มาถึงจุดสิ้นสุดของโมเดลจะถูกส่งต่อในลักษณะสุ่มไปยังอินสแตนซ์ ML

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

แผนภาพเชิงโต้ตอบต่อไปนี้แสดงกลยุทธ์การกำหนดเส้นทางที่ SageMaker จะกำหนดเส้นทางคำขอไปยังอินสแตนซ์ที่มีจำนวนคำขอที่ค้างอยู่น้อยที่สุด

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

โดยทั่วไป การกำหนดเส้นทาง LOR จะทำงานได้ดีสำหรับโมเดลพื้นฐานหรือโมเดล AI ทั่วไป เมื่อโมเดลของคุณตอบสนองในหลายร้อยมิลลิวินาทีถึงนาที หากการตอบสนองของโมเดลของคุณมีเวลาแฝงต่ำกว่า (สูงถึงหลายร้อยมิลลิวินาที) คุณอาจได้รับประโยชน์มากขึ้นจากการกำหนดเส้นทางแบบสุ่ม ไม่ว่าอย่างไรก็ตาม เราขอแนะนำให้คุณทดสอบและระบุอัลกอริทึมการกำหนดเส้นทางที่ดีที่สุดสำหรับปริมาณงานของคุณ

วิธีการตั้งค่ากลยุทธ์การกำหนดเส้นทาง SageMaker

SageMaker ให้คุณตั้งค่าไฟล์ RoutingStrategy พารามิเตอร์ในขณะที่สร้าง EndpointConfiguration สำหรับจุดสิ้นสุด ความแตกต่าง RoutingStrategy ค่าที่ SageMaker รองรับคือ:

LEAST_OUTSTANDING_REQUESTS
RANDOM

ต่อไปนี้เป็นตัวอย่างการใช้งานโมเดลบนจุดสิ้นสุดการอนุมานที่เปิดใช้งาน LOR:

สร้างการกำหนดค่าอุปกรณ์ปลายทางโดยการตั้งค่า RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:

endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
)

สร้างตำแหน่งข้อมูลโดยใช้การกำหนดค่าตำแหน่งข้อมูล (ไม่มีการเปลี่ยนแปลง):
```
create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
)
```

ผลการดำเนินงาน

เราใช้การวัดประสิทธิภาพเพื่อวัดเวลาแฝงในการอนุมานจากต้นทางถึงปลายทางและปริมาณงานของ โคเดเจน2-7B โมเดลที่โฮสต์บนอินสแตนซ์ ml.g5.24xl พร้อมการกำหนดเส้นทางเริ่มต้นและจุดสิ้นสุดการกำหนดเส้นทางอัจฉริยะ โมเดล CodeGen2 เป็นของตระกูลโมเดลภาษาแบบถอยหลังอัตโนมัติ และสร้างโค้ดที่ปฏิบัติการได้เมื่อได้รับแจ้งเป็นภาษาอังกฤษ

ในการวิเคราะห์ของเรา เราได้เพิ่มจำนวนอินสแตนซ์ ml.g5.24xl ที่อยู่ด้านหลังแต่ละตำแหน่งข้อมูลสำหรับการทดสอบแต่ละครั้ง เนื่องจากจำนวนผู้ใช้พร้อมกันเพิ่มขึ้น ดังที่แสดงในตารางต่อไปนี้

ทดสอบ	จำนวนผู้ใช้พร้อมกัน	จำนวนอินสแตนซ์
1	4	1
2	20	5
3	40	10
4	60	15
5	80	20

เราวัดเวลาแฝง P99 จากต้นทางถึงปลายทางสำหรับปลายทางทั้งสองแห่ง และสังเกตเห็นการปรับปรุงเวลาแฝง 4–33% เมื่อจำนวนอินสแตนซ์เพิ่มขึ้นจาก 5 เป็น 20 ดังที่แสดงในกราฟต่อไปนี้

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ในทำนองเดียวกัน เราสังเกตเห็นการปรับปรุงปริมาณงานต่อนาทีต่ออินสแตนซ์เพิ่มขึ้น 15–16% เมื่อจำนวนอินสแตนซ์เพิ่มขึ้นจาก 5 เป็น 20

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

นี่แสดงให้เห็นว่าการกำหนดเส้นทางอัจฉริยะสามารถปรับปรุงการกระจายการรับส่งข้อมูลระหว่างจุดปลายทาง ซึ่งนำไปสู่การปรับปรุงเวลาแฝงจากต้นทางถึงปลายทางและปริมาณงานโดยรวม

สรุป

ในโพสต์นี้ เราได้อธิบายกลยุทธ์การกำหนดเส้นทางของ SageMaker และตัวเลือกใหม่ในการเปิดใช้งานการกำหนดเส้นทาง LOR เราได้อธิบายวิธีเปิดใช้งาน LOR และประโยชน์ที่จะเป็นประโยชน์ต่อการปรับใช้โมเดลของคุณ การทดสอบประสิทธิภาพของเราแสดงให้เห็นถึงการปรับปรุงเวลาแฝงและปริมาณงานในระหว่างการอนุมานแบบเรียลไทม์ หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับคุณสมบัติการกำหนดเส้นทาง SageMaker โปรดดูที่ เอกสาร. เราขอแนะนำให้คุณประเมินปริมาณงานการอนุมานของคุณ และพิจารณาว่าคุณได้รับการกำหนดค่าอย่างเหมาะสมที่สุดด้วยกลยุทธ์การกำหนดเส้นทางหรือไม่

เกี่ยวกับผู้เขียน

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. เจมส์พาร์ค เป็นสถาปนิกโซลูชันที่ Amazon Web Services เขาทำงานร่วมกับ Amazon.com เพื่อออกแบบ สร้าง และปรับใช้โซลูชันเทคโนโลยีบน AWS และมีความสนใจเป็นพิเศษในด้าน AI และการเรียนรู้ของเครื่อง ในเวลาว่างเขาสนุกกับการแสวงหาวัฒนธรรมใหม่ ประสบการณ์ใหม่ และติดตามเทรนด์เทคโนโลยีล่าสุด คุณสามารถพบเขาได้ที่ LinkedIn.

Venugopal ปาย เป็นสถาปนิกโซลูชันที่ AWS เขาอาศัยอยู่ในเบงกาลูรู ประเทศอินเดีย และช่วยเหลือลูกค้าที่เป็นเจ้าของภาษาดิจิทัลในการปรับขนาดและเพิ่มประสิทธิภาพแอปพลิเคชันของตนบน AWS

เดวิด นิเจนด้า เป็นวิศวกรอาวุโสด้านการพัฒนาซอฟต์แวร์ในทีม Amazon SageMaker ซึ่งขณะนี้กำลังปรับปรุงเวิร์กโฟลว์การเรียนรู้ของเครื่องที่ใช้งานจริง ตลอดจนเปิดตัวฟีเจอร์การอนุมานใหม่ ในเวลาว่าง เขาพยายามตามให้ทันลูกๆ ของเขา

ทีปติ ราฆะ เป็นวิศวกรพัฒนาซอฟต์แวร์ในทีม Amazon SageMaker งานปัจจุบันของเธอมุ่งเน้นไปที่การสร้างคุณลักษณะเพื่อโฮสต์โมเดลการเรียนรู้ของเครื่องอย่างมีประสิทธิภาพ ในเวลาว่าง เธอชอบการเดินทาง เดินป่า และปลูกพืช

อลัน ตัน เป็นผู้จัดการผลิตภัณฑ์อาวุโสของ SageMaker ซึ่งเป็นผู้นำในการอนุมานแบบจำลองขนาดใหญ่ เขาหลงใหลในการใช้แมชชีนเลิร์นนิงในด้านการวิเคราะห์ นอกเวลางาน เขาสนุกกับกิจกรรมกลางแจ้ง

ดาวัล พาเทล เป็นหัวหน้าสถาปนิก Machine Learning ที่ AWS เขาได้ทำงานร่วมกับองค์กรต่างๆ ตั้งแต่องค์กรขนาดใหญ่ไปจนถึงสตาร์ทอัพขนาดกลางในปัญหาที่เกี่ยวข้องกับการคำนวณแบบกระจายและปัญญาประดิษฐ์ เขามุ่งเน้นไปที่การเรียนรู้อย่างลึกซึ้งรวมถึงโดเมน NLP และ Computer Vision เขาช่วยให้ลูกค้าบรรลุการอนุมานแบบจำลองประสิทธิภาพสูงบน SageMaker

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/

ประทับเวลา: November 30, 2023

ประทับเวลา: มิถุนายน 23, 2023

เผยแพร่ซ้ำโดยเพลโต

บรรลุวุฒิภาวะ DevOps ด้วย BMC AMI zAdviser Enterprise และ Amazon Bedrock | อเมซอนเว็บเซอร์วิส

สร้างเวิร์กโฟลว์ MLOps ข้ามบัญชีโดยใช้การลงทะเบียนโมเดล Amazon SageMaker

สร้างเวิร์กโฟลว์การอนุมัติ Amazon SageMaker Model Registry และการส่งเสริมด้วยการแทรกแซงของมนุษย์ | อเมซอนเว็บเซอร์วิส

ปรับใช้โมเดลภาษาขนาดใหญ่บน AWS Inferentia2 โดยใช้คอนเทนเนอร์การอนุมานโมเดลขนาดใหญ่

ปรับใช้โมเดล Amazon SageMaker Autopilot กับปลายทางการอนุมานแบบไร้เซิร์ฟเวอร์

แนะนำการปรับแต่งความนิยมสำหรับรายการที่คล้ายกันใน Amazon Personalize | บริการเว็บอเมซอน

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้