ลดเวลาแฝงในการอนุมานแบบเรียลไทม์โดยใช้กลยุทธ์การกำหนดเส้นทาง Amazon SageMaker อเมซอนเว็บเซอร์วิส

ลดเวลาแฝงในการอนุมานแบบเรียลไทม์โดยใช้กลยุทธ์การกำหนดเส้นทาง Amazon SageMaker อเมซอนเว็บเซอร์วิส

อเมซอน SageMaker ทำให้ง่ายต่อการปรับใช้โมเดล Machine Learning (ML) สำหรับการอนุมานแบบเรียลไทม์ และเสนออินสแตนซ์ ML ที่หลากหลายซึ่งครอบคลุม CPU และตัวเร่งความเร็ว เช่น การอนุมาน AWS. ในฐานะบริการที่มีการจัดการเต็มรูปแบบ คุณสามารถปรับขนาดการปรับใช้โมเดลของคุณ ลดต้นทุนการอนุมาน และจัดการโมเดลของคุณได้อย่างมีประสิทธิภาพมากขึ้นในการผลิตด้วยภาระในการดำเนินงานที่ลดลง ตำแหน่งข้อมูลการอนุมานแบบเรียลไทม์ของ SageMaker ประกอบด้วยตำแหน่งข้อมูล HTTP และอินสแตนซ์ ML ที่ใช้งานทั่วทั้ง Availability Zone หลายแห่งเพื่อความพร้อมใช้งานสูง SageMaker แอปพลิเคชันปรับขนาดอัตโนมัติ สามารถปรับจำนวนอินสแตนซ์ ML ที่จัดเตรียมไว้สำหรับโมเดลได้แบบไดนามิกเพื่อตอบสนองต่อการเปลี่ยนแปลงปริมาณงาน ตำแหน่งข้อมูลจะกระจายคำขอขาเข้าไปยังอินสแตนซ์ ML อย่างสม่ำเสมอโดยใช้อัลกอริธึมแบบ Round-robin

เมื่อโมเดล ML ที่ใช้งานบนอินสแตนซ์ได้รับการเรียก API จากไคลเอนต์จำนวนมาก การกระจายคำขอแบบสุ่มจะทำงานได้ดีมากเมื่อคำขอและการตอบกลับของคุณไม่มีความแปรปรวนมากนัก แต่ในระบบที่มีปริมาณงาน AI เชิงสร้างสรรค์ คำขอและการตอบสนองอาจมีการเปลี่ยนแปลงอย่างมาก ในกรณีเหล่านี้ มักเป็นที่พึงปรารถนาที่จะปรับสมดุลโหลดโดยคำนึงถึงความจุและการใช้งานของอินสแตนซ์ แทนที่จะพิจารณาการปรับสมดุลโหลดแบบสุ่ม

ในโพสต์นี้ เราจะพูดถึงกลยุทธ์การกำหนดเส้นทางคำขอที่โดดเด่นน้อยที่สุด (LOR) ของ SageMaker และวิธีที่กลยุทธ์สามารถลดเวลาแฝงสำหรับปริมาณงานการอนุมานแบบเรียลไทม์บางประเภทโดยคำนึงถึงความจุและการใช้งานของอินสแตนซ์ ML เราพูดถึงคุณประโยชน์ของกลไกการกำหนดเส้นทางเริ่มต้น และวิธีที่คุณสามารถเปิดใช้งาน LOR สำหรับการปรับใช้โมเดลของคุณ สุดท้ายนี้ เราจะนำเสนอการวิเคราะห์เชิงเปรียบเทียบของการปรับปรุงเวลาแฝงด้วย LOR เหนือกลยุทธ์การกำหนดเส้นทางเริ่มต้นของการกำหนดเส้นทางแบบสุ่ม

กลยุทธ์ SageMaker LOR

ตามค่าเริ่มต้น ตำแหน่งข้อมูล SageMaker จะมีกลยุทธ์การกำหนดเส้นทางแบบสุ่ม ขณะนี้ SageMaker รองรับกลยุทธ์ LOR ซึ่งช่วยให้ SageMaker สามารถกำหนดเส้นทางคำขอไปยังอินสแตนซ์ที่เหมาะสมที่สุดที่จะตอบสนองคำขอนั้นได้อย่างเหมาะสมที่สุด SageMaker ทำให้สิ่งนี้เป็นไปได้โดยการตรวจสอบโหลดของอินสแตนซ์ที่อยู่ด้านหลังตำแหน่งข้อมูลของคุณและโมเดลหรือส่วนประกอบการอนุมานที่ใช้งานในแต่ละอินสแตนซ์

แผนภาพเชิงโต้ตอบต่อไปนี้แสดงนโยบายการกำหนดเส้นทางเริ่มต้นที่คำขอที่มาถึงจุดสิ้นสุดของโมเดลจะถูกส่งต่อในลักษณะสุ่มไปยังอินสแตนซ์ ML

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

แผนภาพเชิงโต้ตอบต่อไปนี้แสดงกลยุทธ์การกำหนดเส้นทางที่ SageMaker จะกำหนดเส้นทางคำขอไปยังอินสแตนซ์ที่มีจำนวนคำขอที่ค้างอยู่น้อยที่สุด

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

โดยทั่วไป การกำหนดเส้นทาง LOR จะทำงานได้ดีสำหรับโมเดลพื้นฐานหรือโมเดล AI ทั่วไป เมื่อโมเดลของคุณตอบสนองในหลายร้อยมิลลิวินาทีถึงนาที หากการตอบสนองของโมเดลของคุณมีเวลาแฝงต่ำกว่า (สูงถึงหลายร้อยมิลลิวินาที) คุณอาจได้รับประโยชน์มากขึ้นจากการกำหนดเส้นทางแบบสุ่ม ไม่ว่าอย่างไรก็ตาม เราขอแนะนำให้คุณทดสอบและระบุอัลกอริทึมการกำหนดเส้นทางที่ดีที่สุดสำหรับปริมาณงานของคุณ

วิธีการตั้งค่ากลยุทธ์การกำหนดเส้นทาง SageMaker

SageMaker ให้คุณตั้งค่าไฟล์ RoutingStrategy พารามิเตอร์ในขณะที่สร้าง EndpointConfiguration สำหรับจุดสิ้นสุด ความแตกต่าง RoutingStrategy ค่าที่ SageMaker รองรับคือ:

  • LEAST_OUTSTANDING_REQUESTS
  • RANDOM

ต่อไปนี้เป็นตัวอย่างการใช้งานโมเดลบนจุดสิ้นสุดการอนุมานที่เปิดใช้งาน LOR:

  1. สร้างการกำหนดค่าอุปกรณ์ปลายทางโดยการตั้งค่า RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:
    endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
    )

  2. สร้างตำแหน่งข้อมูลโดยใช้การกำหนดค่าตำแหน่งข้อมูล (ไม่มีการเปลี่ยนแปลง):
    create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
    )

ผลการดำเนินงาน

เราใช้การวัดประสิทธิภาพเพื่อวัดเวลาแฝงในการอนุมานจากต้นทางถึงปลายทางและปริมาณงานของ โคเดเจน2-7B โมเดลที่โฮสต์บนอินสแตนซ์ ml.g5.24xl พร้อมการกำหนดเส้นทางเริ่มต้นและจุดสิ้นสุดการกำหนดเส้นทางอัจฉริยะ โมเดล CodeGen2 เป็นของตระกูลโมเดลภาษาแบบถอยหลังอัตโนมัติ และสร้างโค้ดที่ปฏิบัติการได้เมื่อได้รับแจ้งเป็นภาษาอังกฤษ

ในการวิเคราะห์ของเรา เราได้เพิ่มจำนวนอินสแตนซ์ ml.g5.24xl ที่อยู่ด้านหลังแต่ละตำแหน่งข้อมูลสำหรับการทดสอบแต่ละครั้ง เนื่องจากจำนวนผู้ใช้พร้อมกันเพิ่มขึ้น ดังที่แสดงในตารางต่อไปนี้

ทดสอบ จำนวนผู้ใช้พร้อมกัน จำนวนอินสแตนซ์
1 4 1
2 20 5
3 40 10
4 60 15
5 80 20

เราวัดเวลาแฝง P99 จากต้นทางถึงปลายทางสำหรับปลายทางทั้งสองแห่ง และสังเกตเห็นการปรับปรุงเวลาแฝง 4–33% เมื่อจำนวนอินสแตนซ์เพิ่มขึ้นจาก 5 เป็น 20 ดังที่แสดงในกราฟต่อไปนี้

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ในทำนองเดียวกัน เราสังเกตเห็นการปรับปรุงปริมาณงานต่อนาทีต่ออินสแตนซ์เพิ่มขึ้น 15–16% เมื่อจำนวนอินสแตนซ์เพิ่มขึ้นจาก 5 เป็น 20

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

นี่แสดงให้เห็นว่าการกำหนดเส้นทางอัจฉริยะสามารถปรับปรุงการกระจายการรับส่งข้อมูลระหว่างจุดปลายทาง ซึ่งนำไปสู่การปรับปรุงเวลาแฝงจากต้นทางถึงปลายทางและปริมาณงานโดยรวม

สรุป

ในโพสต์นี้ เราได้อธิบายกลยุทธ์การกำหนดเส้นทางของ SageMaker และตัวเลือกใหม่ในการเปิดใช้งานการกำหนดเส้นทาง LOR เราได้อธิบายวิธีเปิดใช้งาน LOR และประโยชน์ที่จะเป็นประโยชน์ต่อการปรับใช้โมเดลของคุณ การทดสอบประสิทธิภาพของเราแสดงให้เห็นถึงการปรับปรุงเวลาแฝงและปริมาณงานในระหว่างการอนุมานแบบเรียลไทม์ หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับคุณสมบัติการกำหนดเส้นทาง SageMaker โปรดดูที่ เอกสาร. เราขอแนะนำให้คุณประเมินปริมาณงานการอนุมานของคุณ และพิจารณาว่าคุณได้รับการกำหนดค่าอย่างเหมาะสมที่สุดด้วยกลยุทธ์การกำหนดเส้นทางหรือไม่


เกี่ยวกับผู้เขียน

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.เจมส์พาร์ค เป็นสถาปนิกโซลูชันที่ Amazon Web Services เขาทำงานร่วมกับ Amazon.com เพื่อออกแบบ สร้าง และปรับใช้โซลูชันเทคโนโลยีบน AWS และมีความสนใจเป็นพิเศษในด้าน AI และการเรียนรู้ของเครื่อง ในเวลาว่างเขาสนุกกับการแสวงหาวัฒนธรรมใหม่ ประสบการณ์ใหม่ และติดตามเทรนด์เทคโนโลยีล่าสุด คุณสามารถพบเขาได้ที่ LinkedIn.

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Venugopal ปาย เป็นสถาปนิกโซลูชันที่ AWS เขาอาศัยอยู่ในเบงกาลูรู ประเทศอินเดีย และช่วยเหลือลูกค้าที่เป็นเจ้าของภาษาดิจิทัลในการปรับขนาดและเพิ่มประสิทธิภาพแอปพลิเคชันของตนบน AWS

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.เดวิด นิเจนด้า เป็นวิศวกรอาวุโสด้านการพัฒนาซอฟต์แวร์ในทีม Amazon SageMaker ซึ่งขณะนี้กำลังปรับปรุงเวิร์กโฟลว์การเรียนรู้ของเครื่องที่ใช้งานจริง ตลอดจนเปิดตัวฟีเจอร์การอนุมานใหม่ ในเวลาว่าง เขาพยายามตามให้ทันลูกๆ ของเขา

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.ทีปติ ราฆะ เป็นวิศวกรพัฒนาซอฟต์แวร์ในทีม Amazon SageMaker งานปัจจุบันของเธอมุ่งเน้นไปที่การสร้างคุณลักษณะเพื่อโฮสต์โมเดลการเรียนรู้ของเครื่องอย่างมีประสิทธิภาพ ในเวลาว่าง เธอชอบการเดินทาง เดินป่า และปลูกพืช

อลัน ตันอลัน ตัน เป็นผู้จัดการผลิตภัณฑ์อาวุโสของ SageMaker ซึ่งเป็นผู้นำในการอนุมานแบบจำลองขนาดใหญ่ เขาหลงใหลในการใช้แมชชีนเลิร์นนิงในด้านการวิเคราะห์ นอกเวลางาน เขาสนุกกับกิจกรรมกลางแจ้ง

Minimize real-time inference latency by using Amazon SageMaker routing strategies | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.ดาวัล พาเทล เป็นหัวหน้าสถาปนิก Machine Learning ที่ AWS เขาได้ทำงานร่วมกับองค์กรต่างๆ ตั้งแต่องค์กรขนาดใหญ่ไปจนถึงสตาร์ทอัพขนาดกลางในปัญหาที่เกี่ยวข้องกับการคำนวณแบบกระจายและปัญญาประดิษฐ์ เขามุ่งเน้นไปที่การเรียนรู้อย่างลึกซึ้งรวมถึงโดเมน NLP และ Computer Vision เขาช่วยให้ลูกค้าบรรลุการอนุมานแบบจำลองประสิทธิภาพสูงบน SageMaker

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS