ขอแนะนำ Amazon SageMaker Serverless Inference Benchmarking Toolkit

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

การอนุมานแบบไร้เซิร์ฟเวอร์ของ Amazon SageMaker เป็นตัวเลือกการอนุมานที่มีจุดประสงค์เพื่อให้คุณปรับใช้และปรับขนาดโมเดลการเรียนรู้ของเครื่อง (ML) ได้ง่าย มีรูปแบบการจ่ายตามการใช้งาน ซึ่งเหมาะสำหรับบริการที่มีการเรียกใช้ปลายทางไม่บ่อยและคาดเดาไม่ได้ ต่างจากปลายทางการโฮสต์แบบเรียลไทม์ซึ่งได้รับการสนับสนุนจากอินสแตนซ์ที่ทำงานมายาวนาน ทรัพยากรการประมวลผลสำหรับปลายทางแบบไร้เซิร์ฟเวอร์นั้นได้รับการจัดเตรียมตามความต้องการ ดังนั้นจึงไม่จำเป็นต้องเลือกประเภทอินสแตนซ์หรือจัดการนโยบายการปรับขนาด

สถาปัตยกรรมระดับสูงต่อไปนี้แสดงให้เห็นว่าปลายทางแบบไร้เซิร์ฟเวอร์ทำงานอย่างไร ลูกค้าเรียกใช้ปลายทางซึ่งได้รับการสนับสนุนโดยโครงสร้างพื้นฐานที่มีการจัดการของ AWS

อย่างไรก็ตาม จุดปลายแบบไร้เซิร์ฟเวอร์มีแนวโน้มที่จะเริ่มระบบเย็นในลำดับวินาที ดังนั้นจึงเหมาะสำหรับปริมาณงานที่ไม่สม่ำเสมอหรือที่คาดการณ์ไม่ได้

เพื่อช่วยตรวจสอบว่าปลายทางแบบไร้เซิร์ฟเวอร์เป็นตัวเลือกการปรับใช้ที่เหมาะสมจากมุมมองด้านต้นทุนและประสิทธิภาพหรือไม่ เราได้พัฒนา ชุดเครื่องมือเปรียบเทียบการอนุมานแบบไร้เซิร์ฟเวอร์ของ SageMakerซึ่งทดสอบการกำหนดค่าปลายทางต่างๆ และเปรียบเทียบการกำหนดค่าที่เหมาะสมที่สุดกับอินสแตนซ์โฮสติ้งแบบเรียลไทม์ที่เปรียบเทียบกันได้

ในบทความนี้ เราจะแนะนำชุดเครื่องมือและให้ภาพรวมของการกำหนดค่าและผลลัพธ์

ภาพรวมโซลูชัน

คุณสามารถดาวน์โหลดชุดเครื่องมือและติดตั้งได้จาก repo GitHub. เริ่มต้นง่าย: เพียงติดตั้งไลบรารี สร้าง a รุ่น SageMakerและระบุชื่อโมเดลของคุณพร้อมกับไฟล์ที่จัดรูปแบบบรรทัด JSON ที่มีชุดตัวอย่างพารามิเตอร์การเรียกใช้ รวมถึงเนื้อหาเพย์โหลดและประเภทเนื้อหา มีฟังก์ชันอำนวยความสะดวกเพื่อแปลงรายการอาร์กิวเมนต์การเรียกใช้ตัวอย่างเป็นไฟล์บรรทัด JSON หรือไฟล์ pickle สำหรับเพย์โหลดไบนารี เช่น รูปภาพ วิดีโอ หรือเสียง

ติดตั้งชุดเครื่องมือ

ขั้นแรกให้ติดตั้งไลบรารีการเปรียบเทียบในสภาพแวดล้อม Python ของคุณโดยใช้ pip:

pip install sm-serverless-benchmarking

คุณสามารถเรียกใช้รหัสต่อไปนี้จากan สตูดิโอ Amazon SageMaker ตัวอย่าง, อินสแตนซ์โน้ตบุ๊ก SageMaker, หรือกรณีใดๆ กับ การเข้าถึงแบบเป็นโปรแกรม ให้กับ AWS และความเหมาะสม AWS Identity และการจัดการการเข้าถึง (IAM) สิทธิ์ สิทธิ์ IAM ที่จำเป็นได้รับการบันทึกไว้ใน repo GitHub. สำหรับคำแนะนำเพิ่มเติมและนโยบายตัวอย่างสำหรับ IAM โปรดดูที่ Amazon SageMaker ทำงานร่วมกับ IAM . อย่างไร. รหัสนี้เรียกใช้การวัดประสิทธิภาพด้วยชุดพารามิเตอร์เริ่มต้นในแบบจำลองที่คาดหวังอินพุต CSV พร้อมระเบียนตัวอย่างสองรายการ แนวทางปฏิบัติที่ดีคือการจัดหาชุดตัวอย่างที่เป็นตัวแทนเพื่อวิเคราะห์ว่าปลายทางทำงานอย่างไรกับเพย์โหลดอินพุตต่างๆ

from sm_serverless_benchmarking import benchmark
from sm_serverless_benchmarking.utils import convert_invoke_args_to_jsonl
model_name = ""
example_invoke_args = [
        {'Body': '1,2,3,4,5', "ContentType": "text/csv"},
        {'Body': '6,7,8,9,10', "ContentType": "text/csv"}
        ]
example_args_file = convert_invoke_args_to_jsonl(example_invoke_args,
output_path=".")
r = benchmark.run_serverless_benchmarks(model_name, example_args_file)

นอกจากนี้ คุณสามารถเรียกใช้การวัดประสิทธิภาพเป็นงานการประมวลผล SageMaker ซึ่งอาจเป็นตัวเลือกที่น่าเชื่อถือมากขึ้นสำหรับการวัดประสิทธิภาพที่ทำงานยาวนานขึ้นพร้อมการเรียกใช้จำนวนมาก ดูรหัสต่อไปนี้:

from sm_serverless_benchmarking.sagemaker_runner import run_as_sagemaker_job
run_as_sagemaker_job(
                    role="",
                    model_name="",
                    invoke_args_examples_file="",
                    )

โปรดทราบว่าการดำเนินการนี้จะมีค่าใช้จ่ายเพิ่มเติมในการเรียกใช้อินสแตนซ์การประมวลผล SageMaker ml.m5.large ในช่วงระยะเวลาของการเปรียบเทียบ

ทั้งสองวิธียอมรับพารามิเตอร์จำนวนหนึ่งเพื่อกำหนดค่า เช่น รายการการกำหนดค่าหน่วยความจำเพื่อวัดประสิทธิภาพและจำนวนครั้งที่เรียกใช้การกำหนดค่าแต่ละรายการ ในกรณีส่วนใหญ่ ตัวเลือกเริ่มต้นควรเพียงพอสำหรับจุดเริ่มต้น แต่อ้างอิงถึง repo GitHub สำหรับรายการที่สมบูรณ์และคำอธิบายของแต่ละพารามิเตอร์

การกำหนดค่าการเปรียบเทียบ

ก่อนที่จะเจาะลึกถึงสิ่งที่เบนช์มาร์กทำและผลลัพธ์ที่ได้ สิ่งสำคัญคือต้องเข้าใจแนวคิดหลักสองสามข้อในการกำหนดค่าปลายทางแบบไร้เซิร์ฟเวอร์

มี สองตัวเลือกการกำหนดค่าที่สำคัญ: MemorySizeInMB และ MaxConcurrency. MemorySizeInMB กำหนดค่าจำนวนหน่วยความจำที่จัดสรรให้กับอินสแตนซ์ และสามารถเป็น 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB หรือ 6144 MB จำนวนของ vCPU ยังปรับสัดส่วนตามสัดส่วนของจำนวนหน่วยความจำที่จัดสรร ดิ MaxConcurrency พารามิเตอร์ปรับจำนวนคำขอพร้อมกันที่ปลายทางสามารถให้บริการได้ กับ MaxConcurrency จาก 1 จุดปลายแบบไร้เซิร์ฟเวอร์สามารถประมวลผลคำขอได้ครั้งละหนึ่งคำขอเท่านั้น

เพื่อสรุป, MemorySizeInMB พารามิเตอร์มีกลไกสำหรับการปรับขยายในแนวตั้ง ช่วยให้คุณปรับหน่วยความจำและทรัพยากรการประมวลผลเพื่อรองรับโมเดลขนาดใหญ่ ในขณะที่ MaxConcurrency มีกลไกสำหรับความสามารถในการปรับขนาดในแนวนอน ซึ่งช่วยให้ปลายทางของคุณสามารถประมวลผลคำขอที่เกิดขึ้นพร้อมกันได้มากขึ้น

ค่าใช้จ่ายในการดำเนินการปลายทางจะพิจารณาจากขนาดหน่วยความจำเป็นส่วนใหญ่ และไม่มีค่าใช้จ่ายที่เกี่ยวข้องกับการเพิ่มการทำงานพร้อมกันสูงสุด อย่างไรก็ตาม มีการจำกัดบัญชีสำหรับแต่ละภูมิภาคสำหรับการทำงานพร้อมกันสูงสุดในทุกปลายทาง อ้างถึง จุดปลายและโควต้าของ SageMaker สำหรับขีดจำกัดล่าสุด

ผลลัพธ์การเปรียบเทียบ

ด้วยเหตุนี้ เป้าหมายของการเปรียบเทียบปลายทางแบบไร้เซิร์ฟเวอร์คือการกำหนดการตั้งค่าขนาดหน่วยความจำที่คุ้มค่าและเชื่อถือได้มากที่สุด และการทำงานพร้อมกันสูงสุดขั้นต่ำที่สามารถจัดการกับรูปแบบการรับส่งข้อมูลที่คาดหวังของคุณ

โดยค่าเริ่มต้น เครื่องมือจะเรียกใช้การวัดประสิทธิภาพสองแบบ อย่างแรกคือเกณฑ์มาตรฐานด้านความเสถียร ซึ่งปรับใช้จุดปลายสำหรับการกำหนดค่าหน่วยความจำแต่ละรายการที่ระบุ และเรียกใช้ปลายทางแต่ละจุดด้วยเพย์โหลดตัวอย่างที่มีให้ เป้าหมายของการวัดประสิทธิภาพนี้คือการกำหนดการตั้งค่า MemorySizeInMB ที่มีประสิทธิภาพและเสถียรที่สุด เกณฑ์มาตรฐานจะรวบรวมเวลาแฝงของการเรียกใช้และคำนวณต้นทุนต่อการเรียกใช้ที่คาดหวังสำหรับแต่ละปลายทาง จากนั้นจะเปรียบเทียบค่าใช้จ่ายกับอินสแตนซ์การโฮสต์แบบเรียลไทม์ที่คล้ายคลึงกัน

เมื่อการเปรียบเทียบเสร็จสิ้น เครื่องมือจะสร้างเอาต์พุตหลายรายการในค่าที่ระบุ result_save_path ไดเร็กทอรีที่มีโครงสร้างไดเร็กทอรีต่อไปนี้:

├── benchmarking_report
├── concurrency_benchmark_raw_results
├── concurrency_benchmark_summary_results
├── cost_analysis_summary_results
├── stability_benchmark_raw_results
├── stability_benchmark_summary_results

พื้นที่ benchmarking_report ไดเร็กทอรีมีรายงานรวมที่มีผลลัพธ์สรุปทั้งหมดที่เราร่างไว้ในโพสต์นี้ ไดเร็กทอรีเพิ่มเติมประกอบด้วยเอาต์พุตแบบ raw และระดับกลางที่คุณสามารถใช้สำหรับการวิเคราะห์เพิ่มเติม อ้างถึง repo GitHub สำหรับคำอธิบายโดยละเอียดยิ่งขึ้นของสิ่งประดิษฐ์เอาต์พุตแต่ละรายการ

มาตรวจสอบผลลัพธ์การเปรียบเทียบจริงสองสามรายการสำหรับปลายทางที่ให้บริการคอมพิวเตอร์วิทัศน์รุ่น MobileNetV2 TensorFlow หากคุณต้องการทำซ้ำตัวอย่างนี้ โปรดดูที่ ตัวอย่างโน๊ตบุ๊ค ไดเร็กทอรีใน GitHub repo

เอาต์พุตแรกภายในรายงานที่รวมเป็นตารางสรุปที่ให้เมตริกเวลาแฝงต่ำสุด เฉลี่ย ปานกลาง และเวลาแฝงสูงสุดสำหรับแต่ละรายการ MemorySizeInMB การกำหนดค่าขนาดหน่วยความจำสำเร็จ ดังแสดงในตารางต่อไปนี้ เวลาแฝงของการร้องขอโดยเฉลี่ย (invocation_latency_mean) ปรับปรุงอย่างต่อเนื่องเนื่องจากการกำหนดค่าหน่วยความจำเพิ่มขึ้นเป็น 3072 MB แต่หลังจากนั้นก็หยุดปรับปรุง