วิเคราะห์การใช้จ่ายของ Amazon SageMaker และกำหนดโอกาสในการเพิ่มประสิทธิภาพต้นทุนตามการใช้งาน ส่วนที่ 5: การโฮสต์

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในปี 2021 เราได้เปิดตัว AWS สนับสนุนบริการเชิงรุก เป็นส่วนหนึ่งของ การสนับสนุน AWS Enterprise วางแผน. นับตั้งแต่เปิดตัว เราได้ช่วยลูกค้าหลายร้อยรายเพิ่มประสิทธิภาพปริมาณงาน กำหนดแนวป้องกัน และปรับปรุงการมองเห็นต้นทุนและการใช้งานของปริมาณงาน Machine Learning (ML)

ในโพสต์ชุดนี้ เราได้แชร์บทเรียนเกี่ยวกับการปรับต้นทุนให้เหมาะสม อเมซอน SageMaker. ใน 1 หมายเลขเราได้แสดงวิธีเริ่มต้นใช้งาน AWS Cost Explorer เพื่อระบุโอกาสในการเพิ่มประสิทธิภาพต้นทุนใน SageMaker ในโพสต์นี้ เรามุ่งเน้นไปที่สภาพแวดล้อมการอนุมานของ SageMaker: การอนุมานแบบเรียลไทม์ การแปลงเป็นชุด การอนุมานแบบอะซิงโครนัส และการอนุมานแบบไร้เซิร์ฟเวอร์

SageMaker เสนอตัวเลือกการอนุมานที่หลากหลาย ให้คุณเลือกตามความต้องการปริมาณงานของคุณ:

การอนุมานตามเวลาจริง สำหรับความต้องการออนไลน์ เวลาแฝงต่ำ หรือปริมาณงานสูง
การแปลงแบทช์ สำหรับการประมวลผลแบบออฟไลน์ตามกำหนดเวลา และเมื่อคุณไม่จำเป็นต้องมีจุดสิ้นสุดถาวร
การอนุมานแบบอะซิงโครนัส สำหรับเมื่อคุณมีเพย์โหลดขนาดใหญ่ที่มีเวลาการประมวลผลนานและต้องการจัดคิวคำขอ
การอนุมานแบบไร้เซิร์ฟเวอร์ สำหรับเมื่อคุณมีรูปแบบการจราจรเป็นช่วงๆ หรือคาดเดาไม่ได้ และสามารถทนต่อการสตาร์ทขณะเครื่องเย็นได้

ในส่วนต่อไปนี้ เราจะหารือเกี่ยวกับตัวเลือกการอนุมานแต่ละตัวเลือกโดยละเอียด

การอนุมานตามเวลาจริงของ SageMaker

เมื่อคุณสร้างตำแหน่งข้อมูล SageMaker จะแนบไฟล์ ร้านค้า Amazon Elastic Block (Amazon EBS) ปริมาณการจัดเก็บข้อมูลไปยัง อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (Amazon EC2) อินสแตนซ์ที่โฮสต์ตำแหน่งข้อมูล กรณีนี้เกิดขึ้นกับอินสแตนซ์ทุกประเภทที่ไม่มีพื้นที่จัดเก็บข้อมูล SSD เนื่องจากประเภทอินสแตนซ์ d* มาพร้อมกับพื้นที่จัดเก็บ NVMe SSD SageMaker จึงไม่แนบโวลุ่มพื้นที่จัดเก็บ EBS เข้ากับอินสแตนซ์การประมวลผล ML เหล่านี้ อ้างถึง ปริมาณพื้นที่จัดเก็บอินสแตนซ์ของโฮสต์ สำหรับขนาดของไดรฟ์ข้อมูลพื้นที่จัดเก็บข้อมูลที่ SageMaker แนบสำหรับอินสแตนซ์แต่ละประเภทสำหรับตำแหน่งข้อมูลเดียวและสำหรับตำแหน่งข้อมูลหลายรุ่น

ค่าใช้จ่ายของตำแหน่งข้อมูลเรียลไทม์ของ SageMaker ขึ้นอยู่กับต่อชั่วโมงอินสแตนซ์ที่ใช้สำหรับแต่ละอินสแตนซ์ในขณะที่ตำแหน่งข้อมูลกำลังทำงานอยู่ ค่าใช้จ่ายของพื้นที่จัดเก็บที่จัดเตรียมไว้เป็น GB ต่อเดือน (ปริมาณ EBS) ตลอดจนข้อมูล GB ที่ประมวลผลเข้าและออก ของอินสแตนซ์ปลายทาง ตามที่ระบุไว้ใน ราคา Amazon SageMaker. ใน Cost Explorer คุณสามารถดูต้นทุนปลายทางแบบเรียลไทม์ได้โดยใช้ตัวกรองกับประเภทการใช้งาน ชื่อของประเภทการใช้งานเหล่านี้มีโครงสร้างดังนี้:

REGION-Host:instanceType (ตัวอย่างเช่น, USE1-Host:ml.c5.9xlarge)
REGION-Host:VolumeUsage.gp2 (ตัวอย่างเช่น, USE1-Host:VolumeUsage.gp2)
REGION-Hst:Data-Bytes-Out (ตัวอย่างเช่น, USE2-Hst:Data-Bytes-In)
REGION-Hst:Data-Bytes-Out (ตัวอย่างเช่น, USW2-Hst:Data-Bytes-Out)

ดังที่แสดงในภาพหน้าจอต่อไปนี้ กรองตามประเภทการใช้งาน Host: จะแสดงรายการประเภทการใช้งานโฮสติ้งแบบเรียลไทม์ในบัญชี

คุณสามารถเลือกประเภทการใช้งานเฉพาะหรือเลือกได้ เลือกทั้งหมด และเลือก ใช้ เพื่อแสดงรายละเอียดต้นทุนการใช้งานโฮสติ้งแบบเรียลไทม์ของ SageMaker หากต้องการดูรายละเอียดค่าใช้จ่ายและการใช้งานตามชั่วโมงอินสแตนซ์ คุณต้องยกเลิกการเลือกทั้งหมด REGION-Host:VolumeUsage.gp2 ประเภทการใช้งานก่อนใช้ตัวกรองประเภทการใช้งาน คุณยังสามารถใช้ตัวกรองเพิ่มเติมได้ เช่น หมายเลขบัญชี ประเภทอินสแตนซ์ EC2 แท็กการจัดสรรต้นทุน ภูมิภาค และ ข้อมูลเพิ่มเติม. ภาพหน้าจอต่อไปนี้แสดงกราฟต้นทุนและการใช้งานสำหรับประเภทการใช้งานโฮสติ้งที่เลือก

นอกจากนี้ คุณยังสามารถสำรวจต้นทุนที่เกี่ยวข้องกับอินสแตนซ์การโฮสต์ตั้งแต่หนึ่งรายการขึ้นไปได้โดยใช้ ประเภทอินสแตนซ์ กรอง. ภาพหน้าจอต่อไปนี้แสดงรายละเอียดต้นทุนและการใช้งานสำหรับการโฮสต์อินสแตนซ์ ml.p2.xlarge

ในทำนองเดียวกัน ต้นทุนสำหรับข้อมูล GB ที่ประมวลผลเข้าและประมวลผลสามารถแสดงได้โดยการเลือกประเภทการใช้งานที่เกี่ยวข้องเป็นตัวกรองที่ใช้ ดังที่แสดงในภาพหน้าจอต่อไปนี้

หลังจากที่คุณได้ผลลัพธ์ตามที่ต้องการด้วยตัวกรองและการจัดกลุ่มแล้ว คุณสามารถดาวน์โหลดผลลัพธ์ได้โดยเลือก ดาวน์โหลดเป็น CSV หรือบันทึกรายงานโดยเลือก บันทึกลงในไลบรารีรายงาน. สำหรับคำแนะนำทั่วไปเกี่ยวกับการใช้ Cost Explorer โปรดดูที่ รูปลักษณ์ใหม่และกรณีการใช้งานทั่วไปของ AWS Cost Explorer.

คุณสามารถเปิดใช้งานได้ รายงานค่าใช้จ่ายและการใช้งาน AWS (AWS CUR) เพื่อรับข้อมูลเชิงลึกเกี่ยวกับข้อมูลต้นทุนและการใช้งานสำหรับบัญชีของคุณ AWS CUR มีรายละเอียดการใช้ AWS รายชั่วโมง มันเก็บเอาไว้ใน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) ในบัญชีผู้ชำระเงิน ซึ่งจะรวบรวมข้อมูลสำหรับบัญชีที่เชื่อมโยงทั้งหมด คุณสามารถเรียกใช้การสืบค้นเพื่อวิเคราะห์แนวโน้มการใช้งานของคุณและดำเนินการที่เหมาะสมเพื่อปรับต้นทุนให้เหมาะสม อเมซอน อาเธน่า เป็นบริการสืบค้นแบบไร้เซิร์ฟเวอร์ที่คุณสามารถใช้เพื่อวิเคราะห์ข้อมูลจาก AWS CUR ใน Amazon S3 โดยใช้ SQL มาตรฐาน ข้อมูลเพิ่มเติมและตัวอย่างแบบสอบถามสามารถพบได้ใน ไลบรารีแบบสอบถาม AWS CUR.

คุณยังสามารถป้อนข้อมูล AWS CUR เข้าไปได้ อเมซอน QuickSightซึ่งคุณสามารถหั่นเป็นลูกเต๋าด้วยวิธีใดก็ได้ที่คุณต้องการเพื่อวัตถุประสงค์ในการรายงานหรือการแสดงภาพ สำหรับคำแนะนำ โปรดดูที่ ฉันจะนำเข้าและแสดงภาพรายงานค่าใช้จ่ายและการใช้งาน AWS (CUR) ลงใน Amazon QuickSight . ได้อย่างไร.

คุณสามารถรับข้อมูลระดับทรัพยากร เช่น ARN ตำแหน่งข้อมูล ประเภทอินสแตนซ์ตำแหน่งข้อมูล อัตราอินสแตนซ์รายชั่วโมง ชั่วโมงการใช้งานรายวัน และอื่นๆ ได้จาก AWS CUR คุณยังสามารถรวมแท็กการจัดสรรต้นทุนในการสืบค้นของคุณเพื่อเพิ่มระดับรายละเอียดเพิ่มเติม ตัวอย่างแบบสอบถามต่อไปนี้ส่งคืนการใช้ทรัพยากรโฮสติ้งแบบเรียลไทม์ในช่วง 3 เดือนล่าสุดสำหรับบัญชีผู้ชำระเงินที่ระบุ:

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%Host%' AND line_item_operation = 'RunInstance' AND bill_payer_account_id = 'xxxxxxxxxxxx' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

ภาพหน้าจอต่อไปนี้แสดงผลลัพธ์ที่ได้รับจากการเรียกใช้แบบสอบถามโดยใช้ Athena สำหรับข้อมูลเพิ่มเติม โปรดดูที่ การสืบค้นรายงานค่าใช้จ่ายและการใช้งานโดยใช้ Amazon Athena.

ผลลัพธ์ของแบบสอบถามแสดงจุดสิ้นสุดนั้น mme-xgboost-housing ด้วยอินสแตนซ์ ml.x4.xlarge กำลังรายงานรันไทม์ 24 ชั่วโมงเป็นเวลาหลายวันติดต่อกัน อัตราอินสแตนซ์คือ 0.24 USD/ชั่วโมง และค่าใช้จ่ายรายวันสำหรับการทำงานเป็นเวลา 24 ชั่วโมงคือ 5.76 USD

ผลลัพธ์ของ AWS CUR สามารถช่วยคุณระบุรูปแบบของตำแหน่งข้อมูลที่ทำงานเป็นเวลาหลายวันติดต่อกันในแต่ละบัญชีที่เชื่อมโยง รวมถึงตำแหน่งข้อมูลที่มีต้นทุนรายเดือนสูงสุด นอกจากนี้ยังช่วยให้คุณตัดสินใจได้ว่าสามารถลบจุดสิ้นสุดในบัญชีที่ไม่ใช่การใช้งานจริงเพื่อประหยัดต้นทุนได้หรือไม่

ปรับต้นทุนให้เหมาะสมสำหรับปลายทางแบบเรียลไทม์

จากมุมมองการจัดการต้นทุน การระบุอินสแตนซ์ที่มีการใช้งานน้อย (หรือมีขนาดใหญ่เกินไป) เป็นสิ่งสำคัญ และนำขนาดและจำนวนอินสแตนซ์ให้สอดคล้องกับข้อกำหนดด้านปริมาณงาน หากจำเป็น ตัววัดระบบทั่วไป เช่น การใช้งาน CPU/GPU และการใช้งานหน่วยความจำจะถูกเขียนลงไป อเมซอน คลาวด์วอตช์ สำหรับอินสแตนซ์โฮสติ้งทั้งหมด สำหรับตำแหน่งข้อมูลแบบเรียลไทม์ SageMaker จะทำให้มีตัววัดเพิ่มเติมหลายรายการใน CloudWatch ตัวชี้วัดที่ได้รับการตรวจสอบโดยทั่วไปบางส่วนประกอบด้วยจำนวนคำขอและข้อผิดพลาด 4xx/5xx ของคำขอ หากต้องการดูรายการเมตริกทั้งหมด โปรดดูที่ ตรวจสอบ Amazon SageMaker ด้วย Amazon CloudWatch.

ตัวชี้วัด CPUUtilization แสดงผลรวมของการใช้งาน CPU คอร์แต่ละตัว การใช้งาน CPU ของแต่ละช่วงคอร์คือ 0–100 เช่น ถ้ามี CPU สี่ตัว CPUUtilization ช่วงคือ 0–400% ตัวชี้วัด MemoryUtilization คือเปอร์เซ็นต์ของหน่วยความจำที่คอนเทนเนอร์ใช้บนอินสแตนซ์ ช่วงค่านี้คือ 0–100% ภาพหน้าจอต่อไปนี้แสดงตัวอย่างตัววัด CloudWatch CPUUtilization และ MemoryUtilization สำหรับอินสแตนซ์ตำแหน่งข้อมูล ml.m4.10xlarge ที่มาพร้อมกับ 40 vCPU และหน่วยความจำ 160 GiB

กราฟหน่วยวัดเหล่านี้แสดงการใช้งาน CPU สูงสุดประมาณ 3,000% ซึ่งเทียบเท่ากับ 30 vCPU ซึ่งหมายความว่าตำแหน่งข้อมูลนี้ไม่ได้ใช้ vCPU มากกว่า 30 ตัวจากความจุทั้งหมด 40 vCPU การใช้งานหน่วยความจำต่ำกว่า 6% ในทำนองเดียวกัน การใช้ข้อมูลนี้ทำให้คุณสามารถทดลองกับอินสแตนซ์ขนาดเล็กที่ตรงกับความต้องการทรัพยากรนี้ได้ นอกจากนี้ CPUUtilization ตัวชี้วัดแสดงรูปแบบคลาสสิกของความต้องการ CPU สูงและต่ำเป็นระยะ ซึ่งทำให้ตำแหน่งข้อมูลนี้เป็นตัวเลือกที่ดีสำหรับการปรับขนาดอัตโนมัติ คุณสามารถเริ่มต้นด้วยอินสแตนซ์ขนาดเล็กและขยายขนาดก่อนเมื่อความต้องการในการประมวลผลของคุณเปลี่ยนแปลง สำหรับข้อมูล โปรดดูที่ ปรับขนาดโมเดล Amazon SageMaker โดยอัตโนมัติ.

SageMaker เหมาะอย่างยิ่งสำหรับการทดสอบโมเดลใหม่ๆ เนื่องจากคุณสามารถปรับใช้ในสภาพแวดล้อมการทดสอบ A/B ได้อย่างง่ายดาย สายพันธุ์การผลิตและคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น เวอร์ชันที่ใช้งานจริงแต่ละรายการทำงานบนอินสแตนซ์การประมวลผลของตัวเอง และคุณจะถูกเรียกเก็บเงินต่อชั่วโมงอินสแตนซ์ที่ใช้สำหรับแต่ละอินสแตนซ์ในขณะที่เวอร์ชันกำลังทำงานอยู่

SageMaker ยังรองรับ ตัวแปรเงาซึ่งมีส่วนประกอบเดียวกันกับเวอร์ชันที่ใช้งานจริงและทำงานบนอินสแตนซ์การประมวลผลของตัวเอง ด้วยตัวแปรเงา SageMaker จะปรับใช้โมเดลในสภาพแวดล้อมการทดสอบโดยอัตโนมัติ กำหนดเส้นทางสำเนาของคำขออนุมานที่ได้รับโดยโมเดลที่ใช้งานจริงไปยังโมเดลทดสอบแบบเรียลไทม์ และรวบรวมตัวชี้วัดประสิทธิภาพ เช่น เวลาแฝงและปริมาณการประมวลผล ซึ่งช่วยให้คุณสามารถตรวจสอบองค์ประกอบผู้สมัครใหม่ของสแต็กการให้บริการโมเดลของคุณก่อนที่จะโปรโมตเป็นการใช้งานจริง

เมื่อคุณทำการทดสอบเสร็จแล้วและไม่ได้ใช้ตำแหน่งข้อมูลหรือตัวแปรอย่างกว้างขวางอีกต่อไป คุณควรลบออกเพื่อประหยัดค่าใช้จ่าย เนื่องจากโมเดลถูกจัดเก็บไว้ใน Amazon S3 คุณจึงสามารถสร้างใหม่ได้ตามต้องการ คุณสามารถตรวจหาตำแหน่งข้อมูลเหล่านี้ได้โดยอัตโนมัติและดำเนินการแก้ไข (เช่น การลบออก) โดยใช้ กิจกรรม Amazon CloudWatch และ AWS แลมบ์ดา ฟังก์ชั่น. ตัวอย่างเช่น คุณสามารถใช้ Invocations ตัววัดเพื่อรับจำนวนคำขอทั้งหมดที่ส่งไปยังตำแหน่งข้อมูลโมเดล จากนั้นตรวจสอบว่าตำแหน่งข้อมูลไม่มีการใช้งานในช่วงจำนวนชั่วโมงที่ผ่านมาหรือไม่ (โดยไม่มีการเรียกใช้ในช่วงระยะเวลาหนึ่ง เช่น 24 ชั่วโมง)

หากคุณมีอินสแตนซ์ตำแหน่งข้อมูลที่ไม่ได้ใช้งานหลายรายการ ให้พิจารณาตัวเลือกการโฮสต์ เช่น ปลายทางหลายรุ่น (MME) จุดสิ้นสุดหลายคอนเทนเนอร์ (MCE) และ ไปป์ไลน์อนุมานแบบอนุกรม เพื่อรวมการใช้งานไปยังอินสแตนซ์ปลายทางน้อยลง

สำหรับการปรับใช้โมเดลการอนุมานแบบเรียลไทม์และแบบอะซิงโครนัส คุณสามารถปรับต้นทุนและประสิทธิภาพให้เหมาะสมได้โดยการปรับใช้โมเดลบน SageMaker โดยใช้ AWS กราวิตอน. AWS Graviton คือกลุ่มโปรเซสเซอร์ที่ออกแบบโดย AWS ซึ่งมอบประสิทธิภาพด้านราคาที่ดีที่สุดและประหยัดพลังงานมากกว่าโปรเซสเซอร์ x86 สำหรับคำแนะนำในการปรับใช้โมเดล ML กับอินสแตนซ์ที่ใช้ AWS Graviton และรายละเอียดเกี่ยวกับคุณประโยชน์ด้านประสิทธิภาพด้านราคา โปรดดูที่ เรียกใช้ปริมาณงานการอนุมานของแมชชีนเลิร์นนิงบนอินสแตนซ์ที่ใช้ AWS Graviton ด้วย Amazon SageMaker. SageMaker ยังรองรับ การอนุมาน AWS คันเร่งผ่าน มล.inf2 กลุ่มอินสแตนซ์สำหรับการปรับใช้โมเดล ML สำหรับการอนุมานแบบเรียลไทม์และแบบอะซิงโครนัส คุณสามารถใช้อินสแตนซ์เหล่านี้บน SageMaker เพื่อให้ได้ประสิทธิภาพสูงด้วยต้นทุนที่ต่ำสำหรับโมเดลปัญญาประดิษฐ์เชิงสร้างสรรค์ (AI) รวมถึงโมเดลภาษาขนาดใหญ่ (LLM) และตัวแปลงการมองเห็น

นอกจากนี้คุณสามารถใช้ ผู้แนะนำการอนุมานของ Amazon SageMaker เพื่อรันการทดสอบโหลดและประเมินประโยชน์ด้านประสิทธิภาพด้านราคาของการปรับใช้โมเดลของคุณบนอินสแตนซ์เหล่านี้ สำหรับคำแนะนำเพิ่มเติมเกี่ยวกับการตรวจหาตำแหน่งข้อมูล SageMaker ที่ไม่ได้ใช้งานโดยอัตโนมัติ รวมถึงการปรับขนาดอินสแตนซ์ที่เหมาะสมและการปรับขนาดอัตโนมัติสำหรับตำแหน่งข้อมูล SageMaker โปรดดูที่ ตรวจสอบทรัพยากรการประมวลผลที่มีประสิทธิภาพบน Amazon SageMaker.

การแปลงแบทช์ SageMaker

การอนุมานแบบกลุ่มหรือ การอนุมานแบบออฟไลน์เป็นกระบวนการสร้างการทำนายจากการสังเกตชุดหนึ่ง การคาดการณ์แบบออฟไลน์เหมาะสำหรับชุดข้อมูลขนาดใหญ่ และในกรณีที่คุณสามารถรอหลายนาทีหรือหลายชั่วโมงเพื่อตอบกลับได้

ค่าใช้จ่ายสำหรับการแปลงชุด SageMaker ขึ้นอยู่กับชั่วโมงอินสแตนซ์ที่ใช้สำหรับแต่ละอินสแตนซ์ในขณะที่งานการแปลงชุดกำลังทำงานอยู่ ดังที่ระบุไว้ใน ราคา Amazon SageMaker. ใน Cost Explorer คุณสามารถสำรวจต้นทุนการแปลงชุดงานได้โดยใช้ตัวกรองกับประเภทการใช้งาน ชื่อของการใช้งานประเภทนี้มีโครงสร้างเป็น REGION-Tsform:instanceType (ตัวอย่างเช่น, USE1-Tsform:ml.c5.9xlarge).

ดังที่แสดงในภาพหน้าจอต่อไปนี้ กรองตามประเภทการใช้งาน Tsform: จะแสดงรายการประเภทการใช้งานการแปลงชุด SageMaker ในบัญชี

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 5: Hosting | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

คุณสามารถเลือกประเภทการใช้งานเฉพาะหรือเลือกได้ เลือกทั้งหมด และเลือก ใช้ เพื่อแสดงรายละเอียดต้นทุนการใช้งานอินสแตนซ์การแปลงเป็นชุดสำหรับประเภทที่เลือก ตามที่กล่าวไว้ข้างต้น คุณยังสามารถใช้ตัวกรองเพิ่มเติมได้ ภาพหน้าจอต่อไปนี้แสดงกราฟต้นทุนและการใช้งานสำหรับชนิดการใช้งานการแปลงชุดงานที่เลือก

ปรับต้นทุนให้เหมาะสมสำหรับการแปลงเป็นชุด

การแปลงเป็นชุดของ SageMaker จะเรียกเก็บเงินจากคุณเฉพาะอินสแตนซ์ที่ใช้ในขณะที่งานของคุณกำลังทำงานอยู่เท่านั้น หากข้อมูลของคุณอยู่ใน Amazon S3 อยู่แล้ว ก็ไม่มีค่าใช้จ่ายในการอ่านข้อมูลอินพุตจาก Amazon S3 และการเขียนข้อมูลเอาต์พุตไปยัง Amazon S3 ออบเจ็กต์เอาต์พุตทั้งหมดพยายามอัปโหลดไปยัง Amazon S3 หากทั้งหมดสำเร็จ งานการแปลงเป็นชุดจะถูกทำเครื่องหมายว่าเสร็จสมบูรณ์ หากออบเจ็กต์อย่างน้อยหนึ่งรายการล้มเหลว งานการแปลงแบทช์จะถูกทำเครื่องหมายว่าล้มเหลว

ค่าธรรมเนียมสำหรับงานการแปลงชุดงานใช้ในสถานการณ์ต่อไปนี้:

งานจะประสบความสำเร็จ
ความล้มเหลวเนื่องจาก ClientError และคอนเทนเนอร์โมเดลคือ SageMaker หรือ เฟรมเวิร์กที่จัดการโดย SageMaker
ความล้มเหลวเนื่องจาก AlgorithmError or ClientError และคอนเทนเนอร์โมเดลคือคอนเทนเนอร์ที่คุณกำหนดเอง (บีโอซี)

ต่อไปนี้คือแนวทางปฏิบัติที่ดีที่สุดบางส่วนในการเพิ่มประสิทธิภาพงานการแปลงเป็นชุดของ SageMaker คำแนะนำเหล่านี้สามารถลดรันไทม์รวมของงานการแปลงแบบแบตช์ได้ ซึ่งจะช่วยลดต้นทุนได้:

ชุด กลยุทธ์แบทช์ ไปยัง MultiRecord และ SplitType ไปยัง Line หากคุณต้องการงานการแปลงแบตช์เพื่อสร้างแบตช์ขนาดเล็กจากไฟล์อินพุต หากไม่สามารถแยกชุดข้อมูลออกเป็นแบตช์ย่อยโดยอัตโนมัติ คุณสามารถแบ่งออกเป็นแบตช์ย่อยโดยใส่แต่ละแบตช์ในไฟล์อินพุตแยกจากกัน วางไว้ในบัคเก็ต S3 ของแหล่งข้อมูล
ตรวจสอบให้แน่ใจว่าขนาดแบทช์พอดีกับหน่วยความจำ โดยปกติแล้ว SageMaker จะจัดการสิ่งนี้โดยอัตโนมัติ อย่างไรก็ตาม เมื่อแบ่งแบทช์ด้วยตนเอง จำเป็นต้องปรับตามหน่วยความจำ
การแปลงเป็นกลุ่มจะแบ่งพาร์ติชันออบเจ็กต์ S3 ในอินพุตด้วยคีย์ และแมปออบเจ็กต์เหล่านั้นกับอินสแตนซ์ เมื่อคุณมีไฟล์หลายไฟล์ อินสแตนซ์หนึ่งอาจประมวลผล input1.csvและอินสแตนซ์อื่นอาจประมวลผล input2.csv. หากคุณมีไฟล์อินพุตหนึ่งไฟล์ แต่เริ่มต้นอินสแตนซ์การประมวลผลหลายอินสแตนซ์ จะมีอินสแตนซ์เดียวเท่านั้นที่ประมวลผลไฟล์อินพุต และอินสแตนซ์ที่เหลือจะไม่ได้ใช้งาน ตรวจสอบให้แน่ใจว่าจำนวนไฟล์เท่ากับหรือมากกว่าจำนวนอินสแตนซ์
หากคุณมีไฟล์ขนาดเล็กจำนวนมาก การรวมหลายไฟล์เป็นไฟล์ขนาดใหญ่จำนวนไม่มากอาจเป็นประโยชน์เพื่อลดเวลาการโต้ตอบของ Amazon S3
หากคุณกำลังใช้ สร้าง TransformJob API คุณสามารถลดเวลาที่ใช้ในการแปลงงานแบทช์ให้เสร็จสมบูรณ์ได้โดยใช้ค่าที่เหมาะสมที่สุดสำหรับพารามิเตอร์ เช่น MaxPayloadInMB, MaxConcurrentTransforms,หรือ กลยุทธ์แบทช์:
- MaxConcurrentTransforms ระบุจำนวนคำขอแบบขนานสูงสุดที่สามารถส่งไปยังแต่ละอินสแตนซ์ในงานการแปลง ความคุ้มค่าในอุดมคติสำหรับ MaxConcurrentTransforms เท่ากับจำนวนคอร์ vCPU ในอินสแตนซ์
- MaxPayloadInMB คือขนาดสูงสุดของเพย์โหลดที่อนุญาต มีหน่วยเป็น MB ค่าใน MaxPayloadInMB ต้องมากกว่าหรือเท่ากับขนาดของบันทึกเดียว หากต้องการประมาณขนาดของบันทึกเป็น MB ให้แบ่งขนาดของชุดข้อมูลด้วยจำนวนบันทึก เพื่อให้แน่ใจว่าบันทึกจะพอดีกับขนาดเพย์โหลดสูงสุด เราขอแนะนำให้ใช้ค่าที่ใหญ่กว่าเล็กน้อย ค่าเริ่มต้นคือ 6 MB
- MaxPayloadInMB ต้องไม่เกิน 100 MB หากคุณระบุตัวเลือก MaxConcurrentTransforms พารามิเตอร์ จากนั้นค่าของ (MaxConcurrentTransforms * MaxPayloadInMB) จะต้องไม่เกิน 100 MB
- สำหรับกรณีที่เพย์โหลดอาจมีขนาดใหญ่โดยพลการและถูกส่งโดยใช้การเข้ารหัส HTTP chunked ให้ตั้งค่า MaxPayloadInMB เป็น 0 คุณลักษณะนี้ใช้งานได้ในอัลกอริธึมที่รองรับเท่านั้น ปัจจุบันอัลกอริทึมในตัวของ SageMaker ไม่รองรับการเข้ารหัสแบบ HTTP chunked
งานการอนุมานแบบกลุ่มมักจะเป็นตัวเลือกที่ดีสำหรับการปรับสเกลแนวนอน ผู้ปฏิบัติงานแต่ละคนภายในคลัสเตอร์สามารถดำเนินการกับชุดย่อยของข้อมูลที่แตกต่างกันได้โดยไม่จำเป็นต้องแลกเปลี่ยนข้อมูลกับผู้ปฏิบัติงานรายอื่น AWS มีตัวเลือกพื้นที่จัดเก็บและการประมวลผลที่หลากหลายที่เปิดใช้งานการปรับขนาดแนวนอน หากอินสแตนซ์เดียวไม่เพียงพอที่จะตอบสนองความต้องการด้านประสิทธิภาพของคุณ ให้พิจารณาใช้หลายอินสแตนซ์พร้อมกันเพื่อกระจายปริมาณงาน สำหรับข้อควรพิจารณาที่สำคัญเมื่อกำหนดสถาปัตยกรรมงานการแปลงแบทช์ โปรดดูที่ การอนุมานเป็นกลุ่มตามขนาดด้วย Amazon SageMaker.
ตรวจสอบตัววัดประสิทธิภาพของงานการแปลงแบตช์ SageMaker ของคุณอย่างต่อเนื่องโดยใช้ CloudWatch มองหาปัญหาคอขวด เช่น การใช้งาน CPU หรือ GPU สูง การใช้หน่วยความจำ หรือปริมาณการประมวลผลของเครือข่าย เพื่อพิจารณาว่าคุณจำเป็นต้องปรับขนาดหรือการกำหนดค่าอินสแตนซ์หรือไม่
SageMaker ใช้ Amazon S3 API การอัปโหลดหลายส่วน เพื่ออัปโหลดผลลัพธ์จากงานการแปลงเป็นชุดไปยัง Amazon S3 หากเกิดข้อผิดพลาด ผลลัพธ์ที่อัปโหลดจะถูกลบออกจาก Amazon S3 ในบางกรณี เช่น เมื่อเครือข่ายขัดข้อง การอัปโหลดหลายส่วนที่ไม่สมบูรณ์อาจยังคงอยู่ใน Amazon S3 เพื่อหลีกเลี่ยงไม่ให้ต้องเสียค่าบริการจัดเก็บ เราขอแนะนำให้คุณเพิ่ม นโยบายบัคเก็ต S3 ตามกฎวงจรการใช้งานบัคเก็ต S3 นโยบายนี้จะลบการอัปโหลดหลายส่วนที่ไม่สมบูรณ์ซึ่งอาจจัดเก็บไว้ในบัคเก็ต S3 สำหรับข้อมูลเพิ่มเติม โปรดดู การจัดการวงจรชีวิตการจัดเก็บของคุณ.

SageMaker การอนุมานแบบอะซิงโครนัส

การอนุมานแบบอะซิงโครนัสเป็นตัวเลือกที่ยอดเยี่ยมสำหรับปริมาณงานที่ต้องคำนึงถึงต้นทุนซึ่งมีเพย์โหลดขนาดใหญ่และการรับส่งข้อมูลต่อเนื่อง คำขออาจใช้เวลาถึง 1 ชั่วโมงในการประมวลผลและมีขนาดเพย์โหลดสูงสุด 1 GB ดังนั้นจึงเหมาะสำหรับปริมาณงานที่มีข้อกำหนดด้านเวลาแฝงที่ผ่อนคลายมากกว่า

การเรียกใช้จุดสิ้นสุดแบบอะซิงโครนัสแตกต่างจากจุดสิ้นสุดแบบเรียลไทม์ แทนที่จะส่งเพย์โหลดคำขอพร้อมกันกับคำขอ คุณจะอัปโหลดเพย์โหลดไปยัง Amazon S3 และส่ง S3 URI โดยเป็นส่วนหนึ่งของคำขอ ภายใน SageMaker จะรักษาคิวด้วยคำขอเหล่านี้และประมวลผลคำขอเหล่านี้ ในระหว่างการสร้างตำแหน่งข้อมูล คุณสามารถเลือกระบุ บริการแจ้งเตือนแบบง่ายของ Amazon หัวข้อ (Amazon SNS) เพื่อรับการแจ้งเตือนความสำเร็จหรือข้อผิดพลาด เมื่อคุณได้รับการแจ้งเตือนว่าคำขอการอนุมานของคุณได้รับการประมวลผลเรียบร้อยแล้ว คุณจะสามารถเข้าถึงผลลัพธ์ในตำแหน่งเอาต์พุตของ Amazon S3

ค่าใช้จ่ายสำหรับการอนุมานแบบอะซิงโครนัสจะขึ้นอยู่กับชั่วโมงอินสแตนซ์ที่ใช้สำหรับแต่ละอินสแตนซ์ในขณะที่ตำแหน่งข้อมูลกำลังทำงานอยู่ ค่าใช้จ่ายของพื้นที่จัดเก็บที่จัดเตรียมไว้เป็น GB ต่อเดือน ตลอดจนข้อมูล GB ที่ประมวลผลเข้าและออกจากอินสแตนซ์ตำแหน่งข้อมูล ดังที่ระบุไว้ใน ราคา Amazon SageMaker. ใน Cost Explorer คุณสามารถกรองต้นทุนการอนุมานแบบอะซิงโครนัสได้โดยใช้ตัวกรองกับประเภทการใช้งาน ชื่อของการใช้งานประเภทนี้มีโครงสร้างเป็น REGION-AsyncInf:instanceType (ตัวอย่างเช่น, USE1-AsyncInf:ml.c5.9xlarge). โปรดทราบว่าประเภทการใช้งานปริมาณ GB และข้อมูลที่ประมวลผล GB จะเหมือนกับตำแหน่งข้อมูลแบบเรียลไทม์ ดังที่กล่าวไว้ก่อนหน้าในโพสต์นี้

ดังที่แสดงในภาพหน้าจอต่อไปนี้ กรองตามประเภทการใช้งาน AsyncInf: ใน Cost Explorer จะแสดงรายละเอียดต้นทุนตามประเภทการใช้งานจุดสิ้นสุดแบบอะซิงโครนัส

หากต้องการดูรายละเอียดค่าใช้จ่ายและการใช้งานตามชั่วโมงอินสแตนซ์ คุณต้องยกเลิกการเลือกทั้งหมด REGION-Host:VolumeUsage.gp2 ประเภทการใช้งานก่อนใช้ตัวกรองประเภทการใช้งาน คุณยังสามารถใช้ตัวกรองเพิ่มเติมได้ ข้อมูลระดับทรัพยากร เช่น ARN ตำแหน่งข้อมูล ประเภทอินสแตนซ์ตำแหน่งข้อมูล อัตราอินสแตนซ์รายชั่วโมง และชั่วโมงการใช้งานรายวันสามารถรับได้จาก AWS CUR ต่อไปนี้เป็นตัวอย่างของการสืบค้น AWS CUR เพื่อรับการใช้งานทรัพยากรโฮสติ้งแบบอะซิงโครนัสในช่วง 3 เดือนที่ผ่านมา:

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%AsyncInf%' AND line_item_operation = 'RunInstance' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

ภาพหน้าจอต่อไปนี้แสดงผลลัพธ์ที่ได้รับจากการเรียกใช้การสืบค้น AWS CUR โดยใช้ Athena

ผลลัพธ์ของแบบสอบถามแสดงจุดสิ้นสุดนั้น sagemaker-abc-model-5 ด้วยอินสแตนซ์ ml.m5.xlarge กำลังรายงานรันไทม์ 24 ชั่วโมงเป็นเวลาหลายวันติดต่อกัน อัตราอินสแตนซ์คือ 0.23 USD/ชั่วโมง และค่าใช้จ่ายรายวันสำหรับการทำงานเป็นเวลา 24 ชั่วโมงคือ 5.52 USD

ตามที่กล่าวไว้ข้างต้น ผลลัพธ์ของ AWS CUR สามารถช่วยคุณระบุรูปแบบของตำแหน่งข้อมูลที่ทำงานเป็นเวลาหลายวันติดต่อกัน รวมถึงตำแหน่งข้อมูลที่มีต้นทุนรายเดือนสูงสุด นอกจากนี้ยังช่วยให้คุณตัดสินใจได้ว่าสามารถลบจุดสิ้นสุดในบัญชีที่ไม่ใช่การใช้งานจริงเพื่อประหยัดต้นทุนได้หรือไม่

ปรับต้นทุนให้เหมาะสมสำหรับการอนุมานแบบอะซิงโครนัส

เช่นเดียวกับตำแหน่งข้อมูลแบบเรียลไทม์ ค่าใช้จ่ายสำหรับตำแหน่งข้อมูลแบบอะซิงโครนัสจะขึ้นอยู่กับการใช้งานประเภทอินสแตนซ์ ดังนั้น การระบุอินสแตนซ์ที่ใช้งานน้อยเกินไปและปรับขนาดตามความต้องการด้านปริมาณงานจึงเป็นสิ่งสำคัญ เพื่อที่จะตรวจสอบจุดสิ้นสุดแบบอะซิงโครนัส SageMaker จะทำ หลายเมตริก เช่น ApproximateBacklogSize, HasBacklogWithoutCapacityและอื่นๆ อีกมากมายใน CloudWatch ตัววัดเหล่านี้สามารถแสดงคำขอในคิวสำหรับอินสแตนซ์ และสามารถใช้เพื่อปรับขนาดตำแหน่งข้อมูลอัตโนมัติได้ การอนุมานแบบอะซิงโครนัสของ SageMaker ยังมีตัววัดระดับโฮสต์ด้วย สำหรับข้อมูลเกี่ยวกับตัวชี้วัดระดับโฮสต์ โปรดดู งาน SageMaker และการวัดจุดสิ้นสุด. ตัวชี้วัดเหล่านี้สามารถแสดงการใช้ทรัพยากรที่สามารถช่วยให้คุณปรับขนาดอินสแตนซ์ได้อย่างเหมาะสม

SageMaker รองรับ ปรับขนาดอัตโนมัติ สำหรับจุดสิ้นสุดแบบอะซิงโครนัส ตำแหน่งข้อมูลการอนุมานแบบอะซิงโครนัสต่างจากจุดสิ้นสุดที่โฮสต์แบบเรียลไทม์ โดยรองรับการลดขนาดอินสแตนซ์ให้เป็นศูนย์โดยการตั้งค่าความจุขั้นต่ำให้เป็นศูนย์ สำหรับตำแหน่งข้อมูลแบบอะซิงโครนัส SageMaker ขอแนะนำอย่างยิ่งให้คุณสร้างการกำหนดค่านโยบายสำหรับการปรับขนาดการติดตามเป้าหมายสำหรับโมเดลที่ปรับใช้ (ตัวแปร) คุณต้องกำหนดนโยบายการปรับขนาดที่ปรับขนาดตาม ApproximateBacklogPerInstance เมตริกที่กำหนดเองและตั้งค่า MinCapacity ค่าเป็นศูนย์

การอนุมานแบบอะซิงโครนัสช่วยให้คุณประหยัดค่าใช้จ่ายโดยปรับขนาดอินสแตนซ์ให้เป็นศูนย์โดยอัตโนมัติเมื่อไม่มีคำขอให้ประมวลผล ดังนั้นคุณจะจ่ายเฉพาะเมื่อตำแหน่งข้อมูลของคุณกำลังประมวลผลคำขอเท่านั้น คำขอที่ได้รับเมื่อมีอินสแตนซ์เป็นศูนย์จะถูกจัดคิวเพื่อประมวลผลหลังจากที่ตำแหน่งข้อมูลขยายใหญ่ขึ้น ดังนั้น สำหรับกรณีการใช้งานที่สามารถทนต่อการลงโทษจากการเริ่มเย็นได้เพียงไม่กี่นาที คุณสามารถเลือกลดจำนวนอินสแตนซ์ตำแหน่งข้อมูลลงเป็นศูนย์ได้เมื่อไม่มีคำขอที่ค้างอยู่ และปรับขนาดสำรองเมื่อมีคำขอใหม่มาถึง เวลาเริ่มต้นแบบ Cold ขึ้นอยู่กับเวลาที่ต้องใช้ในการเปิดตัวตำแหน่งข้อมูลใหม่ตั้งแต่ต้น นอกจากนี้ หากตัวแบบมีขนาดใหญ่ เวลาก็อาจนานขึ้นได้ หากงานของคุณคาดว่าจะใช้เวลานานกว่าเวลาประมวลผล 1 ชั่วโมง คุณอาจต้องการพิจารณาการแปลงชุด SageMaker

นอกจากนี้ คุณยังอาจพิจารณาเวลาที่อยู่ในคิวคำขอของคุณรวมกับเวลาประมวลผลเพื่อเลือกประเภทอินสแตนซ์อีกด้วย ตัวอย่างเช่น หากกรณีการใช้งานของคุณสามารถทนต่อเวลารอได้หลายชั่วโมง คุณสามารถเลือกอินสแตนซ์ที่มีขนาดเล็กลงเพื่อประหยัดค่าใช้จ่ายได้

สำหรับคำแนะนำเพิ่มเติมเกี่ยวกับการปรับขนาดอินสแตนซ์และการปรับขนาดอัตโนมัติสำหรับตำแหน่งข้อมูล SageMaker โปรดดูที่ ตรวจสอบทรัพยากรการประมวลผลที่มีประสิทธิภาพบน Amazon SageMaker.

การอนุมานแบบไร้เซิร์ฟเวอร์

การอนุมานแบบไร้เซิร์ฟเวอร์ช่วยให้คุณสามารถปรับใช้โมเดล ML สำหรับการอนุมานโดยไม่ต้องกำหนดค่าหรือจัดการโครงสร้างพื้นฐานพื้นฐาน ขึ้นอยู่กับปริมาณคำขอการอนุมานที่โมเดลของคุณได้รับ การอนุมานแบบไร้เซิร์ฟเวอร์ของ SageMaker จะจัดเตรียม ปรับขนาด และปิดความสามารถในการประมวลผลโดยอัตโนมัติ ด้วยเหตุนี้ คุณจะจ่ายเฉพาะเวลาในการประมวลผลเพื่อเรียกใช้โค้ดการอนุมานและจำนวนข้อมูลที่ประมวลผลเท่านั้น ไม่ใช่สำหรับเวลาว่าง สำหรับตำแหน่งข้อมูลแบบไร้เซิร์ฟเวอร์ ไม่จำเป็นต้องจัดเตรียมอินสแตนซ์ คุณต้องจัดเตรียม ขนาดหน่วยความจำและการทำงานพร้อมกันสูงสุด. เนื่องจากจุดสิ้นสุดแบบไร้เซิร์ฟเวอร์จัดเตรียมทรัพยากรการประมวลผลตามความต้องการ จุดสิ้นสุดของคุณจึงอาจพบกับเวลาแฝงเพิ่มเติมสองสามวินาที (การเริ่มโดยไม่ได้ใช้งาน) สำหรับการเรียกใช้ครั้งแรกหลังจากช่วงที่ไม่ได้ใช้งาน คุณชำระค่าความสามารถในการประมวลผลที่ใช้ในการประมวลผลคำขอการอนุมาน โดยเรียกเก็บเงินเป็นมิลลิวินาที พื้นที่จัดเก็บที่จัดเตรียมไว้ GB ต่อเดือน และจำนวนข้อมูลที่ประมวลผล ค่าใช้จ่ายในการประมวลผลขึ้นอยู่กับการกำหนดค่าหน่วยความจำที่คุณเลือก

ใน Cost Explorer คุณสามารถกรองต้นทุนอุปกรณ์ปลายทางแบบไร้เซิร์ฟเวอร์ได้โดยใช้ตัวกรองกับประเภทการใช้งาน ชื่อของการใช้งานประเภทนี้มีโครงสร้างเป็น REGION-ServerlessInf:Mem-MemorySize (ตัวอย่างเช่น, USE2-ServerlessInf:Mem-4GB). โปรดทราบว่าประเภทการใช้งานที่ประมวลผลข้อมูล GB และ GB จะเหมือนกับตำแหน่งข้อมูลแบบเรียลไทม์

คุณสามารถดูรายละเอียดต้นทุนได้โดยใช้ตัวกรองเพิ่มเติม เช่น หมายเลขบัญชี ประเภทอินสแตนซ์ ภูมิภาค และอื่นๆ ภาพหน้าจอต่อไปนี้แสดงรายละเอียดต้นทุนโดยการใช้ตัวกรองสำหรับประเภทการใช้งานการอนุมานแบบไร้เซิร์ฟเวอร์

ปรับต้นทุนให้เหมาะสมสำหรับการอนุมานแบบไร้เซิร์ฟเวอร์

เมื่อกำหนดค่าตำแหน่งข้อมูลแบบไร้เซิร์ฟเวอร์ คุณสามารถระบุขนาดหน่วยความจำและจำนวนสูงสุดของการเรียกใช้พร้อมกันได้ การอนุมานแบบไร้เซิร์ฟเวอร์ของ SageMaker จะกำหนดทรัพยากรการประมวลผลโดยอัตโนมัติตามสัดส่วนของหน่วยความจำที่คุณเลือก หากคุณเลือกขนาดหน่วยความจำที่ใหญ่ขึ้น คอนเทนเนอร์ของคุณจะสามารถเข้าถึง vCPU ได้มากขึ้น ด้วยการอนุมานแบบไร้เซิร์ฟเวอร์ คุณจะจ่ายเฉพาะความสามารถในการประมวลผลที่ใช้ในการประมวลผลคำขอการอนุมาน ซึ่งเรียกเก็บเงินเป็นมิลลิวินาที และจำนวนข้อมูลที่ประมวลผล ค่าใช้จ่ายในการประมวลผลขึ้นอยู่กับการกำหนดค่าหน่วยความจำที่คุณเลือก ขนาดหน่วยความจำที่คุณสามารถเลือกได้คือ 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB และ 6144 MB ราคาจะเพิ่มขึ้นตามขนาดหน่วยความจำที่เพิ่มขึ้น ตามที่อธิบายไว้ใน ราคา Amazon SageMakerดังนั้นการเลือกขนาดหน่วยความจำที่ถูกต้องจึงเป็นสิ่งสำคัญ ตามกฎทั่วไป ขนาดหน่วยความจำควรมีขนาดใหญ่เท่ากับขนาดรุ่นของคุณเป็นอย่างน้อย อย่างไรก็ตาม แนวทางปฏิบัติที่ดีในการอ้างอิงถึงการใช้งานหน่วยความจำเมื่อตัดสินใจเลือกขนาดหน่วยความจำปลายทาง นอกเหนือจากขนาดโมเดลเอง

แนวทางปฏิบัติที่ดีที่สุดทั่วไปในการเพิ่มประสิทธิภาพต้นทุนการอนุมานของ SageMaker

การเพิ่มประสิทธิภาพต้นทุนโฮสติ้งไม่ใช่เหตุการณ์ที่เกิดขึ้นเพียงครั้งเดียว เป็นกระบวนการต่อเนื่องในการตรวจสอบโครงสร้างพื้นฐานที่ปรับใช้ รูปแบบการใช้งาน และประสิทธิภาพ และยังคอยจับตาดูโซลูชันนวัตกรรมใหม่ๆ ที่ AWS เปิดตัวซึ่งอาจส่งผลกระทบต่อต้นทุน พิจารณาแนวทางปฏิบัติที่ดีที่สุดต่อไปนี้:

เลือกประเภทอินสแตนซ์ที่เหมาะสม – SageMaker รองรับอินสแตนซ์หลายประเภท โดยแต่ละประเภทมีการผสมผสานระหว่าง CPU, GPU, หน่วยความจำ และความจุพื้นที่จัดเก็บข้อมูลที่แตกต่างกัน ขึ้นอยู่กับความต้องการทรัพยากรของโมเดลของคุณ ให้เลือกประเภทอินสแตนซ์ที่จัดเตรียมทรัพยากรที่จำเป็นโดยไม่ต้องจัดสรรมากเกินไป สำหรับข้อมูลเกี่ยวกับประเภทอินสแตนซ์ SageMaker ที่มี ข้อมูลจำเพาะ และคำแนะนำในการเลือกอินสแตนซ์ที่เหมาะสม โปรดดูที่ ตรวจสอบทรัพยากรการประมวลผลที่มีประสิทธิภาพบน Amazon SageMaker.
ทดสอบโดยใช้โหมดท้องถิ่น – เพื่อตรวจจับความล้มเหลวและแก้ไขจุดบกพร่องได้เร็วขึ้น แนะนำให้ทดสอบโค้ดและคอนเทนเนอร์ (ในกรณีของ BYOC) ใน โหมดท้องถิ่น ก่อนที่จะรันปริมาณงานการอนุมานบนอินสแตนซ์ SageMaker ระยะไกล โหมดภายในเครื่องเป็นวิธีที่ยอดเยี่ยมในการทดสอบสคริปต์ของคุณก่อนใช้งานในสภาพแวดล้อมโฮสติ้งที่จัดการโดย SageMaker
เพิ่มประสิทธิภาพโมเดลให้มีประสิทธิภาพมากขึ้น – โมเดลที่ไม่ได้รับการปรับให้เหมาะสมอาจทำให้รันไทม์นานขึ้นและใช้ทรัพยากรมากขึ้น คุณสามารถเลือกใช้อินสแตนซ์มากขึ้นหรือใหญ่กว่าเพื่อปรับปรุงประสิทธิภาพได้ อย่างไรก็ตามสิ่งนี้นำไปสู่ต้นทุนที่สูงขึ้น ด้วยการเพิ่มประสิทธิภาพโมเดลของคุณให้มีประสิทธิภาพมากขึ้น คุณอาจสามารถลดต้นทุนได้โดยใช้อินสแตนซ์น้อยลงหรือน้อยลง ขณะเดียวกันก็รักษาคุณลักษณะด้านประสิทธิภาพที่เท่าเดิมหรือดีขึ้น คุณสามารถใช้ได้ Amazon SageMaker นีโอ ด้วยการอนุมานของ SageMaker เพื่อปรับโมเดลให้เหมาะสมโดยอัตโนมัติ สำหรับรายละเอียดเพิ่มเติมและตัวอย่าง โปรดดูที่ ปรับประสิทธิภาพของโมเดลให้เหมาะสมโดยใช้ Neo.
ใช้แท็กและเครื่องมือการจัดการต้นทุน – เพื่อรักษาการมองเห็นปริมาณงานการอนุมานของคุณ ขอแนะนำให้ใช้แท็กรวมถึงเครื่องมือการจัดการต้นทุนของ AWS เช่น งบประมาณ AWSที่ คอนโซลการเรียกเก็บเงิน AWSและคุณลักษณะการคาดการณ์ของ Cost Explorer คุณยังสามารถสำรวจ SageMaker Savings Plans ในรูปแบบการกำหนดราคาที่ยืดหยุ่นได้ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตัวเลือกเหล่านี้ โปรดดูที่ 1 หมายเลข ของชุดนี้

สรุป

ในโพสต์นี้ เราได้ให้คำแนะนำเกี่ยวกับการวิเคราะห์ต้นทุนและแนวทางปฏิบัติที่ดีที่สุดเมื่อใช้ตัวเลือกการอนุมานของ SageMaker เนื่องจากแมชชีนเลิร์นนิงกลายเป็นเครื่องมือที่ทรงพลังในอุตสาหกรรมต่างๆ การฝึกอบรมและการรันโมเดล ML จึงจำเป็นต้องรักษาความคุ้มค่าไว้ SageMaker นำเสนอชุดคุณลักษณะที่กว้างและลึกเพื่ออำนวยความสะดวกในแต่ละขั้นตอนในไปป์ไลน์ ML และมอบโอกาสในการเพิ่มประสิทธิภาพต้นทุนโดยไม่ส่งผลกระทบต่อประสิทธิภาพหรือความคล่องตัว ติดต่อทีม AWS ของคุณเพื่อขอคำแนะนำด้านต้นทุนเกี่ยวกับปริมาณงาน SageMaker ของคุณ

เกี่ยวกับผู้เขียน

ทีปาลี ราจาเล เป็นผู้เชี่ยวชาญด้าน AI/ML อาวุโสที่ AWS เธอทำงานร่วมกับลูกค้าองค์กรโดยให้คำแนะนำด้านเทคนิคพร้อมแนวทางปฏิบัติที่ดีที่สุดสำหรับการปรับใช้และการบำรุงรักษาโซลูชัน AI/ML ในระบบนิเวศ AWS เธอได้ทำงานร่วมกับองค์กรต่างๆ มากมายเกี่ยวกับกรณีการใช้งานการเรียนรู้เชิงลึกต่างๆ ที่เกี่ยวข้องกับ NLP และการมองเห็นด้วยคอมพิวเตอร์ เธอหลงใหลในการเสริมศักยภาพให้องค์กรต่าง ๆ เพื่อใช้ประโยชน์จาก AI เชิงสร้างสรรค์เพื่อปรับปรุงประสบการณ์การใช้งาน ในเวลาว่าง เธอชอบดูภาพยนตร์ ดนตรี และวรรณกรรม

ยูริ โรเซนเบิร์ก เป็นผู้จัดการด้านเทคนิคผู้เชี่ยวชาญด้าน AI & ML ประจำยุโรป ตะวันออกกลาง และแอฟริกา Uri ซึ่งมีฐานอยู่ที่อิสราเอลทำงานเพื่อเพิ่มขีดความสามารถให้กับลูกค้าระดับองค์กรในทุกด้านของ ML เพื่อออกแบบ สร้าง และดำเนินการในวงกว้าง ในเวลาว่าง เขาสนุกกับการปั่นจักรยาน เดินป่า และปีนหน้าผา

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
เพลโตไอสตรีม. ข้อมูลอัจฉริยะ Web3 ขยายความรู้ เข้าถึงได้ที่นี่.
การสร้างอนาคตโดย Adryenn Ashley เข้าถึงได้ที่นี่.
ซื้อและขายหุ้นในบริษัท PRE-IPO ด้วย PREIPO® เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/machine-learning/part-5-analyze-amazon-sagemaker-spend-and-determine-cost-optimization-opportunities-based-on-usage-part-5-hosting/

ประทับเวลา: May 30, 2023

ประทับเวลา: ม.ค. 6, 2023

เผยแพร่ซ้ำโดยเพลโต

แปลเอกสารตามเวลาจริงด้วย Amazon Translate | บริการเว็บอเมซอน

รับการจัดการพนักงานแบบ end-to-end: Amazon Forecast และ AWS Step Functions | อเมซอนเว็บเซอร์วิส

VMware สร้างไปป์ไลน์ MLOps ตั้งแต่เริ่มต้นโดยใช้ GitLab, Amazon MWAA และ Amazon SageMaker ได้อย่างไร

ขณะนี้ไลบรารีแบบขนานของโมเดล Amazon SageMaker ช่วยเร่งปริมาณงาน PyTorch FSDP ได้สูงสุดถึง 20% | อเมซอนเว็บเซอร์วิส

ประเมินโมเดลภาษาขนาดใหญ่เพื่อคุณภาพและความรับผิดชอบ | อเมซอนเว็บเซอร์วิส

การฝึกอบรมแบบกระจายด้วย Amazon EKS และ Torch Distributed Elastic

คำแนะนำที่มีประสิทธิภาพและการค้นหาโดยใช้กราฟความรู้ IMDb – ตอนที่ 3

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้