วิเคราะห์การใช้จ่ายของ Amazon SageMaker และกำหนดโอกาสในการเพิ่มประสิทธิภาพต้นทุนตามการใช้งาน ส่วนที่ 3: งานการประมวลผลและข้อมูล Wrangler | บริการเว็บอเมซอน

วิเคราะห์การใช้จ่ายของ Amazon SageMaker และกำหนดโอกาสในการเพิ่มประสิทธิภาพต้นทุนตามการใช้งาน ส่วนที่ 3: งานการประมวลผลและข้อมูล Wrangler | บริการเว็บอเมซอน

ในปี 2021 เราได้เปิดตัว AWS สนับสนุนบริการเชิงรุก เป็นส่วนหนึ่งของ การสนับสนุน AWS Enterprise วางแผน. นับตั้งแต่เปิดตัว เราได้ช่วยลูกค้าหลายร้อยรายเพิ่มประสิทธิภาพปริมาณงาน กำหนดแนวป้องกัน และปรับปรุงการมองเห็นค่าใช้จ่ายและการใช้งานของปริมาณงานแมชชีนเลิร์นนิง (ML)

ในโพสต์ชุดนี้ เราได้แชร์บทเรียนเกี่ยวกับการปรับต้นทุนให้เหมาะสม อเมซอน SageMaker. ในโพสต์นี้ เรามุ่งเน้นไปที่การประมวลผลข้อมูลล่วงหน้าโดยใช้ การประมวลผล Amazon SageMaker และ Amazon SageMaker ข้อมูล Wrangler งาน

การประมวลผลข้อมูลล่วงหน้ามีบทบาทสำคัญในแนวทาง AI ที่เน้นข้อมูลเป็นศูนย์กลาง อย่างไรก็ตาม การเตรียมข้อมูลดิบสำหรับการฝึกอบรมและการประเมิน ML มักจะเป็นงานที่น่าเบื่อและต้องใช้ความพยายามมากในแง่ของทรัพยากรการประมวลผล เวลา และความพยายามของมนุษย์ การเตรียมข้อมูลโดยทั่วไปจำเป็นต้องผสานรวมจากแหล่งที่มาต่างๆ และจัดการกับค่าที่ขาดหายไปหรือค่าที่รบกวน ค่าผิดปกติ และอื่นๆ

นอกจากนี้ นอกเหนือจากงานแยก แปลง และโหลด (ETL) ทั่วไปแล้ว ทีม ML ยังต้องการความสามารถขั้นสูงเพิ่มเติมในบางครั้ง เช่น การสร้างโมเดลด่วนเพื่อประเมินข้อมูลและสร้างคะแนนความสำคัญของคุณลักษณะ หรือการประเมินโมเดลหลังการฝึกอบรมซึ่งเป็นส่วนหนึ่งของไปป์ไลน์ MLOps

SageMaker นำเสนอสองคุณสมบัติที่ออกแบบมาโดยเฉพาะเพื่อช่วยแก้ไขปัญหาเหล่านี้: การประมวลผลของ SageMaker และ Data Wrangler การประมวลผลของ SageMaker ช่วยให้คุณสามารถเรียกใช้การประมวลผลล่วงหน้า การประมวลผลภายหลัง และการประเมินโมเดลได้อย่างง่ายดายบนโครงสร้างพื้นฐานที่มีการจัดการเต็มรูปแบบ Data Wrangler ช่วยลดเวลาที่ใช้ในการรวบรวมและเตรียมข้อมูลโดยลดความซับซ้อนของกระบวนการรวมแหล่งข้อมูลและวิศวกรรมคุณสมบัติโดยใช้อินเทอร์เฟซแบบภาพเดียวและสภาพแวดล้อมการประมวลผลข้อมูลแบบกระจายทั้งหมด

ฟีเจอร์ SageMaker ทั้งสองมอบความยืดหยุ่นที่ยอดเยี่ยมพร้อมตัวเลือกมากมายสำหรับ I/O ที่เก็บข้อมูล และการคำนวณ อย่างไรก็ตาม การตั้งค่าตัวเลือกเหล่านั้นไม่ถูกต้องอาจทำให้เสียค่าใช้จ่ายโดยไม่จำเป็น โดยเฉพาะอย่างยิ่งเมื่อต้องจัดการกับชุดข้อมูลขนาดใหญ่

ในโพสต์นี้ เราจะวิเคราะห์ปัจจัยด้านราคาและให้คำแนะนำการปรับต้นทุนให้เหมาะสมสำหรับงาน SageMaker Processing และ Data Wrangler

การประมวลผล SageMaker

SageMaker Processing เป็นโซลูชันที่มีการจัดการเพื่อรันการประมวลผลข้อมูลและปริมาณงานการประเมินโมเดล คุณสามารถใช้ในขั้นตอนการประมวลผลข้อมูล เช่น วิศวกรรมฟีเจอร์ การตรวจสอบข้อมูล การประเมินโมเดล และการตีความโมเดลในเวิร์กโฟลว์ ML ด้วย SageMaker Processing คุณสามารถนำสคริปต์การประมวลผลแบบกำหนดเองของคุณเองและเลือกที่จะสร้างคอนเทนเนอร์แบบกำหนดเองหรือใช้คอนเทนเนอร์ที่มีการจัดการของ SageMaker ที่มีเฟรมเวิร์กทั่วไป เช่น scikit-learn, Lime, Spark และอื่นๆ

SageMaker Processing จะเรียกเก็บเงินจากคุณสำหรับประเภทอินสแตนซ์ที่คุณเลือก โดยขึ้นอยู่กับระยะเวลาการใช้งานและพื้นที่จัดเก็บที่จัดเตรียมไว้ซึ่งแนบมากับอินสแตนซ์นั้น ในตอนที่ 1 เราได้แสดงวิธีเริ่มต้นใช้งาน AWS Cost Explorer เพื่อระบุโอกาสในการเพิ่มประสิทธิภาพต้นทุนใน SageMaker

คุณสามารถกรองค่าใช้จ่ายในการดำเนินการได้โดยใช้ตัวกรองกับประเภทการใช้งาน ชื่อของประเภทการใช้งานเหล่านี้มีดังนี้:

  • REGION-Processing:instanceType (ตัวอย่างเช่น, USE1-Processing:ml.m5.large)
  • REGION-Processing:VolumeUsage.gp2 (ตัวอย่างเช่น, USE1-Processing:VolumeUsage.gp2)

หากต้องการตรวจสอบต้นทุนการประมวลผล SageMaker ของคุณใน Cost Explorer ให้เริ่มด้วยการกรองด้วย SageMaker สำหรับ Serviceและสำหรับ ประเภทการใช้งานคุณสามารถเลือกชั่วโมงการทำงานอินสแตนซ์การประมวลผลทั้งหมดได้โดยป้อน processing:ml คำนำหน้าและเลือกรายการบนเมนู

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

หลีกเลี่ยงค่าใช้จ่ายในการดำเนินการและการพัฒนาไปป์ไลน์

ก่อนปรับขนาดที่เหมาะสมและเพิ่มประสิทธิภาพระยะเวลาดำเนินการของงาน SageMaker Processing เราจะตรวจสอบตัวชี้วัดระดับสูงเกี่ยวกับการเรียกใช้งานในอดีต คุณสามารถเลือกจากสองวิธีในการทำเช่นนี้

ขั้นแรก คุณสามารถเข้าถึง การประมวลผล หน้าบนคอนโซล SageMaker

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

หรือคุณสามารถใช้ list_processing_jobs API.

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

สถานะงานการประมวลผลสามารถเป็นได้ InProgress, Completed, Failed, Stopping,หรือ Stopped.

งานที่ล้มเหลวจำนวนมากเป็นเรื่องปกติเมื่อพัฒนาไปป์ไลน์ MLOps ใหม่ อย่างไรก็ตาม คุณควรทดสอบและพยายามทุกวิถีทางเพื่อตรวจสอบความถูกต้องของงานก่อนที่จะเปิดใช้งานบน SageMaker เนื่องจากมีค่าใช้จ่ายสำหรับทรัพยากรที่ใช้ เพื่อจุดประสงค์ดังกล่าว คุณสามารถใช้ SageMaker Processing ใน โหมดท้องถิ่น. โหมดโลคัลเป็นคุณลักษณะ SageMaker SDK ที่ช่วยให้คุณสามารถสร้างตัวประมาณ ตัวประมวลผล และไปป์ไลน์ และปรับใช้กับสภาพแวดล้อมการพัฒนาโลคัลของคุณ นี่เป็นวิธีที่ยอดเยี่ยมในการทดสอบสคริปต์ของคุณก่อนที่จะเรียกใช้ในสภาพแวดล้อมที่มีการจัดการของ SageMaker โหมดโลคัลได้รับการสนับสนุนโดยคอนเทนเนอร์ที่มีการจัดการของ SageMaker และคอนเทนเนอร์ที่คุณจัดหาเอง หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีใช้โหมดโลคัลด้วย ท่อส่ง Amazon SageMaker, เอ่ยถึง โหมดท้องถิ่น.

ปรับค่าใช้จ่ายที่เกี่ยวข้องกับ I/O ให้เหมาะสม

งานการประมวลผลของ SageMaker ให้การเข้าถึงแหล่งข้อมูลสามแหล่งซึ่งเป็นส่วนหนึ่งของการจัดการ อินพุตการประมวลผล: บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3) อเมซอน อาเธน่าและ อเมซอน Redshift. สำหรับข้อมูลเพิ่มเติม โปรดดูที่ กำลังประมวลผล S3Input, AthenaDatasetDefinitionและ RedshiftDatasetDefinitionตามลำดับ

ก่อนที่จะดูการปรับให้เหมาะสม สิ่งสำคัญคือต้องทราบว่าแม้ว่างาน SageMaker Processing จะสนับสนุนแหล่งข้อมูลเหล่านี้ แต่ก็ไม่ได้บังคับ ในรหัสการประมวลผลของคุณ คุณสามารถใช้วิธีใดก็ได้ในการดาวน์โหลดข้อมูลการเข้าถึงจากแหล่งใดก็ได้ (โดยมีเงื่อนไขว่าอินสแตนซ์การประมวลผลสามารถเข้าถึงได้)

เพื่อให้ได้รับข้อมูลเชิงลึกที่ดีขึ้นเกี่ยวกับประสิทธิภาพการประมวลผลและตรวจหาโอกาสในการเพิ่มประสิทธิภาพ เราขอแนะนำให้ปฏิบัติตาม การบันทึกแนวทางปฏิบัติที่ดีที่สุด ในสคริปต์ประมวลผลของคุณ SageMaker เผยแพร่บันทึกการประมวลผลของคุณไปที่ อเมซอน คลาวด์วอตช์.

ในบันทึกการใช้งานตัวอย่างต่อไปนี้ เราเห็นว่าการประมวลผลสคริปต์ใช้เวลา 15 นาที (ระหว่าง Start custom script และ End custom script).

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

อย่างไรก็ตาม บนคอนโซล SageMaker เราพบว่างานใช้เวลาเพิ่มอีก 4 นาที (เกือบ 25% ของรันไทม์ทั้งหมดของงาน)

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

นี่เป็นเพราะความจริงที่ว่านอกเหนือจากเวลาที่สคริปต์ประมวลผลของเราใช้เวลาแล้ว การดาวน์โหลดและอัปโหลดข้อมูลที่จัดการโดย SageMaker ยังใช้เวลานานอีกด้วย (4 นาที) หากสิ่งนี้พิสูจน์ได้ว่าเป็นส่วนสำคัญของค่าใช้จ่าย ให้พิจารณาวิธีอื่นเพื่อเพิ่มความเร็วในการดาวน์โหลด เช่น การใช้ Boto3 API ที่มีการประมวลผลหลายตัวเพื่อดาวน์โหลดไฟล์พร้อมกัน หรือใช้ไลบรารีของบุคคลที่สามเป็น WebDataset หรือ s5cmd เพื่อให้ดาวน์โหลดจาก Amazon S3 ได้เร็วขึ้น . สำหรับข้อมูลเพิ่มเติม โปรดดูที่ การเทียบเคียงปริมาณงาน S3 ด้วย s5cmd. โปรดทราบว่าวิธีการดังกล่าวอาจก่อให้เกิดการเรียกเก็บเงินใน Amazon S3 เนื่องจาก การถ่ายโอนข้อมูล.

รองรับงานการประมวลผลด้วย โหมดท่อ. ด้วยวิธีนี้ SageMaker จะสตรีมข้อมูลอินพุตจากแหล่งที่มาโดยตรงไปยังคอนเทนเนอร์การประมวลผลของคุณไปยังไพพ์ที่มีชื่อโดยไม่ต้องใช้โวลุ่มพื้นที่จัดเก็บ ML ซึ่งช่วยลดเวลาในการดาวน์โหลดข้อมูลและปริมาณดิสก์ที่น้อยลง อย่างไรก็ตาม สิ่งนี้ต้องการรูปแบบการเขียนโปรแกรมที่ซับซ้อนกว่าการอ่านจากไฟล์บนดิสก์เพียงอย่างเดียว

ตามที่กล่าวไว้ก่อนหน้านี้ SageMaker Processing ยังรองรับ Athena และ Amazon Redshift เป็นแหล่งข้อมูลอีกด้วย เมื่อตั้งค่างานการประมวลผลด้วยแหล่งข้อมูลเหล่านี้ SageMaker จะคัดลอกข้อมูลไปยัง Amazon S3 โดยอัตโนมัติ และอินสแตนซ์การประมวลผลจะดึงข้อมูลจากตำแหน่ง Amazon S3 อย่างไรก็ตาม เมื่องานเสร็จสิ้น จะไม่มีกระบวนการล้างข้อมูลที่มีการจัดการ และข้อมูลที่คัดลอกจะยังคงอยู่ใน Amazon S3 และอาจมีค่าบริการพื้นที่จัดเก็บที่ไม่ต้องการ ดังนั้น เมื่อใช้แหล่งข้อมูล Athena และ Amazon Redshift ตรวจสอบให้แน่ใจว่าได้ใช้ขั้นตอนการล้างข้อมูล เช่น ฟังก์ชัน Lambda ที่ ทำงานตามกำหนดเวลา หรือใน แลมบ์ดาสเต็ป เป็นส่วนหนึ่งของไปป์ไลน์ SageMaker

เช่นเดียวกับการดาวน์โหลด การอัปโหลดอาร์ติแฟกต์การประมวลผลอาจเป็นโอกาสในการเพิ่มประสิทธิภาพ เมื่อเอาต์พุตของงานการประมวลผลได้รับการกำหนดค่าโดยใช้ ProcessingS3Output พารามิเตอร์ คุณสามารถระบุได้ว่า S3UploadMode ใช้. S3UploadMode ค่าเริ่มต้นของพารามิเตอร์คือ EndOfJobซึ่งจะทำให้ SageMaker อัปโหลดผลลัพธ์หลังจากงานเสร็จสิ้น อย่างไรก็ตาม หากงานการประมวลผลของคุณสร้างไฟล์หลายไฟล์ คุณสามารถตั้งค่าได้ S3UploadMode ไปยัง Continuousจึงเปิดใช้งานการอัปโหลดอาร์ติแฟกต์พร้อมกันในขณะที่การประมวลผลดำเนินต่อไป และลดรันไทม์ของงาน

อินสแตนซ์งานการประมวลผลขนาดที่เหมาะสม

การเลือกประเภทและขนาดอินสแตนซ์ที่เหมาะสมเป็นปัจจัยหลักในการเพิ่มประสิทธิภาพต้นทุนของงาน SageMaker Processing คุณสามารถปรับขนาดอินสแตนซ์ให้ถูกต้องโดยการย้ายไปยังเวอร์ชันอื่นภายในกลุ่มอินสแตนซ์เดียวกันหรือโดยการย้ายไปยังกลุ่มอินสแตนซ์อื่น เมื่อย้ายข้อมูลภายในกลุ่มอินสแตนซ์เดียวกัน คุณจะต้องคำนึงถึง CPU/GPU และหน่วยความจำเท่านั้น สำหรับข้อมูลเพิ่มเติมและคำแนะนำทั่วไปในการเลือกทรัพยากรการประมวลผลที่เหมาะสม โปรดดูที่ ตรวจสอบทรัพยากรการประมวลผลที่มีประสิทธิภาพบน Amazon SageMaker.

ในการปรับแต่งการเลือกอินสแตนซ์อย่างละเอียด เราเริ่มต้นด้วยการวิเคราะห์เมตริกงานการประมวลผลใน CloudWatch สำหรับข้อมูลเพิ่มเติม โปรดดูที่ ตรวจสอบ Amazon SageMaker ด้วย Amazon CloudWatch.

CloudWatch รวบรวมข้อมูลดิบจาก SageMaker และประมวลผลเป็นเมตริกที่อ่านได้เกือบจะเรียลไทม์ แม้ว่าสถิติเหล่านี้จะถูกเก็บไว้เป็นเวลา 15 เดือน แต่คอนโซล CloudWatch จะจำกัดการค้นหาเฉพาะเมตริกที่อัปเดตในช่วง 2 สัปดาห์ที่ผ่านมา (เพื่อให้แน่ใจว่าจะแสดงเฉพาะงานปัจจุบันเท่านั้น) เมตริกงานการประมวลผลสามารถพบได้ในเนมสเปซ /aws/sagemaker/ProcessingJobs และเมตริกที่รวบรวมได้แก่ CPUUtilization, MemoryUtilization, GPUUtilization, GPUMemoryUtilizationและ DiskUtilization.

ภาพหน้าจอต่อไปนี้แสดงตัวอย่างใน CloudWatch ของงานการประมวลผลที่เราเห็นก่อนหน้านี้

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ในตัวอย่างนี้ เราจะเห็นค่า CPU และหน่วยความจำเฉลี่ย (ซึ่งเป็นค่าเริ่มต้นใน CloudWatch): การใช้งาน CPU เฉลี่ยคือ 0.04% หน่วยความจำ 1.84% และการใช้ดิสก์ 13.7% เพื่อให้มีขนาดที่เหมาะสม ให้พิจารณาการใช้งาน CPU และหน่วยความจำสูงสุดเสมอ (ในตัวอย่างนี้ การใช้งาน CPU สูงสุดคือ 98% ในช่วง 3 นาทีแรก) ตามกฎทั่วไป หากการใช้ CPU และหน่วยความจำสูงสุดของคุณน้อยกว่า 40% อย่างต่อเนื่อง คุณสามารถลดเครื่องลงได้อย่างปลอดภัย ตัวอย่างเช่น หากคุณใช้อินสแตนซ์ ml.c5.4xlarge คุณสามารถย้ายไปที่ ml.c5.2xlarge ซึ่งสามารถลดค่าใช้จ่ายของคุณได้ 50%

งาน Data Wrangler

Data Wrangler เป็นคุณสมบัติของ สตูดิโอ Amazon SageMaker ที่ให้โซลูชันที่ทำซ้ำได้และปรับขนาดได้สำหรับการสำรวจและประมวลผลข้อมูล คุณใช้อินเทอร์เฟซ Data Wrangler เพื่อนำเข้า วิเคราะห์ แปลง และแสดงข้อมูลของคุณแบบโต้ตอบ ขั้นตอนเหล่านี้บันทึกไว้ในสูตรอาหาร (ไฟล์ .flow) ซึ่งคุณสามารถใช้ในงาน Data Wrangler ได้ วิธีนี้ช่วยให้คุณนำการแปลงข้อมูลเดิมไปใช้ซ้ำกับข้อมูลของคุณ และยังปรับขนาดเป็นงานประมวลผลข้อมูลแบบกระจาย ไม่ว่าจะเป็นส่วนหนึ่งของไปป์ไลน์ ML หรือแยกกัน

สำหรับคำแนะนำในการเพิ่มประสิทธิภาพแอป Data Wrangler ใน Studio โปรดดูส่วนที่ 2 ในซีรี่ส์นี้

ในส่วนนี้ เรามุ่งเน้นไปที่การปรับงาน Data Wrangler ให้เหมาะสม

Data Wrangler ใช้ งานการประมวลผล SageMaker Spark ด้วยคอนเทนเนอร์ที่จัดการโดย Data Wrangler คอนเทนเนอร์นี้รันคำสั่งจากไฟล์ .flow ในงาน เช่นเดียวกับงานประมวลผลอื่นๆ Data Wrangler จะเรียกเก็บเงินจากคุณสำหรับอินสแตนซ์ที่คุณเลือก โดยขึ้นอยู่กับระยะเวลาการใช้งานและพื้นที่จัดเก็บที่จัดเตรียมไว้ซึ่งแนบมากับอินสแตนซ์นั้น

ใน Cost Explorer คุณสามารถกรองต้นทุนงานของ Data Wrangler ได้โดยใช้ตัวกรองกับประเภทการใช้งาน ชื่อของประเภทการใช้งานเหล่านี้คือ:

  • REGION-processing_DW:instanceType (ตัวอย่างเช่น, USE1-processing_DW:ml.m5.large)
  • REGION-processing_DW:VolumeUsage.gp2 (ตัวอย่างเช่น, USE1-processing_DW:VolumeUsage.gp2)

หากต้องการดูต้นทุน Data Wrangler ของคุณใน Cost Explorer ให้กรองบริการเพื่อใช้ SageMaker และสำหรับ ประเภทการใช้งาน, เลือก processing_DW คำนำหน้าและเลือกรายการบนเมนู นี่จะแสดงให้คุณเห็นทั้งค่าใช้จ่ายที่เกี่ยวข้องกับการใช้งานอินสแตนซ์ (ชั่วโมง) และปริมาณพื้นที่จัดเก็บ (GB) (หากคุณต้องการดูค่าใช้จ่ายของ Studio Data Wrangler คุณสามารถกรองประเภทการใช้งานตาม Studio_DW คำนำหน้า)

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

อินสแตนซ์งาน Data Wrangler ขนาดที่เหมาะสมและกำหนดเวลา

ในขณะนี้ Data Wrangler รองรับเฉพาะอินสแตนซ์ m5 ที่มีขนาดอินสแตนซ์ต่อไปนี้: ml.m5.4xlarge, ml.m5.12xlarge และ ml.m5.24xlarge คุณสามารถใช้คุณลักษณะการกระจายงานเพื่อปรับต้นทุนงานของคุณอย่างละเอียด ตัวอย่างเช่น สมมติว่าคุณต้องการประมวลผลชุดข้อมูลที่ต้องใช้ 350 GiB ใน RAM 4xlarge (128 GiB) และ 12xlarge (256 GiB) อาจไม่สามารถประมวลผลได้ และจะนำคุณไปใช้อินสแตนซ์ m5.24xlarge (768 GiB) อย่างไรก็ตาม คุณสามารถใช้อินสแตนซ์ m5.12xlarge สองอินสแตนซ์ (2 * 256 GiB = 512 GiB) และลดค่าใช้จ่ายลง 40% หรือสามอินสแตนซ์ m5.4xlarge (3 * 128 GiB = 384 GiB) และประหยัด 50% ของ m5.24xlarge ค่าอินสแตนซ์ คุณควรทราบว่าสิ่งเหล่านี้เป็นค่าประมาณ และการประมวลผลแบบกระจายอาจเพิ่มโอเวอร์เฮดบางอย่างที่จะส่งผลต่อรันไทม์โดยรวม

เมื่อเปลี่ยนประเภทอินสแตนซ์ ตรวจสอบให้แน่ใจว่าคุณอัปเดต การกำหนดค่าจุดประกาย ตามนั้น ตัวอย่างเช่น หากคุณมีงานอินสแตนซ์ ml.m5.4xlarge เริ่มต้นที่กำหนดค่าด้วยคุณสมบัติ spark.driver.memory ตั้งเป็น 2048 และ spark.executor.memory ตั้งค่าเป็น 55742 และต่อมาปรับขนาดเป็น ml.m5.12xlarge ค่าการกำหนดค่าเหล่านั้นจำเป็นต้องเพิ่มขึ้น มิฉะนั้นจะเป็นปัญหาคอขวดในงานประมวลผล คุณสามารถอัปเดตตัวแปรเหล่านี้ได้ใน Data Wrangler GUI หรือในไฟล์การกำหนดค่าที่ต่อท้ายพาธการกำหนดค่า (ดูตัวอย่างต่อไปนี้)

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

คุณลักษณะที่น่าสนใจอีกอย่างหนึ่งใน Data Wrangler คือความสามารถในการ กำหนดงานที่กำหนดไว้. หากคุณกำลังประมวลผลข้อมูลเป็นระยะ คุณสามารถสร้างกำหนดการเพื่อเรียกใช้งานการประมวลผลโดยอัตโนมัติ ตัวอย่างเช่น คุณสามารถสร้างกำหนดการที่เรียกใช้งานการประมวลผลโดยอัตโนมัติเมื่อคุณได้รับข้อมูลใหม่ (ดูตัวอย่าง ส่งออกไปยัง Amazon S3 or ส่งออกไปยัง Amazon SageMaker Feature Store). อย่างไรก็ตาม คุณควรทราบว่าเมื่อคุณสร้างกำหนดการ Data Wrangler จะสร้าง eventRule ใน EventBridge ซึ่งหมายความว่าคุณจะถูกเรียกเก็บเงินสำหรับกฎเหตุการณ์ที่คุณสร้างขึ้น (เช่นเดียวกับอินสแตนซ์ที่ใช้ในการเรียกใช้งานการประมวลผล) สำหรับข้อมูลเพิ่มเติม โปรดดูที่ ราคา Amazon EventBridge.

สรุป

ในโพสต์นี้ เราได้ให้คำแนะนำเกี่ยวกับการวิเคราะห์ต้นทุนและแนวทางปฏิบัติที่ดีที่สุดเมื่อดำเนินการล่วงหน้า

ข้อมูลโดยใช้งาน SageMaker Processing และ Data Wrangler เช่นเดียวกับการประมวลผลล่วงหน้า มีตัวเลือกและการตั้งค่ามากมายในการสร้าง ฝึกอบรม และใช้งานโมเดล ML ซึ่งอาจนำไปสู่ค่าใช้จ่ายที่ไม่จำเป็น ดังนั้น เมื่อแมชชีนเลิร์นนิงกลายเป็นเครื่องมือที่ทรงพลังในอุตสาหกรรมต่างๆ ปริมาณงาน ML จึงจำเป็นต้องรักษาต้นทุนอย่างคุ้มค่า

SageMaker นำเสนอชุดคุณลักษณะที่กว้างและลึกสำหรับการอำนวยความสะดวกในแต่ละขั้นตอนในไปป์ไลน์ ML

ความแข็งแกร่งนี้ยังให้โอกาสในการปรับต้นทุนให้เหมาะสมอย่างต่อเนื่องโดยไม่สูญเสียประสิทธิภาพหรือความคล่องตัว


เกี่ยวกับผู้เขียน

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.ทีปาลี ราจาเล เป็นผู้เชี่ยวชาญด้าน AI/ML อาวุโสที่ AWS เธอทำงานร่วมกับลูกค้าองค์กรโดยให้คำแนะนำด้านเทคนิคพร้อมแนวทางปฏิบัติที่ดีที่สุดสำหรับการปรับใช้และการบำรุงรักษาโซลูชัน AI/ML ในระบบนิเวศ AWS เธอได้ทำงานร่วมกับองค์กรต่างๆ มากมายเกี่ยวกับกรณีการใช้งานการเรียนรู้เชิงลึกต่างๆ ที่เกี่ยวข้องกับ NLP และการมองเห็นด้วยคอมพิวเตอร์ เธอหลงใหลในการเสริมศักยภาพให้องค์กรต่าง ๆ เพื่อใช้ประโยชน์จาก AI เชิงสร้างสรรค์เพื่อปรับปรุงประสบการณ์การใช้งาน ในเวลาว่าง เธอชอบดูภาพยนตร์ ดนตรี และวรรณกรรม

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.ยูริ โรเซนเบิร์ก เป็นผู้จัดการด้านเทคนิคของ AI & ML Specialist ประจำยุโรป ตะวันออกกลาง และแอฟริกา Uri ซึ่งตั้งอยู่ที่ประเทศอิสราเอลทำงานเพื่อให้อำนาจแก่ลูกค้าองค์กรในทุกสิ่งที่ ML ในการออกแบบ สร้าง และดำเนินการตามขนาด ในเวลาว่าง เขาชอบขี่จักรยาน เดินป่า และชมพระอาทิตย์ตกดิน (อย่างน้อยวันละครั้ง)

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS