ประมวลผลชุดข้อมูลขนาดใหญ่และกว้างขึ้นด้วย Amazon SageMaker Data Wrangler

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

Amazon SageMaker ข้อมูล Wrangler ลดเวลาในการรวบรวมและเตรียมข้อมูลสำหรับการเรียนรู้ของเครื่อง (ML) จากสัปดาห์เหลือเป็นนาทีใน สตูดิโอ Amazon SageMaker. Data Wrangler สามารถทำให้การเตรียมข้อมูลของคุณง่ายขึ้นและกระบวนการทางวิศวกรรมคุณสมบัติ และช่วยคุณในการเลือกข้อมูล การทำความสะอาด การสำรวจ และการแสดงภาพ Data Wrangler มีการแปลงในตัวมากกว่า 300 รายการที่เขียนใน PySpark ดังนั้นคุณจึงสามารถประมวลผลชุดข้อมูลได้มากถึงหลายร้อยกิกะไบต์อย่างมีประสิทธิภาพบนอินสแตนซ์เริ่มต้น ml.m5.4xlarge

อย่างไรก็ตาม เมื่อคุณทำงานกับชุดข้อมูลที่มีข้อมูลสูงถึงเทราไบต์โดยใช้การแปลงในตัว คุณอาจประสบปัญหาเวลาประมวลผลนานขึ้นหรือเกิดข้อผิดพลาดหน่วยความจำไม่เพียงพอ ตามข้อกำหนดด้านข้อมูลของคุณ ตอนนี้คุณสามารถใช้เพิ่มเติม อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (อเมซอน อีซี2) อินสแตนซ์ M5 และ อินสแตนซ์ R5. ตัวอย่างเช่น คุณสามารถเริ่มต้นด้วยอินสแตนซ์เริ่มต้น (ml.m5.4xlarge) แล้วเปลี่ยนเป็น ml.m5.24xlarge หรือ ml.r5.24xlarge คุณมีตัวเลือกในการเลือกประเภทอินสแตนซ์ต่างๆ และค้นหาการแลกเปลี่ยนต้นทุนและเวลาในการดำเนินการที่ดีที่สุด ครั้งต่อไปที่คุณทำงานเกี่ยวกับการแปลงอนุกรมเวลาและใช้งานทรานสฟอร์มเมอร์จำนวนมากเพื่อปรับสมดุลข้อมูลของคุณ คุณสามารถปรับขนาดอินสแตนซ์ Data Wrangler ให้เหมาะสมเพื่อเรียกใช้กระบวนการเหล่านี้ได้เร็วขึ้น

เมื่อประมวลผลหลายสิบกิกะไบต์หรือมากกว่านั้นด้วยการแปลง Pandas แบบกำหนดเอง คุณอาจพบข้อผิดพลาดหน่วยความจำไม่เพียงพอ คุณสามารถเปลี่ยนจากอินสแตนซ์เริ่มต้น (ml.m5.4xlarge) เป็น ml.m5.24xlarge และการแปลงจะเสร็จสิ้นโดยไม่มีข้อผิดพลาดใดๆ เราทำการเปรียบเทียบอย่างละเอียดถี่ถ้วนและสังเกตการเร่งความเร็วเชิงเส้นในขณะที่เราเพิ่มขนาดอินสแตนซ์ในพอร์ตโฟลิโอของชุดข้อมูล

ในโพสต์นี้ เราแชร์ผลการวิจัยของเราจากการทดสอบเกณฑ์มาตรฐานสองแบบเพื่อแสดงให้เห็นว่าคุณสามารถประมวลผลชุดข้อมูลขนาดใหญ่และกว้างขึ้นด้วย Data Wrangler ได้อย่างไร

การทดสอบเกณฑ์มาตรฐานของ Data Wrangler

มาตรวจทานการทดสอบสองรายการที่เรารัน การสืบค้นแบบรวมและการเข้ารหัสแบบครั้งเดียว ด้วยประเภทอินสแตนซ์ที่แตกต่างกันโดยใช้หม้อแปลงในตัวของ PySpark และการแปลง Pandas แบบกำหนดเอง การแปลงที่ไม่ต้องการการรวมเสร็จสิ้นอย่างรวดเร็วและทำงานได้ดีกับประเภทอินสแตนซ์เริ่มต้น ดังนั้นเราจึงมุ่งเน้นไปที่การสืบค้นแบบรวมและการแปลงด้วยการรวม เราจัดเก็บชุดข้อมูลทดสอบของเราไว้ที่ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3). ขนาดที่ขยายของชุดข้อมูลนี้คือประมาณ 100 GB โดยมี 80 ล้านแถวและ 300 คอลัมน์ เราใช้ตัววัด UI เพื่อทดสอบเกณฑ์มาตรฐานเวลาและวัดเวลาแฝงในการเผชิญหน้ากับลูกค้าตั้งแต่ต้นทางถึงปลายทาง เมื่อนำเข้าชุดข้อมูลทดสอบของเรา เราปิดการใช้งานการสุ่มตัวอย่าง. การสุ่มตัวอย่างเปิดใช้งานโดยค่าเริ่มต้น และ Data Wrangler จะประมวลผลเฉพาะ 100 แถวแรกเมื่อเปิดใช้งานx

เมื่อเราเพิ่มขนาดอินสแตนซ์ Data Wrangler เราสังเกตเห็นการเพิ่มความเร็วเชิงเส้นคร่าวๆ ของการแปลงในตัว Data Wrangler และ Spark SQL ที่กำหนดเอง การทดสอบการสืบค้นการรวม Pandas เสร็จสิ้นเมื่อเราใช้อินสแตนซ์ที่มีขนาดใหญ่กว่า ml.m5.16xl และ Pandas ต้องการหน่วยความจำ 180 GB เพื่อประมวลผลการสืบค้นการรวมสำหรับชุดข้อมูลนี้

ตารางต่อไปนี้สรุปผลการทดสอบคิวรีแบบรวม

ตัวอย่าง	ซีพียู	หน่วยความจำ (GiB)	เวลาการแปลง Spark ในตัวของ Data Wrangler	เวลาแพนด้า (แปลงเอง)
มล.m5.4xl	16	64	วินาที 229	ความจำเต็ม
มล.m5.8xl	32	128	วินาที 130	ความจำเต็ม
มล.m5.16xl	64	256	วินาที 52	30 นาที

ตารางต่อไปนี้สรุปผลการทดสอบการเข้ารหัสแบบครั้งเดียว

ตัวอย่าง	ซีพียู	หน่วยความจำ (GiB)	เวลาการแปลง Spark ในตัวของ Data Wrangler	เวลาแพนด้า (แปลงเอง)
มล.m5.4xl	16	64	วินาที 228	ความจำเต็ม
มล.m5.8xl	32	128	วินาที 130	ความจำเต็ม
มล.m5.16xl	64	256	วินาที 52	ความจำเต็ม

เปลี่ยนประเภทอินสแตนซ์ของโฟลว์ข้อมูล

หากต้องการเปลี่ยนประเภทอินสแตนซ์ของโฟลว์ของคุณ ให้ทำตามขั้นตอนต่อไปนี้:

บนคอนโซล Amazon SageMaker Data Wrangler ให้ไปที่โฟลว์ข้อมูลที่คุณกำลังใช้อยู่
เลือกประเภทอินสแตนซ์บนแถบนำทาง
เลือกประเภทอินสแตนซ์ที่คุณต้องการใช้
Choose ลด.

ข้อความแสดงความคืบหน้าจะปรากฏขึ้น

เมื่อสวิตช์เสร็จสมบูรณ์ ข้อความแสดงความสำเร็จจะปรากฏขึ้น

Data Wrangler ใช้ประเภทอินสแตนซ์ที่เลือกสำหรับการวิเคราะห์ข้อมูลและการแปลงข้อมูล อินสแตนซ์เริ่มต้นและอินสแตนซ์ที่คุณเปลี่ยนไปใช้ (ml.m5.16xlarge) กำลังทำงานอยู่ทั้งคู่ คุณสามารถเปลี่ยนประเภทอินสแตนซ์หรือเปลี่ยนกลับเป็นอินสแตนซ์เริ่มต้นก่อนเรียกใช้การแปลงเฉพาะ

ปิดอินสแตนซ์ที่ไม่ได้ใช้

คุณจะถูกเรียกเก็บเงินสำหรับอินสแตนซ์ที่ทำงานอยู่ทั้งหมด เพื่อหลีกเลี่ยงค่าใช้จ่ายเพิ่มเติม ให้ปิดอินสแตนซ์ที่คุณไม่ได้ใช้ด้วยตนเอง หากต้องการปิดอินสแตนซ์ที่กำลังทำงานอยู่ ให้ทำตามขั้นตอนต่อไปนี้:

ในหน้าโฟลว์ข้อมูลของคุณ เลือกไอคอนอินสแตนซ์ในบานหน้าต่างด้านซ้ายของ UI ภายใต้ อินสแตนซ์ที่ทำงานอยู่.
Choose ปิดตัวลง.

หากคุณปิดอินสแตนซ์ที่ใช้ในการเรียกใช้โฟลว์ คุณจะไม่สามารถเข้าถึงโฟลว์ได้ชั่วคราว หากคุณได้รับข้อผิดพลาดในการเปิดโฟลว์ที่เรียกใช้อินสแตนซ์ที่คุณปิดระบบไปก่อนหน้านี้ ให้รอประมาณ 5 นาทีแล้วลองเปิดใหม่อีกครั้ง

สรุป

ในโพสต์นี้ เราสาธิตวิธีประมวลผลชุดข้อมูลขนาดใหญ่และกว้างขึ้นด้วย Data Wrangler โดยสลับอินสแตนซ์เป็นประเภทอินสแตนซ์ M5 หรือ R5 ที่ใหญ่ขึ้น อินสแตนซ์ M5 ให้ความสมดุลของทรัพยากรในการประมวลผล หน่วยความจำ และเครือข่าย อินสแตนซ์ R5 เป็นอินสแตนซ์ที่เพิ่มประสิทธิภาพหน่วยความจำ ทั้ง M5 และ R5 มีประเภทอินสแตนซ์เพื่อปรับต้นทุนและประสิทธิภาพให้เหมาะสมสำหรับปริมาณงานของคุณ

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการใช้โฟลว์ข้อมูลกับ Data Wrangler โปรดดูที่ สร้างและใช้ Data Wrangler Flow และ ราคา Amazon SageMaker. ในการเริ่มต้นใช้งาน Data Wrangler โปรดดูที่ เตรียมข้อมูล ML ด้วย Amazon SageMaker Data Wrangler.

เกี่ยวกับผู้เขียน

ไฮเดอร์ นาควี เป็นสถาปนิกโซลูชันที่ AWS เขามีประสบการณ์ด้านการพัฒนาซอฟต์แวร์และสถาปัตยกรรมองค์กรอย่างกว้างขวาง เขามุ่งเน้นที่การทำให้ลูกค้าบรรลุผลทางธุรกิจด้วย AWS เขามาจากนิวยอร์ก

Huong Nguyen เป็น Sr. Product Manager ที่ AWS เธอเป็นผู้นำในการบูรณาการระบบนิเวศข้อมูลสำหรับ SageMaker โดยมีประสบการณ์ 14 ปีในการสร้างผลิตภัณฑ์ที่เน้นลูกค้าเป็นศูนย์กลางและขับเคลื่อนด้วยข้อมูลสำหรับทั้งองค์กรและพื้นที่ผู้บริโภค

มีนคชีสันดาราม ทันดาวารายัน เป็นผู้เชี่ยวชาญด้าน AI/ML อาวุโสของ AWS เขาช่วยบัญชีเชิงกลยุทธ์ไฮเทคในการเดินทางของ AI และ ML เขาหลงใหลเกี่ยวกับ AI ที่ขับเคลื่อนด้วยข้อมูลเป็นอย่างมาก

ศรีฮาร์ชา เอ็ม ซีเนียร์ เป็นสถาปนิก AI/ML Specialist Solutions Architect ในทีม Strategic Specialist ที่ Amazon Web Services เขาทำงานร่วมกับลูกค้า AWS เชิงกลยุทธ์ที่ใช้ประโยชน์จาก AI/ML เพื่อแก้ปัญหาทางธุรกิจที่ซับซ้อน เขาให้คำแนะนำด้านเทคนิคและคำแนะนำในการออกแบบเพื่อนำแอปพลิเคชัน AI/ML ไปใช้ในวงกว้าง ความเชี่ยวชาญของเขาครอบคลุมสถาปัตยกรรมแอปพลิเคชัน ข้อมูลขนาดใหญ่ การวิเคราะห์ และการเรียนรู้ของเครื่อง

นิกิต้า อิฟคิน เป็นนักวิทยาศาสตร์ประยุกต์ Amazon SageMaker Data Wrangler

ประทับเวลา: May 6, 2022

ประทับเวลา: ธันวาคม 16, 2022

ขอแนะนำการ์ดบริการ AWS AI: ทรัพยากรใหม่เพื่อเพิ่มความโปร่งใสและพัฒนา AI ที่มีความรับผิดชอบ

คลัสเตอร์ต้นทาง:

AWS Machine Learning AWS

โหนดต้นทาง: 1766345

ประทับเวลา: พฤศจิกายน 30, 2022

เผยแพร่ซ้ำโดยเพลโต

Amazon SageMaker Autopilot เร็วขึ้นสูงสุดแปดเท่าด้วยโหมดการฝึกชุดใหม่ที่ขับเคลื่อนโดย AutoGluon

การฝึกอบรมแบบกระจายและการปรับขนาดที่มีประสิทธิภาพด้วย Amazon SageMaker Model Parallel และ Data Parallel Libraries อเมซอนเว็บเซอร์วิส

ระบุสาเหตุที่เป็นไปได้ในความผิดปกติที่ร้ายแรงต่อธุรกิจโดยใช้ Amazon Lookout for Metrics

เพิ่มธุรกรรมการฉ้อโกงโดยใช้ข้อมูลสังเคราะห์ใน Amazon SageMaker

ขอแนะนำการ์ดบริการ AWS AI: ทรัพยากรใหม่เพื่อเพิ่มความโปร่งใสและพัฒนา AI ที่มีความรับผิดชอบ

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้