ประมวลผลชุดข้อมูลที่ใหญ่ขึ้นและกว้างขึ้นด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ประมวลผลชุดข้อมูลขนาดใหญ่และกว้างขึ้นด้วย Amazon SageMaker Data Wrangler

Amazon SageMaker ข้อมูล Wrangler ลดเวลาในการรวบรวมและเตรียมข้อมูลสำหรับการเรียนรู้ของเครื่อง (ML) จากสัปดาห์เหลือเป็นนาทีใน สตูดิโอ Amazon SageMaker. Data Wrangler สามารถทำให้การเตรียมข้อมูลของคุณง่ายขึ้นและกระบวนการทางวิศวกรรมคุณสมบัติ และช่วยคุณในการเลือกข้อมูล การทำความสะอาด การสำรวจ และการแสดงภาพ Data Wrangler มีการแปลงในตัวมากกว่า 300 รายการที่เขียนใน PySpark ดังนั้นคุณจึงสามารถประมวลผลชุดข้อมูลได้มากถึงหลายร้อยกิกะไบต์อย่างมีประสิทธิภาพบนอินสแตนซ์เริ่มต้น ml.m5.4xlarge

อย่างไรก็ตาม เมื่อคุณทำงานกับชุดข้อมูลที่มีข้อมูลสูงถึงเทราไบต์โดยใช้การแปลงในตัว คุณอาจประสบปัญหาเวลาประมวลผลนานขึ้นหรือเกิดข้อผิดพลาดหน่วยความจำไม่เพียงพอ ตามข้อกำหนดด้านข้อมูลของคุณ ตอนนี้คุณสามารถใช้เพิ่มเติม อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (อเมซอน อีซี2) อินสแตนซ์ M5 และ อินสแตนซ์ R5. ตัวอย่างเช่น คุณสามารถเริ่มต้นด้วยอินสแตนซ์เริ่มต้น (ml.m5.4xlarge) แล้วเปลี่ยนเป็น ml.m5.24xlarge หรือ ml.r5.24xlarge คุณมีตัวเลือกในการเลือกประเภทอินสแตนซ์ต่างๆ และค้นหาการแลกเปลี่ยนต้นทุนและเวลาในการดำเนินการที่ดีที่สุด ครั้งต่อไปที่คุณทำงานเกี่ยวกับการแปลงอนุกรมเวลาและใช้งานทรานสฟอร์มเมอร์จำนวนมากเพื่อปรับสมดุลข้อมูลของคุณ คุณสามารถปรับขนาดอินสแตนซ์ Data Wrangler ให้เหมาะสมเพื่อเรียกใช้กระบวนการเหล่านี้ได้เร็วขึ้น

เมื่อประมวลผลหลายสิบกิกะไบต์หรือมากกว่านั้นด้วยการแปลง Pandas แบบกำหนดเอง คุณอาจพบข้อผิดพลาดหน่วยความจำไม่เพียงพอ คุณสามารถเปลี่ยนจากอินสแตนซ์เริ่มต้น (ml.m5.4xlarge) เป็น ml.m5.24xlarge และการแปลงจะเสร็จสิ้นโดยไม่มีข้อผิดพลาดใดๆ เราทำการเปรียบเทียบอย่างละเอียดถี่ถ้วนและสังเกตการเร่งความเร็วเชิงเส้นในขณะที่เราเพิ่มขนาดอินสแตนซ์ในพอร์ตโฟลิโอของชุดข้อมูล

ในโพสต์นี้ เราแชร์ผลการวิจัยของเราจากการทดสอบเกณฑ์มาตรฐานสองแบบเพื่อแสดงให้เห็นว่าคุณสามารถประมวลผลชุดข้อมูลขนาดใหญ่และกว้างขึ้นด้วย Data Wrangler ได้อย่างไร

การทดสอบเกณฑ์มาตรฐานของ Data Wrangler

มาตรวจทานการทดสอบสองรายการที่เรารัน การสืบค้นแบบรวมและการเข้ารหัสแบบครั้งเดียว ด้วยประเภทอินสแตนซ์ที่แตกต่างกันโดยใช้หม้อแปลงในตัวของ PySpark และการแปลง Pandas แบบกำหนดเอง การแปลงที่ไม่ต้องการการรวมเสร็จสิ้นอย่างรวดเร็วและทำงานได้ดีกับประเภทอินสแตนซ์เริ่มต้น ดังนั้นเราจึงมุ่งเน้นไปที่การสืบค้นแบบรวมและการแปลงด้วยการรวม เราจัดเก็บชุดข้อมูลทดสอบของเราไว้ที่ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3). ขนาดที่ขยายของชุดข้อมูลนี้คือประมาณ 100 GB โดยมี 80 ล้านแถวและ 300 คอลัมน์ เราใช้ตัววัด UI เพื่อทดสอบเกณฑ์มาตรฐานเวลาและวัดเวลาแฝงในการเผชิญหน้ากับลูกค้าตั้งแต่ต้นทางถึงปลายทาง เมื่อนำเข้าชุดข้อมูลทดสอบของเรา เราปิดการใช้งานการสุ่มตัวอย่าง. การสุ่มตัวอย่างเปิดใช้งานโดยค่าเริ่มต้น และ Data Wrangler จะประมวลผลเฉพาะ 100 แถวแรกเมื่อเปิดใช้งานx

ประมวลผลชุดข้อมูลที่ใหญ่ขึ้นและกว้างขึ้นด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เมื่อเราเพิ่มขนาดอินสแตนซ์ Data Wrangler เราสังเกตเห็นการเพิ่มความเร็วเชิงเส้นคร่าวๆ ของการแปลงในตัว Data Wrangler และ Spark SQL ที่กำหนดเอง การทดสอบการสืบค้นการรวม Pandas เสร็จสิ้นเมื่อเราใช้อินสแตนซ์ที่มีขนาดใหญ่กว่า ml.m5.16xl และ Pandas ต้องการหน่วยความจำ 180 GB เพื่อประมวลผลการสืบค้นการรวมสำหรับชุดข้อมูลนี้

ตารางต่อไปนี้สรุปผลการทดสอบคิวรีแบบรวม

ตัวอย่าง ซีพียู หน่วยความจำ (GiB) เวลาการแปลง Spark ในตัวของ Data Wrangler เวลาแพนด้า
(แปลงเอง)
มล.m5.4xl 16 64 วินาที 229 ความจำเต็ม
มล.m5.8xl 32 128 วินาที 130 ความจำเต็ม
มล.m5.16xl 64 256 วินาที 52 30 นาที

ตารางต่อไปนี้สรุปผลการทดสอบการเข้ารหัสแบบครั้งเดียว

ตัวอย่าง ซีพียู หน่วยความจำ (GiB) เวลาการแปลง Spark ในตัวของ Data Wrangler เวลาแพนด้า
(แปลงเอง)
มล.m5.4xl 16 64 วินาที 228 ความจำเต็ม
มล.m5.8xl 32 128 วินาที 130 ความจำเต็ม
มล.m5.16xl 64 256 วินาที 52 ความจำเต็ม

เปลี่ยนประเภทอินสแตนซ์ของโฟลว์ข้อมูล

หากต้องการเปลี่ยนประเภทอินสแตนซ์ของโฟลว์ของคุณ ให้ทำตามขั้นตอนต่อไปนี้:

  1. บนคอนโซล Amazon SageMaker Data Wrangler ให้ไปที่โฟลว์ข้อมูลที่คุณกำลังใช้อยู่
  2. เลือกประเภทอินสแตนซ์บนแถบนำทาง
    ประมวลผลชุดข้อมูลที่ใหญ่ขึ้นและกว้างขึ้นด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  3. เลือกประเภทอินสแตนซ์ที่คุณต้องการใช้
  4. Choose ลด.
    ประมวลผลชุดข้อมูลที่ใหญ่ขึ้นและกว้างขึ้นด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ข้อความแสดงความคืบหน้าจะปรากฏขึ้น

ประมวลผลชุดข้อมูลที่ใหญ่ขึ้นและกว้างขึ้นด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เมื่อสวิตช์เสร็จสมบูรณ์ ข้อความแสดงความสำเร็จจะปรากฏขึ้น

ประมวลผลชุดข้อมูลที่ใหญ่ขึ้นและกว้างขึ้นด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

Data Wrangler ใช้ประเภทอินสแตนซ์ที่เลือกสำหรับการวิเคราะห์ข้อมูลและการแปลงข้อมูล อินสแตนซ์เริ่มต้นและอินสแตนซ์ที่คุณเปลี่ยนไปใช้ (ml.m5.16xlarge) กำลังทำงานอยู่ทั้งคู่ คุณสามารถเปลี่ยนประเภทอินสแตนซ์หรือเปลี่ยนกลับเป็นอินสแตนซ์เริ่มต้นก่อนเรียกใช้การแปลงเฉพาะ

ปิดอินสแตนซ์ที่ไม่ได้ใช้

คุณจะถูกเรียกเก็บเงินสำหรับอินสแตนซ์ที่ทำงานอยู่ทั้งหมด เพื่อหลีกเลี่ยงค่าใช้จ่ายเพิ่มเติม ให้ปิดอินสแตนซ์ที่คุณไม่ได้ใช้ด้วยตนเอง หากต้องการปิดอินสแตนซ์ที่กำลังทำงานอยู่ ให้ทำตามขั้นตอนต่อไปนี้:

  1. ในหน้าโฟลว์ข้อมูลของคุณ เลือกไอคอนอินสแตนซ์ในบานหน้าต่างด้านซ้ายของ UI ภายใต้ อินสแตนซ์ที่ทำงานอยู่.
    ประมวลผลชุดข้อมูลที่ใหญ่ขึ้นและกว้างขึ้นด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  2. Choose ปิดตัวลง.

หากคุณปิดอินสแตนซ์ที่ใช้ในการเรียกใช้โฟลว์ คุณจะไม่สามารถเข้าถึงโฟลว์ได้ชั่วคราว หากคุณได้รับข้อผิดพลาดในการเปิดโฟลว์ที่เรียกใช้อินสแตนซ์ที่คุณปิดระบบไปก่อนหน้านี้ ให้รอประมาณ 5 นาทีแล้วลองเปิดใหม่อีกครั้ง

สรุป

ในโพสต์นี้ เราสาธิตวิธีประมวลผลชุดข้อมูลขนาดใหญ่และกว้างขึ้นด้วย Data Wrangler โดยสลับอินสแตนซ์เป็นประเภทอินสแตนซ์ M5 หรือ R5 ที่ใหญ่ขึ้น อินสแตนซ์ M5 ให้ความสมดุลของทรัพยากรในการประมวลผล หน่วยความจำ และเครือข่าย อินสแตนซ์ R5 เป็นอินสแตนซ์ที่เพิ่มประสิทธิภาพหน่วยความจำ ทั้ง M5 และ R5 มีประเภทอินสแตนซ์เพื่อปรับต้นทุนและประสิทธิภาพให้เหมาะสมสำหรับปริมาณงานของคุณ

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการใช้โฟลว์ข้อมูลกับ Data Wrangler โปรดดูที่ สร้างและใช้ Data Wrangler Flow และ ราคา Amazon SageMaker. ในการเริ่มต้นใช้งาน Data Wrangler โปรดดูที่ เตรียมข้อมูล ML ด้วย Amazon SageMaker Data Wrangler.


เกี่ยวกับผู้เขียน

ประมวลผลชุดข้อมูลที่ใหญ่ขึ้นและกว้างขึ้นด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ไฮเดอร์ นาควี เป็นสถาปนิกโซลูชันที่ AWS เขามีประสบการณ์ด้านการพัฒนาซอฟต์แวร์และสถาปัตยกรรมองค์กรอย่างกว้างขวาง เขามุ่งเน้นที่การทำให้ลูกค้าบรรลุผลทางธุรกิจด้วย AWS เขามาจากนิวยอร์ก

ประมวลผลชุดข้อมูลที่ใหญ่ขึ้นและกว้างขึ้นด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.Huong Nguyen เป็น Sr. Product Manager ที่ AWS เธอเป็นผู้นำในการบูรณาการระบบนิเวศข้อมูลสำหรับ SageMaker โดยมีประสบการณ์ 14 ปีในการสร้างผลิตภัณฑ์ที่เน้นลูกค้าเป็นศูนย์กลางและขับเคลื่อนด้วยข้อมูลสำหรับทั้งองค์กรและพื้นที่ผู้บริโภค

ประมวลผลชุดข้อมูลที่ใหญ่ขึ้นและกว้างขึ้นด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.มีนคชีสันดาราม ทันดาวารายัน เป็นผู้เชี่ยวชาญด้าน AI/ML อาวุโสของ AWS เขาช่วยบัญชีเชิงกลยุทธ์ไฮเทคในการเดินทางของ AI และ ML เขาหลงใหลเกี่ยวกับ AI ที่ขับเคลื่อนด้วยข้อมูลเป็นอย่างมาก

ประมวลผลชุดข้อมูลที่ใหญ่ขึ้นและกว้างขึ้นด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ศรีฮาร์ชา เอ็ม ซีเนียร์ เป็นสถาปนิก AI/ML Specialist Solutions Architect ในทีม Strategic Specialist ที่ Amazon Web Services เขาทำงานร่วมกับลูกค้า AWS เชิงกลยุทธ์ที่ใช้ประโยชน์จาก AI/ML เพื่อแก้ปัญหาทางธุรกิจที่ซับซ้อน เขาให้คำแนะนำด้านเทคนิคและคำแนะนำในการออกแบบเพื่อนำแอปพลิเคชัน AI/ML ไปใช้ในวงกว้าง ความเชี่ยวชาญของเขาครอบคลุมสถาปัตยกรรมแอปพลิเคชัน ข้อมูลขนาดใหญ่ การวิเคราะห์ และการเรียนรู้ของเครื่อง

ประมวลผลชุดข้อมูลที่ใหญ่ขึ้นและกว้างขึ้นด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.นิกิต้า อิฟคิน เป็นนักวิทยาศาสตร์ประยุกต์ Amazon SageMaker Data Wrangler

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS