ใช้ Amazon SageMaker Data Wrangler สำหรับการเตรียมข้อมูลและ Studio Labs เพื่อเรียนรู้และทดลองกับ ML

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ห้องปฏิบัติการ Amazon SageMaker Studio เป็นสภาพแวดล้อมการพัฒนาแมชชีนเลิร์นนิง (ML) ฟรีโดยอิงตามโอเพ่นซอร์ส JupyterLab สำหรับทุกคนในการเรียนรู้และทดลองกับ ML โดยใช้ทรัพยากรการประมวลผล AWS ML มันใช้สถาปัตยกรรมและส่วนต่อประสานผู้ใช้เดียวกันกับ สตูดิโอ Amazon SageMakerแต่ด้วยความสามารถของ Studio บางส่วน

เมื่อคุณเริ่มทำงานในโครงการริเริ่ม ML คุณต้องทำการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) หรือการเตรียมข้อมูลก่อนที่จะดำเนินการสร้างแบบจำลอง Amazon SageMaker ข้อมูล Wrangler เป็นความสามารถของ อเมซอน SageMaker ที่ทำให้นักวิทยาศาสตร์และวิศวกรข้อมูลสามารถจัดเตรียมข้อมูลสำหรับแอปพลิเคชัน ML ได้รวดเร็วยิ่งขึ้นผ่านอินเทอร์เฟซแบบภาพ Data Wrangler ช่วยลดเวลาในการรวบรวมและเตรียมข้อมูลสำหรับ ML จากสัปดาห์เหลือเป็นนาที

ตัวเร่งหลักของการเตรียมคุณสมบัติใน Data Wrangler คือ รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก. รายงานนี้จะตรวจสอบคุณภาพข้อมูลและช่วยตรวจจับความผิดปกติในข้อมูลของคุณ เพื่อให้คุณสามารถดำเนินการวิศวกรรมข้อมูลที่จำเป็นเพื่อแก้ไขชุดข้อมูลของคุณ คุณสามารถใช้รายงานคุณภาพข้อมูลและข้อมูลเชิงลึกเพื่อทำการวิเคราะห์ข้อมูลของคุณเพื่อรับข้อมูลเชิงลึกในชุดข้อมูลของคุณ เช่น จำนวนค่าที่ขาดหายไปและจำนวนค่าผิดปกติ หากคุณมีปัญหากับข้อมูลของคุณ เช่น เป้าหมายรั่วไหลหรือความไม่สมดุล รายงานข้อมูลเชิงลึกสามารถนำปัญหาเหล่านั้นมาที่คุณสนใจ และช่วยคุณระบุขั้นตอนการเตรียมข้อมูลที่คุณต้องดำเนินการ

ผู้ใช้ Studio Lab สามารถได้รับประโยชน์จาก Data Wrangler เนื่องจากคุณภาพของข้อมูลและวิศวกรรมคุณลักษณะมีความสำคัญอย่างยิ่งต่อประสิทธิภาพการคาดการณ์ของโมเดลของคุณ Data Wrangler ช่วยในด้านคุณภาพข้อมูลและวิศวกรรมคุณลักษณะโดยให้ข้อมูลเชิงลึกเกี่ยวกับปัญหาด้านคุณภาพข้อมูล และเปิดใช้งานการทำซ้ำคุณลักษณะอย่างรวดเร็วและวิศวกรรมโดยใช้ UI แบบ low-code

ในโพสต์นี้ เราจะแสดงวิธีวิเคราะห์ข้อมูลเชิงสำรวจ จัดเตรียมและแปลงข้อมูลโดยใช้ Data Wrangler และส่งออกข้อมูลที่แปลงและเตรียมไว้ไปยัง Studio Lab เพื่อดำเนินการสร้างแบบจำลอง

ภาพรวมโซลูชัน

โซลูชันประกอบด้วยขั้นตอนระดับสูงดังต่อไปนี้:

สร้างบัญชี AWS และผู้ดูแลระบบ นี่เป็นข้อกำหนดเบื้องต้น
ดาวน์โหลดชุดข้อมูล churn.csv.
โหลดชุดข้อมูลไปที่ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3).
สร้างโดเมน SageMaker Studio และเปิดใช้ Data Wrangler
นำเข้าชุดข้อมูลไปยังโฟลว์ Data Wrangler จาก Amazon S3
สร้างรายงานคุณภาพข้อมูลและข้อมูลเชิงลึก และสรุปเกี่ยวกับวิศวกรรมคุณลักษณะที่จำเป็น
ดำเนินการแปลงข้อมูลที่จำเป็นใน Data Wrangler
ดาวน์โหลดรายงานคุณภาพข้อมูลและข้อมูลเชิงลึกและชุดข้อมูลที่แปลงแล้ว
อัปโหลดข้อมูลไปยังโปรเจ็กต์ Studio Lab สำหรับการฝึกโมเดล

ไดอะแกรมต่อไปนี้แสดงเวิร์กโฟลว์นี้

เบื้องต้น

ในการใช้ Data Wrangler และ Studio Lab คุณต้องมีข้อกำหนดเบื้องต้นต่อไปนี้:

สร้างเวิร์กโฟลว์การเตรียมข้อมูลด้วย Data Wrangler

ในการเริ่มต้น ให้ทำตามขั้นตอนต่อไปนี้:

อัปโหลดชุดข้อมูลของคุณไปยัง Amazon S3
บนคอนโซล SageMaker ภายใต้ แผงควบคุม ในบานหน้าต่างนำทาง ให้เลือก สตูดิโอ.
เกี่ยวกับ เปิดแอพ เมนูข้างโปรไฟล์ผู้ใช้ของคุณ เลือก สตูดิโอ.

หลังจากที่คุณเข้าสู่ระบบ Studio สำเร็จแล้ว คุณควรเห็นสภาพแวดล้อมการพัฒนาเช่นภาพหน้าจอต่อไปนี้
ในการสร้างเวิร์กโฟลว์ Data Wrangler ใหม่ บน เนื้อไม่มีมัน เมนูให้เลือก ใหม่แล้วเลือก ข้อมูล Wrangler Flow.

ขั้นตอนแรกใน Data Wrangler คือการ นำเข้า ข้อมูลของคุณ คุณสามารถนำเข้าข้อมูลจากแหล่งข้อมูลต่างๆ เช่น Amazon S3 อเมซอน อาเธน่า, อเมซอน Redshift, เกล็ดหิมะและ อิฐข้อมูล. ในตัวอย่างนี้ เราใช้ Amazon S3 หากคุณต้องการดูว่า Data Wrangler ทำงานอย่างไร คุณสามารถเลือกได้เสมอ ใช้ชุดข้อมูลตัวอย่าง.
Choose นำเข้าข้อมูล.
Choose Amazon S3.
เลือกชุดข้อมูลที่คุณอัปโหลดแล้วเลือก นำเข้า.

Data Wrangler ช่วยให้คุณสามารถนำเข้าชุดข้อมูลทั้งหมดหรือสุ่มตัวอย่างบางส่วนได้
หากต้องการรับข้อมูลเชิงลึกอย่างรวดเร็วเกี่ยวกับชุดข้อมูล ให้เลือก เฟิร์ส K for การสุ่มตัวอย่าง และป้อน 50000 สำหรับ ขนาดตัวอย่าง.

เข้าใจคุณภาพของข้อมูลและรับข้อมูลเชิงลึก

ลองใช้รายงานคุณภาพข้อมูลและข้อมูลเชิงลึกเพื่อทำการวิเคราะห์ข้อมูลที่เรานำเข้าไปยัง Data Wrangler คุณสามารถใช้รายงานเพื่อทำความเข้าใจขั้นตอนที่คุณต้องดำเนินการเพื่อล้างและประมวลผลข้อมูลของคุณ รายงานนี้ให้ข้อมูล เช่น จำนวนค่าที่ขาดหายไปและจำนวนค่าผิดปกติ หากคุณมีปัญหากับข้อมูลของคุณ เช่น เป้าหมายรั่วไหลหรือความไม่สมดุล รายงานข้อมูลเชิงลึกสามารถนำปัญหาเหล่านั้นมาให้คุณ

เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล และเลือก รับข้อมูลเชิงลึก.
สำหรับ ประเภทการวิเคราะห์เลือก รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก.
สำหรับ คอลัมน์เป้าหมายเลือก ปั่น?.
สำหรับ ประเภทปัญหา¸ เลือก การจัดหมวดหมู่.
Choose สร้างบัญชีตัวแทน.

คุณจะได้รับรายงานโดยละเอียดซึ่งคุณสามารถตรวจสอบและดาวน์โหลดได้ รายงานประกอบด้วยหลายส่วน เช่น โมเดลด่วน สรุปคุณลักษณะ ความสัมพันธ์ของคุณลักษณะ และข้อมูลเชิงลึก ภาพหน้าจอต่อไปนี้แสดงตัวอย่างของส่วนเหล่านี้

ข้อสังเกตจากรายงาน

จากรายงาน เราสามารถสังเกตได้ดังต่อไปนี้:

ไม่พบแถวที่ซ้ำกัน
พื้นที่ State คอลัมน์ดูเหมือนจะมีการกระจายอย่างสม่ำเสมอ ดังนั้นข้อมูลจึงมีความสมดุลในแง่ของจำนวนประชากรของรัฐ
พื้นที่ Phone คอลัมน์แสดงค่าที่ไม่ซ้ำกันจำนวนมากเกินกว่าจะนำไปใช้ได้จริง ค่าที่ไม่ซ้ำกันมากเกินไปทำให้คอลัมน์นี้ไม่มีประโยชน์ เราสามารถวาง Phone คอลัมน์ในการเปลี่ยนแปลงของเรา
ตามส่วนสหสัมพันธ์คุณลักษณะของรายงาน Mins และ Charge มีความสัมพันธ์กันอย่างมาก เราสามารถลบหนึ่งในนั้นได้

การแปลง

จากการสังเกตของเรา เราต้องการทำการเปลี่ยนแปลงต่อไปนี้:

ลบ Phone คอลัมน์ เนื่องจากมีค่าไม่ซ้ำกันมากมาย
เรายังเห็นคุณลักษณะหลายอย่างที่มีความสัมพันธ์กันโดยพื้นฐาน 100% การรวมคุณสมบัติคู่เหล่านี้ไว้ในอัลกอริธึม ML บางตัวสามารถสร้างปัญหาที่ไม่ต้องการได้ ในขณะที่บางคู่จะทำให้เกิดความซ้ำซ้อนและอคติเพียงเล็กน้อยเท่านั้น มาลบคุณลักษณะหนึ่งรายการออกจากแต่ละคู่ที่มีความสัมพันธ์สูงกัน: Day Charge จากคู่กับ Day Mins, Night Charge จากคู่กับ Night Minsและ Intl Charge จากคู่กับ Intl Mins.
แปลง True or False ใน Churn คอลัมน์เป็นค่าตัวเลข 1 หรือ 0

กลับไปที่โฟลว์ข้อมูลและเลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล.
Choose เพิ่มการแปลง.
Choose เพิ่มขั้นตอน.
คุณสามารถค้นหาการแปลงที่คุณต้องการได้ (ในกรณีของเรา ให้จัดการคอลัมน์)
Choose จัดการคอลัมน์.
สำหรับ แปลง¸ เลือก วางคอลัมน์.
สำหรับ คอลัมน์ที่จะปล่อย¸ เลือก Phone, Day Charge, Eve Charge, Night Chargeและ Intl Charge.
Choose ดูตัวอย่างแล้วเลือก บันทึก.

มาเพิ่มการแปลงอื่นเพื่อดำเนินการเข้ารหัสหมวดหมู่บน Churn? คอลัมน์.
เลือกแปลงร่าง เข้ารหัสหมวดหมู่.
สำหรับ แปลงเลือก การเข้ารหัสลำดับ.
สำหรับ คอลัมน์อินพุต, เลือก Churn? คอลัมน์.
สำหรับ กลยุทธ์การจัดการที่ไม่ถูกต้องเลือก แทนที่ด้วย NaN.
Choose ดูตัวอย่างแล้วเลือก บันทึก.

True และ False จะถูกแปลงเป็น 1 และ 0 ตามลำดับ

ตอนนี้เราเข้าใจข้อมูลเป็นอย่างดีแล้ว และได้เตรียมและแปลงข้อมูลสำหรับการสร้างแบบจำลองแล้ว เราก็สามารถย้ายข้อมูลไปยัง Studio Lab สำหรับการสร้างแบบจำลองได้

อัปโหลดข้อมูลไปที่ Studio Lab

หากต้องการเริ่มใช้ข้อมูลใน Studio Lab ให้ทำตามขั้นตอนต่อไปนี้

Choose ส่งออกข้อมูล ไปยัง ส่งออก ไปยังที่ฝากข้อมูล S3
สำหรับ ที่ตั้งของ Amazon S3ป้อนเส้นทาง S3 ของคุณ
ระบุประเภทไฟล์
Choose ส่งออกข้อมูล.
หลังจากที่คุณส่งออกข้อมูล คุณสามารถดาวน์โหลดข้อมูลจากบัคเก็ต S3 ไปยังเครื่องคอมพิวเตอร์ของคุณได้
ตอนนี้คุณสามารถไปที่ Studio Lab และอัปโหลดไฟล์ไปยัง Studio Lab

หรือคุณสามารถเชื่อมต่อกับ Amazon S3 จาก Studio Lab สำหรับข้อมูลเพิ่มเติม โปรดดูที่ ใช้ทรัพยากรภายนอกใน Amazon SageMaker Studio Lab.
มาติดตั้ง SageMaker และนำเข้า Pandas
นำเข้าไลบรารีทั้งหมดตามต้องการ
ตอนนี้เราสามารถอ่านไฟล์ CSV ได้แล้ว
มาพิมพ์กัน churn เพื่อยืนยันว่าชุดข้อมูลถูกต้อง

ตอนนี้คุณมีชุดข้อมูลที่ประมวลผลแล้วใน Studio Lab แล้ว คุณสามารถดำเนินการขั้นตอนเพิ่มเติมที่จำเป็นสำหรับการสร้างแบบจำลองได้

ราคา Data Wrangler

คุณสามารถทำตามขั้นตอนทั้งหมดในโพสต์นี้สำหรับ EDA หรือการเตรียมข้อมูลภายใน Data Wrangler และ จ่ายเงิน สำหรับอินสแตนซ์ งาน และการกำหนดราคาพื้นที่เก็บข้อมูลอย่างง่ายตามการใช้งานหรือการบริโภค ไม่ต้องจ่ายล่วงหน้าหรือค่าธรรมเนียมใบอนุญาต

ทำความสะอาด

เมื่อคุณไม่ได้ใช้ Data Wrangler สิ่งสำคัญคือต้องปิดอินสแตนซ์ที่ทำงานเพื่อหลีกเลี่ยงค่าธรรมเนียมเพิ่มเติม เพื่อหลีกเลี่ยงการสูญเสียงาน ให้บันทึกโฟลว์ข้อมูลของคุณก่อนปิด Data Wrangler

หากต้องการบันทึกโฟลว์ข้อมูลของคุณใน Studio ให้เลือก เนื้อไม่มีมันแล้วเลือก บันทึกข้อมูล Wrangler Flow.
Data Wrangler จะบันทึกการไหลของข้อมูลของคุณโดยอัตโนมัติทุกๆ 60 วินาที
หากต้องการปิดอินสแตนซ์ Data Wrangler ใน Studio ให้เลือก อินสแตนซ์และเคอร์เนลที่ใช้งาน.
ภายใต้ แอพวิ่ง, เลือกไอคอนปิดเครื่องถัดจาก sagemaker-data-wrangler-1.0 app.
Choose ปิดทั้งหมด เพื่อยืนยัน.

Data Wrangler ทำงานบนอินสแตนซ์ ml.m5.4xlarge อินสแตนซ์นี้หายไปจาก อินสแตนซ์ที่ใช้งาน เมื่อคุณปิดแอพ Data Wrangler

หลังจากที่คุณปิดแอป Data Wrangler แอปจะต้องรีสตาร์ทในครั้งต่อไปที่คุณเปิดไฟล์โฟลว์ Data Wrangler อาจใช้เวลาสักครู่

สรุป

ในโพสต์นี้ เราได้เห็นวิธีที่คุณจะได้รับข้อมูลเชิงลึกเกี่ยวกับชุดข้อมูลของคุณ ดำเนินการวิเคราะห์ข้อมูลเชิงสำรวจ จัดเตรียมและแปลงข้อมูลโดยใช้ Data Wrangler ภายใน Studio และส่งออกข้อมูลที่แปลงและจัดเตรียมไปยัง Studio Lab และดำเนินการสร้างแบบจำลองและขั้นตอนอื่นๆ

ด้วย SageMaker Data Wrangler คุณสามารถลดความซับซ้อนของกระบวนการเตรียมข้อมูลและวิศวกรรมคุณลักษณะ และดำเนินการแต่ละขั้นตอนของเวิร์กโฟลว์การเตรียมข้อมูล ซึ่งรวมถึงการเลือกข้อมูล การล้าง การสำรวจ และการแสดงภาพจากอินเทอร์เฟซภาพเดียว

เกี่ยวกับผู้แต่ง

ราชกุมาร สัมพัทกุมาร เป็นผู้จัดการบัญชีด้านเทคนิคหลักที่ AWS ซึ่งให้คำแนะนำแก่ลูกค้าเกี่ยวกับการวางแนวเทคโนโลยีทางธุรกิจและสนับสนุนการคิดค้นรูปแบบและกระบวนการดำเนินการบนระบบคลาวด์ขึ้นใหม่ เขาหลงใหลเกี่ยวกับระบบคลาวด์และการเรียนรู้ของเครื่อง Raj ยังเป็นผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงและทำงานร่วมกับลูกค้า AWS เพื่อออกแบบ ปรับใช้ และจัดการปริมาณงานและสถาปัตยกรรมของ AWS

มีนคชีสันดาราม ทันดาวารายัน เป็นผู้เชี่ยวชาญด้าน AI/ML อาวุโสที่มีความกระตือรือร้นในการออกแบบ สร้าง และส่งเสริมประสบการณ์ข้อมูลและการวิเคราะห์ที่เน้นมนุษย์เป็นศูนย์กลาง เขาสนับสนุนลูกค้า AWS Strategic ในการเปลี่ยนแปลงไปสู่องค์กรที่ขับเคลื่อนด้วยข้อมูล

เจมส์ หวู่ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้าน AI/ML อาวุโสที่ AWS ช่วยลูกค้าออกแบบและสร้างโซลูชัน AI/ML งานของ James ครอบคลุมกรณีการใช้งาน ML ที่หลากหลาย โดยมีความสนใจหลักในด้านการมองเห็นคอมพิวเตอร์ การเรียนรู้เชิงลึก และการปรับขนาด ML ทั่วทั้งองค์กร ก่อนที่จะร่วมงานกับ AWS เจมส์เคยเป็นสถาปนิก นักพัฒนา และผู้นำด้านเทคโนโลยีมานานกว่า 10 ปี รวมถึง 6 ปีในด้านวิศวกรรมและ 4 ปีในอุตสาหกรรมการตลาดและการโฆษณา

ประทับเวลา: September 15, 2022September 15, 2022

ประทับเวลา: กรกฎาคม 8, 2022

ใช้ Amazon SageMaker Data Wrangler สำหรับการเตรียมข้อมูลและ Studio Labs เพื่อเรียนรู้และทดลองกับ ML

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมโซลูชัน

เบื้องต้น

สร้างเวิร์กโฟลว์การเตรียมข้อมูลด้วย Data Wrangler

เข้าใจคุณภาพของข้อมูลและรับข้อมูลเชิงลึก

ข้อสังเกตจากรายงาน

การแปลง

อัปโหลดข้อมูลไปที่ Studio Lab

ราคา Data Wrangler

ทำความสะอาด

สรุป

เกี่ยวกับผู้แต่ง

เพิ่มเติมจาก AWS Machine Learning AWS

ตรวจจับการฉ้อโกงในธุรกิจที่เน้นอุปกรณ์พกพาโดยใช้ข้อมูลอัจฉริยะของอุปกรณ์ GrabDefence และ Amazon Fraud Detector

เรียกใช้โมเดลการเรียนรู้เชิงลึกหลายรายการบน GPU ด้วยตำแหน่งข้อมูลหลายรุ่นของ Amazon SageMaker

Amp บน Amazon ใช้ข้อมูลเพื่อเพิ่มการมีส่วนร่วมของลูกค้าอย่างไร ส่วนที่ 1: การสร้างแพลตฟอร์มการวิเคราะห์ข้อมูล

ป้องกันการเข้าครอบครองบัญชีเมื่อเข้าสู่ระบบด้วยโมเดล Account Takeover Insights ใหม่ใน Amazon Fraud Detector

Onboard PaddleOCR พร้อม Amazon SageMaker Projects สำหรับ MLOps เพื่อทำการจดจำอักขระด้วยแสงบนเอกสารระบุตัวตน

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้