ห้องปฏิบัติการ Amazon SageMaker Studio เป็นสภาพแวดล้อมการพัฒนาแมชชีนเลิร์นนิง (ML) ฟรีโดยอิงตามโอเพ่นซอร์ส JupyterLab สำหรับทุกคนในการเรียนรู้และทดลองกับ ML โดยใช้ทรัพยากรการประมวลผล AWS ML มันใช้สถาปัตยกรรมและส่วนต่อประสานผู้ใช้เดียวกันกับ สตูดิโอ Amazon SageMakerแต่ด้วยความสามารถของ Studio บางส่วน
เมื่อคุณเริ่มทำงานในโครงการริเริ่ม ML คุณต้องทำการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) หรือการเตรียมข้อมูลก่อนที่จะดำเนินการสร้างแบบจำลอง Amazon SageMaker ข้อมูล Wrangler เป็นความสามารถของ อเมซอน SageMaker ที่ทำให้นักวิทยาศาสตร์และวิศวกรข้อมูลสามารถจัดเตรียมข้อมูลสำหรับแอปพลิเคชัน ML ได้รวดเร็วยิ่งขึ้นผ่านอินเทอร์เฟซแบบภาพ Data Wrangler ช่วยลดเวลาในการรวบรวมและเตรียมข้อมูลสำหรับ ML จากสัปดาห์เหลือเป็นนาที
ตัวเร่งหลักของการเตรียมคุณสมบัติใน Data Wrangler คือ รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก. รายงานนี้จะตรวจสอบคุณภาพข้อมูลและช่วยตรวจจับความผิดปกติในข้อมูลของคุณ เพื่อให้คุณสามารถดำเนินการวิศวกรรมข้อมูลที่จำเป็นเพื่อแก้ไขชุดข้อมูลของคุณ คุณสามารถใช้รายงานคุณภาพข้อมูลและข้อมูลเชิงลึกเพื่อทำการวิเคราะห์ข้อมูลของคุณเพื่อรับข้อมูลเชิงลึกในชุดข้อมูลของคุณ เช่น จำนวนค่าที่ขาดหายไปและจำนวนค่าผิดปกติ หากคุณมีปัญหากับข้อมูลของคุณ เช่น เป้าหมายรั่วไหลหรือความไม่สมดุล รายงานข้อมูลเชิงลึกสามารถนำปัญหาเหล่านั้นมาที่คุณสนใจ และช่วยคุณระบุขั้นตอนการเตรียมข้อมูลที่คุณต้องดำเนินการ
ผู้ใช้ Studio Lab สามารถได้รับประโยชน์จาก Data Wrangler เนื่องจากคุณภาพของข้อมูลและวิศวกรรมคุณลักษณะมีความสำคัญอย่างยิ่งต่อประสิทธิภาพการคาดการณ์ของโมเดลของคุณ Data Wrangler ช่วยในด้านคุณภาพข้อมูลและวิศวกรรมคุณลักษณะโดยให้ข้อมูลเชิงลึกเกี่ยวกับปัญหาด้านคุณภาพข้อมูล และเปิดใช้งานการทำซ้ำคุณลักษณะอย่างรวดเร็วและวิศวกรรมโดยใช้ UI แบบ low-code
ในโพสต์นี้ เราจะแสดงวิธีวิเคราะห์ข้อมูลเชิงสำรวจ จัดเตรียมและแปลงข้อมูลโดยใช้ Data Wrangler และส่งออกข้อมูลที่แปลงและเตรียมไว้ไปยัง Studio Lab เพื่อดำเนินการสร้างแบบจำลอง
ภาพรวมโซลูชัน
โซลูชันประกอบด้วยขั้นตอนระดับสูงดังต่อไปนี้:
- สร้างบัญชี AWS และผู้ดูแลระบบ นี่เป็นข้อกำหนดเบื้องต้น
- ดาวน์โหลดชุดข้อมูล churn.csv.
- โหลดชุดข้อมูลไปที่ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3).
- สร้างโดเมน SageMaker Studio และเปิดใช้ Data Wrangler
- นำเข้าชุดข้อมูลไปยังโฟลว์ Data Wrangler จาก Amazon S3
- สร้างรายงานคุณภาพข้อมูลและข้อมูลเชิงลึก และสรุปเกี่ยวกับวิศวกรรมคุณลักษณะที่จำเป็น
- ดำเนินการแปลงข้อมูลที่จำเป็นใน Data Wrangler
- ดาวน์โหลดรายงานคุณภาพข้อมูลและข้อมูลเชิงลึกและชุดข้อมูลที่แปลงแล้ว
- อัปโหลดข้อมูลไปยังโปรเจ็กต์ Studio Lab สำหรับการฝึกโมเดล
ไดอะแกรมต่อไปนี้แสดงเวิร์กโฟลว์นี้
เบื้องต้น
ในการใช้ Data Wrangler และ Studio Lab คุณต้องมีข้อกำหนดเบื้องต้นต่อไปนี้:
สร้างเวิร์กโฟลว์การเตรียมข้อมูลด้วย Data Wrangler
ในการเริ่มต้น ให้ทำตามขั้นตอนต่อไปนี้:
- อัปโหลดชุดข้อมูลของคุณไปยัง Amazon S3
- บนคอนโซล SageMaker ภายใต้ แผงควบคุม ในบานหน้าต่างนำทาง ให้เลือก สตูดิโอ.
- เกี่ยวกับ เปิดแอพ เมนูข้างโปรไฟล์ผู้ใช้ของคุณ เลือก สตูดิโอ.
หลังจากที่คุณเข้าสู่ระบบ Studio สำเร็จแล้ว คุณควรเห็นสภาพแวดล้อมการพัฒนาเช่นภาพหน้าจอต่อไปนี้ - ในการสร้างเวิร์กโฟลว์ Data Wrangler ใหม่ บน เนื้อไม่มีมัน เมนูให้เลือก ใหม่แล้วเลือก ข้อมูล Wrangler Flow.
ขั้นตอนแรกใน Data Wrangler คือการ นำเข้า ข้อมูลของคุณ คุณสามารถนำเข้าข้อมูลจากแหล่งข้อมูลต่างๆ เช่น Amazon S3 อเมซอน อาเธน่า, อเมซอน Redshift, เกล็ดหิมะและ อิฐข้อมูล. ในตัวอย่างนี้ เราใช้ Amazon S3 หากคุณต้องการดูว่า Data Wrangler ทำงานอย่างไร คุณสามารถเลือกได้เสมอ ใช้ชุดข้อมูลตัวอย่าง. - Choose นำเข้าข้อมูล.
- Choose Amazon S3.
- เลือกชุดข้อมูลที่คุณอัปโหลดแล้วเลือก นำเข้า.
Data Wrangler ช่วยให้คุณสามารถนำเข้าชุดข้อมูลทั้งหมดหรือสุ่มตัวอย่างบางส่วนได้ - หากต้องการรับข้อมูลเชิงลึกอย่างรวดเร็วเกี่ยวกับชุดข้อมูล ให้เลือก เฟิร์ส K for
การสุ่มตัวอย่าง และป้อน 50000 สำหรับ ขนาดตัวอย่าง.
เข้าใจคุณภาพของข้อมูลและรับข้อมูลเชิงลึก
ลองใช้รายงานคุณภาพข้อมูลและข้อมูลเชิงลึกเพื่อทำการวิเคราะห์ข้อมูลที่เรานำเข้าไปยัง Data Wrangler คุณสามารถใช้รายงานเพื่อทำความเข้าใจขั้นตอนที่คุณต้องดำเนินการเพื่อล้างและประมวลผลข้อมูลของคุณ รายงานนี้ให้ข้อมูล เช่น จำนวนค่าที่ขาดหายไปและจำนวนค่าผิดปกติ หากคุณมีปัญหากับข้อมูลของคุณ เช่น เป้าหมายรั่วไหลหรือความไม่สมดุล รายงานข้อมูลเชิงลึกสามารถนำปัญหาเหล่านั้นมาให้คุณ
- เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล และเลือก รับข้อมูลเชิงลึก.
- สำหรับ ประเภทการวิเคราะห์เลือก รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก.
- สำหรับ คอลัมน์เป้าหมายเลือก ปั่น?.
- สำหรับ ประเภทปัญหา¸ เลือก การจัดหมวดหมู่.
- Choose สร้างบัญชีตัวแทน.
คุณจะได้รับรายงานโดยละเอียดซึ่งคุณสามารถตรวจสอบและดาวน์โหลดได้ รายงานประกอบด้วยหลายส่วน เช่น โมเดลด่วน สรุปคุณลักษณะ ความสัมพันธ์ของคุณลักษณะ และข้อมูลเชิงลึก ภาพหน้าจอต่อไปนี้แสดงตัวอย่างของส่วนเหล่านี้
ข้อสังเกตจากรายงาน
จากรายงาน เราสามารถสังเกตได้ดังต่อไปนี้:
- ไม่พบแถวที่ซ้ำกัน
- พื้นที่
State
คอลัมน์ดูเหมือนจะมีการกระจายอย่างสม่ำเสมอ ดังนั้นข้อมูลจึงมีความสมดุลในแง่ของจำนวนประชากรของรัฐ - พื้นที่
Phone
คอลัมน์แสดงค่าที่ไม่ซ้ำกันจำนวนมากเกินกว่าจะนำไปใช้ได้จริง ค่าที่ไม่ซ้ำกันมากเกินไปทำให้คอลัมน์นี้ไม่มีประโยชน์ เราสามารถวางPhone
คอลัมน์ในการเปลี่ยนแปลงของเรา - ตามส่วนสหสัมพันธ์คุณลักษณะของรายงาน
Mins
และCharge
มีความสัมพันธ์กันอย่างมาก เราสามารถลบหนึ่งในนั้นได้
การแปลง
จากการสังเกตของเรา เราต้องการทำการเปลี่ยนแปลงต่อไปนี้:
- ลบ
Phone
คอลัมน์ เนื่องจากมีค่าไม่ซ้ำกันมากมาย - เรายังเห็นคุณลักษณะหลายอย่างที่มีความสัมพันธ์กันโดยพื้นฐาน 100% การรวมคุณสมบัติคู่เหล่านี้ไว้ในอัลกอริธึม ML บางตัวสามารถสร้างปัญหาที่ไม่ต้องการได้ ในขณะที่บางคู่จะทำให้เกิดความซ้ำซ้อนและอคติเพียงเล็กน้อยเท่านั้น มาลบคุณลักษณะหนึ่งรายการออกจากแต่ละคู่ที่มีความสัมพันธ์สูงกัน:
Day Charge
จากคู่กับDay Mins
,Night Charge
จากคู่กับNight Mins
และIntl Charge
จากคู่กับIntl Mins
. - แปลง
True
orFalse
ในChurn
คอลัมน์เป็นค่าตัวเลข 1 หรือ 0
- กลับไปที่โฟลว์ข้อมูลและเลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล.
- Choose เพิ่มการแปลง.
- Choose เพิ่มขั้นตอน.
- คุณสามารถค้นหาการแปลงที่คุณต้องการได้ (ในกรณีของเรา ให้จัดการคอลัมน์)
- Choose จัดการคอลัมน์.
- สำหรับ แปลง¸ เลือก วางคอลัมน์.
- สำหรับ คอลัมน์ที่จะปล่อย¸ เลือก
Phone
,Day Charge
,Eve Charge
,Night Charge
และIntl Charge
. - Choose ดูตัวอย่างแล้วเลือก บันทึก.
มาเพิ่มการแปลงอื่นเพื่อดำเนินการเข้ารหัสหมวดหมู่บนChurn?
คอลัมน์. - เลือกแปลงร่าง เข้ารหัสหมวดหมู่.
- สำหรับ แปลงเลือก การเข้ารหัสลำดับ.
- สำหรับ คอลัมน์อินพุต, เลือก
Churn?
คอลัมน์. - สำหรับ กลยุทธ์การจัดการที่ไม่ถูกต้องเลือก แทนที่ด้วย NaN.
- Choose ดูตัวอย่างแล้วเลือก บันทึก.
True
และ False
จะถูกแปลงเป็น 1 และ 0 ตามลำดับ
ตอนนี้เราเข้าใจข้อมูลเป็นอย่างดีแล้ว และได้เตรียมและแปลงข้อมูลสำหรับการสร้างแบบจำลองแล้ว เราก็สามารถย้ายข้อมูลไปยัง Studio Lab สำหรับการสร้างแบบจำลองได้
อัปโหลดข้อมูลไปที่ Studio Lab
หากต้องการเริ่มใช้ข้อมูลใน Studio Lab ให้ทำตามขั้นตอนต่อไปนี้
- Choose ส่งออกข้อมูล ไปยัง ส่งออก ไปยังที่ฝากข้อมูล S3
- สำหรับ ที่ตั้งของ Amazon S3ป้อนเส้นทาง S3 ของคุณ
- ระบุประเภทไฟล์
- Choose ส่งออกข้อมูล.
- หลังจากที่คุณส่งออกข้อมูล คุณสามารถดาวน์โหลดข้อมูลจากบัคเก็ต S3 ไปยังเครื่องคอมพิวเตอร์ของคุณได้
- ตอนนี้คุณสามารถไปที่ Studio Lab และอัปโหลดไฟล์ไปยัง Studio Lab
หรือคุณสามารถเชื่อมต่อกับ Amazon S3 จาก Studio Lab สำหรับข้อมูลเพิ่มเติม โปรดดูที่ ใช้ทรัพยากรภายนอกใน Amazon SageMaker Studio Lab. - มาติดตั้ง SageMaker และนำเข้า Pandas
- นำเข้าไลบรารีทั้งหมดตามต้องการ
- ตอนนี้เราสามารถอ่านไฟล์ CSV ได้แล้ว
- มาพิมพ์กัน
churn
เพื่อยืนยันว่าชุดข้อมูลถูกต้อง
ตอนนี้คุณมีชุดข้อมูลที่ประมวลผลแล้วใน Studio Lab แล้ว คุณสามารถดำเนินการขั้นตอนเพิ่มเติมที่จำเป็นสำหรับการสร้างแบบจำลองได้
ราคา Data Wrangler
คุณสามารถทำตามขั้นตอนทั้งหมดในโพสต์นี้สำหรับ EDA หรือการเตรียมข้อมูลภายใน Data Wrangler และ จ่ายเงิน สำหรับอินสแตนซ์ งาน และการกำหนดราคาพื้นที่เก็บข้อมูลอย่างง่ายตามการใช้งานหรือการบริโภค ไม่ต้องจ่ายล่วงหน้าหรือค่าธรรมเนียมใบอนุญาต
ทำความสะอาด
เมื่อคุณไม่ได้ใช้ Data Wrangler สิ่งสำคัญคือต้องปิดอินสแตนซ์ที่ทำงานเพื่อหลีกเลี่ยงค่าธรรมเนียมเพิ่มเติม เพื่อหลีกเลี่ยงการสูญเสียงาน ให้บันทึกโฟลว์ข้อมูลของคุณก่อนปิด Data Wrangler
- หากต้องการบันทึกโฟลว์ข้อมูลของคุณใน Studio ให้เลือก เนื้อไม่มีมันแล้วเลือก บันทึกข้อมูล Wrangler Flow.
Data Wrangler จะบันทึกการไหลของข้อมูลของคุณโดยอัตโนมัติทุกๆ 60 วินาที - หากต้องการปิดอินสแตนซ์ Data Wrangler ใน Studio ให้เลือก อินสแตนซ์และเคอร์เนลที่ใช้งาน.
- ภายใต้ แอพวิ่ง, เลือกไอคอนปิดเครื่องถัดจาก
sagemaker-data-wrangler-1.0 app
. - Choose ปิดทั้งหมด เพื่อยืนยัน.
Data Wrangler ทำงานบนอินสแตนซ์ ml.m5.4xlarge อินสแตนซ์นี้หายไปจาก อินสแตนซ์ที่ใช้งาน เมื่อคุณปิดแอพ Data Wrangler
หลังจากที่คุณปิดแอป Data Wrangler แอปจะต้องรีสตาร์ทในครั้งต่อไปที่คุณเปิดไฟล์โฟลว์ Data Wrangler อาจใช้เวลาสักครู่
สรุป
ในโพสต์นี้ เราได้เห็นวิธีที่คุณจะได้รับข้อมูลเชิงลึกเกี่ยวกับชุดข้อมูลของคุณ ดำเนินการวิเคราะห์ข้อมูลเชิงสำรวจ จัดเตรียมและแปลงข้อมูลโดยใช้ Data Wrangler ภายใน Studio และส่งออกข้อมูลที่แปลงและจัดเตรียมไปยัง Studio Lab และดำเนินการสร้างแบบจำลองและขั้นตอนอื่นๆ
ด้วย SageMaker Data Wrangler คุณสามารถลดความซับซ้อนของกระบวนการเตรียมข้อมูลและวิศวกรรมคุณลักษณะ และดำเนินการแต่ละขั้นตอนของเวิร์กโฟลว์การเตรียมข้อมูล ซึ่งรวมถึงการเลือกข้อมูล การล้าง การสำรวจ และการแสดงภาพจากอินเทอร์เฟซภาพเดียว
เกี่ยวกับผู้แต่ง
ราชกุมาร สัมพัทกุมาร เป็นผู้จัดการบัญชีด้านเทคนิคหลักที่ AWS ซึ่งให้คำแนะนำแก่ลูกค้าเกี่ยวกับการวางแนวเทคโนโลยีทางธุรกิจและสนับสนุนการคิดค้นรูปแบบและกระบวนการดำเนินการบนระบบคลาวด์ขึ้นใหม่ เขาหลงใหลเกี่ยวกับระบบคลาวด์และการเรียนรู้ของเครื่อง Raj ยังเป็นผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงและทำงานร่วมกับลูกค้า AWS เพื่อออกแบบ ปรับใช้ และจัดการปริมาณงานและสถาปัตยกรรมของ AWS
มีนคชีสันดาราม ทันดาวารายัน เป็นผู้เชี่ยวชาญด้าน AI/ML อาวุโสที่มีความกระตือรือร้นในการออกแบบ สร้าง และส่งเสริมประสบการณ์ข้อมูลและการวิเคราะห์ที่เน้นมนุษย์เป็นศูนย์กลาง เขาสนับสนุนลูกค้า AWS Strategic ในการเปลี่ยนแปลงไปสู่องค์กรที่ขับเคลื่อนด้วยข้อมูล
เจมส์ หวู่ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้าน AI/ML อาวุโสที่ AWS ช่วยลูกค้าออกแบบและสร้างโซลูชัน AI/ML งานของ James ครอบคลุมกรณีการใช้งาน ML ที่หลากหลาย โดยมีความสนใจหลักในด้านการมองเห็นคอมพิวเตอร์ การเรียนรู้เชิงลึก และการปรับขนาด ML ทั่วทั้งองค์กร ก่อนที่จะร่วมงานกับ AWS เจมส์เคยเป็นสถาปนิก นักพัฒนา และผู้นำด้านเทคโนโลยีมานานกว่า 10 ปี รวมถึง 6 ปีในด้านวิศวกรรมและ 4 ปีในอุตสาหกรรมการตลาดและการโฆษณา
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- อเมซอน SageMaker
- Amazon SageMaker ข้อมูล Wrangler
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- AWS Machine Learning AWS
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- ลมทะเล