ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

Amazon SageMaker ข้อมูล Wrangler ช่วยให้คุณเข้าใจ รวม แปลง และเตรียมข้อมูลสำหรับแมชชีนเลิร์นนิง (ML) จากอินเทอร์เฟซภาพเดียว ประกอบด้วยการแปลงข้อมูลในตัวมากกว่า 300 รายการ คุณจึงสามารถทำให้เป็นมาตรฐาน แปลง และรวมคุณสมบัติต่างๆ ได้อย่างรวดเร็วโดยไม่ต้องเขียนโค้ดใดๆ

ผู้ปฏิบัติงานด้านวิทยาศาสตร์ข้อมูลจะสร้าง สังเกต และประมวลผลข้อมูลเพื่อแก้ปัญหาทางธุรกิจที่จำเป็นต้องแปลงและดึงคุณลักษณะจากชุดข้อมูล การแปลง เช่น การเข้ารหัสตามลำดับหรือการเข้ารหัสแบบร้อนครั้งเดียวจะเรียนรู้การเข้ารหัสในชุดข้อมูลของคุณ เอาต์พุตที่เข้ารหัสเหล่านี้เรียกว่าพารามิเตอร์ที่ผ่านการฝึกอบรม เนื่องจากชุดข้อมูลเปลี่ยนแปลงไปตามกาลเวลา อาจจำเป็นต้องปรับการเข้ารหัสใหม่กับข้อมูลที่มองไม่เห็นก่อนหน้านี้เพื่อให้โฟลว์การแปลงมีความเกี่ยวข้องกับข้อมูลของคุณ

เรารู้สึกตื่นเต้นที่จะประกาศให้ทราบถึงคุณสมบัติการปรับพารามิเตอร์ที่ผ่านการฝึกอบรม ซึ่งช่วยให้คุณใช้พารามิเตอร์ที่ผ่านการฝึกอบรมก่อนหน้านี้และปรับเปลี่ยนได้ตามต้องการ ในโพสต์นี้ เราสาธิตวิธีใช้คุณลักษณะนี้

ภาพรวมของคุณลักษณะการปรับแต่ง Data Wrangler

เราแสดงตัวอย่างวิธีการทำงานของคุณลักษณะนี้ด้วยตัวอย่างต่อไปนี้ ก่อนที่เราจะลงลึกถึงลักษณะเฉพาะของคุณลักษณะพารามิเตอร์ที่ได้รับการฝึกฝนการดัดแปลง

สมมติว่าชุดข้อมูลลูกค้าของคุณมีคุณสมบัติตามหมวดหมู่สำหรับ country แสดงเป็นสตริงเช่น Australia และ Singapore. อัลกอริธึม ML ต้องการอินพุตที่เป็นตัวเลข ดังนั้น ค่าตามหมวดหมู่เหล่านี้จึงต้องเข้ารหัสเป็นค่าตัวเลข การเข้ารหัสข้อมูลหมวดหมู่เป็นกระบวนการสร้างการแสดงตัวเลขสำหรับหมวดหมู่ ตัวอย่างเช่น หากประเทศในหมวดหมู่ของคุณมีค่า Australia และ Singaporeคุณสามารถเข้ารหัสข้อมูลนี้เป็นเวกเตอร์สองเวกเตอร์: [1, 0] เพื่อเป็นตัวแทน Australia และ [0, 1] เพื่อเป็นตัวแทนของ Singapore. การแปลงที่ใช้ในที่นี้คือการเข้ารหัสแบบ one-hot และเอาต์พุตที่เข้ารหัสใหม่จะสะท้อนถึงพารามิเตอร์ที่ผ่านการฝึกอบรม

หลังจากฝึกโมเดลแล้ว เมื่อเวลาผ่านไป ลูกค้าของคุณอาจเพิ่มขึ้นและคุณมีค่าที่แตกต่างมากขึ้นในรายการประเทศ ชุดข้อมูลใหม่อาจมีหมวดหมู่อื่น Indiaซึ่งไม่ได้เป็นส่วนหนึ่งของชุดข้อมูลดั้งเดิม ซึ่งอาจส่งผลต่อความแม่นยำของโมเดล ดังนั้นจึงจำเป็นต้องฝึกโมเดลของคุณใหม่ด้วยข้อมูลใหม่ที่รวบรวมเมื่อเวลาผ่านไป

เพื่อแก้ปัญหานี้ คุณต้องรีเฟรชการเข้ารหัสเพื่อรวมหมวดหมู่ใหม่และอัปเดตการแสดงเวกเตอร์ตามชุดข้อมูลล่าสุดของคุณ ในตัวอย่างของเรา การเข้ารหัสควรแสดงถึงหมวดหมู่ใหม่สำหรับ countryซึ่งเป็น India. เรามักอ้างถึงกระบวนการรีเฟรชการเข้ารหัสนี้ว่าเป็นการดำเนินการแก้ไข หลังจากที่คุณดำเนินการแก้ไข คุณจะได้รับการเข้ารหัสใหม่: Australia: [1, 0, 0], Singapore: [0, 1, 0], และ India: [0, 0, 1]. การปรับการเข้ารหัสแบบ one-hot ใหม่ จากนั้นจึงฝึกโมเดลใหม่บนชุดข้อมูลใหม่ส่งผลให้เกิดการคาดคะเนคุณภาพที่ดีขึ้น

คุณลักษณะพารามิเตอร์ที่ได้รับการฝึกฝนแล้วของ Data Wrangler มีประโยชน์ในกรณีต่อไปนี้:

เพิ่มข้อมูลใหม่ลงในชุดข้อมูล – การฝึกโมเดล ML ใหม่เป็นสิ่งจำเป็นเมื่อชุดข้อมูลเต็มไปด้วยข้อมูลใหม่ เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด เราจำเป็นต้องปรับแต่งพารามิเตอร์ที่ผ่านการฝึกอบรมในชุดข้อมูลใหม่
การฝึกอบรมเกี่ยวกับชุดข้อมูลทั้งหมดหลังจากทำวิศวกรรมคุณลักษณะกับข้อมูลตัวอย่าง – สำหรับชุดข้อมูลขนาดใหญ่ ตัวอย่างของชุดข้อมูลจะถูกพิจารณาสำหรับการเรียนรู้พารามิเตอร์ที่ได้รับการฝึกฝน ซึ่งอาจไม่ได้แสดงถึงชุดข้อมูลทั้งหมดของคุณ เราจำเป็นต้องเรียนรู้พารามิเตอร์ที่ได้รับการฝึกฝนใหม่ในชุดข้อมูลที่สมบูรณ์

ต่อไปนี้คือการแปลง Data Wrangler ทั่วไปบางส่วนที่ดำเนินการบนชุดข้อมูลซึ่งได้ประโยชน์จากตัวเลือกพารามิเตอร์ที่ผ่านการฝึกอบรมการปรับให้เหมาะสม:

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการเปลี่ยนแปลงใน Data Wrangler โปรดดูที่ แปลงข้อมูล.

ในโพสต์นี้ เราจะแสดงวิธีประมวลผลพารามิเตอร์ที่ผ่านการฝึกอบรมเหล่านี้บนชุดข้อมูลโดยใช้ Data Wrangler คุณสามารถใช้โฟลว์ Data Wrangler ในงานการผลิตเพื่อประมวลผลข้อมูลของคุณใหม่เมื่อข้อมูลเติบโตและเปลี่ยนแปลง

ภาพรวมโซลูชัน

สำหรับโพสต์นี้ เราจะสาธิตวิธีการใช้คุณลักษณะพารามิเตอร์ที่ได้รับการฝึกฝนของ Data Wrangler กับชุดข้อมูลที่เผยแพร่ต่อสาธารณะบน Kaggle: ข้อมูลที่อยู่อาศัยของสหรัฐอเมริกาจาก Zillow อสังหาริมทรัพย์สำหรับขายในสหรัฐอเมริกา มีราคาขายบ้านในการกระจายบ้านตามพื้นที่ต่างๆ

ไดอะแกรมต่อไปนี้แสดงสถาปัตยกรรมระดับสูงของ Data Wrangler โดยใช้คุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใหม่ นอกจากนี้ เรายังแสดงผลต่อคุณภาพข้อมูลโดยไม่ต้องใช้พารามิเตอร์ที่ได้รับการฝึกฝนและเปรียบเทียบผลลัพธ์ในตอนท้าย

เวิร์กโฟลว์ประกอบด้วยขั้นตอนต่อไปนี้:

ดำเนินการวิเคราะห์ข้อมูลเชิงสำรวจ – สร้างโฟลว์ใหม่ใน Data Wrangler เพื่อเริ่มการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) นำเข้าข้อมูลธุรกิจเพื่อทำความเข้าใจ ทำความสะอาด รวม เปลี่ยนแปลง และเตรียมข้อมูลของคุณสำหรับการฝึกอบรม อ้างถึง สำรวจความสามารถของ Amazon SageMaker Data Wrangler ด้วยชุดข้อมูลตัวอย่าง สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการดำเนินการ EDA ด้วย Data Wrangler
สร้างงานประมวลผลข้อมูล – ขั้นตอนนี้ส่งออกการแปลงทั้งหมดที่คุณทำบนชุดข้อมูลเป็นไฟล์โฟลว์ที่จัดเก็บไว้ในการกำหนดค่า บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน S3) ที่ตั้ง งานประมวลผลข้อมูลด้วยไฟล์โฟลว์ที่สร้างโดย Data Wrangler จะใช้การแปลงและพารามิเตอร์ที่ได้รับการฝึกฝนซึ่งเรียนรู้จากชุดข้อมูลของคุณ เมื่องานประมวลผลข้อมูลเสร็จสิ้น ไฟล์เอาต์พุตจะถูกอัปโหลดไปยังตำแหน่ง Amazon S3 ที่กำหนดค่าไว้ในโหนดปลายทาง โปรดทราบว่าตัวเลือกการปรับแต่งจะถูกปิดโดยค่าเริ่มต้น คุณยังสามารถทำได้อีกทางเลือกหนึ่งนอกเหนือจากการดำเนินการประมวลผลในทันที กำหนดเวลางานการประมวลผล ในไม่กี่คลิกโดยใช้ Data Wrangler – สร้างงานเพื่อให้ทำงานตามเวลาที่กำหนด
สร้างงานการประมวลผลข้อมูลด้วยคุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใหม่ – เลือกคุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใหม่ในขณะที่สร้างงานเพื่อบังคับใช้การเรียนรู้ใหม่ของพารามิเตอร์ที่ได้รับการฝึกฝนของคุณในชุดข้อมูลทั้งหมดหรือเสริม ตามการกำหนดค่าตำแหน่ง Amazon S3 สำหรับจัดเก็บไฟล์โฟลว์ งานประมวลผลข้อมูลจะสร้างหรืออัปเดตไฟล์โฟลว์ใหม่ หากคุณกำหนดค่าตำแหน่ง Amazon S3 เดียวกันกับในขั้นตอนที่ 2 งานประมวลผลข้อมูลจะอัปเดตไฟล์โฟลว์ที่สร้างขึ้นในขั้นตอนที่ 2 ซึ่งสามารถใช้เพื่อให้โฟลว์ของคุณเกี่ยวข้องกับข้อมูลของคุณ เมื่อเสร็จสิ้นงานการประมวลผล ไฟล์เอาต์พุตจะถูกอัปโหลดไปยังบัคเก็ต S3 ของโหนดปลายทางที่กำหนดค่าไว้ คุณสามารถใช้โฟลว์ที่อัปเดตในชุดข้อมูลทั้งหมดสำหรับเวิร์กโฟลว์การผลิต

เบื้องต้น

ก่อนเริ่มต้น ให้อัปโหลดชุดข้อมูลไปยังบัคเก็ต S3 จากนั้นนำเข้าไปยัง Data Wrangler สำหรับคำแนะนำ โปรดดูที่ นำเข้าข้อมูลจาก Amazon S3.

ตอนนี้เรามาดูขั้นตอนที่กล่าวถึงในแผนภาพสถาปัตยกรรมกัน

ดำเนินการ EDA ใน Data Wrangler

หากต้องการลองใช้คุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใหม่ ให้ตั้งค่าการวิเคราะห์และการแปลงต่อไปนี้ใน Data Wrangler เมื่อสิ้นสุดการตั้งค่า EDA แล้ว Data Wrangler จะสร้างโฟลว์ไฟล์ที่บันทึกด้วยพารามิเตอร์ที่ได้รับการฝึกฝนจากชุดข้อมูล

สร้างโฟลว์ใหม่ใน Amazon SageMaker Data Wrangler สำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ
นำเข้าข้อมูลธุรกิจที่คุณอัปโหลดไปยัง Amazon S3
คุณสามารถดูตัวอย่างข้อมูลและตัวเลือกสำหรับการเลือกประเภทไฟล์ ตัวคั่น การสุ่มตัวอย่าง และอื่นๆ สำหรับตัวอย่างนี้ เราใช้ เฟิร์ส K ตัวเลือกการสุ่มตัวอย่างจัดทำโดย Data Wrangler เพื่อนำเข้าบันทึก 50,000 รายการแรกจากชุดข้อมูล
Choose นำเข้า.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

หลังจากที่คุณตรวจสอบการจับคู่ประเภทข้อมูลที่ Data Wrangler ใช้แล้ว ให้เพิ่มการวิเคราะห์ใหม่

สำหรับ ประเภทการวิเคราะห์เลือก รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก.
Choose สร้างบัญชีตัวแทน.

ด้วยรายงานคุณภาพข้อมูลและข้อมูลเชิงลึก คุณจะได้รับสรุปโดยย่อของชุดข้อมูลพร้อมข้อมูลทั่วไป เช่น ค่าที่ขาดหายไป ค่าที่ไม่ถูกต้อง ประเภทคุณลักษณะ จำนวนผิดปกติ และอื่นๆ คุณสามารถเลือกคุณสมบัติ property_type และ city สำหรับการนำการแปลงไปใช้ในชุดข้อมูลเพื่อทำความเข้าใจคุณลักษณะพารามิเตอร์ที่ได้รับการฝึกฝน

มาเน้นที่คุณสมบัติ property_type จากชุดข้อมูล ในรายงานของ รายละเอียดคุณสมบัติ ส่วน คุณสามารถดู property_typeซึ่งเป็นคุณลักษณะที่เป็นหมวดหมู่ และค่าที่ไม่ซ้ำกัน 50,000 ค่าที่ได้มาจากชุดข้อมูลตัวอย่าง XNUMX ชุดโดย Data Wrangler ชุดข้อมูลที่สมบูรณ์อาจมีหมวดหมู่เพิ่มเติมสำหรับคุณลักษณะนี้ property_type. สำหรับคุณสมบัติที่มีค่าเฉพาะจำนวนมาก คุณอาจต้องการการเข้ารหัสแบบลำดับ หากคุณลักษณะมีค่าเฉพาะไม่กี่ค่า ก็สามารถใช้วิธีการเข้ารหัสแบบร้อนเดียวได้ สำหรับตัวอย่างนี้ เราเลือกเปิดการเข้ารหัสแบบร้อนครั้งเดียว property_type.

ในทำนองเดียวกันสำหรับ city คุณลักษณะ ซึ่งเป็นประเภทข้อมูลข้อความที่มีค่าที่ไม่ซ้ำกันจำนวนมาก ลองใช้การเข้ารหัสลำดับกับคุณลักษณะนี้

ไปที่โฟลว์ Data Wrangler เลือกเครื่องหมายบวก แล้วเลือก เพิ่มการแปลง.

เลือก เข้ารหัสหมวดหมู่ ตัวเลือกสำหรับการแปลงคุณสมบัติหมวดหมู่

คุณลักษณะจากรายงานคุณภาพข้อมูลและข้อมูลเชิงลึก property_type แสดงหกหมวดหมู่ที่ไม่ซ้ำกัน: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILYและ TOWNHOUSE.

สำหรับ แปลงเลือก การเข้ารหัสแบบร้อนครั้งเดียว.

หลังจากใช้คุณสมบัติการเข้ารหัสแบบร้อนครั้งเดียว property_typeคุณสามารถดูตัวอย่างทั้งหกประเภทเป็นคุณสมบัติแยกต่างหากที่เพิ่มเป็นคอลัมน์ใหม่ โปรดทราบว่ามีการสุ่มตัวอย่างระเบียน 50,000 รายการจากชุดข้อมูลของคุณเพื่อสร้างการแสดงตัวอย่างนี้ ขณะเรียกใช้งานการประมวลผล Data Wrangler ด้วยโฟลว์นี้ การแปลงเหล่านี้จะนำไปใช้กับชุดข้อมูลทั้งหมดของคุณ

เพิ่มการแปลงร่างใหม่แล้วเลือก เข้ารหัสหมวดหมู่ เพื่อใช้การแปลงบนคุณสมบัติ cityซึ่งมีค่าข้อความหมวดหมู่ที่ไม่ซ้ำกันจำนวนมากขึ้น
หากต้องการเข้ารหัสคุณลักษณะนี้เป็นการแสดงตัวเลข ให้เลือก การเข้ารหัสลำดับ for แปลง.

เลือกดูตัวอย่างการแปลงนี้

คุณจะเห็นว่าคุณลักษณะหมวดหมู่ city ถูกแมปกับค่าลำดับในคอลัมน์เอาต์พุต e_city.

เพิ่มขั้นตอนนี้โดยเลือก บันทึก.

คุณสามารถตั้งค่าปลายทางเป็น Amazon S3 เพื่อจัดเก็บการแปลงที่ใช้บนชุดข้อมูลเพื่อสร้างเอาต์พุตเป็นไฟล์ CSV

Data Wrangler จัดเก็บเวิร์กโฟลว์ที่คุณกำหนดไว้ในอินเทอร์เฟซผู้ใช้เป็นไฟล์โฟลว์และอัปโหลดไปยังตำแหน่ง Amazon S3 ของงานการประมวลผลข้อมูลที่กำหนดค่าไว้ ไฟล์โฟลว์นี้ใช้เมื่อคุณสร้างงานการประมวลผล Data Wrangler เพื่อปรับใช้การแปลงกับชุดข้อมูลที่ใหญ่ขึ้น หรือเพื่อแปลงข้อมูลการเสริมแรงใหม่เพื่อฝึกโมเดลใหม่

เรียกใช้งานการประมวลผลข้อมูล Data Wrangler โดยไม่ต้องเปิดใช้งานการปรับแต่ง

ตอนนี้คุณสามารถดูว่าตัวเลือกการปรับใช้พารามิเตอร์ที่ได้รับการฝึกอบรมกับชุดข้อมูลใหม่ได้อย่างไร สำหรับการสาธิตนี้ เรากำหนดงานการประมวลผล Data Wrangler สองงานที่ทำงานบนข้อมูลเดียวกัน งานการประมวลผลครั้งแรกจะไม่เปิดใช้งานการปรับใหม่ สำหรับงานประมวลผลที่สอง เราใช้การปรับใหม่ เราเปรียบเทียบเอฟเฟกต์ในตอนท้าย

Choose สร้างงาน เพื่อเริ่มงานประมวลผลข้อมูลด้วย Data Wrangler

สำหรับ ชื่องาน, ป้อนชื่อ
ภายใต้ พารามิเตอร์ที่ได้รับการฝึกอบรม, อย่าเลือก อานิสงส์.
Choose กำหนดค่างาน.

กำหนดค่าพารามิเตอร์งาน เช่น ประเภทอินสแตนซ์ ขนาดวอลุ่ม และตำแหน่ง Amazon S3 สำหรับจัดเก็บไฟล์โฟลว์เอาต์พุต
Data Wrangler สร้างโฟลว์ไฟล์ในตำแหน่งโฟลว์ไฟล์ S3 โฟลว์ใช้การแปลงเพื่อฝึกพารามิเตอร์ และหลังจากนั้นเราก็ใช้ตัวเลือกการปรับแต่งเพื่อฝึกพารามิเตอร์เหล่านี้ใหม่
Choose สร้างบัญชีตัวแทน.

รอให้งานประมวลผลข้อมูลเสร็จสิ้นเพื่อดูข้อมูลที่แปลงแล้วในบัคเก็ต S3 ที่กำหนดค่าในโหนดปลายทาง

เริ่มงานการประมวลผลข้อมูล Data Wrangler โดยเปิดใช้งานการปรับใหม่

มาสร้างงานการประมวลผลอื่นที่เปิดใช้งานโดยเปิดใช้คุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใหม่ ตัวเลือกนี้บังคับใช้พารามิเตอร์ที่ผ่านการฝึกอบรมซึ่งเรียนรู้ใหม่ในชุดข้อมูลทั้งหมด เมื่องานประมวลผลข้อมูลนี้เสร็จสิ้น ไฟล์โฟลว์จะถูกสร้างขึ้นหรืออัปเดตเป็นตำแหน่ง Amazon S3 ที่กำหนดค่าไว้

Choose สร้างงาน.

สำหรับ ชื่องาน, ป้อนชื่อ
สำหรับ พารามิเตอร์ที่ได้รับการฝึกอบรมให้เลือก อานิสงส์.
หากคุณเลือกที่ ดูทั้งหมดคุณสามารถตรวจสอบพารามิเตอร์ที่ได้รับการฝึกอบรมทั้งหมดได้

Choose กำหนดค่างาน.
ป้อนตำแหน่งไฟล์โฟลว์ Amazon S3
Choose สร้างบัญชีตัวแทน.

รอให้งานประมวลผลข้อมูลเสร็จสิ้น

อ้างถึงบัคเก็ต S3 ที่กำหนดค่าในโหนดปลายทางเพื่อดูข้อมูลที่สร้างขึ้นโดยงานประมวลผลข้อมูลที่รันการแปลงที่กำหนดไว้

ส่งออกไปยังโค้ด Python เพื่อรันงานการประมวลผล Data Wrangler

แทนที่จะเริ่มงานประมวลผลโดยใช้ตัวเลือกสร้างงานใน Data Wrangler คุณสามารถทริกเกอร์งานประมวลผลข้อมูลได้โดยส่งออกโฟลว์ Data Wrangler ไปยังโน้ตบุ๊ก Jupyter Data Wrangler สร้างโน้ตบุ๊ก Jupyter ที่มีอินพุต เอาต์พุต การกำหนดค่างานการประมวลผล และรหัสสำหรับการตรวจสอบสถานะงาน คุณสามารถเปลี่ยนหรืออัพเดตพารามิเตอร์ตามข้อกำหนดการแปลงข้อมูลของคุณ

เลือกเครื่องหมายบวกถัดจากขั้นสุดท้าย แปลง ปม
Choose ส่งออก ถึงและ Amazon S3 (ผ่าน Jupyter Notebook).

คุณจะเห็นโน้ตบุ๊ก Jupyter ที่เปิดอยู่พร้อมกับอินพุต เอาต์พุต การกำหนดค่างานที่กำลังประมวลผล และรหัสสำหรับการตรวจสอบสถานะงาน

ในการบังคับใช้ตัวเลือกพารามิเตอร์ที่ได้รับการฝึกฝนใหม่ผ่านโค้ด ให้ตั้งค่า refit พารามิเตอร์ True.

เปรียบเทียบผลงานการประมวลผลข้อมูล

หลังจากงานประมวลผล Data Wrangler เสร็จสมบูรณ์ คุณต้องสร้างโฟลว์ Data Wrangler ใหม่สองรายการพร้อมเอาต์พุตที่สร้างโดยงานประมวลผลข้อมูลที่จัดเก็บไว้ในปลายทาง Amazon S3 ที่กำหนดค่าไว้

คุณสามารถอ้างถึงตำแหน่งที่กำหนดค่าไว้ในโฟลเดอร์ปลายทางของ Amazon S3 เพื่อตรวจสอบผลลัพธ์ของงานการประมวลผลข้อมูล

หากต้องการตรวจสอบผลลัพธ์ของงานการประมวลผล ให้สร้างโฟลว์ Data Wrangler ใหม่สองโฟลว์โดยใช้รายงานคุณภาพข้อมูลและข้อมูลเชิงลึกเพื่อเปรียบเทียบผลลัพธ์การเปลี่ยนแปลง

สร้างโฟลว์ใหม่ใน Amazon SageMaker Data Wrangler
นำเข้างานการประมวลผลข้อมูลโดยไม่ต้องปรับไฟล์เอาต์พุตที่เปิดใช้งานใหม่จาก Amazon S3
เพิ่มการวิเคราะห์ใหม่
สำหรับ ประเภทการวิเคราะห์เลือก รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก.
Choose สร้างบัญชีตัวแทน.

ทำซ้ำขั้นตอนข้างต้นและสร้างโฟลว์ข้อมูล wrangler ใหม่ เพื่อวิเคราะห์เอาต์พุตงานการประมวลผลข้อมูลโดยเปิดใช้งานการปรับให้เหมาะสม

ทีนี้มาดูผลลัพธ์ของงานการประมวลผลสำหรับคุณลักษณะนี้กัน property_type โดยใช้รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก เลื่อนไปที่รายละเอียดคุณลักษณะในรายการรายงานข้อมูลและข้อมูลเชิงลึก feature_type.

งานการประมวลผลพารามิเตอร์ที่ได้รับการฝึกฝนปรับปรุงใหม่ได้ปรับพารามิเตอร์ที่ได้รับการฝึกอบรมบนชุดข้อมูลทั้งหมดและเข้ารหัสค่าใหม่ APARTMENT ด้วยค่าที่แตกต่างกันเจ็ดค่าในชุดข้อมูลทั้งหมด

งานประมวลผลปกติใช้พารามิเตอร์ฝึกชุดข้อมูลตัวอย่าง ซึ่งมีค่าที่แตกต่างกันเพียงหกค่าสำหรับ property_type ลักษณะเฉพาะ. สำหรับข้อมูลกับ feature_type APARTMENTที่ กลยุทธ์การจัดการที่ไม่ถูกต้อง มีการใช้การข้ามและงานการประมวลผลข้อมูลไม่ได้เรียนรู้หมวดหมู่ใหม่นี้ การเข้ารหัสแบบ one-hot ได้ข้ามหมวดหมู่ใหม่นี้ที่มีอยู่ในข้อมูลใหม่ และการเข้ารหัสจะข้ามหมวดหมู่ APARTMENT.

เรามาโฟกัสกันที่คุณสมบัติอื่น city. งานการประมวลผลพารามิเตอร์ที่ได้รับการฝึกฝนปรับปรุงใหม่ได้เรียนรู้ค่าทั้งหมดที่มีอยู่สำหรับ .อีกครั้ง city คุณลักษณะโดยพิจารณาจากข้อมูลใหม่

ดังแสดงในรูป สรุปคุณสมบัติ ส่วนของรายงาน ซึ่งเป็นคอลัมน์คุณลักษณะที่เข้ารหัสใหม่ e_city มีพารามิเตอร์ที่ถูกต้อง 100% โดยใช้คุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใหม่

ในทางตรงกันข้าม งานประมวลผลปกติมีค่าที่ขาดหายไป 82.4% ในคอลัมน์คุณลักษณะที่เข้ารหัสใหม่ e_city. ปรากฏการณ์นี้เป็นเพราะเฉพาะชุดตัวอย่างของพารามิเตอร์ที่ได้รับการฝึกอบรมที่เรียนรู้แล้วเท่านั้นที่จะถูกนำไปใช้กับชุดข้อมูลแบบเต็ม และงานการประมวลผลข้อมูลจะไม่มีการดัดแปลง

ฮิสโตแกรมต่อไปนี้แสดงคุณลักษณะการเข้ารหัสลำดับ e_city. ฮิสโตแกรมแรกเป็นคุณลักษณะที่แปลงด้วยตัวเลือกการปรับแต่ง

ฮิสโตแกรมถัดไปคือคุณลักษณะที่แปลงโดยไม่มีตัวเลือกการปรับใหม่ คอลัมน์สีส้มแสดงค่าที่ขาดหายไป (NaN) ในรายงานคุณภาพข้อมูลและข้อมูลเชิงลึก ค่าใหม่ที่ไม่ได้เรียนรู้จากชุดข้อมูลตัวอย่างจะถูกแทนที่เป็น Not a Number (NaN) ตามที่กำหนดค่าไว้ใน Data Wrangler UI กลยุทธ์การจัดการที่ไม่ถูกต้อง.

งานการประมวลผลข้อมูลกับพารามิเตอร์ที่ได้รับการฝึกฝน refit ได้เรียนรู้ใหม่ property_type และ city คุณลักษณะที่พิจารณาค่าใหม่จากชุดข้อมูลทั้งหมด หากไม่มีพารามิเตอร์ที่ผ่านการฝึกอบรมแล้ว การประมวลผลข้อมูลจะใช้เฉพาะพารามิเตอร์ที่ได้รับการฝึกอบรมล่วงหน้าของชุดข้อมูลตัวอย่างเท่านั้น จากนั้นนำไปใช้กับข้อมูลใหม่ แต่ค่าใหม่จะไม่ถูกพิจารณาสำหรับการเข้ารหัส ซึ่งจะส่งผลต่อความถูกต้องของแบบจำลอง

ทำความสะอาด

เมื่อคุณไม่ได้ใช้ Data Wrangler สิ่งสำคัญคือต้องปิดอินสแตนซ์ที่ทำงานเพื่อหลีกเลี่ยงค่าธรรมเนียมเพิ่มเติม

เพื่อหลีกเลี่ยงการสูญเสียงาน ให้บันทึกโฟลว์ข้อมูลของคุณก่อนปิด Data Wrangler

เพื่อบันทึกการไหลของข้อมูลของคุณใน สตูดิโอ Amazon SageMakerเลือก เนื้อไม่มีมันแล้วเลือก บันทึกข้อมูล Wrangler Flow. Data Wrangler จะบันทึกการไหลของข้อมูลของคุณโดยอัตโนมัติทุกๆ 60 วินาที
หากต้องการปิดอินสแตนซ์ Data Wrangler ใน Studio ให้เลือก อินสแตนซ์และเคอร์เนลที่ใช้งาน.
ภายใต้ แอพวิ่งให้เลือกไอคอนปิดเครื่องข้างแอป sagemaker-data-wrangler-1.0

Choose ปิดทั้งหมด เพื่อยืนยัน.

Data Wrangler ทำงานบนอินสแตนซ์ ml.m5.4xlarge อินสแตนซ์นี้หายไปจาก อินสแตนซ์ที่ใช้งาน เมื่อคุณปิดแอพ Data Wrangler

หลังจากที่คุณปิดแอป Data Wrangler แอปจะต้องรีสตาร์ทในครั้งต่อไปที่คุณเปิดไฟล์โฟลว์ Data Wrangler อาจใช้เวลาสักครู่

สรุป

ในโพสต์นี้ เราได้ให้ภาพรวมของคุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใน Data Wrangler ด้วยคุณสมบัติใหม่นี้ คุณสามารถจัดเก็บพารามิเตอร์ที่ผ่านการฝึกอบรมไว้ในโฟลว์ Data Wrangler และงานประมวลผลข้อมูลจะใช้พารามิเตอร์ที่ผ่านการฝึกอบรมเพื่อใช้การแปลงที่เรียนรู้กับชุดข้อมูลขนาดใหญ่หรือชุดข้อมูลเสริมกำลัง คุณสามารถใช้ตัวเลือกนี้กับคุณสมบัติข้อความเวกเตอร์ ข้อมูลตัวเลข และการจัดการค่าผิดปกติ

การรักษาพารามิเตอร์ที่ผ่านการฝึกอบรมตลอดการประมวลผลข้อมูลของวงจรชีวิต ML ช่วยลดความยุ่งยากและลดขั้นตอนการประมวลผลข้อมูล รองรับวิศวกรรมคุณลักษณะที่แข็งแกร่ง และสนับสนุนการฝึกโมเดลและการฝึกเสริมกำลังข้อมูลใหม่

เราขอแนะนำให้คุณลองใช้คุณลักษณะใหม่นี้สำหรับข้อกำหนดในการประมวลผลข้อมูลของคุณ

เกี่ยวกับผู้แต่ง

หริฮารัน สุเรศ เป็นสถาปนิกโซลูชันอาวุโสที่ AWS เขาหลงใหลเกี่ยวกับฐานข้อมูล แมชชีนเลิร์นนิง และการออกแบบโซลูชันที่เป็นนวัตกรรมใหม่ ก่อนที่จะร่วมงานกับ AWS Hariharan เป็นสถาปนิกผลิตภัณฑ์ ผู้เชี่ยวชาญด้านการใช้งานธนาคารหลัก และนักพัฒนา และทำงานร่วมกับองค์กร BFSI มานานกว่า 11 ปี นอกเหนือจากเทคโนโลยีแล้ว เขาชอบเล่นร่มร่อนและปั่นจักรยาน

ซานโตส กุลคาร์นิ เป็น Enterprise Solutions Architect ที่ Amazon Web Services ซึ่งทำงานร่วมกับลูกค้าด้านกีฬาในออสเตรเลีย เขาหลงใหลในการสร้างแอปพลิเคชันแบบกระจายขนาดใหญ่เพื่อแก้ปัญหาทางธุรกิจโดยใช้ความรู้ด้าน AI/ML, บิ๊กดาต้า และการพัฒนาซอฟต์แวร์

วิชาล กาปูร์ เป็นนักวิทยาศาสตร์ประยุกต์อาวุโสที่มี AWS AI เขาหลงใหลในการช่วยให้ลูกค้าเข้าใจข้อมูลของพวกเขาใน Data Wrangler ในเวลาว่าง เขาปั่นจักรยานเสือภูเขา เล่นสโนว์บอร์ด และใช้เวลาอยู่กับครอบครัว

อนิเกธ มัญชุนาถ เป็นวิศวกรพัฒนาซอฟต์แวร์ที่ Amazon SageMaker เขาช่วยสนับสนุน Amazon SageMaker Data Wrangler และหลงใหลเกี่ยวกับระบบการเรียนรู้ของเครื่องแบบกระจาย นอกเวลางาน เขาชอบเดินป่า ดูหนัง และเล่นคริกเก็ต

ประทับเวลา: November 14, 2022November 14, 2022

ประทับเวลา: กรกฎาคม 29, 2022

ปรับแต่งพารามิเตอร์ที่ผ่านการฝึกอบรมในชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมของคุณลักษณะการปรับแต่ง Data Wrangler

ภาพรวมโซลูชัน

เบื้องต้น

ดำเนินการ EDA ใน Data Wrangler

เรียกใช้งานการประมวลผลข้อมูล Data Wrangler โดยไม่ต้องเปิดใช้งานการปรับแต่ง

เริ่มงานการประมวลผลข้อมูล Data Wrangler โดยเปิดใช้งานการปรับใหม่

ส่งออกไปยังโค้ด Python เพื่อรันงานการประมวลผล Data Wrangler

เปรียบเทียบผลงานการประมวลผลข้อมูล

ทำความสะอาด

สรุป

เกี่ยวกับผู้แต่ง

เพิ่มเติมจาก AWS Machine Learning AWS

เมตริกสำหรับการประเมินโซลูชันการยืนยันตัวตน

เปิดใช้งาน CI/CD ของตำแหน่งข้อมูล Amazon SageMaker แบบหลายภูมิภาค

เปิดใช้งานการฝึกอบรมที่รวดเร็วยิ่งขึ้นด้วย Amazon SageMaker data Parallel Library | อเมซอนเว็บเซอร์วิส

วิศวกรรมคุณสมบัติตามขนาดสำหรับการดูแลสุขภาพและวิทยาศาสตร์เพื่อชีวิตด้วย Amazon SageMaker Data Wrangler

AWS Localization ใช้ Amazon Translate เพื่อปรับขนาดการแปลภาษา

สร้างและฝึกโมเดล ML โดยใช้สถาปัตยกรรม data mesh บน AWS: ตอนที่ 2

Chronomics ตรวจจับผลการทดสอบ COVID-19 ด้วย Amazon Rekognition Custom Labels

การจัดการทีมและผู้ใช้ด้วย Amazon SageMaker และ AWS SSO

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้