ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ปรับแต่งพารามิเตอร์ที่ผ่านการฝึกอบรมในชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler

Amazon SageMaker ข้อมูล Wrangler ช่วยให้คุณเข้าใจ รวม แปลง และเตรียมข้อมูลสำหรับแมชชีนเลิร์นนิง (ML) จากอินเทอร์เฟซภาพเดียว ประกอบด้วยการแปลงข้อมูลในตัวมากกว่า 300 รายการ คุณจึงสามารถทำให้เป็นมาตรฐาน แปลง และรวมคุณสมบัติต่างๆ ได้อย่างรวดเร็วโดยไม่ต้องเขียนโค้ดใดๆ

ผู้ปฏิบัติงานด้านวิทยาศาสตร์ข้อมูลจะสร้าง สังเกต และประมวลผลข้อมูลเพื่อแก้ปัญหาทางธุรกิจที่จำเป็นต้องแปลงและดึงคุณลักษณะจากชุดข้อมูล การแปลง เช่น การเข้ารหัสตามลำดับหรือการเข้ารหัสแบบร้อนครั้งเดียวจะเรียนรู้การเข้ารหัสในชุดข้อมูลของคุณ เอาต์พุตที่เข้ารหัสเหล่านี้เรียกว่าพารามิเตอร์ที่ผ่านการฝึกอบรม เนื่องจากชุดข้อมูลเปลี่ยนแปลงไปตามกาลเวลา อาจจำเป็นต้องปรับการเข้ารหัสใหม่กับข้อมูลที่มองไม่เห็นก่อนหน้านี้เพื่อให้โฟลว์การแปลงมีความเกี่ยวข้องกับข้อมูลของคุณ

เรารู้สึกตื่นเต้นที่จะประกาศให้ทราบถึงคุณสมบัติการปรับพารามิเตอร์ที่ผ่านการฝึกอบรม ซึ่งช่วยให้คุณใช้พารามิเตอร์ที่ผ่านการฝึกอบรมก่อนหน้านี้และปรับเปลี่ยนได้ตามต้องการ ในโพสต์นี้ เราสาธิตวิธีใช้คุณลักษณะนี้

ภาพรวมของคุณลักษณะการปรับแต่ง Data Wrangler

เราแสดงตัวอย่างวิธีการทำงานของคุณลักษณะนี้ด้วยตัวอย่างต่อไปนี้ ก่อนที่เราจะลงลึกถึงลักษณะเฉพาะของคุณลักษณะพารามิเตอร์ที่ได้รับการฝึกฝนการดัดแปลง

สมมติว่าชุดข้อมูลลูกค้าของคุณมีคุณสมบัติตามหมวดหมู่สำหรับ country แสดงเป็นสตริงเช่น Australia และ Singapore. อัลกอริธึม ML ต้องการอินพุตที่เป็นตัวเลข ดังนั้น ค่าตามหมวดหมู่เหล่านี้จึงต้องเข้ารหัสเป็นค่าตัวเลข การเข้ารหัสข้อมูลหมวดหมู่เป็นกระบวนการสร้างการแสดงตัวเลขสำหรับหมวดหมู่ ตัวอย่างเช่น หากประเทศในหมวดหมู่ของคุณมีค่า Australia และ Singaporeคุณสามารถเข้ารหัสข้อมูลนี้เป็นเวกเตอร์สองเวกเตอร์: [1, 0] เพื่อเป็นตัวแทน Australia และ [0, 1] เพื่อเป็นตัวแทนของ Singapore. การแปลงที่ใช้ในที่นี้คือการเข้ารหัสแบบ one-hot และเอาต์พุตที่เข้ารหัสใหม่จะสะท้อนถึงพารามิเตอร์ที่ผ่านการฝึกอบรม

หลังจากฝึกโมเดลแล้ว เมื่อเวลาผ่านไป ลูกค้าของคุณอาจเพิ่มขึ้นและคุณมีค่าที่แตกต่างมากขึ้นในรายการประเทศ ชุดข้อมูลใหม่อาจมีหมวดหมู่อื่น Indiaซึ่งไม่ได้เป็นส่วนหนึ่งของชุดข้อมูลดั้งเดิม ซึ่งอาจส่งผลต่อความแม่นยำของโมเดล ดังนั้นจึงจำเป็นต้องฝึกโมเดลของคุณใหม่ด้วยข้อมูลใหม่ที่รวบรวมเมื่อเวลาผ่านไป

เพื่อแก้ปัญหานี้ คุณต้องรีเฟรชการเข้ารหัสเพื่อรวมหมวดหมู่ใหม่และอัปเดตการแสดงเวกเตอร์ตามชุดข้อมูลล่าสุดของคุณ ในตัวอย่างของเรา การเข้ารหัสควรแสดงถึงหมวดหมู่ใหม่สำหรับ countryซึ่งเป็น India. เรามักอ้างถึงกระบวนการรีเฟรชการเข้ารหัสนี้ว่าเป็นการดำเนินการแก้ไข หลังจากที่คุณดำเนินการแก้ไข คุณจะได้รับการเข้ารหัสใหม่: Australia: [1, 0, 0], Singapore: [0, 1, 0], และ India: [0, 0, 1]. การปรับการเข้ารหัสแบบ one-hot ใหม่ จากนั้นจึงฝึกโมเดลใหม่บนชุดข้อมูลใหม่ส่งผลให้เกิดการคาดคะเนคุณภาพที่ดีขึ้น

คุณลักษณะพารามิเตอร์ที่ได้รับการฝึกฝนแล้วของ Data Wrangler มีประโยชน์ในกรณีต่อไปนี้:

  • เพิ่มข้อมูลใหม่ลงในชุดข้อมูล – การฝึกโมเดล ML ใหม่เป็นสิ่งจำเป็นเมื่อชุดข้อมูลเต็มไปด้วยข้อมูลใหม่ เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด เราจำเป็นต้องปรับแต่งพารามิเตอร์ที่ผ่านการฝึกอบรมในชุดข้อมูลใหม่
  • การฝึกอบรมเกี่ยวกับชุดข้อมูลทั้งหมดหลังจากทำวิศวกรรมคุณลักษณะกับข้อมูลตัวอย่าง – สำหรับชุดข้อมูลขนาดใหญ่ ตัวอย่างของชุดข้อมูลจะถูกพิจารณาสำหรับการเรียนรู้พารามิเตอร์ที่ได้รับการฝึกฝน ซึ่งอาจไม่ได้แสดงถึงชุดข้อมูลทั้งหมดของคุณ เราจำเป็นต้องเรียนรู้พารามิเตอร์ที่ได้รับการฝึกฝนใหม่ในชุดข้อมูลที่สมบูรณ์

ต่อไปนี้คือการแปลง Data Wrangler ทั่วไปบางส่วนที่ดำเนินการบนชุดข้อมูลซึ่งได้ประโยชน์จากตัวเลือกพารามิเตอร์ที่ผ่านการฝึกอบรมการปรับให้เหมาะสม:

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการเปลี่ยนแปลงใน Data Wrangler โปรดดูที่ แปลงข้อมูล.

ในโพสต์นี้ เราจะแสดงวิธีประมวลผลพารามิเตอร์ที่ผ่านการฝึกอบรมเหล่านี้บนชุดข้อมูลโดยใช้ Data Wrangler คุณสามารถใช้โฟลว์ Data Wrangler ในงานการผลิตเพื่อประมวลผลข้อมูลของคุณใหม่เมื่อข้อมูลเติบโตและเปลี่ยนแปลง

ภาพรวมโซลูชัน

สำหรับโพสต์นี้ เราจะสาธิตวิธีการใช้คุณลักษณะพารามิเตอร์ที่ได้รับการฝึกฝนของ Data Wrangler กับชุดข้อมูลที่เผยแพร่ต่อสาธารณะบน Kaggle: ข้อมูลที่อยู่อาศัยของสหรัฐอเมริกาจาก Zillow อสังหาริมทรัพย์สำหรับขายในสหรัฐอเมริกา มีราคาขายบ้านในการกระจายบ้านตามพื้นที่ต่างๆ

ไดอะแกรมต่อไปนี้แสดงสถาปัตยกรรมระดับสูงของ Data Wrangler โดยใช้คุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใหม่ นอกจากนี้ เรายังแสดงผลต่อคุณภาพข้อมูลโดยไม่ต้องใช้พารามิเตอร์ที่ได้รับการฝึกฝนและเปรียบเทียบผลลัพธ์ในตอนท้าย

เวิร์กโฟลว์ประกอบด้วยขั้นตอนต่อไปนี้:

  1. ดำเนินการวิเคราะห์ข้อมูลเชิงสำรวจ – สร้างโฟลว์ใหม่ใน Data Wrangler เพื่อเริ่มการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) นำเข้าข้อมูลธุรกิจเพื่อทำความเข้าใจ ทำความสะอาด รวม เปลี่ยนแปลง และเตรียมข้อมูลของคุณสำหรับการฝึกอบรม อ้างถึง สำรวจความสามารถของ Amazon SageMaker Data Wrangler ด้วยชุดข้อมูลตัวอย่าง สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการดำเนินการ EDA ด้วย Data Wrangler
  2. สร้างงานประมวลผลข้อมูล – ขั้นตอนนี้ส่งออกการแปลงทั้งหมดที่คุณทำบนชุดข้อมูลเป็นไฟล์โฟลว์ที่จัดเก็บไว้ในการกำหนดค่า บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน S3) ที่ตั้ง งานประมวลผลข้อมูลด้วยไฟล์โฟลว์ที่สร้างโดย Data Wrangler จะใช้การแปลงและพารามิเตอร์ที่ได้รับการฝึกฝนซึ่งเรียนรู้จากชุดข้อมูลของคุณ เมื่องานประมวลผลข้อมูลเสร็จสิ้น ไฟล์เอาต์พุตจะถูกอัปโหลดไปยังตำแหน่ง Amazon S3 ที่กำหนดค่าไว้ในโหนดปลายทาง โปรดทราบว่าตัวเลือกการปรับแต่งจะถูกปิดโดยค่าเริ่มต้น คุณยังสามารถทำได้อีกทางเลือกหนึ่งนอกเหนือจากการดำเนินการประมวลผลในทันที กำหนดเวลางานการประมวลผล ในไม่กี่คลิกโดยใช้ Data Wrangler – สร้างงานเพื่อให้ทำงานตามเวลาที่กำหนด
  3. สร้างงานการประมวลผลข้อมูลด้วยคุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใหม่ – เลือกคุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใหม่ในขณะที่สร้างงานเพื่อบังคับใช้การเรียนรู้ใหม่ของพารามิเตอร์ที่ได้รับการฝึกฝนของคุณในชุดข้อมูลทั้งหมดหรือเสริม ตามการกำหนดค่าตำแหน่ง Amazon S3 สำหรับจัดเก็บไฟล์โฟลว์ งานประมวลผลข้อมูลจะสร้างหรืออัปเดตไฟล์โฟลว์ใหม่ หากคุณกำหนดค่าตำแหน่ง Amazon S3 เดียวกันกับในขั้นตอนที่ 2 งานประมวลผลข้อมูลจะอัปเดตไฟล์โฟลว์ที่สร้างขึ้นในขั้นตอนที่ 2 ซึ่งสามารถใช้เพื่อให้โฟลว์ของคุณเกี่ยวข้องกับข้อมูลของคุณ เมื่อเสร็จสิ้นงานการประมวลผล ไฟล์เอาต์พุตจะถูกอัปโหลดไปยังบัคเก็ต S3 ของโหนดปลายทางที่กำหนดค่าไว้ คุณสามารถใช้โฟลว์ที่อัปเดตในชุดข้อมูลทั้งหมดสำหรับเวิร์กโฟลว์การผลิต

เบื้องต้น

ก่อนเริ่มต้น ให้อัปโหลดชุดข้อมูลไปยังบัคเก็ต S3 จากนั้นนำเข้าไปยัง Data Wrangler สำหรับคำแนะนำ โปรดดูที่ นำเข้าข้อมูลจาก Amazon S3.

ตอนนี้เรามาดูขั้นตอนที่กล่าวถึงในแผนภาพสถาปัตยกรรมกัน

ดำเนินการ EDA ใน Data Wrangler

หากต้องการลองใช้คุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใหม่ ให้ตั้งค่าการวิเคราะห์และการแปลงต่อไปนี้ใน Data Wrangler เมื่อสิ้นสุดการตั้งค่า EDA แล้ว Data Wrangler จะสร้างโฟลว์ไฟล์ที่บันทึกด้วยพารามิเตอร์ที่ได้รับการฝึกฝนจากชุดข้อมูล

  1. สร้างโฟลว์ใหม่ใน Amazon SageMaker Data Wrangler สำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ
  2. นำเข้าข้อมูลธุรกิจที่คุณอัปโหลดไปยัง Amazon S3
  3. คุณสามารถดูตัวอย่างข้อมูลและตัวเลือกสำหรับการเลือกประเภทไฟล์ ตัวคั่น การสุ่มตัวอย่าง และอื่นๆ สำหรับตัวอย่างนี้ เราใช้ เฟิร์ส K ตัวเลือกการสุ่มตัวอย่างจัดทำโดย Data Wrangler เพื่อนำเข้าบันทึก 50,000 รายการแรกจากชุดข้อมูล
  4. Choose นำเข้า.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. หลังจากที่คุณตรวจสอบการจับคู่ประเภทข้อมูลที่ Data Wrangler ใช้แล้ว ให้เพิ่มการวิเคราะห์ใหม่

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. สำหรับ ประเภทการวิเคราะห์เลือก รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก.
  2. Choose สร้างบัญชีตัวแทน.

ด้วยรายงานคุณภาพข้อมูลและข้อมูลเชิงลึก คุณจะได้รับสรุปโดยย่อของชุดข้อมูลพร้อมข้อมูลทั่วไป เช่น ค่าที่ขาดหายไป ค่าที่ไม่ถูกต้อง ประเภทคุณลักษณะ จำนวนผิดปกติ และอื่นๆ คุณสามารถเลือกคุณสมบัติ property_type และ city สำหรับการนำการแปลงไปใช้ในชุดข้อมูลเพื่อทำความเข้าใจคุณลักษณะพารามิเตอร์ที่ได้รับการฝึกฝน

มาเน้นที่คุณสมบัติ property_type จากชุดข้อมูล ในรายงานของ รายละเอียดคุณสมบัติ ส่วน คุณสามารถดู property_typeซึ่งเป็นคุณลักษณะที่เป็นหมวดหมู่ และค่าที่ไม่ซ้ำกัน 50,000 ค่าที่ได้มาจากชุดข้อมูลตัวอย่าง XNUMX ชุดโดย Data Wrangler ชุดข้อมูลที่สมบูรณ์อาจมีหมวดหมู่เพิ่มเติมสำหรับคุณลักษณะนี้ property_type. สำหรับคุณสมบัติที่มีค่าเฉพาะจำนวนมาก คุณอาจต้องการการเข้ารหัสแบบลำดับ หากคุณลักษณะมีค่าเฉพาะไม่กี่ค่า ก็สามารถใช้วิธีการเข้ารหัสแบบร้อนเดียวได้ สำหรับตัวอย่างนี้ เราเลือกเปิดการเข้ารหัสแบบร้อนครั้งเดียว property_type.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ในทำนองเดียวกันสำหรับ city คุณลักษณะ ซึ่งเป็นประเภทข้อมูลข้อความที่มีค่าที่ไม่ซ้ำกันจำนวนมาก ลองใช้การเข้ารหัสลำดับกับคุณลักษณะนี้

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. ไปที่โฟลว์ Data Wrangler เลือกเครื่องหมายบวก แล้วเลือก เพิ่มการแปลง.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. เลือก เข้ารหัสหมวดหมู่ ตัวเลือกสำหรับการแปลงคุณสมบัติหมวดหมู่

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

คุณลักษณะจากรายงานคุณภาพข้อมูลและข้อมูลเชิงลึก property_type แสดงหกหมวดหมู่ที่ไม่ซ้ำกัน: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILYและ TOWNHOUSE.

  1. สำหรับ แปลงเลือก การเข้ารหัสแบบร้อนครั้งเดียว.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

หลังจากใช้คุณสมบัติการเข้ารหัสแบบร้อนครั้งเดียว property_typeคุณสามารถดูตัวอย่างทั้งหกประเภทเป็นคุณสมบัติแยกต่างหากที่เพิ่มเป็นคอลัมน์ใหม่ โปรดทราบว่ามีการสุ่มตัวอย่างระเบียน 50,000 รายการจากชุดข้อมูลของคุณเพื่อสร้างการแสดงตัวอย่างนี้ ขณะเรียกใช้งานการประมวลผล Data Wrangler ด้วยโฟลว์นี้ การแปลงเหล่านี้จะนำไปใช้กับชุดข้อมูลทั้งหมดของคุณ

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. เพิ่มการแปลงร่างใหม่แล้วเลือก เข้ารหัสหมวดหมู่ เพื่อใช้การแปลงบนคุณสมบัติ cityซึ่งมีค่าข้อความหมวดหมู่ที่ไม่ซ้ำกันจำนวนมากขึ้น
  2. หากต้องการเข้ารหัสคุณลักษณะนี้เป็นการแสดงตัวเลข ให้เลือก การเข้ารหัสลำดับ for แปลง.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. เลือกดูตัวอย่างการแปลงนี้

คุณจะเห็นว่าคุณลักษณะหมวดหมู่ city ถูกแมปกับค่าลำดับในคอลัมน์เอาต์พุต e_city.

  1. เพิ่มขั้นตอนนี้โดยเลือก บันทึก.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. คุณสามารถตั้งค่าปลายทางเป็น Amazon S3 เพื่อจัดเก็บการแปลงที่ใช้บนชุดข้อมูลเพื่อสร้างเอาต์พุตเป็นไฟล์ CSV

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

Data Wrangler จัดเก็บเวิร์กโฟลว์ที่คุณกำหนดไว้ในอินเทอร์เฟซผู้ใช้เป็นไฟล์โฟลว์และอัปโหลดไปยังตำแหน่ง Amazon S3 ของงานการประมวลผลข้อมูลที่กำหนดค่าไว้ ไฟล์โฟลว์นี้ใช้เมื่อคุณสร้างงานการประมวลผล Data Wrangler เพื่อปรับใช้การแปลงกับชุดข้อมูลที่ใหญ่ขึ้น หรือเพื่อแปลงข้อมูลการเสริมแรงใหม่เพื่อฝึกโมเดลใหม่

เรียกใช้งานการประมวลผลข้อมูล Data Wrangler โดยไม่ต้องเปิดใช้งานการปรับแต่ง

ตอนนี้คุณสามารถดูว่าตัวเลือกการปรับใช้พารามิเตอร์ที่ได้รับการฝึกอบรมกับชุดข้อมูลใหม่ได้อย่างไร สำหรับการสาธิตนี้ เรากำหนดงานการประมวลผล Data Wrangler สองงานที่ทำงานบนข้อมูลเดียวกัน งานการประมวลผลครั้งแรกจะไม่เปิดใช้งานการปรับใหม่ สำหรับงานประมวลผลที่สอง เราใช้การปรับใหม่ เราเปรียบเทียบเอฟเฟกต์ในตอนท้าย

  1. Choose สร้างงาน เพื่อเริ่มงานประมวลผลข้อมูลด้วย Data Wrangler

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. สำหรับ ชื่องาน, ป้อนชื่อ
  2. ภายใต้ พารามิเตอร์ที่ได้รับการฝึกอบรม, อย่าเลือก อานิสงส์.
  3. Choose กำหนดค่างาน.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. กำหนดค่าพารามิเตอร์งาน เช่น ประเภทอินสแตนซ์ ขนาดวอลุ่ม และตำแหน่ง Amazon S3 สำหรับจัดเก็บไฟล์โฟลว์เอาต์พุต
  2. Data Wrangler สร้างโฟลว์ไฟล์ในตำแหน่งโฟลว์ไฟล์ S3 โฟลว์ใช้การแปลงเพื่อฝึกพารามิเตอร์ และหลังจากนั้นเราก็ใช้ตัวเลือกการปรับแต่งเพื่อฝึกพารามิเตอร์เหล่านี้ใหม่
  3. Choose สร้างบัญชีตัวแทน.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

รอให้งานประมวลผลข้อมูลเสร็จสิ้นเพื่อดูข้อมูลที่แปลงแล้วในบัคเก็ต S3 ที่กำหนดค่าในโหนดปลายทาง

เริ่มงานการประมวลผลข้อมูล Data Wrangler โดยเปิดใช้งานการปรับใหม่

มาสร้างงานการประมวลผลอื่นที่เปิดใช้งานโดยเปิดใช้คุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใหม่ ตัวเลือกนี้บังคับใช้พารามิเตอร์ที่ผ่านการฝึกอบรมซึ่งเรียนรู้ใหม่ในชุดข้อมูลทั้งหมด เมื่องานประมวลผลข้อมูลนี้เสร็จสิ้น ไฟล์โฟลว์จะถูกสร้างขึ้นหรืออัปเดตเป็นตำแหน่ง Amazon S3 ที่กำหนดค่าไว้

  1. Choose สร้างงาน.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. สำหรับ ชื่องาน, ป้อนชื่อ
  2. สำหรับ พารามิเตอร์ที่ได้รับการฝึกอบรมให้เลือก อานิสงส์.
  3. หากคุณเลือกที่ ดูทั้งหมดคุณสามารถตรวจสอบพารามิเตอร์ที่ได้รับการฝึกอบรมทั้งหมดได้

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. Choose กำหนดค่างาน.
  2. ป้อนตำแหน่งไฟล์โฟลว์ Amazon S3
  3. Choose สร้างบัญชีตัวแทน.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

รอให้งานประมวลผลข้อมูลเสร็จสิ้น

อ้างถึงบัคเก็ต S3 ที่กำหนดค่าในโหนดปลายทางเพื่อดูข้อมูลที่สร้างขึ้นโดยงานประมวลผลข้อมูลที่รันการแปลงที่กำหนดไว้

ส่งออกไปยังโค้ด Python เพื่อรันงานการประมวลผล Data Wrangler

แทนที่จะเริ่มงานประมวลผลโดยใช้ตัวเลือกสร้างงานใน Data Wrangler คุณสามารถทริกเกอร์งานประมวลผลข้อมูลได้โดยส่งออกโฟลว์ Data Wrangler ไปยังโน้ตบุ๊ก Jupyter Data Wrangler สร้างโน้ตบุ๊ก Jupyter ที่มีอินพุต เอาต์พุต การกำหนดค่างานการประมวลผล และรหัสสำหรับการตรวจสอบสถานะงาน คุณสามารถเปลี่ยนหรืออัพเดตพารามิเตอร์ตามข้อกำหนดการแปลงข้อมูลของคุณ

  1. เลือกเครื่องหมายบวกถัดจากขั้นสุดท้าย แปลง ปม
  2. Choose ส่งออก ถึงและ Amazon S3 (ผ่าน Jupyter Notebook).

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

คุณจะเห็นโน้ตบุ๊ก Jupyter ที่เปิดอยู่พร้อมกับอินพุต เอาต์พุต การกำหนดค่างานที่กำลังประมวลผล และรหัสสำหรับการตรวจสอบสถานะงาน

  1. ในการบังคับใช้ตัวเลือกพารามิเตอร์ที่ได้รับการฝึกฝนใหม่ผ่านโค้ด ให้ตั้งค่า refit พารามิเตอร์ True.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.เปรียบเทียบผลงานการประมวลผลข้อมูล

หลังจากงานประมวลผล Data Wrangler เสร็จสมบูรณ์ คุณต้องสร้างโฟลว์ Data Wrangler ใหม่สองรายการพร้อมเอาต์พุตที่สร้างโดยงานประมวลผลข้อมูลที่จัดเก็บไว้ในปลายทาง Amazon S3 ที่กำหนดค่าไว้

คุณสามารถอ้างถึงตำแหน่งที่กำหนดค่าไว้ในโฟลเดอร์ปลายทางของ Amazon S3 เพื่อตรวจสอบผลลัพธ์ของงานการประมวลผลข้อมูล

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

หากต้องการตรวจสอบผลลัพธ์ของงานการประมวลผล ให้สร้างโฟลว์ Data Wrangler ใหม่สองโฟลว์โดยใช้รายงานคุณภาพข้อมูลและข้อมูลเชิงลึกเพื่อเปรียบเทียบผลลัพธ์การเปลี่ยนแปลง

  1. สร้างโฟลว์ใหม่ใน Amazon SageMaker Data Wrangler
  2. นำเข้างานการประมวลผลข้อมูลโดยไม่ต้องปรับไฟล์เอาต์พุตที่เปิดใช้งานใหม่จาก Amazon S3
  3. เพิ่มการวิเคราะห์ใหม่
  4. สำหรับ ประเภทการวิเคราะห์เลือก รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก.
  5. Choose สร้างบัญชีตัวแทน.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ทำซ้ำขั้นตอนข้างต้นและสร้างโฟลว์ข้อมูล wrangler ใหม่ เพื่อวิเคราะห์เอาต์พุตงานการประมวลผลข้อมูลโดยเปิดใช้งานการปรับให้เหมาะสม

ทีนี้มาดูผลลัพธ์ของงานการประมวลผลสำหรับคุณลักษณะนี้กัน property_type โดยใช้รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก เลื่อนไปที่รายละเอียดคุณลักษณะในรายการรายงานข้อมูลและข้อมูลเชิงลึก feature_type.

งานการประมวลผลพารามิเตอร์ที่ได้รับการฝึกฝนปรับปรุงใหม่ได้ปรับพารามิเตอร์ที่ได้รับการฝึกอบรมบนชุดข้อมูลทั้งหมดและเข้ารหัสค่าใหม่ APARTMENT ด้วยค่าที่แตกต่างกันเจ็ดค่าในชุดข้อมูลทั้งหมด

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

งานประมวลผลปกติใช้พารามิเตอร์ฝึกชุดข้อมูลตัวอย่าง ซึ่งมีค่าที่แตกต่างกันเพียงหกค่าสำหรับ property_type ลักษณะเฉพาะ. สำหรับข้อมูลกับ feature_type APARTMENTที่ กลยุทธ์การจัดการที่ไม่ถูกต้อง มีการใช้การข้ามและงานการประมวลผลข้อมูลไม่ได้เรียนรู้หมวดหมู่ใหม่นี้ การเข้ารหัสแบบ one-hot ได้ข้ามหมวดหมู่ใหม่นี้ที่มีอยู่ในข้อมูลใหม่ และการเข้ารหัสจะข้ามหมวดหมู่ APARTMENT.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เรามาโฟกัสกันที่คุณสมบัติอื่น city. งานการประมวลผลพารามิเตอร์ที่ได้รับการฝึกฝนปรับปรุงใหม่ได้เรียนรู้ค่าทั้งหมดที่มีอยู่สำหรับ .อีกครั้ง city คุณลักษณะโดยพิจารณาจากข้อมูลใหม่

ดังแสดงในรูป สรุปคุณสมบัติ ส่วนของรายงาน ซึ่งเป็นคอลัมน์คุณลักษณะที่เข้ารหัสใหม่ e_city มีพารามิเตอร์ที่ถูกต้อง 100% โดยใช้คุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใหม่

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ในทางตรงกันข้าม งานประมวลผลปกติมีค่าที่ขาดหายไป 82.4% ในคอลัมน์คุณลักษณะที่เข้ารหัสใหม่ e_city. ปรากฏการณ์นี้เป็นเพราะเฉพาะชุดตัวอย่างของพารามิเตอร์ที่ได้รับการฝึกอบรมที่เรียนรู้แล้วเท่านั้นที่จะถูกนำไปใช้กับชุดข้อมูลแบบเต็ม และงานการประมวลผลข้อมูลจะไม่มีการดัดแปลง

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ฮิสโตแกรมต่อไปนี้แสดงคุณลักษณะการเข้ารหัสลำดับ e_city. ฮิสโตแกรมแรกเป็นคุณลักษณะที่แปลงด้วยตัวเลือกการปรับแต่ง

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ฮิสโตแกรมถัดไปคือคุณลักษณะที่แปลงโดยไม่มีตัวเลือกการปรับใหม่ คอลัมน์สีส้มแสดงค่าที่ขาดหายไป (NaN) ในรายงานคุณภาพข้อมูลและข้อมูลเชิงลึก ค่าใหม่ที่ไม่ได้เรียนรู้จากชุดข้อมูลตัวอย่างจะถูกแทนที่เป็น Not a Number (NaN) ตามที่กำหนดค่าไว้ใน Data Wrangler UI กลยุทธ์การจัดการที่ไม่ถูกต้อง.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

งานการประมวลผลข้อมูลกับพารามิเตอร์ที่ได้รับการฝึกฝน refit ได้เรียนรู้ใหม่ property_type และ city คุณลักษณะที่พิจารณาค่าใหม่จากชุดข้อมูลทั้งหมด หากไม่มีพารามิเตอร์ที่ผ่านการฝึกอบรมแล้ว การประมวลผลข้อมูลจะใช้เฉพาะพารามิเตอร์ที่ได้รับการฝึกอบรมล่วงหน้าของชุดข้อมูลตัวอย่างเท่านั้น จากนั้นนำไปใช้กับข้อมูลใหม่ แต่ค่าใหม่จะไม่ถูกพิจารณาสำหรับการเข้ารหัส ซึ่งจะส่งผลต่อความถูกต้องของแบบจำลอง

ทำความสะอาด

เมื่อคุณไม่ได้ใช้ Data Wrangler สิ่งสำคัญคือต้องปิดอินสแตนซ์ที่ทำงานเพื่อหลีกเลี่ยงค่าธรรมเนียมเพิ่มเติม

เพื่อหลีกเลี่ยงการสูญเสียงาน ให้บันทึกโฟลว์ข้อมูลของคุณก่อนปิด Data Wrangler

  1. เพื่อบันทึกการไหลของข้อมูลของคุณใน สตูดิโอ Amazon SageMakerเลือก เนื้อไม่มีมันแล้วเลือก บันทึกข้อมูล Wrangler Flow. Data Wrangler จะบันทึกการไหลของข้อมูลของคุณโดยอัตโนมัติทุกๆ 60 วินาที
  2. หากต้องการปิดอินสแตนซ์ Data Wrangler ใน Studio ให้เลือก อินสแตนซ์และเคอร์เนลที่ใช้งาน.
  3. ภายใต้ แอพวิ่งให้เลือกไอคอนปิดเครื่องข้างแอป sagemaker-data-wrangler-1.0

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. Choose ปิดทั้งหมด เพื่อยืนยัน.

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

Data Wrangler ทำงานบนอินสแตนซ์ ml.m5.4xlarge อินสแตนซ์นี้หายไปจาก อินสแตนซ์ที่ใช้งาน เมื่อคุณปิดแอพ Data Wrangler

หลังจากที่คุณปิดแอป Data Wrangler แอปจะต้องรีสตาร์ทในครั้งต่อไปที่คุณเปิดไฟล์โฟลว์ Data Wrangler อาจใช้เวลาสักครู่

สรุป

ในโพสต์นี้ เราได้ให้ภาพรวมของคุณสมบัติพารามิเตอร์ที่ได้รับการฝึกฝนใน Data Wrangler ด้วยคุณสมบัติใหม่นี้ คุณสามารถจัดเก็บพารามิเตอร์ที่ผ่านการฝึกอบรมไว้ในโฟลว์ Data Wrangler และงานประมวลผลข้อมูลจะใช้พารามิเตอร์ที่ผ่านการฝึกอบรมเพื่อใช้การแปลงที่เรียนรู้กับชุดข้อมูลขนาดใหญ่หรือชุดข้อมูลเสริมกำลัง คุณสามารถใช้ตัวเลือกนี้กับคุณสมบัติข้อความเวกเตอร์ ข้อมูลตัวเลข และการจัดการค่าผิดปกติ

การรักษาพารามิเตอร์ที่ผ่านการฝึกอบรมตลอดการประมวลผลข้อมูลของวงจรชีวิต ML ช่วยลดความยุ่งยากและลดขั้นตอนการประมวลผลข้อมูล รองรับวิศวกรรมคุณลักษณะที่แข็งแกร่ง และสนับสนุนการฝึกโมเดลและการฝึกเสริมกำลังข้อมูลใหม่

เราขอแนะนำให้คุณลองใช้คุณลักษณะใหม่นี้สำหรับข้อกำหนดในการประมวลผลข้อมูลของคุณ


เกี่ยวกับผู้แต่ง

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. หริฮารัน สุเรศ เป็นสถาปนิกโซลูชันอาวุโสที่ AWS เขาหลงใหลเกี่ยวกับฐานข้อมูล แมชชีนเลิร์นนิง และการออกแบบโซลูชันที่เป็นนวัตกรรมใหม่ ก่อนที่จะร่วมงานกับ AWS Hariharan เป็นสถาปนิกผลิตภัณฑ์ ผู้เชี่ยวชาญด้านการใช้งานธนาคารหลัก และนักพัฒนา และทำงานร่วมกับองค์กร BFSI มานานกว่า 11 ปี นอกเหนือจากเทคโนโลยีแล้ว เขาชอบเล่นร่มร่อนและปั่นจักรยาน

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ซานโตส กุลคาร์นิ เป็น Enterprise Solutions Architect ที่ Amazon Web Services ซึ่งทำงานร่วมกับลูกค้าด้านกีฬาในออสเตรเลีย เขาหลงใหลในการสร้างแอปพลิเคชันแบบกระจายขนาดใหญ่เพื่อแก้ปัญหาทางธุรกิจโดยใช้ความรู้ด้าน AI/ML, บิ๊กดาต้า และการพัฒนาซอฟต์แวร์

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.วิชาล กาปูร์ เป็นนักวิทยาศาสตร์ประยุกต์อาวุโสที่มี AWS AI เขาหลงใหลในการช่วยให้ลูกค้าเข้าใจข้อมูลของพวกเขาใน Data Wrangler ในเวลาว่าง เขาปั่นจักรยานเสือภูเขา เล่นสโนว์บอร์ด และใช้เวลาอยู่กับครอบครัว

ปรับพารามิเตอร์ที่ได้รับการฝึกใหม่บนชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.อนิเกธ มัญชุนาถ เป็นวิศวกรพัฒนาซอฟต์แวร์ที่ Amazon SageMaker เขาช่วยสนับสนุน Amazon SageMaker Data Wrangler และหลงใหลเกี่ยวกับระบบการเรียนรู้ของเครื่องแบบกระจาย นอกเวลางาน เขาชอบเดินป่า ดูหนัง และเล่นคริกเก็ต

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS

สร้างและประเมินโมเดลการเรียนรู้ของเครื่องด้วยการกำหนดค่าขั้นสูงโดยใช้กระดานผู้นำโมเดล SageMaker Canvas | อเมซอนเว็บเซอร์วิส

โหนดต้นทาง: 1920800
ประทับเวลา: พฤศจิกายน 30, 2023