นักวิทยาศาสตร์ด้านข้อมูลใช้เวลาระหว่าง 45–80% ในการทำงานเตรียมข้อมูล ทั้งนี้ขึ้นอยู่กับคุณภาพและความซับซ้อนของข้อมูล นี่หมายความว่าการเตรียมข้อมูลและการล้างข้อมูลใช้เวลาอันมีค่าไปจากงานวิทยาศาสตร์ข้อมูลจริง หลังจากที่โมเดลแมชชีนเลิร์นนิง (ML) ได้รับการฝึกอบรมด้วยข้อมูลที่เตรียมไว้และพร้อมสำหรับการปรับใช้ นักวิทยาศาสตร์ด้านข้อมูลมักจะต้องเขียนการแปลงข้อมูลที่ใช้ในการเตรียมข้อมูลสำหรับการอนุมาน ML ใหม่ ซึ่งอาจยืดเวลาที่ใช้ในการปรับใช้โมเดลที่มีประโยชน์ซึ่งสามารถอนุมานและให้คะแนนข้อมูลจากรูปร่างและรูปแบบดิบได้
ในตอนที่ 1 ของชุดนี้ เราได้สาธิตวิธีที่ Data Wrangler เปิดใช้งานa การเตรียมข้อมูลแบบครบวงจรและการฝึกอบรมแบบจำลอง ประสบการณ์กับ ระบบนำร่องอัตโนมัติของ Amazon SageMaker เพียงไม่กี่คลิก ในส่วนที่สองและสุดท้ายของซีรีส์นี้ เราเน้นที่คุณลักษณะที่มีและนำกลับมาใช้ใหม่ Amazon SageMaker ข้อมูล Wrangler การแปลง เช่น อิมพีเตอร์ค่าที่หายไป ตัวเข้ารหัสแบบลำดับหรือแบบร้อนเดียว และอื่นๆ พร้อมกับโมเดล Autopilot สำหรับการอนุมาน ML คุณลักษณะนี้ช่วยให้ประมวลผลข้อมูลดิบล่วงหน้าโดยอัตโนมัติด้วยการนำคุณลักษณะ Data Wrangler กลับมาใช้ใหม่ ณ เวลาที่มีการอนุมาน ซึ่งช่วยลดเวลาที่ต้องใช้ในการปรับใช้แบบจำลองที่ได้รับการฝึกอบรมในการผลิต
ภาพรวมโซลูชัน
Data Wrangler ช่วยลดเวลาในการรวบรวมและเตรียมข้อมูลสำหรับ ML จากสัปดาห์เหลือเป็นนาที และ Autopilot จะสร้าง ฝึกฝน และปรับแต่งโมเดล ML ที่ดีที่สุดตามข้อมูลของคุณโดยอัตโนมัติ ด้วย Autopilot คุณยังคงสามารถควบคุมและมองเห็นข้อมูลและแบบจำลองของคุณได้อย่างสมบูรณ์ บริการทั้งสองมีจุดมุ่งหมายเพื่อให้ผู้ปฏิบัติงาน ML มีประสิทธิผลมากขึ้นและเร่งเวลาในการสร้างมูลค่า
ไดอะแกรมต่อไปนี้แสดงสถาปัตยกรรมโซลูชันของเรา
เบื้องต้น
เนื่องจากโพสต์นี้เป็นบทความที่สองในชุดสองส่วน โปรดแน่ใจว่าคุณอ่านและใช้งานสำเร็จแล้ว 1 หมายเลข ก่อนดำเนินการต่อ
ส่งออกและฝึกโมเดล
ในตอนที่ 1 หลังจากการเตรียมข้อมูลสำหรับ ML เราได้พูดคุยถึงวิธีที่คุณสามารถใช้ประสบการณ์ที่ผสานรวมใน Data Wrangler เพื่อวิเคราะห์ชุดข้อมูลและสร้างแบบจำลอง ML คุณภาพสูงใน Autopilot ได้อย่างง่ายดาย
ครั้งนี้ เราใช้การรวม Autopilot อีกครั้งเพื่อฝึกแบบจำลองกับชุดข้อมูลการฝึกเดียวกัน แต่แทนที่จะทำการอนุมานจำนวนมาก เราทำการอนุมานแบบเรียลไทม์กับ อเมซอน SageMaker ปลายทางการอนุมานที่สร้างขึ้นโดยอัตโนมัติสำหรับเรา
นอกจากความสะดวกที่ได้จากการปรับใช้ปลายทางอัตโนมัติแล้ว เราสาธิตวิธีการปรับใช้กับฟีเจอร์ Data Wrangler ทั้งหมดที่แปลงเป็นไปป์ไลน์การอนุมานแบบอนุกรมของ SageMaker สิ่งนี้ทำให้สามารถประมวลผลข้อมูลดิบล่วงหน้าโดยอัตโนมัติด้วยการนำฟีเจอร์ Data Wrangler มาใช้ซ้ำในขณะที่ทำการอนุมาน
โปรดทราบว่าขณะนี้ฟีเจอร์นี้รองรับเฉพาะโฟลว์ Data Wrangler ที่ไม่ใช้การแปลงการรวม จัดกลุ่มตาม ต่อกัน และอนุกรมเวลา
เราสามารถใช้การรวม Data Wrangler ใหม่กับ Autopilot เพื่อฝึกโมเดลจาก UI โฟลว์ข้อมูล Data Wrangler ได้โดยตรง
- เลือกเครื่องหมายบวกถัดจาก ค่ามาตราส่วน โหนด และเลือก โมเดลรถไฟ.
- สำหรับ ที่ตั้งของ Amazon S3ระบุไฟล์ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon ตำแหน่ง (Amazon S3) ที่ SageMaker ส่งออกข้อมูลของคุณ
หากแสดงด้วยเส้นทางของที่ฝากข้อมูลโดยค่าเริ่มต้น Data Wrangler จะสร้างไดเรกทอรีย่อยการส่งออกที่ไม่ซ้ำกันภายใต้ไดเรกทอรีดังกล่าว คุณไม่จำเป็นต้องแก้ไขเส้นทางรากเริ่มต้นนี้ เว้นแต่คุณต้องการ Autopilot ใช้ตำแหน่งนี้เพื่อฝึกแบบจำลองโดยอัตโนมัติ ช่วยให้คุณประหยัดเวลา เวลาไม่ต้องกำหนดตำแหน่งเอาต์พุตของโฟลว์ Data Wrangler แล้วกำหนดตำแหน่งอินพุตของข้อมูลการฝึก Autopilot ทำให้ได้รับประสบการณ์ที่ราบรื่นยิ่งขึ้น - Choose ส่งออกและฝึกอบรม เพื่อส่งออกข้อมูลที่แปลงแล้วไปยัง Amazon S3
เมื่อส่งออกสำเร็จ คุณจะถูกเปลี่ยนเส้นทางไปที่ สร้างการทดสอบ Autopilot หน้าด้วย ป้อนข้อมูล ตำแหน่ง S3 ที่กรอกให้คุณแล้ว (ถูกเติมจากผลลัพธ์ของหน้าก่อนหน้า) - สำหรับ ชื่อการทดสอบป้อนชื่อ (หรือคงชื่อเริ่มต้นไว้)
- สำหรับ เป้าเลือก ผล เป็นคอลัมน์ที่คุณต้องการทำนาย
- Choose ถัดไป: วิธีการฝึกอบรม.
ตามรายละเอียดในโพสต์ Amazon SageMaker Autopilot เร็วขึ้นสูงสุดแปดเท่าด้วยโหมดการฝึกชุดใหม่ที่ขับเคลื่อนโดย AutoGluonคุณสามารถให้ Autopilot เลือกโหมดการฝึกโดยอัตโนมัติตามขนาดชุดข้อมูล หรือเลือกโหมดการฝึกด้วยตนเองสำหรับการประกอบหรือการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ (HPO)
รายละเอียดของแต่ละตัวเลือกมีดังนี้:
- รถยนต์ – Autopilot จะเลือกโหมด Ensembling หรือ HPO โดยอัตโนมัติตามขนาดชุดข้อมูลของคุณ หากชุดข้อมูลของคุณมีขนาดใหญ่กว่า 100 MB Autopilot จะเลือก HPO มิฉะนั้นจะเลือกการประกอบ
- การประกอบ – Autopilot ใช้ ออโต้กลูออน เทคนิคการประกอบเพื่อฝึกโมเดลพื้นฐานหลายตัวและรวมการคาดการณ์โดยใช้โมเดลที่ซ้อนกันเป็นโมเดลการทำนายที่เหมาะสมที่สุด
- การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ – Autopilot ค้นหารุ่นที่ดีที่สุดของโมเดลโดยการปรับไฮเปอร์พารามิเตอร์โดยใช้เทคนิคการเพิ่มประสิทธิภาพแบบเบย์และเรียกใช้งานการฝึกอบรมบนชุดข้อมูลของคุณ HPO จะเลือกอัลกอริทึมที่เกี่ยวข้องกับชุดข้อมูลของคุณมากที่สุดและเลือกช่วงไฮเปอร์พารามิเตอร์ที่ดีที่สุดเพื่อปรับแต่งโมเดล สำหรับตัวอย่างของเรา เราจะปล่อยให้การเลือกเริ่มต้นเป็น รถยนต์.
- Choose ถัดไป: การปรับใช้และการตั้งค่าขั้นสูง เพื่อดำเนินการต่อ
- เกี่ยวกับ การปรับใช้และการตั้งค่าขั้นสูง หน้า เลือกตัวเลือกการปรับใช้
สิ่งสำคัญคือต้องเข้าใจตัวเลือกการปรับใช้อย่างละเอียดมากขึ้น สิ่งที่เราเลือกจะส่งผลต่อการแปลงที่เราทำไว้ก่อนหน้านี้ใน Data Wrangler หรือไม่รวมอยู่ในไปป์ไลน์การอนุมาน:- ปรับใช้โมเดลที่ดีที่สุดโดยอัตโนมัติด้วยการแปลงจาก Data Wrangler – ด้วยตัวเลือกการปรับใช้นี้ เมื่อคุณเตรียมข้อมูลใน Data Wrangler และฝึกโมเดลโดยเรียกใช้ Autopilot โมเดลที่ได้รับการฝึกจะถูกปรับใช้ควบคู่ไปกับคุณสมบัติ Data Wrangler ทั้งหมดที่แปลงเป็น ไปป์ไลน์การอนุมานแบบอนุกรมของ SageMaker. สิ่งนี้ทำให้สามารถประมวลผลข้อมูลดิบล่วงหน้าโดยอัตโนมัติด้วยการนำคุณลักษณะ Data Wrangler มาใช้ซ้ำในขณะที่ทำการอนุมาน โปรดทราบว่าจุดสิ้นสุดการอนุมานคาดว่ารูปแบบของข้อมูลของคุณจะอยู่ในรูปแบบเดียวกับเมื่อนำเข้าไปยังโฟลว์ Data Wrangler
- ปรับใช้โมเดลที่ดีที่สุดโดยอัตโนมัติโดยไม่ต้องแปลงจาก Data Wrangler – ตัวเลือกนี้ปรับใช้ปลายทางแบบเรียลไทม์ที่ไม่ได้ใช้การแปลง Data Wrangler ในกรณีนี้ คุณต้องใช้การแปลงที่กำหนดไว้ในโฟลว์ Data Wrangler กับข้อมูลของคุณก่อนที่จะอนุมาน
- อย่าปรับใช้โมเดลที่ดีที่สุดโดยอัตโนมัติ – คุณควรใช้ตัวเลือกนี้เมื่อคุณไม่ต้องการสร้างจุดสิ้นสุดการอนุมานเลย มีประโยชน์ถ้าคุณต้องการสร้างแบบจำลองที่ดีที่สุดสำหรับใช้ในภายหลัง เช่น เรียกใช้การอนุมานจำนวนมากในเครื่อง (นี่คือตัวเลือกการปรับใช้ที่เราเลือกไว้ในส่วนที่ 1 ของซีรีส์) โปรดทราบว่าเมื่อคุณเลือกตัวเลือกนี้ โมเดลที่สร้างขึ้น (จากตัวเลือกที่ดีที่สุดของ Autopilot ผ่าน SageMaker SDK) จะรวมคุณลักษณะ Data Wrangler ที่แปลงเป็นไปป์ไลน์การอนุมานแบบอนุกรมของ SageMaker
สำหรับโพสต์นี้เราใช้ ปรับใช้โมเดลที่ดีที่สุดโดยอัตโนมัติด้วยการแปลงจาก Data Wrangler ตัวเลือก
- สำหรับ ตัวเลือกการปรับใช้ให้เลือก ปรับใช้โมเดลที่ดีที่สุดโดยอัตโนมัติด้วยการแปลงจาก Data Wrangler.
- ปล่อยให้การตั้งค่าอื่นๆ เป็นค่าเริ่มต้น
- Choose ถัดไป: ตรวจสอบและสร้าง เพื่อดำเนินการต่อ
เกี่ยวกับ ตรวจสอบและสร้าง เราเห็นสรุปการตั้งค่าที่เลือกสำหรับการทดสอบ Autopilot ของเรา - Choose สร้างการทดลอง เพื่อเริ่มกระบวนการสร้างแบบจำลอง
คุณถูกนำไปยังหน้ารายละเอียดงานของ Autopilot รุ่นแสดงบน Models แท็บตามที่สร้างขึ้น เพื่อยืนยันว่ากระบวนการเสร็จสมบูรณ์ ไปที่ รายละเอียดงาน แทป แล้วมองหา a Completed
ค่าสำหรับ Status สนาม
คุณสามารถกลับไปที่หน้ารายละเอียดงานของ Autopilot ได้ตลอดเวลาจาก สตูดิโอ Amazon SageMaker:
- Choose การทดลองและการทดลอง บน แหล่งข้อมูล SageMaker เมนูแบบเลื่อนลง
- เลือกชื่องาน Autopilot ที่คุณสร้างขึ้น
- เลือก (คลิกขวา) การทดลองและเลือก อธิบายงาน AutoML.
ดูการฝึกอบรมและการปรับใช้
เมื่อ Autopilot เสร็จสิ้นการทดสอบ เราจะสามารถดูผลการฝึกอบรมและสำรวจแบบจำลองที่ดีที่สุดได้จากหน้ารายละเอียดงานของ Autopilot
เลือก (คลิกขวา) รุ่นที่มีป้ายกำกับ รุ่นที่ดีที่สุดและเลือก เปิดในรายละเอียดรุ่น.
พื้นที่ ประสิทธิภาพ แท็บแสดงการทดสอบการวัดแบบจำลองหลายแบบ รวมถึงเมทริกซ์ความสับสน พื้นที่ใต้เส้นโค้งความแม่นยำ/การเรียกคืน (AUCPR) และพื้นที่ใต้เส้นโค้งลักษณะการทำงานของตัวรับ (ROC) สิ่งเหล่านี้แสดงให้เห็นถึงประสิทธิภาพการตรวจสอบโดยรวมของแบบจำลอง แต่ไม่ได้บอกเราว่าแบบจำลองจะสรุปได้ดีหรือไม่ เรายังต้องทำการประเมินข้อมูลการทดสอบที่มองไม่เห็นเพื่อดูว่าแบบจำลองคาดการณ์ได้แม่นยำเพียงใด (สำหรับตัวอย่างนี้ เราคาดการณ์ว่าบุคคลจะเป็นเบาหวานหรือไม่)
ทำการอนุมานเทียบกับปลายทางแบบเรียลไทม์
สร้างโน้ตบุ๊ก SageMaker ใหม่เพื่อทำการอนุมานแบบเรียลไทม์เพื่อประเมินประสิทธิภาพของโมเดล ป้อนรหัสต่อไปนี้ลงในสมุดบันทึกเพื่อเรียกใช้การอนุมานแบบเรียลไทม์สำหรับการตรวจสอบ:
หลังจากที่คุณตั้งค่าโค้ดเพื่อรันในโน้ตบุ๊กของคุณแล้ว คุณต้องกำหนดค่าสองตัวแปร:
endpoint_name
payload_str
กำหนดค่า endpoint_name
endpoint_name
แสดงถึงชื่อของจุดสิ้นสุดการอนุมานตามเวลาจริงที่การปรับใช้ที่สร้างขึ้นโดยอัตโนมัติสำหรับเรา ก่อนที่เราจะตั้งมัน เราต้องหาชื่อของมันก่อน
- Choose ปลายทาง บน แหล่งข้อมูล SageMaker เมนูแบบเลื่อนลง
- ค้นหาชื่อจุดปลายที่มีชื่อของงาน Autopilot ที่คุณสร้างด้วยสตริงสุ่มที่ต่อท้ายงานนั้น
- เลือก (คลิกขวา) การทดสอบแล้วเลือก อธิบายจุดสิ้นสุด.
พื้นที่ รายละเอียดปลายทาง ปรากฏขึ้น - ไฮไลท์ชื่อจุดสิ้นสุดแบบเต็ม แล้วกด CTRL + C เพื่อคัดลอกคลิปบอร์ด
- ป้อนค่านี้ (ตรวจสอบให้แน่ใจว่ามีการยกมา) for
endpoint_name
ในสมุดบันทึกการอนุมาน
กำหนดค่า payload_str
โน้ตบุ๊กมาพร้อมกับสตริงเพย์โหลดเริ่มต้น payload_str
ที่คุณสามารถใช้เพื่อทดสอบปลายทางของคุณ แต่อย่าลังเลที่จะทดสอบด้วยค่าต่างๆ เช่น ค่าจากชุดข้อมูลทดสอบของคุณ
ในการดึงค่าจากชุดข้อมูลทดสอบ ให้ทำตามคำแนะนำใน 1 หมายเลข เพื่อส่งออกชุดข้อมูลทดสอบไปยัง Amazon S3 จากนั้นบนคอนโซล Amazon S3 คุณสามารถดาวน์โหลดและเลือกแถวที่จะใช้ไฟล์จาก Amazon S3
แต่ละแถวในชุดข้อมูลทดสอบของคุณมีเก้าคอลัมน์ โดยคอลัมน์สุดท้ายคือ outcome
ค่า. สำหรับรหัสสมุดบันทึกนี้ ตรวจสอบให้แน่ใจว่าคุณใช้แถวข้อมูลเพียงแถวเดียว (ไม่ใช้ส่วนหัว CSV) สำหรับ payload_str
. ตรวจสอบให้แน่ใจว่าคุณส่งเฉพาะ payload_str
ด้วยแปดคอลัมน์ที่คุณได้ลบค่าผลลัพธ์
ตัวอย่างเช่น หากไฟล์ชุดข้อมูลทดสอบของคุณดูเหมือนโค้ดต่อไปนี้ และเราต้องการทำการอนุมานแบบเรียลไทม์ของแถวแรก:
เราตั้ง payload_str
ไปยัง 10,115,0,0,0,35.3,0.134,29
. สังเกตว่าเราละเว้น outcome
ค่าของ 0
ตอนท้าย
หากค่าเป้าหมายของชุดข้อมูลของคุณไม่ใช่ค่าแรกหรือค่าสุดท้ายโดยบังเอิญ ให้ลบค่าที่มีโครงสร้างจุลภาคเหมือนเดิม ตัวอย่างเช่น สมมติว่าเรากำลังคาดการณ์แถบ และชุดข้อมูลของเราดูเหมือนโค้ดต่อไปนี้:
ในกรณีนี้เราตั้งค่า payload_str
ไปยัง 85,,20
.
เมื่อโน้ตบุ๊กทำงานด้วยการกำหนดค่าที่เหมาะสม payload_str
และ endpoint_name
คุณจะได้รับการตอบกลับ CSV ในรูปแบบ outcome
(0 หรือ 1), confidence
(0-1)
การทำความสะอาด
เพื่อให้แน่ใจว่าคุณจะไม่ต้องเสียค่าบริการที่เกี่ยวข้องกับบทช่วยสอนหลังจากเสร็จสิ้นบทช่วยสอนนี้ โปรดปิดแอป Data Wrangler (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html) รวมถึงอินสแตนซ์โน้ตบุ๊กทั้งหมดที่ใช้ในการอนุมาน จุดสิ้นสุดการอนุมานที่สร้างขึ้นผ่านการปรับใช้ Auto Pilot ควรถูกลบออกเพื่อป้องกันค่าใช้จ่ายเพิ่มเติมเช่นกัน
สรุป
ในโพสต์นี้ เราสาธิตวิธีผสานการประมวลผลข้อมูลของคุณ นำเสนอด้านวิศวกรรม และการสร้างแบบจำลองโดยใช้ Data Wrangler และ Autopilot จากส่วนที่ 1 ในซีรีส์นี้ เราเน้นถึงวิธีที่คุณสามารถฝึก ปรับแต่ง และปรับใช้โมเดลกับจุดสิ้นสุดการอนุมานแบบเรียลไทม์ได้อย่างง่ายดายด้วย Autopilot โดยตรงจากอินเทอร์เฟซผู้ใช้ Data Wrangler นอกจากความสะดวกที่ได้จากการปรับใช้ปลายทางอัตโนมัติแล้ว เราสาธิตวิธีที่คุณสามารถปรับใช้กับฟีเจอร์ Data Wrangler ทั้งหมดที่แปลงเป็นไปป์ไลน์การอนุมานแบบอนุกรมของ SageMaker ได้ ซึ่งให้การประมวลผลล่วงหน้าของข้อมูลดิบโดยอัตโนมัติ โดยการนำฟีเจอร์ Data Wrangler กลับมาใช้ใหม่จะแปลงที่ เวลาของการอนุมาน
โซลูชันที่มีโค้ดน้อยและ AutoML เช่น Data Wrangler และ Autopilot ขจัดความจำเป็นในการมีความรู้ด้านการเขียนโปรแกรมเชิงลึกเพื่อสร้างโมเดล ML ที่มีประสิทธิภาพ เริ่มต้นใช้งาน Data Wrangler วันนี้จะได้สัมผัสกับความง่ายในการสร้างโมเดล ML โดยใช้ Autopilot
เกี่ยวกับผู้แต่ง
เจเรมี โคเฮน เป็นสถาปนิกโซลูชันกับ AWS ซึ่งเขาช่วยลูกค้าสร้างโซลูชันบนระบบคลาวด์ที่ล้ำสมัย ในเวลาว่าง เขาชอบเดินเล่นบนชายหาด สำรวจบริเวณอ่าวกับครอบครัว ซ่อมของรอบๆ บ้าน ทำลายข้าวของในบ้าน และปิ้งบาร์บีคิว
ประทีป เรดดี้ เป็นผู้จัดการผลิตภัณฑ์อาวุโสในทีม SageMaker Low/No Code ML ซึ่งรวมถึง SageMaker Autopilot, SageMaker Automatic Model Tuner นอกเวลางาน Pradeep สนุกกับการอ่านหนังสือ วิ่งเล่น และสนุกกับคอมพิวเตอร์ขนาดเท่าฝ่ามือ เช่น Raspberry Pi และเทคโนโลยีระบบอัตโนมัติภายในบ้านอื่นๆ
ดร.จอห์น เหอ เป็นวิศวกรพัฒนาซอฟต์แวร์อาวุโสของ Amazon AI ซึ่งเขามุ่งเน้นไปที่การเรียนรู้ของเครื่องและการคำนวณแบบกระจาย เขาสำเร็จการศึกษาระดับปริญญาเอกจากมหาวิทยาลัยเชียงใหม่
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- อเมซอน SageMaker
- ระบบนำร่องอัตโนมัติของ Amazon SageMaker
- Amazon SageMaker ข้อมูล Wrangler
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- AWS Machine Learning AWS
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- ลมทะเล