การเตรียมข้อมูลแบบรวมศูนย์และการฝึกอบรมแบบจำลองด้วย Amazon SageMaker Data Wrangler และ Amazon SageMaker Autopilot

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ข้อมูลเชื้อเพลิงการเรียนรู้ของเครื่อง (ML); คุณภาพของข้อมูลมีผลโดยตรงต่อคุณภาพของแบบจำลอง ML ดังนั้น การปรับปรุงคุณภาพข้อมูลและการใช้เทคนิคทางวิศวกรรมคุณลักษณะที่เหมาะสมจึงมีความสำคัญต่อการสร้างแบบจำลอง ML ที่แม่นยำ ผู้ปฏิบัติงาน ML มักจะซ้ำซากจำเจในด้านวิศวกรรมคุณลักษณะ ทางเลือกของอัลกอริทึม และแง่มุมอื่นๆ ของ ML ในการค้นหาแบบจำลองที่เหมาะสมที่สุดซึ่งสรุปได้ดีกับข้อมูลในโลกแห่งความเป็นจริงและให้ผลลัพธ์ที่ต้องการ เนื่องจากความรวดเร็วในการทำธุรกิจมีความสำคัญอย่างไม่สมส่วน กระบวนการที่ซ้ำซากและน่าเบื่ออย่างยิ่งนี้อาจนำไปสู่ความล่าช้าของโครงการและสูญเสียโอกาสทางธุรกิจ

Amazon SageMaker ข้อมูล Wrangler ลดเวลาในการรวบรวมและเตรียมข้อมูลสำหรับ ML จากสัปดาห์เหลือเป็นนาที และ ระบบนำร่องอัตโนมัติของ Amazon SageMaker สร้าง ฝึกฝน และปรับแต่งโมเดล ML ที่ดีที่สุดโดยอัตโนมัติตามข้อมูลของคุณ ด้วย Autopilot คุณยังคงควบคุมและมองเห็นข้อมูลและแบบจำลองของคุณได้อย่างสมบูรณ์ บริการทั้งสองมีจุดมุ่งหมายเพื่อให้ผู้ปฏิบัติงาน ML มีประสิทธิผลมากขึ้นและเร่งเวลาในการสร้างมูลค่า

ตอนนี้ Data Wrangler มอบประสบการณ์ที่เป็นหนึ่งเดียว ช่วยให้คุณสามารถเตรียมข้อมูลและฝึกโมเดล ML ใน Autopilot ได้อย่างราบรื่น ด้วยคุณสมบัติที่เพิ่งเปิดตัวนี้ คุณสามารถเตรียมข้อมูลของคุณใน Data Wrangler และเปิดการทดสอบ Autopilot ได้โดยตรงจากอินเทอร์เฟซผู้ใช้ (UI) ของ Data Wrangler ด้วยการคลิกเพียงไม่กี่ครั้ง คุณสามารถสร้าง ฝึกฝน และปรับแต่งโมเดล ML ได้โดยอัตโนมัติ ทำให้ง่ายต่อการใช้เทคนิคทางวิศวกรรมฟีเจอร์ที่ล้ำสมัย ฝึกโมเดล ML คุณภาพสูง และรับข้อมูลเชิงลึกจากข้อมูลของคุณเร็วขึ้น

ในโพสต์นี้ เราจะพูดถึงวิธีที่คุณสามารถใช้ประสบการณ์แบบบูรณาการใหม่ใน Data Wrangler เพื่อวิเคราะห์ชุดข้อมูลและสร้างแบบจำลอง ML คุณภาพสูงใน Autopilot ได้อย่างง่ายดาย

ภาพรวมชุดข้อมูล

Pima Indians เป็นกลุ่มชนพื้นเมืองที่อาศัยอยู่ในเม็กซิโกและแอริโซนา สหรัฐอเมริกา การศึกษา แสดงชาวอินเดียนแดง Pima เป็นกลุ่มประชากรที่มีความเสี่ยงสูงต่อโรคเบาหวาน การคาดคะเนความน่าจะเป็นของความเสี่ยงของแต่ละบุคคลและความอ่อนแอต่อการเจ็บป่วยเรื้อรัง เช่น โรคเบาหวาน เป็นงานสำคัญในการปรับปรุงสุขภาพและความเป็นอยู่ที่ดีของกลุ่มชนกลุ่มน้อยที่มักไม่ค่อยมีบทบาท

เราใช้ ชุดข้อมูลสาธารณะของ Pima Indian Diabetes เพื่อทำนายความอ่อนแอของแต่ละบุคคลต่อโรคเบาหวาน เรามุ่งเน้นที่การผสานรวมใหม่ระหว่าง Data Wrangler และ Autopilot เพื่อเตรียมข้อมูลและสร้างแบบจำลอง ML โดยอัตโนมัติโดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียว

ชุดข้อมูลประกอบด้วยข้อมูลเกี่ยวกับ Pima Indian หญิงอายุ 21 ปีขึ้นไปและรวมถึงตัวแปรทำนายทางการแพทย์ (อิสระ) หลายตัวและตัวแปรเป้าหมาย (ขึ้นอยู่กับ) ผลลัพธ์ แผนภูมิต่อไปนี้อธิบายคอลัมน์ในชุดข้อมูลของเรา

คอลัมน์ Name	รายละเอียด
การตั้งครรภ์	จำนวนครั้งที่ตั้งครรภ์
กลูโคส	ความเข้มข้นของกลูโคสในพลาสมาในการทดสอบความทนทานต่อกลูโคสในช่องปากภายใน 2 ชั่วโมง
ความดันโลหิต	ความดันโลหิตไดแอสโตลิก (มม. ปรอท)
ความหนาของผิว	ความหนาของผิวหนัง Triceps (มม.)
อินซูลิน	เซรั่มอินซูลิน 2 ชั่วโมง (mu U/ml)
ค่าดัชนีมวลกาย	ดัชนีมวลกาย (น้ำหนักเป็นกก./(ส่วนสูงเป็นม.)^2)
โรคเบาหวานสายเลือด	ฟังก์ชั่นสายเลือดเบาหวาน
อายุ	อายุในปี
ผล	ตัวแปรเป้าหมาย

ชุดข้อมูลประกอบด้วยระเบียน 768 รายการ โดยมีคุณลักษณะทั้งหมด 9 รายการ เราจัดเก็บชุดข้อมูลนี้ใน ที่ฝากข้อมูล Amazon Simple Storage (Amazon S3) เป็นไฟล์ CSV จากนั้นนำเข้า CSV ไปยังโฟลว์ Data Wrangler จาก Amazon S3 โดยตรง

ภาพรวมโซลูชัน

แผนภาพต่อไปนี้สรุปสิ่งที่เราทำสำเร็จในโพสต์นี้[KT1]

การเตรียมข้อมูลแบบรวมศูนย์และการฝึกโมเดลด้วย Amazon SageMaker Data Wrangler และ Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

นักวิทยาศาสตร์ข้อมูล แพทย์ และผู้เชี่ยวชาญด้านการแพทย์อื่นๆ ให้ข้อมูลผู้ป่วยเกี่ยวกับระดับกลูโคส ความดันโลหิต ดัชนีมวลกาย และคุณสมบัติอื่นๆ ที่ใช้ในการทำนายแนวโน้มที่จะเป็นโรคเบาหวาน ด้วยชุดข้อมูลใน Amazon S3 เรานำเข้าชุดข้อมูลไปยัง Data Wrangler เพื่อทำการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) การทำโปรไฟล์ข้อมูล วิศวกรรมคุณสมบัติ และการแบ่งชุดข้อมูลออกเป็นการฝึกและทดสอบสำหรับการสร้างแบบจำลองและการประเมิน

จากนั้นเราใช้การผสานรวมคุณลักษณะใหม่ของ Autopilot เพื่อสร้างแบบจำลองอย่างรวดเร็วจากอินเทอร์เฟซ Data Wrangler โดยตรง เราเลือกโมเดลที่ดีที่สุดของ Autopilot โดยพิจารณาจากรุ่นที่มีคะแนน F-beta สูงสุด หลังจากที่ Autopilot พบรุ่นที่ดีที่สุด เราก็เรียกใช้ a การแปลงเป็นชุดของ SageMaker งานในการทดสอบ (holdout) กำหนดด้วยสิ่งประดิษฐ์แบบจำลองของแบบจำลองที่ดีที่สุดสำหรับการประเมินผล

ผู้เชี่ยวชาญทางการแพทย์สามารถให้ข้อมูลใหม่แก่แบบจำลองที่ได้รับการตรวจสอบแล้วเพื่อรับการคาดการณ์เพื่อดูว่าผู้ป่วยมีแนวโน้มที่จะเป็นโรคเบาหวานหรือไม่ ด้วยข้อมูลเชิงลึกเหล่านี้ ผู้เชี่ยวชาญทางการแพทย์สามารถเริ่มการรักษาตั้งแต่เนิ่นๆ เพื่อปรับปรุงสุขภาพและความเป็นอยู่ที่ดีของประชากรกลุ่มเสี่ยง ผู้เชี่ยวชาญทางการแพทย์สามารถอธิบายการคาดคะเนของแบบจำลองโดยอ้างอิงรายละเอียดของแบบจำลองใน Autopilot เพราะพวกเขาสามารถมองเห็นได้อย่างสมบูรณ์ในการอธิบายประสิทธิภาพการทำงานและสิ่งประดิษฐ์ของแบบจำลอง การมองเห็นนี้นอกเหนือจากการตรวจสอบความถูกต้องของแบบจำลองจากชุดทดสอบทำให้ผู้เชี่ยวชาญทางการแพทย์มีความมั่นใจมากขึ้นในความสามารถในการคาดการณ์ของแบบจำลอง

เราจะแนะนำคุณผ่านขั้นตอนระดับสูงต่อไปนี้

นำเข้าชุดข้อมูลจาก Amazon S3
ดำเนินการ EDA และการทำโปรไฟล์ข้อมูลด้วย Data Wrangler
ดำเนินการวิศวกรรมคุณลักษณะเพื่อจัดการกับค่าผิดปกติและค่าที่ขาดหายไป
แยกข้อมูลออกเป็นชุดฝึกและชุดทดสอบ
ฝึกฝนและสร้างแบบจำลองด้วย Autopilot
ทดสอบโมเดลกับตัวอย่างที่ถือไว้ด้วยโน้ตบุ๊ก SageMaker
วิเคราะห์การตรวจสอบและประสิทธิภาพของชุดทดสอบ

เบื้องต้น

ทำตามขั้นตอนข้อกำหนดเบื้องต้นต่อไปนี้:

อัปโหลดชุดข้อมูล ไปยังถัง S3 ที่คุณเลือก
ตรวจสอบให้แน่ใจว่าคุณมีสิทธิ์ที่จำเป็น สำหรับข้อมูลเพิ่มเติม โปรดดูที่ เริ่มต้นใช้งาน Data Wrangler.
ตั้งค่าโดเมน SageMaker ที่กำหนดค่าให้ใช้ Data Wrangler สำหรับคำแนะนำ โปรดดูที่ ออนบอร์ดไปยังโดเมน Amazon SageMaker.

นำเข้าชุดข้อมูลของคุณด้วย Data Wrangler

คุณสามารถรวมโฟลว์ข้อมูล Data Wrangler เข้ากับเวิร์กโฟลว์ ML ของคุณเพื่อลดความซับซ้อนและปรับปรุงการประมวลผลข้อมูลล่วงหน้าและวิศวกรรมคุณลักษณะโดยใช้การเข้ารหัสเพียงเล็กน้อยหรือไม่มีเลย ทำตามขั้นตอนต่อไปนี้:

สร้างใหม่ การไหลของข้อมูล Wrangler.

หากนี่เป็นครั้งแรกที่คุณเปิด Data Wrangler คุณอาจต้องรอสองสามนาทีเพื่อให้พร้อม

เลือกชุดข้อมูลที่จัดเก็บไว้ใน Amazon S3 และนำเข้าไปยัง Data Wrangler

หลังจากที่คุณนำเข้าชุดข้อมูล คุณควรเห็นจุดเริ่มต้นของโฟลว์ข้อมูลภายใน Data Wrangler UI ตอนนี้คุณมีแผนภาพการไหล

เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล และเลือก Edit เพื่อยืนยันว่า Data Wrangler อนุมานประเภทข้อมูลที่ถูกต้องสำหรับคอลัมน์ข้อมูลของคุณโดยอัตโนมัติ

หากประเภทข้อมูลไม่ถูกต้อง คุณสามารถแก้ไขได้อย่างง่ายดายผ่าน UI หากมีแหล่งข้อมูลหลายแหล่ง คุณสามารถรวมหรือเชื่อมข้อมูลเหล่านั้นได้

ตอนนี้เราสามารถสร้างการวิเคราะห์และเพิ่มการแปลงได้

ดำเนินการวิเคราะห์ข้อมูลเชิงสำรวจด้วยรายงานข้อมูลเชิงลึก

การวิเคราะห์ข้อมูลเชิงสำรวจเป็นส่วนสำคัญของเวิร์กโฟลว์ ML เราสามารถใช้รายงานข้อมูลเชิงลึกใหม่จาก Data Wrangler เพื่อให้เข้าใจโปรไฟล์และการกระจายข้อมูลของเราได้ดีขึ้น รายงานประกอบด้วยสถิติสรุป คำเตือนคุณภาพข้อมูล ข้อมูลเชิงลึกของคอลัมน์เป้าหมาย โมเดลด่วน และข้อมูลเกี่ยวกับแถวที่ผิดปกติและซ้ำกัน

เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล และเลือก รับข้อมูลเชิงลึก.

สำหรับ เป้า คอลัมน์เลือก ผล.
สำหรับ ประเภทปัญหาและ (ทางเลือก) select การจัดหมวดหมู่.
Choose สร้างบัญชีตัวแทน.

ผลลัพธ์แสดงข้อมูลสรุปพร้อมสถิติชุดข้อมูล

นอกจากนี้เรายังสามารถดูการกระจายของแถวที่มีป้ายกำกับด้วยฮิสโตแกรม การประเมินคุณภาพที่คาดการณ์ไว้ของแบบจำลองด้วยคุณลักษณะแบบจำลองด่วน และตารางสรุปคุณลักษณะ

เราไม่ลงรายละเอียดในการวิเคราะห์รายงานข้อมูลเชิงลึก อ้างถึง เร่งการเตรียมข้อมูลด้วยคุณภาพข้อมูลและข้อมูลเชิงลึกใน Amazon SageMaker Data Wrangler สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการใช้รายงานข้อมูลเชิงลึกเพื่อเร่งขั้นตอนการจัดเตรียมข้อมูลของคุณ

ดำเนินการวิศวกรรมคุณลักษณะ

ตอนนี้เราได้ทำโปรไฟล์และวิเคราะห์การกระจายคอลัมน์อินพุตของเราในระดับสูงแล้ว สิ่งแรกที่ต้องพิจารณาในการปรับปรุงคุณภาพข้อมูลของเราคือการจัดการค่าที่หายไป

ตัวอย่างเช่น เรารู้ว่าศูนย์ (0) สำหรับ Insulin คอลัมน์แสดงถึงค่าที่หายไป เราสามารถทำตามคำแนะนำเพื่อแทนที่ศูนย์ด้วย NaN. แต่เมื่อตรวจสอบอย่างละเอียดแล้ว เราพบว่าค่าต่ำสุดคือ 0 สำหรับคอลัมน์อื่นๆ เช่น Glucose, BloodPressure, SkinThicknessและ BMI. เราต้องการวิธีจัดการกับค่าที่หายไป แต่จำเป็นต้องให้ความสำคัญกับคอลัมน์ที่มีค่าศูนย์เป็นข้อมูลที่ถูกต้อง เรามาดูกันว่าเราจะแก้ไขปัญหานี้ได้อย่างไร

ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร รายละเอียดคุณสมบัติ มาตรา รายงานยก a ปลอมตัวหายไปค่า คำเตือนสำหรับคุณสมบัติ Insulin.

เพราะศูนย์ใน Insulin คอลัมน์เป็นข้อมูลที่ขาดหายไปจริง ๆ เราใช้ แปลง regex เป็นหาย แปลงเพื่อแปลงค่าศูนย์เป็นค่าว่าง (ค่าที่ขาดหายไป)

เลือกเครื่องหมายบวกถัดจาก ข้อมูล ชนิด และเลือก เพิ่ม แปลง.
Choose ค้นหาและแก้ไข.
สำหรับ แปลงเลือก แปลง regex เป็นหาย.
สำหรับ อินพุต คอลัมน์, เลือกคอลัมน์ Insulin, Glucose, BloodPressure, SkinThicknessและ BMI.
สำหรับ แบบแผนป้อน 0.
Choose ดูตัวอย่าง และ เพิ่ม เพื่อบันทึกขั้นตอนนี้

0 รายการภายใต้ Insulin, Glucose, BloodPressure, SkinThicknessและ BMI ตอนนี้ไม่มีค่า

Data Wrangler มีตัวเลือกอื่นๆ ให้คุณแก้ไขค่าที่หายไป

เราจัดการกับค่าที่หายไปโดยใส่ค่ามัธยฐานโดยประมาณสำหรับ Glucose คอลัมน์.

เรายังต้องการให้แน่ใจว่าคุณลักษณะของเราอยู่ในระดับเดียวกัน เราไม่ต้องการให้น้ำหนักเพิ่มขึ้นโดยไม่ได้ตั้งใจให้กับคุณลักษณะบางอย่างเพียงเพราะมีช่วงตัวเลขที่ใหญ่กว่า เราปรับคุณสมบัติของเราให้เป็นมาตรฐานเพื่อทำสิ่งนี้

เพิ่มใหม่ ประมวลผลตัวเลข แปลงและเลือก ค่ามาตราส่วน.
สำหรับ Scalerเลือก สเกลเลอร์ขั้นต่ำ-สูงสุด.
สำหรับ คอลัมน์อินพุต, เลือกคอลัมน์ Pregnancies, BloodPressure, Glucose, SkinThickness, Insulin, BMIและ Age.
ชุด นาที ไปยัง 0 และ แม็กซ์ ไปยัง 1.

เพื่อให้แน่ใจว่าคุณลักษณะของเราอยู่ระหว่างค่า 0 และ 1.

เมื่อเราได้สร้างคุณลักษณะบางอย่างแล้ว เราแบ่งชุดข้อมูลออกเป็นการฝึกอบรมและการทดสอบ ก่อนที่เราจะสร้างแบบจำลอง

แยกข้อมูลออกเป็นการฝึกอบรมและการทดสอบ

ในขั้นตอนการสร้างแบบจำลองของเวิร์กโฟลว์ ML คุณทดสอบประสิทธิภาพของแบบจำลองของคุณโดยการเรียกใช้การคาดการณ์แบบกลุ่ม คุณสามารถแยกชุดข้อมูลการทดสอบหรือพักไว้เพื่อประเมินเพื่อดูว่าโมเดลของคุณทำงานเป็นอย่างไรโดยเปรียบเทียบการคาดคะเนกับความจริงพื้นฐาน โดยทั่วไปแล้ว หากการคาดการณ์ของแบบจำลองตรงกับ true เราสามารถระบุได้ว่ารุ่นใดทำงานได้ดี

เราใช้ Data Wrangler เพื่อแยกชุดข้อมูลของเราสำหรับการทดสอบ เราเก็บรักษาชุดข้อมูลไว้ 90% สำหรับการฝึกอบรม เนื่องจากเรามีชุดข้อมูลที่ค่อนข้างเล็ก ส่วนที่เหลืออีก 10% ของชุดข้อมูลของเราทำหน้าที่เป็นชุดข้อมูลทดสอบ เราใช้ชุดข้อมูลนี้เพื่อตรวจสอบความถูกต้องของโมเดล Autopilot ในภายหลังในโพสต์นี้

เราแบ่งข้อมูลของเราโดยเลือก แยกข้อมูล แปลงและเลือก สุ่มแยก เป็นวิธีการ เรากำหนดให้ 0.9 เป็นเปอร์เซ็นต์การแบ่งสำหรับการฝึกอบรมและ 0.1 สำหรับการทดสอบ

ด้วยการแปลงข้อมูลและขั้นตอนทางวิศวกรรมที่เสร็จสมบูรณ์ ตอนนี้เราพร้อมที่จะฝึกโมเดลแล้ว

ฝึกและตรวจสอบโมเดล

เราสามารถใช้การรวม Data Wrangler ใหม่กับ Autopilot เพื่อฝึกโมเดลจาก UI โฟลว์ข้อมูล Data Wrangler ได้โดยตรง

เลือกเครื่องหมายบวกถัดจาก ชุด และเลือก โมเดลรถไฟ.

สำหรับ ที่ตั้งของ Amazon S3ระบุตำแหน่ง Amazon S3 ที่ SageMaker ส่งออกข้อมูลของคุณ

Autopilot ใช้ตำแหน่งนี้ในการฝึกโมเดลโดยอัตโนมัติ ช่วยให้คุณประหยัดเวลาในการกำหนดตำแหน่งเอาต์พุตของโฟลว์ Data Wrangler จากนั้นต้องกำหนดตำแหน่งอินพุตของข้อมูลการฝึก Autopilot ทำให้ได้รับประสบการณ์ที่ราบรื่นยิ่งขึ้น

Choose ส่งออก และรถไฟ เพื่อเริ่มต้นการสร้างแบบจำลองด้วย Autopilot

Autopilot จะเลือกอินพุตและเอาต์พุตข้อมูลการฝึกอบรมโดยอัตโนมัติ คุณเพียงแค่ระบุคอลัมน์เป้าหมายแล้วคลิก สร้างการทดสอบ เพื่อฝึกโมเดลของคุณ

ทดสอบโมเดลกับตัวอย่างที่ถือไว้

เมื่อ Autopilot เสร็จสิ้นการทดสอบ เราจะสามารถดูผลการฝึกและสำรวจแบบจำลองที่ดีที่สุดได้

Choose ดูรายละเอียดรุ่น สำหรับรุ่นที่คุณต้องการ แล้วเลือก ประสิทธิภาพ แท็บในหน้ารายละเอียดรุ่น

พื้นที่ ประสิทธิภาพ แท็บแสดงการทดสอบการวัดแบบจำลองหลายแบบ รวมถึงเมทริกซ์ความสับสน พื้นที่ใต้เส้นโค้งความแม่นยำ/การเรียกคืน (AUCPR) และพื้นที่ใต้เส้นโค้งลักษณะการทำงานของตัวรับ (ROC) สิ่งเหล่านี้แสดงให้เห็นถึงประสิทธิภาพการตรวจสอบโดยรวมของแบบจำลอง แต่ไม่ได้บอกเราว่าแบบจำลองจะสรุปได้ดีหรือไม่ เรายังต้องทำการประเมินข้อมูลการทดสอบที่มองไม่เห็น เพื่อดูว่าแบบจำลองคาดการณ์ได้แม่นยำเพียงใดว่าบุคคลหนึ่งจะเป็นเบาหวานหรือไม่

เพื่อให้แน่ใจว่าแบบจำลองมีภาพรวมที่ดีเพียงพอ เราจึงจัดสรรตัวอย่างทดสอบไว้สำหรับการสุ่มตัวอย่างอิสระ เราสามารถทำได้ใน UI โฟลว์ Data Wrangler

เลือกเครื่องหมายบวกถัดจาก ชุดเลือก ส่งออกไปที่และเลือก Amazon S3.

ระบุเส้นทาง Amazon S3

เราอ้างอิงถึงเส้นทางนี้เมื่อเรารันการอนุมานแบบกลุ่มเพื่อตรวจสอบความถูกต้องในส่วนถัดไป

สร้างโน้ตบุ๊ก SageMaker ใหม่เพื่อทำการอนุมานแบบกลุ่มกับตัวอย่างการระงับและประเมินประสิทธิภาพการทดสอบ อ้างถึงต่อไปนี้ repo GitHub สำหรับ โน๊ตบุ๊คตัวอย่าง เพื่อเรียกใช้การอนุมานแบบแบตช์สำหรับการตรวจสอบ

วิเคราะห์การตรวจสอบและประสิทธิภาพของชุดทดสอบ

เมื่อการแปลงชุดงานเสร็จสมบูรณ์ เราจะสร้างเมทริกซ์ความสับสนเพื่อเปรียบเทียบผลลัพธ์จริงและผลลัพธ์ที่คาดการณ์ไว้ของชุดข้อมูลการระงับ

เราเห็นผลบวกที่แท้จริง 23 รายการและแง่ลบจริง 33 รายการจากผลลัพธ์ของเรา ในกรณีของเรา ผลบวกที่แท้จริงหมายถึงแบบจำลองที่ทำนายผู้ป่วยเบาหวานได้อย่างถูกต้อง ในทางตรงกันข้าม ผลเชิงลบที่แท้จริงหมายถึงแบบจำลองที่ทำนายบุคคลได้อย่างถูกต้องว่าไม่มีโรคเบาหวาน

ในกรณีของเรา ความแม่นยำและการเรียกคืนเป็นตัวชี้วัดที่สำคัญ ความแม่นยำเป็นหลักในการวัดทุกคนที่คาดการณ์ว่าเป็นเบาหวาน มีกี่คนที่เป็นเบาหวานจริงๆ? ในทางตรงกันข้าม การจำได้ช่วยวัดทุกคนที่เป็นเบาหวานจริงๆ มีกี่คนที่คาดการณ์ว่าเป็นเบาหวาน? ตัวอย่างเช่น คุณอาจต้องการใช้แบบจำลองที่มีความแม่นยำสูง เนื่องจากคุณต้องการปฏิบัติต่อบุคคลให้มากที่สุดเท่าที่จะมากได้ โดยเฉพาะอย่างยิ่งหากขั้นตอนแรกของการรักษาไม่มีผลกระทบต่อบุคคลที่ไม่มีโรคเบาหวาน ในเมื่อความจริงไม่มี)

นอกจากนี้เรายังพล็อตพื้นที่ใต้กราฟเส้นโค้ง ROC (AUC) เพื่อประเมินผลลัพธ์ ยิ่ง AUC สูง แบบจำลองก็ยิ่งดีในการแยกแยะระหว่างชั้นเรียน ซึ่งในกรณีของเราคือแบบจำลองทำงานได้ดีเพียงใดในการแยกแยะผู้ป่วยที่เป็นและไม่มีโรคเบาหวาน

สรุป

ในโพสต์นี้ เราสาธิตวิธีผสานการประมวลผลข้อมูลของคุณ นำเสนอด้านวิศวกรรม และการสร้างแบบจำลองโดยใช้ Data Wrangler และ Autopilot เราเน้นถึงวิธีที่คุณสามารถฝึกฝนและปรับแต่งโมเดลด้วย Autopilot ได้โดยตรงจากอินเทอร์เฟซผู้ใช้ Data Wrangler ด้วยคุณลักษณะการรวมนี้ เราสามารถสร้างแบบจำลองได้อย่างรวดเร็วหลังจากเสร็จสิ้นวิศวกรรมคุณลักษณะ โดยไม่ต้องเขียนโค้ดใดๆ จากนั้นเราอ้างอิงโมเดลที่ดีที่สุดของ Autopilot เพื่อเรียกใช้การคาดการณ์แบบกลุ่มโดยใช้คลาส AutoML กับ SageMaker Python SDK

โซลูชันที่มีโค้ดน้อยและ AutoML เช่น Data Wrangler และ Autopilot ขจัดความจำเป็นในการมีความรู้ด้านการเขียนโปรแกรมเชิงลึกเพื่อสร้างโมเดล ML ที่มีประสิทธิภาพ เริ่มต้นใช้งาน Data Wrangler วันนี้มาสัมผัสความง่ายในการสร้างโมเดล ML โดยใช้ ระบบขับเคลื่อนอัตโนมัติ SageMaker.

เกี่ยวกับผู้เขียน

การเตรียมข้อมูลแบบรวมศูนย์และการฝึกโมเดลด้วย Amazon SageMaker Data Wrangler และ Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. ปีเตอร์ จุง เป็นสถาปนิกโซลูชันสำหรับ AWS และมีความกระตือรือร้นในการช่วยให้ลูกค้าค้นพบข้อมูลเชิงลึกจากข้อมูลของพวกเขา เขาได้สร้างโซลูชันเพื่อช่วยให้องค์กรต่างๆ ตัดสินใจโดยใช้ข้อมูลเป็นหลักทั้งในภาครัฐและเอกชน เขาถือใบรับรอง AWS ทั้งหมดรวมถึงใบรับรอง GCP สองใบ เขาชอบดื่มกาแฟ ทำอาหาร กระตือรือร้น และใช้เวลาอยู่กับครอบครัว

การเตรียมข้อมูลแบบรวมศูนย์และการฝึกโมเดลด้วย Amazon SageMaker Data Wrangler และ Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. ประทีป เรดดี้ เป็นผู้จัดการผลิตภัณฑ์อาวุโสในทีม SageMaker Low/No Code ML ซึ่งรวมถึง SageMaker Autopilot, SageMaker Automatic Model Tuner นอกเวลางาน Pradeep สนุกกับการอ่านหนังสือ วิ่งเล่น และสนุกกับคอมพิวเตอร์ขนาดเท่าฝ่ามือ เช่น Raspberry Pi และเทคโนโลยีระบบอัตโนมัติภายในบ้านอื่นๆ

การเตรียมข้อมูลแบบรวมศูนย์และการฝึกโมเดลด้วย Amazon SageMaker Data Wrangler และ Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. อรุณประศาสน์ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้านปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง (AI/ML) กับ AWS ซึ่งช่วยให้ลูกค้าทั่วโลกปรับขนาดโซลูชัน AI ของตนในระบบคลาวด์ได้อย่างมีประสิทธิภาพและประสิทธิผล ในเวลาว่าง อรุณชอบดูหนังไซไฟและฟังเพลงคลาสสิก

สุรจัน โกปู เป็นวิศวกรส่วนหน้าอาวุโสใน SageMaker Low Code/No Code ML ที่ช่วยลูกค้าของผลิตภัณฑ์ Autopilot และ Canvas เมื่อไม่ได้เขียนโค้ด Srujan จะสนุกกับการออกไปวิ่งกับ Max สุนัขของเขา ฟังหนังสือเสียงและการพัฒนาเกม VR