การระบุและหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML ที่ไม่มีโค้ดด้วย Amazon SageMaker Canvas

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

นักวิเคราะห์ธุรกิจทำงานกับข้อมูลและชอบวิเคราะห์ สำรวจ และทำความเข้าใจข้อมูลเพื่อให้ได้ผลลัพธ์ทางธุรกิจที่มีประสิทธิภาพ เพื่อแก้ไขปัญหาทางธุรกิจ พวกเขามักจะพึ่งพาผู้ปฏิบัติงานด้านการเรียนรู้ของเครื่อง (ML) เช่น นักวิทยาศาสตร์ข้อมูล เพื่อช่วยเหลือเกี่ยวกับเทคนิคต่างๆ เช่น การใช้ ML เพื่อสร้างแบบจำลองโดยใช้ข้อมูลที่มีอยู่และสร้างการคาดการณ์ อย่างไรก็ตาม มันไม่ได้เป็นไปได้เสมอไป เนื่องจากนักวิทยาศาสตร์ข้อมูลมักจะผูกติดกับงานของพวกเขา และไม่มีแบนด์วิธที่จะช่วยนักวิเคราะห์ได้

เพื่อให้เป็นอิสระและบรรลุเป้าหมายของคุณในฐานะนักวิเคราะห์ธุรกิจ การทำงานกับเครื่องมือที่ใช้งานง่าย ใช้งานง่าย และมองเห็นได้ซึ่งใช้ ML โดยไม่จำเป็นต้องรู้รายละเอียดและใช้โค้ด การใช้เครื่องมือเหล่านี้จะช่วยคุณแก้ปัญหาทางธุรกิจและบรรลุผลลัพธ์ที่ต้องการ

ด้วยเป้าหมายที่จะช่วยให้คุณและองค์กรของคุณมีประสิทธิภาพมากขึ้น และใช้ ML โดยไม่ต้องเขียนโค้ด เรา เปิดตัว Amazon SageMaker Canvas. นี่คือโซลูชัน ML แบบไม่ใช้โค้ดที่ช่วยให้คุณสร้างโมเดล ML ที่แม่นยำโดยไม่จำเป็นต้องเรียนรู้เกี่ยวกับรายละเอียดทางเทคนิค เช่น อัลกอริทึม ML และเมตริกการประเมิน SageMaker Canvas นำเสนออินเทอร์เฟซที่ใช้งานง่ายซึ่งช่วยให้คุณนำเข้าข้อมูล ฝึกโมเดล ML ทำการวิเคราะห์โมเดล และสร้างการคาดคะเน ML โดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียว

เมื่อใช้ SageMaker Canvas เพื่อทดลอง คุณอาจพบปัญหาด้านคุณภาพของข้อมูล เช่น ค่าที่ขาดหายไปหรือประเภทปัญหาที่ไม่ถูกต้อง ปัญหาเหล่านี้อาจไม่ถูกค้นพบจนกว่าจะถึงช่วงปลายของกระบวนการหลังจากฝึกโมเดล ML เพื่อบรรเทาความท้าทายนี้ ตอนนี้ SageMaker Canvas รองรับการตรวจสอบข้อมูลแล้ว คุณลักษณะนี้จะตรวจสอบปัญหาในข้อมูลของคุณในเชิงรุกและให้คำแนะนำในการแก้ปัญหา

ในโพสต์นี้ เราจะสาธิตวิธีการใช้ความสามารถในการตรวจสอบความถูกต้องของข้อมูลภายใน SageMaker Canvas ก่อนการสร้างแบบจำลอง คุณลักษณะนี้จะตรวจสอบความถูกต้องของชุดข้อมูล รายงานปัญหา และให้คำแนะนำที่เป็นประโยชน์ในการแก้ไขตามชื่อ เมื่อใช้ข้อมูลที่มีคุณภาพดีขึ้น คุณจะได้โมเดล ML ที่มีประสิทธิภาพดีขึ้น

ตรวจสอบข้อมูลใน SageMaker Canvas

การตรวจสอบความถูกต้องของข้อมูลเป็นคุณสมบัติใหม่ใน SageMaker Canvas เพื่อตรวจสอบเชิงรุกสำหรับปัญหาด้านคุณภาพข้อมูลที่อาจเกิดขึ้น หลังจากที่คุณนำเข้าข้อมูลและเลือกคอลัมน์เป้าหมายแล้ว คุณจะมีตัวเลือกในการตรวจสอบความถูกต้องของข้อมูลตามที่แสดงที่นี่:

หากคุณเลือกที่จะตรวจสอบข้อมูลของคุณ Canvas จะวิเคราะห์ข้อมูลของคุณตามเงื่อนไขต่างๆ มากมาย ได้แก่:

มีป้ายกำกับที่ไม่ซ้ำกันมากเกินไปในคอลัมน์เป้าหมายของคุณ – สำหรับประเภทโมเดลการทำนายหมวดหมู่
มีป้ายกำกับที่ไม่ซ้ำกันมากเกินไปในคอลัมน์เป้าหมายของคุณสำหรับจำนวนแถวในข้อมูลของคุณ – สำหรับประเภทโมเดลการทำนายหมวดหมู่
ประเภทโมเดลไม่ถูกต้องสำหรับข้อมูลของคุณ – ประเภทโมเดลไม่ตรงกับข้อมูลที่คุณกำลังคาดการณ์ในคอลัมน์เป้าหมาย
มีแถวที่ไม่ถูกต้องมากเกินไป – ค่าที่ขาดหายไปในคอลัมน์เป้าหมายของคุณ
คอลัมน์คุณลักษณะทั้งหมดเป็นคอลัมน์ข้อความ – พวกเขาจะถูกทิ้งสำหรับการสร้างมาตรฐาน
คอลัมน์น้อยเกินไป – ข้อมูลของคุณมีคอลัมน์น้อยเกินไป
ไม่มีแถวที่สมบูรณ์ – ทุกแถวในข้อมูลของคุณมีค่าที่ขาดหายไป
ชื่อคอลัมน์อย่างน้อยหนึ่งคอลัมน์มีเครื่องหมายขีดล่างคู่ – SageMaker ไม่สามารถจัดการ (__) ในส่วนหัวของคอลัมน์

รายละเอียดสำหรับแต่ละเกณฑ์การตรวจสอบจะระบุไว้ในส่วนหลังของโพสต์นี้

หากผ่านการตรวจสอบทั้งหมด คุณจะได้รับการยืนยันดังต่อไปนี้: “ไม่พบปัญหาในชุดข้อมูลของคุณ”

หากพบปัญหาใดๆ คุณจะได้รับการแจ้งเตือนเพื่อดูและทำความเข้าใจ การดำเนินการนี้จะแสดงปัญหาด้านคุณภาพของข้อมูลตั้งแต่เนิ่นๆ และช่วยให้คุณแก้ไขปัญหาได้ทันทีก่อนที่จะเสียเวลาและทรัพยากรในกระบวนการเพิ่มเติม

คุณสามารถปรับเปลี่ยนและตรวจสอบชุดข้อมูลของคุณต่อไปได้จนกว่าปัญหาทั้งหมดจะได้รับการแก้ไข

ตรวจสอบคอลัมน์เป้าหมายและประเภทโมเดล

เมื่อคุณสร้างโมเดล ML ใน SageMaker Canvas ปัญหาด้านคุณภาพข้อมูลหลายอย่างที่เกี่ยวข้องกับ คอลัมน์เป้าหมาย อาจทำให้การสร้างแบบจำลองของคุณล้มเหลว SageMaker Canvas ตรวจสอบปัญหาประเภทต่างๆ ที่อาจส่งผลกระทบต่อคุณ คอลัมน์เป้าหมาย

สำหรับคอลัมน์เป้าหมายของคุณ ให้ตรวจสอบ ประเภทโมเดลไม่ถูกต้องสำหรับข้อมูลของคุณ. ตัวอย่างเช่น หากเลือกแบบจำลองการคาดการณ์ 2 หมวดหมู่ แต่คอลัมน์เป้าหมายของคุณมีป้ายชื่อเฉพาะมากกว่า 2 ป้าย SageMaker Canvas จะแสดงคำเตือนการตรวจสอบความถูกต้องดังต่อไปนี้
หากประเภทโมเดลเป็นการคาดคะเนหมวดหมู่ 2 หรือ 3+ คุณต้องตรวจสอบความถูกต้อง ป้ายกำกับที่ไม่ซ้ำกันมากเกินไป สำหรับคอลัมน์เป้าหมายของคุณ. จำนวนสูงสุดของคลาสที่ไม่ซ้ำคือ 2000 หากคุณเลือกคอลัมน์ที่มีค่าเฉพาะมากกว่า 2000 ในคอลัมน์ Target ของคุณ Canvas จะแสดงคำเตือนการตรวจสอบดังต่อไปนี้
นอกจากป้ายกำกับเป้าหมายที่ไม่ซ้ำมากเกินไปแล้ว คุณควรระวังด้วยเช่นกัน ป้ายกำกับเป้าหมายที่ไม่ซ้ำกันจำนวนมากสำหรับจำนวนแถวในข้อมูลของคุณ SageMaker Canvas บังคับใช้อัตราส่วนของป้ายกำกับเป้าหมายต่อจำนวนแถวทั้งหมดให้น้อยกว่า 10% สิ่งนี้ทำให้แน่ใจว่าคุณมีตัวแทนที่เพียงพอสำหรับแต่ละหมวดหมู่สำหรับโมเดลคุณภาพสูง และลดโอกาสของการโอเวอร์ฟิตติ้ง แบบจำลองของคุณถือว่าเกินพอดีเมื่อคาดการณ์ได้ดีเกี่ยวกับข้อมูลการฝึกอบรม แต่ไม่ใช่ข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน อ้างอิง โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม เพื่อเรียนรู้เพิ่มเติม
สุดท้าย การตรวจสอบครั้งสุดท้ายสำหรับคอลัมน์เป้าหมายคือ มีแถวที่ไม่ถูกต้องมากเกินไป. หากคอลัมน์เป้าหมายของคุณมีข้อมูลขาดหายไปหรือไม่ถูกต้องมากกว่า 10% จะส่งผลกระทบต่อประสิทธิภาพของโมเดล และในบางกรณีอาจทำให้การสร้างโมเดลล้มเหลว ตัวอย่างต่อไปนี้มีค่าที่หายไปจำนวนมาก (ขาดหายไป >90%) ในคอลัมน์เป้าหมาย และคุณได้รับคำเตือนการตรวจสอบดังต่อไปนี้

หากคุณได้รับคำเตือนข้างต้นสำหรับคอลัมน์เป้าหมายของคุณ ให้ใช้ขั้นตอนต่อไปนี้เพื่อลดปัญหา:

คุณใช้คอลัมน์เป้าหมายที่ถูกต้องหรือไม่
คุณเลือกประเภทรุ่นที่ถูกต้องหรือไม่?
คุณสามารถเพิ่มจำนวนแถวในชุดข้อมูลต่อป้ายกำกับเป้าหมายได้หรือไม่
คุณสามารถรวม/จัดกลุ่มป้ายกำกับที่คล้ายกันเข้าด้วยกันได้หรือไม่
คุณสามารถกรอกค่าที่ขาดหายไป/ไม่ถูกต้องได้หรือไม่?
คุณมีข้อมูลเพียงพอที่จะทิ้งค่าที่ขาดหายไป/ไม่ถูกต้องหรือไม่
หากตัวเลือกทั้งหมดข้างต้นไม่สามารถล้างคำเตือนได้ คุณควรพิจารณาใช้ชุดข้อมูลอื่น

โปรดดูที่ เอกสารการแปลงข้อมูล SageMaker Canvas เพื่อดำเนินการขั้นตอนการใส่ความดังกล่าวข้างต้น

ตรวจสอบความถูกต้องของคอลัมน์ทั้งหมด

นอกเหนือจากคอลัมน์เป้าหมาย คุณอาจพบปัญหาด้านคุณภาพข้อมูลกับคอลัมน์ข้อมูลอื่นๆ (คอลัมน์คุณลักษณะ) ด้วยเช่นกัน คอลัมน์คุณลักษณะคือข้อมูลอินพุตที่ใช้ในการคาดการณ์ ML

ชุดข้อมูลทุกชุดควรมีอย่างน้อย 1 คอลัมน์คุณลักษณะและ 1 คอลัมน์เป้าหมาย (รวม 2 คอลัมน์) มิฉะนั้น SageMaker Canvas จะให้ ข้อมูลของคุณมีคอลัมน์น้อยเกินไป คำเตือน. คุณต้องปฏิบัติตามข้อกำหนดนี้ก่อนจึงจะสามารถดำเนินการสร้างแบบจำลองได้
หลังจากนั้น คุณต้องแน่ใจว่าข้อมูลของคุณมีคอลัมน์ตัวเลขอย่างน้อย 1 คอลัมน์ ถ้าไม่เช่นนั้นคุณจะได้รับ คอลัมน์คุณลักษณะทั้งหมดเป็นคอลัมน์ข้อความ คำเตือน. นี่เป็นเพราะโดยปกติแล้วคอลัมน์ข้อความจะถูกทิ้งในระหว่างการสร้างมาตรฐาน จึงทำให้โมเดลไม่มีคุณสมบัติในการฝึก ดังนั้นสิ่งนี้จะทำให้การสร้างแบบจำลองของคุณล้มเหลว คุณสามารถใช้ SageMaker Canvas เพื่อเข้ารหัสคอลัมน์ข้อความบางคอลัมน์เป็นตัวเลข หรือใช้การสร้างด่วนแทนการสร้างมาตรฐาน
คำเตือนประเภทที่สามที่คุณอาจได้รับจากคอลัมน์คุณลักษณะคือ ไม่มีแถวที่สมบูรณ์. การตรวจสอบนี้จะตรวจสอบว่าคุณมีอย่างน้อยหนึ่งแถวที่ไม่มีค่าขาดหายไปหรือไม่ SageMaker Canvas ต้องการอย่างน้อยหนึ่งแถวที่สมบูรณ์ มิฉะนั้นของคุณ สร้างอย่างรวดเร็ว จะล้มเหลว พยายามเติมค่าที่ขาดหายไปก่อนที่จะสร้างแบบจำลอง
การตรวจสอบประเภทสุดท้ายคือ ชื่อคอลัมน์อย่างน้อยหนึ่งคอลัมน์มีเครื่องหมายขีดล่างคู่. นี่คือข้อกำหนดเฉพาะของ SageMaker Canvas หากคุณมีเครื่องหมายขีดล่างคู่ (__) ในส่วนหัวของคอลัมน์ สิ่งนี้จะทำให้ สร้างอย่างรวดเร็ว ที่จะล้มเหลว. เปลี่ยนชื่อคอลัมน์เพื่อลบขีดล่างคู่ใด ๆ แล้วลองอีกครั้ง

ทำความสะอาด

เพื่อไม่ให้เกิดอนาคต ค่าเซสชั่น, ออกจากระบบ SageMaker Canvas

สรุป

SageMaker Canvas เป็นโซลูชัน ML แบบไม่ใช้โค้ดที่ช่วยให้นักวิเคราะห์ธุรกิจสร้างโมเดล ML ที่แม่นยำและสร้างการคาดคะเนผ่านอินเทอร์เฟซแบบชี้และคลิกแบบภาพ เราได้แสดงให้คุณเห็นว่า SageMaker Canvas ช่วยให้คุณมั่นใจในคุณภาพของข้อมูลและลดปัญหาข้อมูลได้อย่างไรโดยการตรวจสอบความถูกต้องของชุดข้อมูลในเชิงรุก ด้วยการระบุปัญหาตั้งแต่เนิ่นๆ SageMaker Canvas ช่วยให้คุณสร้างโมเดล ML ที่มีคุณภาพ และลดการสร้างซ้ำโดยไม่ต้องมีความเชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลและการเขียนโปรแกรม หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับคุณลักษณะใหม่นี้ โปรดดูที่ เอกสารประกอบ SageMaker Canvas

หากต้องการเริ่มต้นและเรียนรู้เพิ่มเติมเกี่ยวกับ SageMaker Canvas โปรดดูแหล่งข้อมูลต่อไปนี้:

เกี่ยวกับผู้แต่ง

หริฮารัน สุเรศ เป็นสถาปนิกโซลูชันอาวุโสที่ AWS เขาหลงใหลเกี่ยวกับฐานข้อมูล แมชชีนเลิร์นนิง และการออกแบบโซลูชันที่เป็นนวัตกรรมใหม่ ก่อนที่จะร่วมงานกับ AWS Hariharan เป็นสถาปนิกผลิตภัณฑ์ ผู้เชี่ยวชาญด้านการใช้งานธนาคารหลัก และนักพัฒนา และทำงานร่วมกับองค์กร BFSI มานานกว่า 11 ปี นอกเหนือจากเทคโนโลยีแล้ว เขาชอบเล่นร่มร่อนและปั่นจักรยาน

สายนาถ มิริยาลา เป็นผู้จัดการบัญชีทางเทคนิคอาวุโสที่ AWS ซึ่งทำงานให้กับลูกค้ายานยนต์ในสหรัฐอเมริกา Sainath มีความหลงใหลในการออกแบบและสร้างแอปพลิเคชันแบบกระจายขนาดใหญ่โดยใช้ AI/ML ในเวลาว่าง Sainath ใช้เวลากับครอบครัวและเพื่อนฝูง

เจมส์ หวู่ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้าน AI/ML อาวุโสที่ AWS ช่วยลูกค้าออกแบบและสร้างโซลูชัน AI/ML งานของ James ครอบคลุมกรณีการใช้งาน ML ที่หลากหลาย โดยมีความสนใจหลักในด้านการมองเห็นคอมพิวเตอร์ การเรียนรู้เชิงลึก และการปรับขนาด ML ทั่วทั้งองค์กร ก่อนที่จะร่วมงานกับ AWS เจมส์เคยเป็นสถาปนิก นักพัฒนา และผู้นำด้านเทคโนโลยีมานานกว่า 10 ปี รวมถึง 6 ปีในด้านวิศวกรรมและ 4 ปีในอุตสาหกรรมการตลาดและการโฆษณา

ประทับเวลา: November 10, 2022November 11, 2022

ประทับเวลา: May 5, 2022

การระบุและหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่ไม่มีการสร้างโมเดล ML แบบใช้โค้ดด้วย Amazon SageMaker Canvas

เผยแพร่ซ้ำโดยเพลโต

ตรวจสอบข้อมูลใน SageMaker Canvas

ตรวจสอบคอลัมน์เป้าหมายและประเภทโมเดล

ตรวจสอบความถูกต้องของคอลัมน์ทั้งหมด

ทำความสะอาด

สรุป

เกี่ยวกับผู้แต่ง

เพิ่มเติมจาก AWS Machine Learning AWS

ประกาศเครื่องมือและความสามารถใหม่เพื่อเปิดใช้งานนวัตกรรม AI ที่มีความรับผิดชอบ | อเมซอนเว็บเซอร์วิส

เปิดใช้งาน CI/CD ของตำแหน่งข้อมูล Amazon SageMaker แบบหลายภูมิภาค

การประมวลผลเอกสารอัจฉริยะด้วยบริการ AWS AI และ Analytics ในอุตสาหกรรมประกันภัย: ตอนที่ 2

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้