นักวิเคราะห์ธุรกิจทำงานกับข้อมูลและชอบวิเคราะห์ สำรวจ และทำความเข้าใจข้อมูลเพื่อให้ได้ผลลัพธ์ทางธุรกิจที่มีประสิทธิภาพ เพื่อแก้ไขปัญหาทางธุรกิจ พวกเขามักจะพึ่งพาผู้ปฏิบัติงานด้านการเรียนรู้ของเครื่อง (ML) เช่น นักวิทยาศาสตร์ข้อมูล เพื่อช่วยเหลือเกี่ยวกับเทคนิคต่างๆ เช่น การใช้ ML เพื่อสร้างแบบจำลองโดยใช้ข้อมูลที่มีอยู่และสร้างการคาดการณ์ อย่างไรก็ตาม มันไม่ได้เป็นไปได้เสมอไป เนื่องจากนักวิทยาศาสตร์ข้อมูลมักจะผูกติดกับงานของพวกเขา และไม่มีแบนด์วิธที่จะช่วยนักวิเคราะห์ได้
เพื่อให้เป็นอิสระและบรรลุเป้าหมายของคุณในฐานะนักวิเคราะห์ธุรกิจ การทำงานกับเครื่องมือที่ใช้งานง่าย ใช้งานง่าย และมองเห็นได้ซึ่งใช้ ML โดยไม่จำเป็นต้องรู้รายละเอียดและใช้โค้ด การใช้เครื่องมือเหล่านี้จะช่วยคุณแก้ปัญหาทางธุรกิจและบรรลุผลลัพธ์ที่ต้องการ
ด้วยเป้าหมายที่จะช่วยให้คุณและองค์กรของคุณมีประสิทธิภาพมากขึ้น และใช้ ML โดยไม่ต้องเขียนโค้ด เรา เปิดตัว Amazon SageMaker Canvas. นี่คือโซลูชัน ML แบบไม่ใช้โค้ดที่ช่วยให้คุณสร้างโมเดล ML ที่แม่นยำโดยไม่จำเป็นต้องเรียนรู้เกี่ยวกับรายละเอียดทางเทคนิค เช่น อัลกอริทึม ML และเมตริกการประเมิน SageMaker Canvas นำเสนออินเทอร์เฟซที่ใช้งานง่ายซึ่งช่วยให้คุณนำเข้าข้อมูล ฝึกโมเดล ML ทำการวิเคราะห์โมเดล และสร้างการคาดคะเน ML โดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียว
เมื่อใช้ SageMaker Canvas เพื่อทดลอง คุณอาจพบปัญหาด้านคุณภาพของข้อมูล เช่น ค่าที่ขาดหายไปหรือประเภทปัญหาที่ไม่ถูกต้อง ปัญหาเหล่านี้อาจไม่ถูกค้นพบจนกว่าจะถึงช่วงปลายของกระบวนการหลังจากฝึกโมเดล ML เพื่อบรรเทาความท้าทายนี้ ตอนนี้ SageMaker Canvas รองรับการตรวจสอบข้อมูลแล้ว คุณลักษณะนี้จะตรวจสอบปัญหาในข้อมูลของคุณในเชิงรุกและให้คำแนะนำในการแก้ปัญหา
ในโพสต์นี้ เราจะสาธิตวิธีการใช้ความสามารถในการตรวจสอบความถูกต้องของข้อมูลภายใน SageMaker Canvas ก่อนการสร้างแบบจำลอง คุณลักษณะนี้จะตรวจสอบความถูกต้องของชุดข้อมูล รายงานปัญหา และให้คำแนะนำที่เป็นประโยชน์ในการแก้ไขตามชื่อ เมื่อใช้ข้อมูลที่มีคุณภาพดีขึ้น คุณจะได้โมเดล ML ที่มีประสิทธิภาพดีขึ้น
ตรวจสอบข้อมูลใน SageMaker Canvas
การตรวจสอบความถูกต้องของข้อมูลเป็นคุณสมบัติใหม่ใน SageMaker Canvas เพื่อตรวจสอบเชิงรุกสำหรับปัญหาด้านคุณภาพข้อมูลที่อาจเกิดขึ้น หลังจากที่คุณนำเข้าข้อมูลและเลือกคอลัมน์เป้าหมายแล้ว คุณจะมีตัวเลือกในการตรวจสอบความถูกต้องของข้อมูลตามที่แสดงที่นี่:
หากคุณเลือกที่จะตรวจสอบข้อมูลของคุณ Canvas จะวิเคราะห์ข้อมูลของคุณตามเงื่อนไขต่างๆ มากมาย ได้แก่:
- มีป้ายกำกับที่ไม่ซ้ำกันมากเกินไปในคอลัมน์เป้าหมายของคุณ – สำหรับประเภทโมเดลการทำนายหมวดหมู่
- มีป้ายกำกับที่ไม่ซ้ำกันมากเกินไปในคอลัมน์เป้าหมายของคุณสำหรับจำนวนแถวในข้อมูลของคุณ – สำหรับประเภทโมเดลการทำนายหมวดหมู่
- ประเภทโมเดลไม่ถูกต้องสำหรับข้อมูลของคุณ – ประเภทโมเดลไม่ตรงกับข้อมูลที่คุณกำลังคาดการณ์ในคอลัมน์เป้าหมาย
- มีแถวที่ไม่ถูกต้องมากเกินไป – ค่าที่ขาดหายไปในคอลัมน์เป้าหมายของคุณ
- คอลัมน์คุณลักษณะทั้งหมดเป็นคอลัมน์ข้อความ – พวกเขาจะถูกทิ้งสำหรับการสร้างมาตรฐาน
- คอลัมน์น้อยเกินไป – ข้อมูลของคุณมีคอลัมน์น้อยเกินไป
- ไม่มีแถวที่สมบูรณ์ – ทุกแถวในข้อมูลของคุณมีค่าที่ขาดหายไป
- ชื่อคอลัมน์อย่างน้อยหนึ่งคอลัมน์มีเครื่องหมายขีดล่างคู่ – SageMaker ไม่สามารถจัดการ (__) ในส่วนหัวของคอลัมน์
รายละเอียดสำหรับแต่ละเกณฑ์การตรวจสอบจะระบุไว้ในส่วนหลังของโพสต์นี้
หากผ่านการตรวจสอบทั้งหมด คุณจะได้รับการยืนยันดังต่อไปนี้: “ไม่พบปัญหาในชุดข้อมูลของคุณ”
หากพบปัญหาใดๆ คุณจะได้รับการแจ้งเตือนเพื่อดูและทำความเข้าใจ การดำเนินการนี้จะแสดงปัญหาด้านคุณภาพของข้อมูลตั้งแต่เนิ่นๆ และช่วยให้คุณแก้ไขปัญหาได้ทันทีก่อนที่จะเสียเวลาและทรัพยากรในกระบวนการเพิ่มเติม
คุณสามารถปรับเปลี่ยนและตรวจสอบชุดข้อมูลของคุณต่อไปได้จนกว่าปัญหาทั้งหมดจะได้รับการแก้ไข
ตรวจสอบคอลัมน์เป้าหมายและประเภทโมเดล
เมื่อคุณสร้างโมเดล ML ใน SageMaker Canvas ปัญหาด้านคุณภาพข้อมูลหลายอย่างที่เกี่ยวข้องกับ คอลัมน์เป้าหมาย อาจทำให้การสร้างแบบจำลองของคุณล้มเหลว SageMaker Canvas ตรวจสอบปัญหาประเภทต่างๆ ที่อาจส่งผลกระทบต่อคุณ คอลัมน์เป้าหมาย
- สำหรับคอลัมน์เป้าหมายของคุณ ให้ตรวจสอบ ประเภทโมเดลไม่ถูกต้องสำหรับข้อมูลของคุณ. ตัวอย่างเช่น หากเลือกแบบจำลองการคาดการณ์ 2 หมวดหมู่ แต่คอลัมน์เป้าหมายของคุณมีป้ายชื่อเฉพาะมากกว่า 2 ป้าย SageMaker Canvas จะแสดงคำเตือนการตรวจสอบความถูกต้องดังต่อไปนี้
- หากประเภทโมเดลเป็นการคาดคะเนหมวดหมู่ 2 หรือ 3+ คุณต้องตรวจสอบความถูกต้อง ป้ายกำกับที่ไม่ซ้ำกันมากเกินไป สำหรับคอลัมน์เป้าหมายของคุณ. จำนวนสูงสุดของคลาสที่ไม่ซ้ำคือ 2000 หากคุณเลือกคอลัมน์ที่มีค่าเฉพาะมากกว่า 2000 ในคอลัมน์ Target ของคุณ Canvas จะแสดงคำเตือนการตรวจสอบดังต่อไปนี้
- นอกจากป้ายกำกับเป้าหมายที่ไม่ซ้ำมากเกินไปแล้ว คุณควรระวังด้วยเช่นกัน ป้ายกำกับเป้าหมายที่ไม่ซ้ำกันจำนวนมากสำหรับจำนวนแถวในข้อมูลของคุณ SageMaker Canvas บังคับใช้อัตราส่วนของป้ายกำกับเป้าหมายต่อจำนวนแถวทั้งหมดให้น้อยกว่า 10% สิ่งนี้ทำให้แน่ใจว่าคุณมีตัวแทนที่เพียงพอสำหรับแต่ละหมวดหมู่สำหรับโมเดลคุณภาพสูง และลดโอกาสของการโอเวอร์ฟิตติ้ง แบบจำลองของคุณถือว่าเกินพอดีเมื่อคาดการณ์ได้ดีเกี่ยวกับข้อมูลการฝึกอบรม แต่ไม่ใช่ข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน อ้างอิง โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม เพื่อเรียนรู้เพิ่มเติม
- สุดท้าย การตรวจสอบครั้งสุดท้ายสำหรับคอลัมน์เป้าหมายคือ มีแถวที่ไม่ถูกต้องมากเกินไป. หากคอลัมน์เป้าหมายของคุณมีข้อมูลขาดหายไปหรือไม่ถูกต้องมากกว่า 10% จะส่งผลกระทบต่อประสิทธิภาพของโมเดล และในบางกรณีอาจทำให้การสร้างโมเดลล้มเหลว ตัวอย่างต่อไปนี้มีค่าที่หายไปจำนวนมาก (ขาดหายไป >90%) ในคอลัมน์เป้าหมาย และคุณได้รับคำเตือนการตรวจสอบดังต่อไปนี้
หากคุณได้รับคำเตือนข้างต้นสำหรับคอลัมน์เป้าหมายของคุณ ให้ใช้ขั้นตอนต่อไปนี้เพื่อลดปัญหา:
- คุณใช้คอลัมน์เป้าหมายที่ถูกต้องหรือไม่
- คุณเลือกประเภทรุ่นที่ถูกต้องหรือไม่?
- คุณสามารถเพิ่มจำนวนแถวในชุดข้อมูลต่อป้ายกำกับเป้าหมายได้หรือไม่
- คุณสามารถรวม/จัดกลุ่มป้ายกำกับที่คล้ายกันเข้าด้วยกันได้หรือไม่
- คุณสามารถกรอกค่าที่ขาดหายไป/ไม่ถูกต้องได้หรือไม่?
- คุณมีข้อมูลเพียงพอที่จะทิ้งค่าที่ขาดหายไป/ไม่ถูกต้องหรือไม่
- หากตัวเลือกทั้งหมดข้างต้นไม่สามารถล้างคำเตือนได้ คุณควรพิจารณาใช้ชุดข้อมูลอื่น
โปรดดูที่ เอกสารการแปลงข้อมูล SageMaker Canvas เพื่อดำเนินการขั้นตอนการใส่ความดังกล่าวข้างต้น
ตรวจสอบความถูกต้องของคอลัมน์ทั้งหมด
นอกเหนือจากคอลัมน์เป้าหมาย คุณอาจพบปัญหาด้านคุณภาพข้อมูลกับคอลัมน์ข้อมูลอื่นๆ (คอลัมน์คุณลักษณะ) ด้วยเช่นกัน คอลัมน์คุณลักษณะคือข้อมูลอินพุตที่ใช้ในการคาดการณ์ ML
- ชุดข้อมูลทุกชุดควรมีอย่างน้อย 1 คอลัมน์คุณลักษณะและ 1 คอลัมน์เป้าหมาย (รวม 2 คอลัมน์) มิฉะนั้น SageMaker Canvas จะให้ ข้อมูลของคุณมีคอลัมน์น้อยเกินไป คำเตือน. คุณต้องปฏิบัติตามข้อกำหนดนี้ก่อนจึงจะสามารถดำเนินการสร้างแบบจำลองได้
- หลังจากนั้น คุณต้องแน่ใจว่าข้อมูลของคุณมีคอลัมน์ตัวเลขอย่างน้อย 1 คอลัมน์ ถ้าไม่เช่นนั้นคุณจะได้รับ คอลัมน์คุณลักษณะทั้งหมดเป็นคอลัมน์ข้อความ คำเตือน. นี่เป็นเพราะโดยปกติแล้วคอลัมน์ข้อความจะถูกทิ้งในระหว่างการสร้างมาตรฐาน จึงทำให้โมเดลไม่มีคุณสมบัติในการฝึก ดังนั้นสิ่งนี้จะทำให้การสร้างแบบจำลองของคุณล้มเหลว คุณสามารถใช้ SageMaker Canvas เพื่อเข้ารหัสคอลัมน์ข้อความบางคอลัมน์เป็นตัวเลข หรือใช้การสร้างด่วนแทนการสร้างมาตรฐาน
- คำเตือนประเภทที่สามที่คุณอาจได้รับจากคอลัมน์คุณลักษณะคือ ไม่มีแถวที่สมบูรณ์. การตรวจสอบนี้จะตรวจสอบว่าคุณมีอย่างน้อยหนึ่งแถวที่ไม่มีค่าขาดหายไปหรือไม่ SageMaker Canvas ต้องการอย่างน้อยหนึ่งแถวที่สมบูรณ์ มิฉะนั้นของคุณ สร้างอย่างรวดเร็ว จะล้มเหลว พยายามเติมค่าที่ขาดหายไปก่อนที่จะสร้างแบบจำลอง
- การตรวจสอบประเภทสุดท้ายคือ ชื่อคอลัมน์อย่างน้อยหนึ่งคอลัมน์มีเครื่องหมายขีดล่างคู่. นี่คือข้อกำหนดเฉพาะของ SageMaker Canvas หากคุณมีเครื่องหมายขีดล่างคู่ (__) ในส่วนหัวของคอลัมน์ สิ่งนี้จะทำให้ สร้างอย่างรวดเร็ว ที่จะล้มเหลว. เปลี่ยนชื่อคอลัมน์เพื่อลบขีดล่างคู่ใด ๆ แล้วลองอีกครั้ง
ทำความสะอาด
เพื่อไม่ให้เกิดอนาคต ค่าเซสชั่น, ออกจากระบบ SageMaker Canvas
สรุป
SageMaker Canvas เป็นโซลูชัน ML แบบไม่ใช้โค้ดที่ช่วยให้นักวิเคราะห์ธุรกิจสร้างโมเดล ML ที่แม่นยำและสร้างการคาดคะเนผ่านอินเทอร์เฟซแบบชี้และคลิกแบบภาพ เราได้แสดงให้คุณเห็นว่า SageMaker Canvas ช่วยให้คุณมั่นใจในคุณภาพของข้อมูลและลดปัญหาข้อมูลได้อย่างไรโดยการตรวจสอบความถูกต้องของชุดข้อมูลในเชิงรุก ด้วยการระบุปัญหาตั้งแต่เนิ่นๆ SageMaker Canvas ช่วยให้คุณสร้างโมเดล ML ที่มีคุณภาพ และลดการสร้างซ้ำโดยไม่ต้องมีความเชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลและการเขียนโปรแกรม หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับคุณลักษณะใหม่นี้ โปรดดูที่ เอกสารประกอบ SageMaker Canvas
หากต้องการเริ่มต้นและเรียนรู้เพิ่มเติมเกี่ยวกับ SageMaker Canvas โปรดดูแหล่งข้อมูลต่อไปนี้:
เกี่ยวกับผู้แต่ง
หริฮารัน สุเรศ เป็นสถาปนิกโซลูชันอาวุโสที่ AWS เขาหลงใหลเกี่ยวกับฐานข้อมูล แมชชีนเลิร์นนิง และการออกแบบโซลูชันที่เป็นนวัตกรรมใหม่ ก่อนที่จะร่วมงานกับ AWS Hariharan เป็นสถาปนิกผลิตภัณฑ์ ผู้เชี่ยวชาญด้านการใช้งานธนาคารหลัก และนักพัฒนา และทำงานร่วมกับองค์กร BFSI มานานกว่า 11 ปี นอกเหนือจากเทคโนโลยีแล้ว เขาชอบเล่นร่มร่อนและปั่นจักรยาน
สายนาถ มิริยาลา เป็นผู้จัดการบัญชีทางเทคนิคอาวุโสที่ AWS ซึ่งทำงานให้กับลูกค้ายานยนต์ในสหรัฐอเมริกา Sainath มีความหลงใหลในการออกแบบและสร้างแอปพลิเคชันแบบกระจายขนาดใหญ่โดยใช้ AI/ML ในเวลาว่าง Sainath ใช้เวลากับครอบครัวและเพื่อนฝูง
เจมส์ หวู่ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้าน AI/ML อาวุโสที่ AWS ช่วยลูกค้าออกแบบและสร้างโซลูชัน AI/ML งานของ James ครอบคลุมกรณีการใช้งาน ML ที่หลากหลาย โดยมีความสนใจหลักในด้านการมองเห็นคอมพิวเตอร์ การเรียนรู้เชิงลึก และการปรับขนาด ML ทั่วทั้งองค์กร ก่อนที่จะร่วมงานกับ AWS เจมส์เคยเป็นสถาปนิก นักพัฒนา และผู้นำด้านเทคโนโลยีมานานกว่า 10 ปี รวมถึง 6 ปีในด้านวิศวกรรมและ 4 ปีในอุตสาหกรรมการตลาดและการโฆษณา
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- อเมซอน SageMaker
- ผืนผ้าใบ Amazon SageMaker
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- AWS Machine Learning AWS
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- ระดับกลาง (200)
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- ลมทะเล