การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การระบุและหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่ไม่มีการสร้างโมเดล ML แบบใช้โค้ดด้วย Amazon SageMaker Canvas

นักวิเคราะห์ธุรกิจทำงานกับข้อมูลและชอบวิเคราะห์ สำรวจ และทำความเข้าใจข้อมูลเพื่อให้ได้ผลลัพธ์ทางธุรกิจที่มีประสิทธิภาพ เพื่อแก้ไขปัญหาทางธุรกิจ พวกเขามักจะพึ่งพาผู้ปฏิบัติงานด้านการเรียนรู้ของเครื่อง (ML) เช่น นักวิทยาศาสตร์ข้อมูล เพื่อช่วยเหลือเกี่ยวกับเทคนิคต่างๆ เช่น การใช้ ML เพื่อสร้างแบบจำลองโดยใช้ข้อมูลที่มีอยู่และสร้างการคาดการณ์ อย่างไรก็ตาม มันไม่ได้เป็นไปได้เสมอไป เนื่องจากนักวิทยาศาสตร์ข้อมูลมักจะผูกติดกับงานของพวกเขา และไม่มีแบนด์วิธที่จะช่วยนักวิเคราะห์ได้

เพื่อให้เป็นอิสระและบรรลุเป้าหมายของคุณในฐานะนักวิเคราะห์ธุรกิจ การทำงานกับเครื่องมือที่ใช้งานง่าย ใช้งานง่าย และมองเห็นได้ซึ่งใช้ ML โดยไม่จำเป็นต้องรู้รายละเอียดและใช้โค้ด การใช้เครื่องมือเหล่านี้จะช่วยคุณแก้ปัญหาทางธุรกิจและบรรลุผลลัพธ์ที่ต้องการ

ด้วยเป้าหมายที่จะช่วยให้คุณและองค์กรของคุณมีประสิทธิภาพมากขึ้น และใช้ ML โดยไม่ต้องเขียนโค้ด เรา เปิดตัว Amazon SageMaker Canvas. นี่คือโซลูชัน ML แบบไม่ใช้โค้ดที่ช่วยให้คุณสร้างโมเดล ML ที่แม่นยำโดยไม่จำเป็นต้องเรียนรู้เกี่ยวกับรายละเอียดทางเทคนิค เช่น อัลกอริทึม ML และเมตริกการประเมิน SageMaker Canvas นำเสนออินเทอร์เฟซที่ใช้งานง่ายซึ่งช่วยให้คุณนำเข้าข้อมูล ฝึกโมเดล ML ทำการวิเคราะห์โมเดล และสร้างการคาดคะเน ML โดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียว

เมื่อใช้ SageMaker Canvas เพื่อทดลอง คุณอาจพบปัญหาด้านคุณภาพของข้อมูล เช่น ค่าที่ขาดหายไปหรือประเภทปัญหาที่ไม่ถูกต้อง ปัญหาเหล่านี้อาจไม่ถูกค้นพบจนกว่าจะถึงช่วงปลายของกระบวนการหลังจากฝึกโมเดล ML เพื่อบรรเทาความท้าทายนี้ ตอนนี้ SageMaker Canvas รองรับการตรวจสอบข้อมูลแล้ว คุณลักษณะนี้จะตรวจสอบปัญหาในข้อมูลของคุณในเชิงรุกและให้คำแนะนำในการแก้ปัญหา

ในโพสต์นี้ เราจะสาธิตวิธีการใช้ความสามารถในการตรวจสอบความถูกต้องของข้อมูลภายใน SageMaker Canvas ก่อนการสร้างแบบจำลอง คุณลักษณะนี้จะตรวจสอบความถูกต้องของชุดข้อมูล รายงานปัญหา และให้คำแนะนำที่เป็นประโยชน์ในการแก้ไขตามชื่อ เมื่อใช้ข้อมูลที่มีคุณภาพดีขึ้น คุณจะได้โมเดล ML ที่มีประสิทธิภาพดีขึ้น

ตรวจสอบข้อมูลใน SageMaker Canvas

การตรวจสอบความถูกต้องของข้อมูลเป็นคุณสมบัติใหม่ใน SageMaker Canvas เพื่อตรวจสอบเชิงรุกสำหรับปัญหาด้านคุณภาพข้อมูลที่อาจเกิดขึ้น หลังจากที่คุณนำเข้าข้อมูลและเลือกคอลัมน์เป้าหมายแล้ว คุณจะมีตัวเลือกในการตรวจสอบความถูกต้องของข้อมูลตามที่แสดงที่นี่:

หากคุณเลือกที่จะตรวจสอบข้อมูลของคุณ Canvas จะวิเคราะห์ข้อมูลของคุณตามเงื่อนไขต่างๆ มากมาย ได้แก่:

  • มีป้ายกำกับที่ไม่ซ้ำกันมากเกินไปในคอลัมน์เป้าหมายของคุณ – สำหรับประเภทโมเดลการทำนายหมวดหมู่
  • มีป้ายกำกับที่ไม่ซ้ำกันมากเกินไปในคอลัมน์เป้าหมายของคุณสำหรับจำนวนแถวในข้อมูลของคุณ – สำหรับประเภทโมเดลการทำนายหมวดหมู่
  • ประเภทโมเดลไม่ถูกต้องสำหรับข้อมูลของคุณ – ประเภทโมเดลไม่ตรงกับข้อมูลที่คุณกำลังคาดการณ์ในคอลัมน์เป้าหมาย
  • มีแถวที่ไม่ถูกต้องมากเกินไป – ค่าที่ขาดหายไปในคอลัมน์เป้าหมายของคุณ
  • คอลัมน์คุณลักษณะทั้งหมดเป็นคอลัมน์ข้อความ – พวกเขาจะถูกทิ้งสำหรับการสร้างมาตรฐาน
  • คอลัมน์น้อยเกินไป – ข้อมูลของคุณมีคอลัมน์น้อยเกินไป
  • ไม่มีแถวที่สมบูรณ์ – ทุกแถวในข้อมูลของคุณมีค่าที่ขาดหายไป
  • ชื่อคอลัมน์อย่างน้อยหนึ่งคอลัมน์มีเครื่องหมายขีดล่างคู่ – SageMaker ไม่สามารถจัดการ (__) ในส่วนหัวของคอลัมน์

รายละเอียดสำหรับแต่ละเกณฑ์การตรวจสอบจะระบุไว้ในส่วนหลังของโพสต์นี้

หากผ่านการตรวจสอบทั้งหมด คุณจะได้รับการยืนยันดังต่อไปนี้: “ไม่พบปัญหาในชุดข้อมูลของคุณ”

การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

หากพบปัญหาใดๆ คุณจะได้รับการแจ้งเตือนเพื่อดูและทำความเข้าใจ การดำเนินการนี้จะแสดงปัญหาด้านคุณภาพของข้อมูลตั้งแต่เนิ่นๆ และช่วยให้คุณแก้ไขปัญหาได้ทันทีก่อนที่จะเสียเวลาและทรัพยากรในกระบวนการเพิ่มเติม

การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

คุณสามารถปรับเปลี่ยนและตรวจสอบชุดข้อมูลของคุณต่อไปได้จนกว่าปัญหาทั้งหมดจะได้รับการแก้ไข

ตรวจสอบคอลัมน์เป้าหมายและประเภทโมเดล

เมื่อคุณสร้างโมเดล ML ใน SageMaker Canvas ปัญหาด้านคุณภาพข้อมูลหลายอย่างที่เกี่ยวข้องกับ คอลัมน์เป้าหมาย อาจทำให้การสร้างแบบจำลองของคุณล้มเหลว SageMaker Canvas ตรวจสอบปัญหาประเภทต่างๆ ที่อาจส่งผลกระทบต่อคุณ คอลัมน์เป้าหมาย

การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. สำหรับคอลัมน์เป้าหมายของคุณ ให้ตรวจสอบ ประเภทโมเดลไม่ถูกต้องสำหรับข้อมูลของคุณ. ตัวอย่างเช่น หากเลือกแบบจำลองการคาดการณ์ 2 หมวดหมู่ แต่คอลัมน์เป้าหมายของคุณมีป้ายชื่อเฉพาะมากกว่า 2 ป้าย SageMaker Canvas จะแสดงคำเตือนการตรวจสอบความถูกต้องดังต่อไปนี้
    การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  2. หากประเภทโมเดลเป็นการคาดคะเนหมวดหมู่ 2 หรือ 3+ คุณต้องตรวจสอบความถูกต้อง ป้ายกำกับที่ไม่ซ้ำกันมากเกินไป สำหรับคอลัมน์เป้าหมายของคุณ. จำนวนสูงสุดของคลาสที่ไม่ซ้ำคือ 2000 หากคุณเลือกคอลัมน์ที่มีค่าเฉพาะมากกว่า 2000 ในคอลัมน์ Target ของคุณ Canvas จะแสดงคำเตือนการตรวจสอบดังต่อไปนี้
    การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  3. นอกจากป้ายกำกับเป้าหมายที่ไม่ซ้ำมากเกินไปแล้ว คุณควรระวังด้วยเช่นกัน ป้ายกำกับเป้าหมายที่ไม่ซ้ำกันจำนวนมากสำหรับจำนวนแถวในข้อมูลของคุณ SageMaker Canvas บังคับใช้อัตราส่วนของป้ายกำกับเป้าหมายต่อจำนวนแถวทั้งหมดให้น้อยกว่า 10% สิ่งนี้ทำให้แน่ใจว่าคุณมีตัวแทนที่เพียงพอสำหรับแต่ละหมวดหมู่สำหรับโมเดลคุณภาพสูง และลดโอกาสของการโอเวอร์ฟิตติ้ง แบบจำลองของคุณถือว่าเกินพอดีเมื่อคาดการณ์ได้ดีเกี่ยวกับข้อมูลการฝึกอบรม แต่ไม่ใช่ข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน อ้างอิง โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม เพื่อเรียนรู้เพิ่มเติม
    การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  4. สุดท้าย การตรวจสอบครั้งสุดท้ายสำหรับคอลัมน์เป้าหมายคือ มีแถวที่ไม่ถูกต้องมากเกินไป. หากคอลัมน์เป้าหมายของคุณมีข้อมูลขาดหายไปหรือไม่ถูกต้องมากกว่า 10% จะส่งผลกระทบต่อประสิทธิภาพของโมเดล และในบางกรณีอาจทำให้การสร้างโมเดลล้มเหลว ตัวอย่างต่อไปนี้มีค่าที่หายไปจำนวนมาก (ขาดหายไป >90%) ในคอลัมน์เป้าหมาย และคุณได้รับคำเตือนการตรวจสอบดังต่อไปนี้
    การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
    การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

หากคุณได้รับคำเตือนข้างต้นสำหรับคอลัมน์เป้าหมายของคุณ ให้ใช้ขั้นตอนต่อไปนี้เพื่อลดปัญหา:

  1. คุณใช้คอลัมน์เป้าหมายที่ถูกต้องหรือไม่
  2. คุณเลือกประเภทรุ่นที่ถูกต้องหรือไม่?
  3. คุณสามารถเพิ่มจำนวนแถวในชุดข้อมูลต่อป้ายกำกับเป้าหมายได้หรือไม่
  4. คุณสามารถรวม/จัดกลุ่มป้ายกำกับที่คล้ายกันเข้าด้วยกันได้หรือไม่
  5. คุณสามารถกรอกค่าที่ขาดหายไป/ไม่ถูกต้องได้หรือไม่?
  6. คุณมีข้อมูลเพียงพอที่จะทิ้งค่าที่ขาดหายไป/ไม่ถูกต้องหรือไม่
  7. หากตัวเลือกทั้งหมดข้างต้นไม่สามารถล้างคำเตือนได้ คุณควรพิจารณาใช้ชุดข้อมูลอื่น

โปรดดูที่ เอกสารการแปลงข้อมูล SageMaker Canvas เพื่อดำเนินการขั้นตอนการใส่ความดังกล่าวข้างต้น

ตรวจสอบความถูกต้องของคอลัมน์ทั้งหมด

นอกเหนือจากคอลัมน์เป้าหมาย คุณอาจพบปัญหาด้านคุณภาพข้อมูลกับคอลัมน์ข้อมูลอื่นๆ (คอลัมน์คุณลักษณะ) ด้วยเช่นกัน คอลัมน์คุณลักษณะคือข้อมูลอินพุตที่ใช้ในการคาดการณ์ ML

  • ชุดข้อมูลทุกชุดควรมีอย่างน้อย 1 คอลัมน์คุณลักษณะและ 1 คอลัมน์เป้าหมาย (รวม 2 คอลัมน์) มิฉะนั้น SageMaker Canvas จะให้ ข้อมูลของคุณมีคอลัมน์น้อยเกินไป คำเตือน. คุณต้องปฏิบัติตามข้อกำหนดนี้ก่อนจึงจะสามารถดำเนินการสร้างแบบจำลองได้
    การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  • หลังจากนั้น คุณต้องแน่ใจว่าข้อมูลของคุณมีคอลัมน์ตัวเลขอย่างน้อย 1 คอลัมน์ ถ้าไม่เช่นนั้นคุณจะได้รับ คอลัมน์คุณลักษณะทั้งหมดเป็นคอลัมน์ข้อความ คำเตือน. นี่เป็นเพราะโดยปกติแล้วคอลัมน์ข้อความจะถูกทิ้งในระหว่างการสร้างมาตรฐาน จึงทำให้โมเดลไม่มีคุณสมบัติในการฝึก ดังนั้นสิ่งนี้จะทำให้การสร้างแบบจำลองของคุณล้มเหลว คุณสามารถใช้ SageMaker Canvas เพื่อเข้ารหัสคอลัมน์ข้อความบางคอลัมน์เป็นตัวเลข หรือใช้การสร้างด่วนแทนการสร้างมาตรฐาน
    การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  • คำเตือนประเภทที่สามที่คุณอาจได้รับจากคอลัมน์คุณลักษณะคือ ไม่มีแถวที่สมบูรณ์. การตรวจสอบนี้จะตรวจสอบว่าคุณมีอย่างน้อยหนึ่งแถวที่ไม่มีค่าขาดหายไปหรือไม่ SageMaker Canvas ต้องการอย่างน้อยหนึ่งแถวที่สมบูรณ์ มิฉะนั้นของคุณ สร้างอย่างรวดเร็ว จะล้มเหลว พยายามเติมค่าที่ขาดหายไปก่อนที่จะสร้างแบบจำลอง
    การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  • การตรวจสอบประเภทสุดท้ายคือ ชื่อคอลัมน์อย่างน้อยหนึ่งคอลัมน์มีเครื่องหมายขีดล่างคู่. นี่คือข้อกำหนดเฉพาะของ SageMaker Canvas หากคุณมีเครื่องหมายขีดล่างคู่ (__) ในส่วนหัวของคอลัมน์ สิ่งนี้จะทำให้ สร้างอย่างรวดเร็ว ที่จะล้มเหลว. เปลี่ยนชื่อคอลัมน์เพื่อลบขีดล่างคู่ใด ๆ แล้วลองอีกครั้ง
    การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ทำความสะอาด

เพื่อไม่ให้เกิดอนาคต ค่าเซสชั่น, ออกจากระบบ SageMaker Canvas

การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สรุป

SageMaker Canvas เป็นโซลูชัน ML แบบไม่ใช้โค้ดที่ช่วยให้นักวิเคราะห์ธุรกิจสร้างโมเดล ML ที่แม่นยำและสร้างการคาดคะเนผ่านอินเทอร์เฟซแบบชี้และคลิกแบบภาพ เราได้แสดงให้คุณเห็นว่า SageMaker Canvas ช่วยให้คุณมั่นใจในคุณภาพของข้อมูลและลดปัญหาข้อมูลได้อย่างไรโดยการตรวจสอบความถูกต้องของชุดข้อมูลในเชิงรุก ด้วยการระบุปัญหาตั้งแต่เนิ่นๆ SageMaker Canvas ช่วยให้คุณสร้างโมเดล ML ที่มีคุณภาพ และลดการสร้างซ้ำโดยไม่ต้องมีความเชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลและการเขียนโปรแกรม หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับคุณลักษณะใหม่นี้ โปรดดูที่ เอกสารประกอบ SageMaker Canvas

หากต้องการเริ่มต้นและเรียนรู้เพิ่มเติมเกี่ยวกับ SageMaker Canvas โปรดดูแหล่งข้อมูลต่อไปนี้:


เกี่ยวกับผู้แต่ง

การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. หริฮารัน สุเรศ เป็นสถาปนิกโซลูชันอาวุโสที่ AWS เขาหลงใหลเกี่ยวกับฐานข้อมูล แมชชีนเลิร์นนิง และการออกแบบโซลูชันที่เป็นนวัตกรรมใหม่ ก่อนที่จะร่วมงานกับ AWS Hariharan เป็นสถาปนิกผลิตภัณฑ์ ผู้เชี่ยวชาญด้านการใช้งานธนาคารหลัก และนักพัฒนา และทำงานร่วมกับองค์กร BFSI มานานกว่า 11 ปี นอกเหนือจากเทคโนโลยีแล้ว เขาชอบเล่นร่มร่อนและปั่นจักรยาน

การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.สายนาถ มิริยาลา เป็นผู้จัดการบัญชีทางเทคนิคอาวุโสที่ AWS ซึ่งทำงานให้กับลูกค้ายานยนต์ในสหรัฐอเมริกา Sainath มีความหลงใหลในการออกแบบและสร้างแอปพลิเคชันแบบกระจายขนาดใหญ่โดยใช้ AI/ML ในเวลาว่าง Sainath ใช้เวลากับครอบครัวและเพื่อนฝูง

การระบุและการหลีกเลี่ยงปัญหาข้อมูลทั่วไปในขณะที่สร้างโมเดล ML โดยไม่ต้องใช้โค้ดด้วย Amazon SageMaker Canvas PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.เจมส์ หวู่ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้าน AI/ML อาวุโสที่ AWS ช่วยลูกค้าออกแบบและสร้างโซลูชัน AI/ML งานของ James ครอบคลุมกรณีการใช้งาน ML ที่หลากหลาย โดยมีความสนใจหลักในด้านการมองเห็นคอมพิวเตอร์ การเรียนรู้เชิงลึก และการปรับขนาด ML ทั่วทั้งองค์กร ก่อนที่จะร่วมงานกับ AWS เจมส์เคยเป็นสถาปนิก นักพัฒนา และผู้นำด้านเทคโนโลยีมานานกว่า 10 ปี รวมถึง 6 ปีในด้านวิศวกรรมและ 4 ปีในอุตสาหกรรมการตลาดและการโฆษณา

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS

สร้างโซลูชัน IDP ที่มีสถาปัตยกรรมอย่างดีด้วยเลนส์แบบกำหนดเอง – ส่วนที่ 4: ประสิทธิภาพด้านประสิทธิภาพ | อเมซอนเว็บเซอร์วิส

โหนดต้นทาง: 1917726
ประทับเวลา: พฤศจิกายน 22, 2023