สร้างข้อมูลคุณภาพสูงสำหรับโมเดล ML ด้วย Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สร้างข้อมูลคุณภาพสูงสำหรับโมเดล ML ด้วย Amazon SageMaker Ground Truth

แมชชีนเลิร์นนิง (ML) ได้ปรับปรุงธุรกิจข้ามอุตสาหกรรมในช่วงไม่กี่ปีที่ผ่านมา—จากระบบคำแนะนำใน .ของคุณ Prime Video บัญชี เพื่อสรุปเอกสารและค้นหาอย่างมีประสิทธิภาพด้วย Alexaความช่วยเหลือด้วยเสียง อย่างไรก็ตาม คำถามยังคงอยู่เกี่ยวกับวิธีการรวมเทคโนโลยีนี้เข้ากับธุรกิจของคุณ ML ต่างจากวิธีการที่ใช้กฎแบบเดิม ML จะอนุมานรูปแบบจากข้อมูลโดยอัตโนมัติเพื่อทำงานที่คุณสนใจ แม้ว่าสิ่งนี้จะข้ามความจำเป็นในการดูแลกฎสำหรับการทำงานอัตโนมัติ แต่ก็หมายความว่าโมเดล ML สามารถทำได้ดีพอๆ กับข้อมูลที่ได้รับการฝึกอบรมเท่านั้น อย่างไรก็ตาม การสร้างข้อมูลมักเป็นงานที่ท้าทาย ที่ ห้องปฏิบัติการโซลูชันแมชชีนเลิร์นนิงของ Amazonเราพบปัญหานี้ซ้ำแล้วซ้ำเล่าและต้องการทำให้การเดินทางครั้งนี้ง่ายขึ้นสำหรับลูกค้าของเรา หากคุณต้องการปิดกระบวนการนี้ คุณสามารถใช้ Amazon SageMaker Ground Truth Plus.

ในตอนท้ายของโพสต์นี้ คุณจะสามารถบรรลุสิ่งต่อไปนี้:

  • ทำความเข้าใจกับกระบวนการทางธุรกิจที่เกี่ยวข้องกับการตั้งค่าไปป์ไลน์การรับข้อมูล
  • ระบุบริการ AWS Cloud สำหรับการสนับสนุนและเร่งไปป์ไลน์การติดฉลากข้อมูลของคุณ
  • เรียกใช้งานการเก็บข้อมูลและการติดฉลากสำหรับกรณีการใช้งานที่กำหนดเอง
  • สร้างข้อมูลคุณภาพสูงตามแนวทางปฏิบัติที่ดีที่สุดสำหรับธุรกิจและทางเทคนิค

ตลอดโพสต์นี้ เรามุ่งเน้นที่กระบวนการสร้างข้อมูลและพึ่งพาบริการของ AWS เพื่อจัดการโครงสร้างพื้นฐานและส่วนประกอบกระบวนการ กล่าวคือ เราใช้ ความจริงของ Amazon SageMaker เพื่อจัดการไปป์ไลน์โครงสร้างพื้นฐานการติดฉลากและส่วนต่อประสานผู้ใช้ บริการนี้ใช้แนวทางแบบจุดแล้วไปเพื่อรวบรวมข้อมูลของคุณจาก บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) และตั้งค่าเวิร์กโฟลว์การติดฉลาก สำหรับการติดฉลาก จะช่วยให้คุณมีความยืดหยุ่นในตัวในการรับป้ายชื่อข้อมูลโดยใช้ทีมส่วนตัวของคุณ an อังคารเครื่องกลเติร์ก บังคับหรือผู้จำหน่ายฉลากที่คุณต้องการจาก AWS Marketplace. สุดท้ายคุณสามารถใช้ AWS แลมบ์ดา และ โน้ตบุ๊ค Amazon SageMaker เพื่อประมวลผล แสดงภาพ หรือควบคุมคุณภาพข้อมูล ไม่ว่าจะเป็นการติดฉลากก่อนหรือหลังการติดฉลาก

เมื่อวางชิ้นส่วนทั้งหมดแล้ว เรามาเริ่มกระบวนการกันเลย!

กระบวนการสร้างข้อมูล

ตรงกันข้ามกับสัญชาตญาณทั่วไป ขั้นตอนแรกสำหรับการสร้างข้อมูลไม่ใช่การเก็บรวบรวมข้อมูล การทำงานย้อนกลับจากผู้ใช้เพื่อระบุปัญหาเป็นสิ่งสำคัญ ตัวอย่างเช่น ผู้ใช้สนใจอะไรในอาร์ติแฟกต์สุดท้าย ผู้เชี่ยวชาญเชื่อว่าสัญญาณที่เกี่ยวข้องกับกรณีการใช้งานอยู่ที่ใดในข้อมูล ข้อมูลใดบ้างเกี่ยวกับสภาวะแวดล้อมกรณีการใช้งานที่สามารถจัดเตรียมให้กับโมเดลได้? หากคุณไม่ทราบคำตอบสำหรับคำถามเหล่านั้น ไม่ต้องกังวล ให้เวลากับตัวเองบ้างในการพูดคุยกับผู้ใช้และผู้เชี่ยวชาญภาคสนามเพื่อทำความเข้าใจความแตกต่าง ความเข้าใจเบื้องต้นนี้จะนำคุณไปสู่ทิศทางที่ถูกต้องและเตรียมคุณให้พร้อมสำหรับความสำเร็จ

สำหรับโพสต์นี้ เราถือว่าคุณได้ครอบคลุมขั้นตอนเริ่มต้นของข้อกำหนดข้อกำหนดของผู้ใช้แล้ว สามส่วนถัดไปจะอธิบายขั้นตอนการสร้างข้อมูลคุณภาพที่ตามมา: การวางแผน การสร้างข้อมูลต้นทาง และคำอธิบายประกอบข้อมูล การวนลูปนำร่องที่ขั้นตอนการสร้างข้อมูลและคำอธิบายประกอบมีความสำคัญต่อการสร้างความมั่นใจว่าการสร้างข้อมูลที่ติดฉลากอย่างมีประสิทธิภาพ สิ่งนี้เกี่ยวข้องกับการทำซ้ำระหว่างการสร้างข้อมูล การใส่คำอธิบายประกอบ การประกันคุณภาพ และการอัปเดตไปป์ไลน์ตามความจำเป็น

รูปภาพต่อไปนี้แสดงภาพรวมของขั้นตอนที่จำเป็นในไปป์ไลน์การสร้างข้อมูลทั่วไป คุณสามารถย้อนกลับจากกรณีการใช้งานเพื่อระบุข้อมูลที่คุณต้องการ (ข้อกำหนดข้อกำหนด) สร้างกระบวนการเพื่อรับข้อมูล (การวางแผน) ใช้กระบวนการเก็บข้อมูลจริง (การรวบรวมข้อมูลและคำอธิบายประกอบ) และประเมินผลลัพธ์ การดำเนินการนำร่องที่เน้นด้วยเส้นประ ช่วยให้คุณทำซ้ำในกระบวนการจนกว่าจะมีการพัฒนาไปป์ไลน์การรับข้อมูลคุณภาพสูง

ภาพรวมของขั้นตอนที่จำเป็นในไปป์ไลน์การสร้างข้อมูลทั่วไป

การวางแผน

กระบวนการสร้างข้อมูลมาตรฐานอาจใช้เวลานานและสิ้นเปลืองทรัพยากรบุคคลอันมีค่าหากดำเนินการอย่างไม่มีประสิทธิภาพ จะใช้เวลานานทำไม? เพื่อตอบคำถามนี้ เราต้องเข้าใจขอบเขตของกระบวนการสร้างข้อมูล เพื่อช่วยเหลือคุณ เราได้รวบรวมรายการตรวจสอบระดับสูงและคำอธิบายขององค์ประกอบหลักและผู้มีส่วนได้ส่วนเสียที่คุณต้องพิจารณา การตอบคำถามเหล่านี้อาจเป็นเรื่องยากในตอนแรก ขึ้นอยู่กับกรณีการใช้งานของคุณ อาจมีเพียงบางส่วนเท่านั้น

  • ระบุจุดติดต่อทางกฎหมายสำหรับการอนุมัติที่จำเป็น – การใช้ข้อมูลสำหรับแอปพลิเคชันของคุณอาจต้องได้รับใบอนุญาตหรือการตรวจสอบสัญญาของผู้ขายเพื่อให้แน่ใจว่าสอดคล้องกับนโยบายของบริษัทและกรณีการใช้งาน สิ่งสำคัญคือต้องระบุการสนับสนุนทางกฎหมายของคุณตลอดขั้นตอนการเก็บข้อมูลและคำอธิบายประกอบของกระบวนการ
  • ระบุจุดรักษาความปลอดภัยของผู้ติดต่อสำหรับการจัดการข้อมูล –การรั่วไหลของข้อมูลที่ซื้ออาจส่งผลให้บริษัทของคุณต้องเสียค่าปรับและผลกระทบร้ายแรง สิ่งสำคัญคือต้องระบุการสนับสนุนด้านความปลอดภัยของคุณตลอดขั้นตอนการรับข้อมูลและคำอธิบายประกอบเพื่อให้แน่ใจว่ามีแนวทางปฏิบัติที่ปลอดภัย
  • รายละเอียดข้อกำหนดกรณีการใช้งานและกำหนดข้อมูลต้นทางและแนวทางคำอธิบายประกอบ – การสร้างและใส่คำอธิบายประกอบข้อมูลเป็นเรื่องยากเนื่องจากต้องใช้ความจำเพาะสูง ผู้มีส่วนได้ส่วนเสีย ซึ่งรวมถึงผู้จัดทำข้อมูลและผู้จัดทำหมายเหตุประกอบต้องได้รับการจัดตำแหน่งให้สมบูรณ์เพื่อหลีกเลี่ยงการสิ้นเปลืองทรัพยากร ด้วยเหตุนี้ จึงเป็นเรื่องปกติที่จะใช้เอกสารแนวทางที่ระบุทุกแง่มุมของงานคำอธิบายประกอบ: คำแนะนำที่แน่นอน กรณีของขอบ ตัวอย่างการอธิบาย และอื่นๆ
  • สอดคล้องกับความคาดหวังในการเก็บรวบรวมข้อมูลต้นทางของคุณ - พิจารณาสิ่งต่อไปนี้:
    • ดำเนินการวิจัยเกี่ยวกับแหล่งข้อมูลที่เป็นไปได้ – ตัวอย่างเช่น ชุดข้อมูลสาธารณะ ชุดข้อมูลที่มีอยู่จากทีมภายในอื่นๆ ข้อมูลที่รวบรวมเอง หรือข้อมูลที่ซื้อจากผู้ขาย
    • ดำเนินการประเมินคุณภาพ – สร้างไปป์ไลน์การวิเคราะห์ที่เกี่ยวข้องกับกรณีการใช้งานขั้นสุดท้าย
  • สอดคล้องกับความคาดหวังในการสร้างคำอธิบายประกอบข้อมูล - พิจารณาสิ่งต่อไปนี้:
    • ระบุผู้มีส่วนได้ส่วนเสียด้านเทคนิค – โดยปกติแล้วจะเป็นบุคคลหรือทีมในบริษัทของคุณที่สามารถใช้เอกสารทางเทคนิคเกี่ยวกับ Ground Truth เพื่อนำไปป์ไลน์คำอธิบายประกอบไปใช้ ผู้มีส่วนได้ส่วนเสียเหล่านี้มีหน้าที่รับผิดชอบในการประเมินคุณภาพของข้อมูลที่ใส่คำอธิบายประกอบ เพื่อให้แน่ใจว่าตรงตามความต้องการของแอปพลิเคชัน ML ดาวน์สตรีมของคุณ
    • ระบุคำอธิบายประกอบข้อมูล – บุคคลเหล่านี้ใช้คำแนะนำที่กำหนดไว้ล่วงหน้าเพื่อเพิ่มป้ายกำกับให้กับแหล่งข้อมูลของคุณใน Ground Truth พวกเขาอาจจำเป็นต้องมีความรู้เกี่ยวกับโดเมน ทั้งนี้ขึ้นอยู่กับกรณีการใช้งานและแนวทางคำอธิบายประกอบของคุณ คุณสามารถใช้พนักงานภายในบริษัทของคุณ หรือจ่ายเงินสำหรับa พนักงานที่จัดการโดยผู้ขายภายนอก.
  • ควบคุมดูแลกระบวนการสร้างข้อมูล – ดังที่คุณเห็นจากจุดก่อนหน้านี้ การสร้างข้อมูลเป็นกระบวนการที่มีรายละเอียดซึ่งเกี่ยวข้องกับผู้มีส่วนได้ส่วนเสียที่เชี่ยวชาญจำนวนมาก ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องเฝ้าติดตามตั้งแต่ต้นจนจบเพื่อให้ได้ผลลัพธ์ที่ต้องการ การมีบุคคลหรือทีมงานที่ทุ่มเทดูแลกระบวนการสามารถช่วยให้คุณมั่นใจได้ถึงกระบวนการสร้างข้อมูลที่มีความสอดคล้องและมีประสิทธิภาพ

ขึ้นอยู่กับเส้นทางที่คุณตัดสินใจใช้ คุณต้องพิจารณาสิ่งต่อไปนี้ด้วย:

  • สร้างชุดข้อมูลต้นทาง – นี่หมายถึงกรณีที่ข้อมูลที่มีอยู่ไม่เหมาะกับงานที่ทำอยู่ หรือข้อจำกัดทางกฎหมายทำให้คุณไม่สามารถใช้งานได้ ต้องใช้ทีมภายในหรือผู้ขายภายนอก (จุดถัดไป) กรณีนี้มักเป็นกรณีสำหรับโดเมนที่มีความเชี่ยวชาญสูงหรือพื้นที่ที่มีการวิจัยสาธารณะต่ำ ตัวอย่างเช่น คำถามทั่วไปของแพทย์ การจัดวางเสื้อผ้า หรือผู้เชี่ยวชาญด้านกีฬา สามารถเป็นภายในหรือภายนอก
  • วิจัยผู้จำหน่ายและดำเนินการกระบวนการออนบอร์ด – เมื่อใช้ผู้จัดจำหน่ายภายนอก ต้องมีการตั้งค่ากระบวนการทำสัญญาและการเริ่มต้นใช้งานระหว่างทั้งสองหน่วยงาน

ในส่วนนี้ เราได้ทบทวนองค์ประกอบและผู้มีส่วนได้ส่วนเสียที่เราต้องพิจารณา อย่างไรก็ตาม กระบวนการจริงมีลักษณะอย่างไร ในรูปต่อไปนี้ เราร่างเวิร์กโฟลว์กระบวนการสำหรับการสร้างข้อมูลและคำอธิบายประกอบ วิธีการวนซ้ำใช้ชุดข้อมูลขนาดเล็กที่เรียกว่านักบินเพื่อลดเวลาตอบสนอง ตรวจหาข้อผิดพลาดตั้งแต่เนิ่นๆ และหลีกเลี่ยงการสิ้นเปลืองทรัพยากรในการสร้างข้อมูลคุณภาพต่ำ เราจะอธิบายรอบนำร่องเหล่านี้ในภายหลังในโพสต์นี้ เรายังครอบคลุมแนวทางปฏิบัติที่ดีที่สุดบางประการสำหรับการสร้างข้อมูล การใส่คำอธิบายประกอบ และการควบคุมคุณภาพ

รูปต่อไปนี้แสดงให้เห็นการพัฒนาซ้ำๆ ของไปป์ไลน์การสร้างข้อมูล ในแนวตั้ง เราจะพบบล็อกการจัดหาข้อมูล (สีเขียว) และบล็อกคำอธิบายประกอบ (สีน้ำเงิน) บล็อกทั้งสองมีรอบนำร่องที่เป็นอิสระ (การสร้างข้อมูล/คำอธิบายประกอบ, QAQC และอัปเดต) มีการสร้างข้อมูลที่มาจากแหล่งที่มาที่สูงขึ้นเรื่อยๆ และสามารถใช้เพื่อสร้างคำอธิบายประกอบคุณภาพสูงขึ้นเรื่อยๆ

ในระหว่างการพัฒนาซ้ำๆ ของการสร้างข้อมูลหรือไปป์ไลน์การทำหมายเหตุประกอบ ข้อมูลกลุ่มเล็กๆ จะถูกใช้สำหรับนักบินอิสระ แต่ละรอบนำร่องมีขั้นตอนการสร้างข้อมูลหรือคำอธิบายประกอบ การประกันคุณภาพและการควบคุมคุณภาพของผลลัพธ์ และขั้นตอนการอัปเดตเพื่อปรับแต่งกระบวนการ หลังจากที่กระบวนการเหล่านี้ได้รับการขัดเกลาผ่านโครงการนำร่องที่ต่อเนื่องกัน คุณสามารถดำเนินการสร้างข้อมูลขนาดใหญ่และใส่คำอธิบายประกอบได้

ภาพรวมของการพัฒนาซ้ำในไปป์ไลน์การสร้างข้อมูล

การสร้างแหล่งข้อมูล

กระบวนการสร้างอินพุตเกี่ยวข้องกับการจัดวางรายการที่คุณสนใจ ซึ่งขึ้นอยู่กับประเภทงานของคุณ สิ่งเหล่านี้อาจเป็นรูปภาพ (การสแกนในหนังสือพิมพ์) วิดีโอ (ฉากการจราจร) 3D point clouds (การสแกนทางการแพทย์) หรือเพียงแค่ข้อความ (แทร็กคำบรรยาย การถอดเสียงเป็นคำ) โดยทั่วไป เมื่อจัดเตรียมรายการที่เกี่ยวข้องกับงานของคุณ ให้ตรวจสอบสิ่งต่อไปนี้:

  • สะท้อนกรณีการใช้งานจริงสำหรับระบบ AI/ML ในที่สุด – การตั้งค่าการรวบรวมภาพหรือวิดีโอสำหรับข้อมูลการฝึกควรตรงกับการตั้งค่าข้อมูลที่ป้อนในแอปพลิเคชันจริง ซึ่งหมายความว่ามีพื้นผิวการจัดวาง แหล่งกำเนิดแสง หรือมุมกล้องที่สอดคล้องกัน
  • พิจารณาและลดแหล่งที่มาของความแปรปรวนให้เหลือน้อยที่สุด - พิจารณาสิ่งต่อไปนี้:
    • พัฒนาแนวทางปฏิบัติที่ดีที่สุดในการรักษามาตรฐานการเก็บรวบรวมข้อมูล – ขึ้นอยู่กับความละเอียดของกรณีการใช้งานของคุณ คุณอาจต้องระบุข้อกำหนดเพื่อรับประกันความสอดคล้องระหว่างจุดข้อมูลของคุณ ตัวอย่างเช่น หากคุณกำลังรวบรวมข้อมูลรูปภาพหรือวิดีโอจากจุดกล้องเดี่ยว คุณอาจต้องตรวจสอบให้แน่ใจว่าวัตถุที่คุณสนใจอยู่ในตำแหน่งที่สอดคล้องกัน หรือต้องตรวจสอบคุณภาพของกล้องก่อนที่จะทำการบันทึกข้อมูล วิธีนี้ช่วยหลีกเลี่ยงปัญหาต่างๆ เช่น การเอียงหรือเบลอของกล้อง และลดโอเวอร์เฮดดาวน์สตรีม เช่น การนำรูปภาพที่ไม่อยู่ในกรอบหรือภาพเบลอออก ตลอดจนต้องจัดเฟรมรูปภาพให้อยู่ตรงกลางพื้นที่ที่คุณสนใจด้วยตนเอง
    • แหล่งที่มาของความแปรปรวนของเวลาทดสอบที่จองไว้ล่วงหน้า – หากคุณคาดหวังความแปรปรวนในแอตทริบิวต์ใด ๆ ที่กล่าวถึงในช่วงเวลาทดสอบ ตรวจสอบให้แน่ใจว่าคุณสามารถรวบรวมแหล่งที่มาของความแปรปรวนเหล่านั้นได้ในระหว่างการสร้างข้อมูลการฝึกอบรม ตัวอย่างเช่น หากคุณคาดว่าแอปพลิเคชัน ML ของคุณจะทำงานในการตั้งค่าแสงที่แตกต่างกันหลายแบบ คุณควรตั้งเป้าที่จะสร้างภาพและวิดีโอการฝึกด้วยการตั้งค่าแสงต่างๆ ทั้งนี้ขึ้นอยู่กับกรณีการใช้งาน ความแปรปรวนในการวางตำแหน่งกล้องอาจส่งผลต่อคุณภาพของฉลากของคุณ
  • รวมความรู้โดเมนก่อนหน้านี้เมื่อมีให้ - พิจารณาสิ่งต่อไปนี้:
    • อินพุตแหล่งที่มาของข้อผิดพลาด – ผู้ปฏิบัติงานโดเมนสามารถให้ข้อมูลเชิงลึกเกี่ยวกับแหล่งที่มาของข้อผิดพลาดตามประสบการณ์หลายปีของพวกเขา พวกเขาสามารถให้ข้อเสนอแนะเกี่ยวกับแนวทางปฏิบัติที่ดีที่สุดสำหรับสองประเด็นก่อนหน้า: การตั้งค่าใดที่สะท้อนถึงกรณีการใช้งานจริงได้ดีที่สุด อะไรคือแหล่งที่มาของความแปรปรวนระหว่างการรวบรวมข้อมูลหรือเมื่อใช้งาน?
    • แนวทางปฏิบัติที่ดีที่สุดสำหรับการรวบรวมข้อมูลเฉพาะโดเมน – แม้ว่าผู้มีส่วนได้ส่วนเสียด้านเทคนิคของคุณอาจมีความคิดที่ดีเกี่ยวกับแง่มุมทางเทคนิคที่จะมุ่งเน้นในรูปภาพหรือวิดีโอที่รวบรวมไว้ แต่ผู้ปฏิบัติงานโดเมนสามารถให้ข้อเสนอแนะเกี่ยวกับวิธีที่ดีที่สุดในการจัดเวทีหรือรวบรวมข้อมูลเพื่อให้ตรงกับความต้องการเหล่านี้

การควบคุมคุณภาพและการประกันคุณภาพของข้อมูลที่สร้างขึ้น

ในตอนนี้ คุณได้ตั้งค่าไปป์ไลน์การรวบรวมข้อมูลแล้ว คุณอาจต้องการดำเนินการต่อและรวบรวมข้อมูลให้ได้มากที่สุด รอสักครู่! เราต้องตรวจสอบก่อนว่าข้อมูลที่รวบรวมผ่านการตั้งค่านั้นเหมาะสมกับกรณีการใช้งานจริงของคุณหรือไม่ เราสามารถใช้ตัวอย่างเริ่มต้นและปรับปรุงการตั้งค่าซ้ำๆ ผ่านข้อมูลเชิงลึกที่เราได้รับจากการวิเคราะห์ข้อมูลตัวอย่างนั้น ทำงานอย่างใกล้ชิดกับผู้มีส่วนได้ส่วนเสียด้านเทคนิค ธุรกิจ และคำอธิบายประกอบของคุณในระหว่างกระบวนการนำร่อง สิ่งนี้จะทำให้แน่ใจว่าไปป์ไลน์ผลลัพธ์ของคุณตอบสนองความต้องการทางธุรกิจในขณะที่สร้างข้อมูลที่มีป้ายกำกับพร้อม ML ภายในค่าใช้จ่ายที่น้อยที่สุด

คำอธิบายประกอบ

คำอธิบายประกอบของอินพุตเป็นที่ที่เราเพิ่มความมหัศจรรย์ให้กับข้อมูลของเรา นั่นคือป้ายกำกับ! ขึ้นอยู่กับประเภทงานและกระบวนการสร้างข้อมูลของคุณ คุณอาจต้องใส่คำอธิบายประกอบด้วยตนเอง หรือคุณสามารถใช้วิธีการอัตโนมัติที่พร้อมใช้งานได้ทันที ไปป์ไลน์การทำหมายเหตุประกอบข้อมูลอาจเป็นงานที่ท้าทายทางเทคนิค Ground Truth ทำให้การเดินทางครั้งนี้ง่ายขึ้นสำหรับผู้มีส่วนได้ส่วนเสียด้านเทคนิคของคุณด้วย ละครในตัวของเวิร์กโฟลว์การติดฉลากสำหรับแหล่งข้อมูลทั่วไป. ด้วยขั้นตอนเพิ่มเติมไม่กี่ขั้นตอน มันยังช่วยให้คุณสร้าง เวิร์กโฟลว์การติดฉลากแบบกำหนดเอง นอกเหนือจากตัวเลือกที่กำหนดไว้ล่วงหน้า

ถามคำถามต่อไปนี้กับตัวเองเมื่อพัฒนาเวิร์กโฟลว์คำอธิบายประกอบที่เหมาะสม:

  • ฉันจำเป็นต้องมีกระบวนการใส่คำอธิบายประกอบด้วยตนเองสำหรับข้อมูลของฉันหรือไม่ ในบางกรณี บริการการติดฉลากอัตโนมัติอาจเพียงพอสำหรับงานที่ทำอยู่ การตรวจสอบเอกสารและเครื่องมือที่มีอยู่สามารถช่วยให้คุณระบุได้ว่าการใส่คำอธิบายประกอบด้วยตนเองมีความจำเป็นสำหรับกรณีการใช้งานของคุณหรือไม่ (สำหรับข้อมูลเพิ่มเติม โปรดดูที่ การติดฉลากข้อมูลคืออะไร?). กระบวนการสร้างข้อมูลสามารถอนุญาตให้มีการควบคุมในระดับต่างๆ เกี่ยวกับความละเอียดของคำอธิบายประกอบข้อมูลของคุณ ทั้งนี้ขึ้นอยู่กับกระบวนการนี้ บางครั้งคุณยังสามารถข้ามความจำเป็นในการใส่คำอธิบายประกอบด้วยตนเองได้ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ สร้างชุดข้อมูล Q&A แบบกำหนดเองโดยใช้ Amazon SageMaker Ground Truth เพื่อฝึกโมเดล Hugging Face Q&A NLU.
  • อะไรคือความจริงพื้นฐานของฉัน? ในกรณีส่วนใหญ่ ความจริงพื้นฐานจะมาจากกระบวนการบันทึกย่อของคุณ นั่นคือประเด็นทั้งหมด! ในส่วนอื่นๆ ผู้ใช้อาจมีสิทธิ์เข้าถึงป้ายกำกับความจริงพื้นฐาน สิ่งนี้สามารถเร่งกระบวนการประกันคุณภาพของคุณได้อย่างมาก หรือลดค่าใช้จ่ายที่จำเป็นสำหรับการทำหมายเหตุประกอบด้วยตนเองหลายรายการ
  • ขอบเขตบนของจำนวนการเบี่ยงเบนจากสถานะความจริงพื้นฐานของฉันคือเท่าใด ทำงานร่วมกับผู้ใช้ปลายทางของคุณเพื่อทำความเข้าใจข้อผิดพลาดทั่วไปเกี่ยวกับป้ายกำกับเหล่านี้ แหล่งที่มาของข้อผิดพลาดดังกล่าว และการลดข้อผิดพลาดที่ต้องการ ซึ่งจะช่วยให้คุณระบุได้ว่างานการติดฉลากด้านใดที่ท้าทายที่สุดหรือมีแนวโน้มที่จะมีข้อผิดพลาดของคำอธิบายประกอบ
  • มีกฎที่มีอยู่ก่อนแล้วโดยผู้ใช้หรือผู้ปฏิบัติงานภาคสนามเพื่อติดป้ายกำกับรายการเหล่านี้หรือไม่ ใช้และปรับแต่งหลักเกณฑ์เหล่านี้เพื่อสร้างชุดคำสั่งสำหรับผู้ใส่คำอธิบายประกอบด้วยตนเอง

การนำกระบวนการใส่คำอธิบายประกอบการป้อนข้อมูล

เมื่อนำร่องกระบวนการใส่คำอธิบายประกอบ ให้พิจารณาสิ่งต่อไปนี้:

  • ตรวจสอบคำแนะนำกับผู้ใส่คำอธิบายประกอบและผู้ปฏิบัติงานภาคสนาม - คำแนะนำควรกระชับและเฉพาะเจาะจง ขอความคิดเห็นจากผู้ใช้ของคุณ (คำแนะนำถูกต้องหรือไม่ เราสามารถแก้ไขคำแนะนำใด ๆ เพื่อให้แน่ใจว่าผู้ปฏิบัติงานที่ไม่ใช่ภาคสนามเข้าใจพวกเขาได้หรือไม่) และผู้ทำหมายเหตุประกอบ (ทุกอย่างชัดเจนหรือไม่ งานมีความชัดเจนหรือไม่) หากเป็นไปได้ ให้เพิ่มตัวอย่างข้อมูลที่มีป้ายกำกับที่ดีและไม่ดีเพื่อช่วยให้ผู้ใส่คำอธิบายประกอบระบุสิ่งที่คาดหวังได้ และข้อผิดพลาดในการติดป้ายกำกับทั่วไปที่อาจมีหน้าตาเป็นอย่างไร
  • รวบรวมข้อมูลสำหรับคำอธิบายประกอบ – ตรวจสอบข้อมูลกับลูกค้าของคุณเพื่อให้แน่ใจว่าเป็นไปตามมาตรฐานที่คาดไว้ และเพื่อให้สอดคล้องกับผลลัพธ์ที่คาดหวังจากคำอธิบายประกอบแบบแมนนวล
  • จัดเตรียมตัวอย่างให้กับกลุ่มผู้ใส่คำอธิบายประกอบด้วยตนเองในการทดสอบการทำงาน – อะไรคือความแปรปรวนทั่วไปของคำอธิบายประกอบในชุดตัวอย่างนี้ ศึกษาความแปรปรวนของคำอธิบายประกอบแต่ละรายการในรูปภาพที่กำหนดเพื่อระบุแนวโน้มความสอดคล้องระหว่างผู้ใส่คำอธิบายประกอบ จากนั้นเปรียบเทียบความแปรปรวนของรูปภาพหรือเฟรมวิดีโอเพื่อระบุว่าป้ายกำกับใดยากต่อการวาง

การควบคุมคุณภาพของคำอธิบายประกอบ

การควบคุมคุณภาพคำอธิบายประกอบมีสององค์ประกอบหลัก: การประเมินความสอดคล้องระหว่างผู้ใส่คำอธิบายประกอบ และการประเมินคุณภาพของคำอธิบายประกอบเอง

คุณสามารถกำหนดคำอธิบายประกอบหลายรายการให้กับงานเดียวกันได้ (เช่น ผู้ทำหมายเหตุประกอบสามคนระบุจุดสำคัญบนรูปภาพเดียวกัน) และวัดค่าเฉลี่ยควบคู่ไปกับค่าเบี่ยงเบนมาตรฐานของป้ายกำกับเหล่านี้จากผู้ทำหมายเหตุประกอบ การทำเช่นนี้ช่วยให้คุณระบุคำอธิบายประกอบที่ผิดปกติได้ (ใช้ป้ายกำกับไม่ถูกต้อง หรือติดป้ายกำกับให้ห่างจากคำอธิบายประกอบทั่วไป) ซึ่งสามารถชี้นำผลลัพธ์ที่นำไปดำเนินการได้ เช่น ปรับแต่งคำสั่งของคุณหรือให้การฝึกอบรมเพิ่มเติมแก่ผู้ใส่คำอธิบายประกอบบางราย

การประเมินคุณภาพของคำอธิบายประกอบเองนั้นเชื่อมโยงกับความแปรปรวนของคำอธิบายประกอบและ (หากมี) ความพร้อมใช้งานของผู้เชี่ยวชาญโดเมนหรือข้อมูลความจริงเบื้องต้น มีป้ายกำกับบางอย่าง (ในรูปภาพทั้งหมดของคุณ) ที่ค่าความแปรปรวนเฉลี่ยระหว่างตัวสร้างคำอธิบายประกอบสูงอย่างสม่ำเสมอหรือไม่ มีป้ายกำกับใดที่ห่างไกลจากความคาดหวังของคุณว่าควรอยู่ที่ใด หรือควรมีลักษณะอย่างไร

จากประสบการณ์ของเรา ลูปควบคุมคุณภาพทั่วไปสำหรับคำอธิบายประกอบข้อมูลสามารถมีลักษณะดังนี้:

  • ทำซ้ำตามคำแนะนำหรือการแสดงภาพตามผลลัพธ์จากการทดสอบการทำงาน – มีสิ่งกีดขวางหรือไม่ หรือการแสดงภาพไม่ตรงกับความคาดหวังของผู้ใส่คำอธิบายประกอบหรือผู้ใช้ คำแนะนำทำให้เข้าใจผิดหรือคุณพลาดป้ายกำกับหรือข้อผิดพลาดทั่วไปในภาพตัวอย่างของคุณหรือไม่ คุณปรับแต่งคำแนะนำสำหรับผู้ใส่คำอธิบายประกอบได้หรือไม่
  • หากคุณพอใจว่าได้แก้ไขปัญหาใดๆ จากการทดสอบแล้ว ให้ทำชุดคำอธิบายประกอบ – สำหรับการทดสอบผลลัพธ์จากชุดงาน ให้ปฏิบัติตามแนวทางการประเมินคุณภาพเดียวกันในการประเมินความผันแปรของป้ายกำกับระหว่างคำอธิบายประกอบและป้ายกำกับระหว่างรูปภาพ

สรุป

โพสต์นี้ทำหน้าที่เป็นแนวทางสำหรับผู้มีส่วนได้ส่วนเสียทางธุรกิจเพื่อทำความเข้าใจความซับซ้อนของการสร้างข้อมูลสำหรับแอปพลิเคชัน AI/ML กระบวนการที่อธิบายไว้ยังทำหน้าที่เป็นแนวทางสำหรับผู้ปฏิบัติงานด้านเทคนิคในการสร้างข้อมูลคุณภาพในขณะที่ปรับข้อจำกัดทางธุรกิจ เช่น บุคลากรและต้นทุนให้เหมาะสม หากดำเนินการได้ไม่ดี ไปป์ไลน์การสร้างข้อมูลและการติดฉลากอาจใช้เวลานานถึง 4-6 เดือน

ด้วยแนวทางและคำแนะนำที่สรุปไว้ในโพสต์นี้ คุณสามารถยึดสิ่งกีดขวางบนถนน ลดเวลาที่จะทำให้เสร็จ และลดค่าใช้จ่ายในการเดินทางสู่การสร้างข้อมูลคุณภาพสูง


เกี่ยวกับผู้แต่ง

สร้างข้อมูลคุณภาพสูงสำหรับโมเดล ML ด้วย Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.จัสลีน กรีวาล เป็นนักวิทยาศาสตร์ประยุกต์ที่ Amazon Web Services ซึ่งเธอทำงานร่วมกับลูกค้าของ AWS เพื่อแก้ปัญหาในโลกแห่งความเป็นจริงโดยใช้การเรียนรู้ของเครื่อง โดยมุ่งเน้นที่ยาที่แม่นยำและจีโนมเป็นพิเศษ เธอมีพื้นฐานที่แข็งแกร่งในด้านชีวสารสนเทศ เนื้องอก และจีโนมทางคลินิก เธอหลงใหลในการใช้บริการ AI/ML และบริการคลาวด์เพื่อปรับปรุงการดูแลผู้ป่วย

สร้างข้อมูลคุณภาพสูงสำหรับโมเดล ML ด้วย Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.บอริส อารอนชิก เป็นผู้จัดการใน Amazon AI Machine Learning Solutions Lab ซึ่งเขาเป็นผู้นำทีมนักวิทยาศาสตร์และวิศวกร ML เพื่อช่วยให้ลูกค้า AWS บรรลุเป้าหมายทางธุรกิจโดยใช้โซลูชัน AI/ML

สร้างข้อมูลคุณภาพสูงสำหรับโมเดล ML ด้วย Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.มิเกล โรเมโร คัลโว เป็นนักวิทยาศาสตร์ประยุกต์ที่ ห้องปฏิบัติการโซลูชัน Amazon ML ที่ซึ่งเขาเป็นพันธมิตรกับทีมภายในของ AWS และลูกค้าเชิงกลยุทธ์เพื่อเร่งธุรกิจของพวกเขาผ่าน ML และการนำระบบคลาวด์มาใช้

สร้างข้อมูลคุณภาพสูงสำหรับโมเดล ML ด้วย Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.หลิน ลี ชอง เป็นนักวิทยาศาสตร์อาวุโสและผู้จัดการของทีม Amazon ML Solutions Lab ที่ Amazon Web Services เธอทำงานร่วมกับลูกค้า AWS เชิงกลยุทธ์เพื่อสำรวจและใช้ปัญญาประดิษฐ์และแมชชีนเลิร์นนิงเพื่อค้นหาข้อมูลเชิงลึกใหม่ๆ และแก้ปัญหาที่ซับซ้อน

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS

สร้าง แชร์ ปรับใช้: วิธีที่นักวิเคราะห์ธุรกิจและนักวิทยาศาสตร์ข้อมูลบรรลุเวลาสู่ตลาดได้เร็วขึ้นโดยใช้ ML แบบไม่มีโค้ดและ Amazon SageMaker Canvas

โหนดต้นทาง: 1210859
ประทับเวลา: Mar 10, 2022