สร้างข้อมูลคุณภาพสูงสำหรับโมเดล ML ด้วย Amazon SageMaker Ground Truth

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

แมชชีนเลิร์นนิง (ML) ได้ปรับปรุงธุรกิจข้ามอุตสาหกรรมในช่วงไม่กี่ปีที่ผ่านมา—จากระบบคำแนะนำใน .ของคุณ Prime Video บัญชี เพื่อสรุปเอกสารและค้นหาอย่างมีประสิทธิภาพด้วย Alexaความช่วยเหลือด้วยเสียง อย่างไรก็ตาม คำถามยังคงอยู่เกี่ยวกับวิธีการรวมเทคโนโลยีนี้เข้ากับธุรกิจของคุณ ML ต่างจากวิธีการที่ใช้กฎแบบเดิม ML จะอนุมานรูปแบบจากข้อมูลโดยอัตโนมัติเพื่อทำงานที่คุณสนใจ แม้ว่าสิ่งนี้จะข้ามความจำเป็นในการดูแลกฎสำหรับการทำงานอัตโนมัติ แต่ก็หมายความว่าโมเดล ML สามารถทำได้ดีพอๆ กับข้อมูลที่ได้รับการฝึกอบรมเท่านั้น อย่างไรก็ตาม การสร้างข้อมูลมักเป็นงานที่ท้าทาย ที่ ห้องปฏิบัติการโซลูชันแมชชีนเลิร์นนิงของ Amazonเราพบปัญหานี้ซ้ำแล้วซ้ำเล่าและต้องการทำให้การเดินทางครั้งนี้ง่ายขึ้นสำหรับลูกค้าของเรา หากคุณต้องการปิดกระบวนการนี้ คุณสามารถใช้ Amazon SageMaker Ground Truth Plus.

ในตอนท้ายของโพสต์นี้ คุณจะสามารถบรรลุสิ่งต่อไปนี้:

ทำความเข้าใจกับกระบวนการทางธุรกิจที่เกี่ยวข้องกับการตั้งค่าไปป์ไลน์การรับข้อมูล
ระบุบริการ AWS Cloud สำหรับการสนับสนุนและเร่งไปป์ไลน์การติดฉลากข้อมูลของคุณ
เรียกใช้งานการเก็บข้อมูลและการติดฉลากสำหรับกรณีการใช้งานที่กำหนดเอง
สร้างข้อมูลคุณภาพสูงตามแนวทางปฏิบัติที่ดีที่สุดสำหรับธุรกิจและทางเทคนิค

ตลอดโพสต์นี้ เรามุ่งเน้นที่กระบวนการสร้างข้อมูลและพึ่งพาบริการของ AWS เพื่อจัดการโครงสร้างพื้นฐานและส่วนประกอบกระบวนการ กล่าวคือ เราใช้ ความจริงของ Amazon SageMaker เพื่อจัดการไปป์ไลน์โครงสร้างพื้นฐานการติดฉลากและส่วนต่อประสานผู้ใช้ บริการนี้ใช้แนวทางแบบจุดแล้วไปเพื่อรวบรวมข้อมูลของคุณจาก บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) และตั้งค่าเวิร์กโฟลว์การติดฉลาก สำหรับการติดฉลาก จะช่วยให้คุณมีความยืดหยุ่นในตัวในการรับป้ายชื่อข้อมูลโดยใช้ทีมส่วนตัวของคุณ an อังคารเครื่องกลเติร์ก บังคับหรือผู้จำหน่ายฉลากที่คุณต้องการจาก AWS Marketplace. สุดท้ายคุณสามารถใช้ AWS แลมบ์ดา และ โน้ตบุ๊ค Amazon SageMaker เพื่อประมวลผล แสดงภาพ หรือควบคุมคุณภาพข้อมูล ไม่ว่าจะเป็นการติดฉลากก่อนหรือหลังการติดฉลาก

เมื่อวางชิ้นส่วนทั้งหมดแล้ว เรามาเริ่มกระบวนการกันเลย!

กระบวนการสร้างข้อมูล

ตรงกันข้ามกับสัญชาตญาณทั่วไป ขั้นตอนแรกสำหรับการสร้างข้อมูลไม่ใช่การเก็บรวบรวมข้อมูล การทำงานย้อนกลับจากผู้ใช้เพื่อระบุปัญหาเป็นสิ่งสำคัญ ตัวอย่างเช่น ผู้ใช้สนใจอะไรในอาร์ติแฟกต์สุดท้าย ผู้เชี่ยวชาญเชื่อว่าสัญญาณที่เกี่ยวข้องกับกรณีการใช้งานอยู่ที่ใดในข้อมูล ข้อมูลใดบ้างเกี่ยวกับสภาวะแวดล้อมกรณีการใช้งานที่สามารถจัดเตรียมให้กับโมเดลได้? หากคุณไม่ทราบคำตอบสำหรับคำถามเหล่านั้น ไม่ต้องกังวล ให้เวลากับตัวเองบ้างในการพูดคุยกับผู้ใช้และผู้เชี่ยวชาญภาคสนามเพื่อทำความเข้าใจความแตกต่าง ความเข้าใจเบื้องต้นนี้จะนำคุณไปสู่ทิศทางที่ถูกต้องและเตรียมคุณให้พร้อมสำหรับความสำเร็จ

สำหรับโพสต์นี้ เราถือว่าคุณได้ครอบคลุมขั้นตอนเริ่มต้นของข้อกำหนดข้อกำหนดของผู้ใช้แล้ว สามส่วนถัดไปจะอธิบายขั้นตอนการสร้างข้อมูลคุณภาพที่ตามมา: การวางแผน การสร้างข้อมูลต้นทาง และคำอธิบายประกอบข้อมูล การวนลูปนำร่องที่ขั้นตอนการสร้างข้อมูลและคำอธิบายประกอบมีความสำคัญต่อการสร้างความมั่นใจว่าการสร้างข้อมูลที่ติดฉลากอย่างมีประสิทธิภาพ สิ่งนี้เกี่ยวข้องกับการทำซ้ำระหว่างการสร้างข้อมูล การใส่คำอธิบายประกอบ การประกันคุณภาพ และการอัปเดตไปป์ไลน์ตามความจำเป็น

รูปภาพต่อไปนี้แสดงภาพรวมของขั้นตอนที่จำเป็นในไปป์ไลน์การสร้างข้อมูลทั่วไป คุณสามารถย้อนกลับจากกรณีการใช้งานเพื่อระบุข้อมูลที่คุณต้องการ (ข้อกำหนดข้อกำหนด) สร้างกระบวนการเพื่อรับข้อมูล (การวางแผน) ใช้กระบวนการเก็บข้อมูลจริง (การรวบรวมข้อมูลและคำอธิบายประกอบ) และประเมินผลลัพธ์ การดำเนินการนำร่องที่เน้นด้วยเส้นประ ช่วยให้คุณทำซ้ำในกระบวนการจนกว่าจะมีการพัฒนาไปป์ไลน์การรับข้อมูลคุณภาพสูง

ภาพรวมของขั้นตอนที่จำเป็นในไปป์ไลน์การสร้างข้อมูลทั่วไป

การวางแผน

กระบวนการสร้างข้อมูลมาตรฐานอาจใช้เวลานานและสิ้นเปลืองทรัพยากรบุคคลอันมีค่าหากดำเนินการอย่างไม่มีประสิทธิภาพ จะใช้เวลานานทำไม? เพื่อตอบคำถามนี้ เราต้องเข้าใจขอบเขตของกระบวนการสร้างข้อมูล เพื่อช่วยเหลือคุณ เราได้รวบรวมรายการตรวจสอบระดับสูงและคำอธิบายขององค์ประกอบหลักและผู้มีส่วนได้ส่วนเสียที่คุณต้องพิจารณา การตอบคำถามเหล่านี้อาจเป็นเรื่องยากในตอนแรก ขึ้นอยู่กับกรณีการใช้งานของคุณ อาจมีเพียงบางส่วนเท่านั้น

ระบุจุดติดต่อทางกฎหมายสำหรับการอนุมัติที่จำเป็น – การใช้ข้อมูลสำหรับแอปพลิเคชันของคุณอาจต้องได้รับใบอนุญาตหรือการตรวจสอบสัญญาของผู้ขายเพื่อให้แน่ใจว่าสอดคล้องกับนโยบายของบริษัทและกรณีการใช้งาน สิ่งสำคัญคือต้องระบุการสนับสนุนทางกฎหมายของคุณตลอดขั้นตอนการเก็บข้อมูลและคำอธิบายประกอบของกระบวนการ
ระบุจุดรักษาความปลอดภัยของผู้ติดต่อสำหรับการจัดการข้อมูล –การรั่วไหลของข้อมูลที่ซื้ออาจส่งผลให้บริษัทของคุณต้องเสียค่าปรับและผลกระทบร้ายแรง สิ่งสำคัญคือต้องระบุการสนับสนุนด้านความปลอดภัยของคุณตลอดขั้นตอนการรับข้อมูลและคำอธิบายประกอบเพื่อให้แน่ใจว่ามีแนวทางปฏิบัติที่ปลอดภัย
รายละเอียดข้อกำหนดกรณีการใช้งานและกำหนดข้อมูลต้นทางและแนวทางคำอธิบายประกอบ – การสร้างและใส่คำอธิบายประกอบข้อมูลเป็นเรื่องยากเนื่องจากต้องใช้ความจำเพาะสูง ผู้มีส่วนได้ส่วนเสีย ซึ่งรวมถึงผู้จัดทำข้อมูลและผู้จัดทำหมายเหตุประกอบต้องได้รับการจัดตำแหน่งให้สมบูรณ์เพื่อหลีกเลี่ยงการสิ้นเปลืองทรัพยากร ด้วยเหตุนี้ จึงเป็นเรื่องปกติที่จะใช้เอกสารแนวทางที่ระบุทุกแง่มุมของงานคำอธิบายประกอบ: คำแนะนำที่แน่นอน กรณีของขอบ ตัวอย่างการอธิบาย และอื่นๆ
สอดคล้องกับความคาดหวังในการเก็บรวบรวมข้อมูลต้นทางของคุณ - พิจารณาสิ่งต่อไปนี้:
- ดำเนินการวิจัยเกี่ยวกับแหล่งข้อมูลที่เป็นไปได้ – ตัวอย่างเช่น ชุดข้อมูลสาธารณะ ชุดข้อมูลที่มีอยู่จากทีมภายในอื่นๆ ข้อมูลที่รวบรวมเอง หรือข้อมูลที่ซื้อจากผู้ขาย
- ดำเนินการประเมินคุณภาพ – สร้างไปป์ไลน์การวิเคราะห์ที่เกี่ยวข้องกับกรณีการใช้งานขั้นสุดท้าย
สอดคล้องกับความคาดหวังในการสร้างคำอธิบายประกอบข้อมูล - พิจารณาสิ่งต่อไปนี้:
- ระบุผู้มีส่วนได้ส่วนเสียด้านเทคนิค – โดยปกติแล้วจะเป็นบุคคลหรือทีมในบริษัทของคุณที่สามารถใช้เอกสารทางเทคนิคเกี่ยวกับ Ground Truth เพื่อนำไปป์ไลน์คำอธิบายประกอบไปใช้ ผู้มีส่วนได้ส่วนเสียเหล่านี้มีหน้าที่รับผิดชอบในการประเมินคุณภาพของข้อมูลที่ใส่คำอธิบายประกอบ เพื่อให้แน่ใจว่าตรงตามความต้องการของแอปพลิเคชัน ML ดาวน์สตรีมของคุณ
- ระบุคำอธิบายประกอบข้อมูล – บุคคลเหล่านี้ใช้คำแนะนำที่กำหนดไว้ล่วงหน้าเพื่อเพิ่มป้ายกำกับให้กับแหล่งข้อมูลของคุณใน Ground Truth พวกเขาอาจจำเป็นต้องมีความรู้เกี่ยวกับโดเมน ทั้งนี้ขึ้นอยู่กับกรณีการใช้งานและแนวทางคำอธิบายประกอบของคุณ คุณสามารถใช้พนักงานภายในบริษัทของคุณ หรือจ่ายเงินสำหรับa พนักงานที่จัดการโดยผู้ขายภายนอก.
ควบคุมดูแลกระบวนการสร้างข้อมูล – ดังที่คุณเห็นจากจุดก่อนหน้านี้ การสร้างข้อมูลเป็นกระบวนการที่มีรายละเอียดซึ่งเกี่ยวข้องกับผู้มีส่วนได้ส่วนเสียที่เชี่ยวชาญจำนวนมาก ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องเฝ้าติดตามตั้งแต่ต้นจนจบเพื่อให้ได้ผลลัพธ์ที่ต้องการ การมีบุคคลหรือทีมงานที่ทุ่มเทดูแลกระบวนการสามารถช่วยให้คุณมั่นใจได้ถึงกระบวนการสร้างข้อมูลที่มีความสอดคล้องและมีประสิทธิภาพ

ขึ้นอยู่กับเส้นทางที่คุณตัดสินใจใช้ คุณต้องพิจารณาสิ่งต่อไปนี้ด้วย:

สร้างชุดข้อมูลต้นทาง – นี่หมายถึงกรณีที่ข้อมูลที่มีอยู่ไม่เหมาะกับงานที่ทำอยู่ หรือข้อจำกัดทางกฎหมายทำให้คุณไม่สามารถใช้งานได้ ต้องใช้ทีมภายในหรือผู้ขายภายนอก (จุดถัดไป) กรณีนี้มักเป็นกรณีสำหรับโดเมนที่มีความเชี่ยวชาญสูงหรือพื้นที่ที่มีการวิจัยสาธารณะต่ำ ตัวอย่างเช่น คำถามทั่วไปของแพทย์ การจัดวางเสื้อผ้า หรือผู้เชี่ยวชาญด้านกีฬา สามารถเป็นภายในหรือภายนอก
วิจัยผู้จำหน่ายและดำเนินการกระบวนการออนบอร์ด – เมื่อใช้ผู้จัดจำหน่ายภายนอก ต้องมีการตั้งค่ากระบวนการทำสัญญาและการเริ่มต้นใช้งานระหว่างทั้งสองหน่วยงาน

ในส่วนนี้ เราได้ทบทวนองค์ประกอบและผู้มีส่วนได้ส่วนเสียที่เราต้องพิจารณา อย่างไรก็ตาม กระบวนการจริงมีลักษณะอย่างไร ในรูปต่อไปนี้ เราร่างเวิร์กโฟลว์กระบวนการสำหรับการสร้างข้อมูลและคำอธิบายประกอบ วิธีการวนซ้ำใช้ชุดข้อมูลขนาดเล็กที่เรียกว่านักบินเพื่อลดเวลาตอบสนอง ตรวจหาข้อผิดพลาดตั้งแต่เนิ่นๆ และหลีกเลี่ยงการสิ้นเปลืองทรัพยากรในการสร้างข้อมูลคุณภาพต่ำ เราจะอธิบายรอบนำร่องเหล่านี้ในภายหลังในโพสต์นี้ เรายังครอบคลุมแนวทางปฏิบัติที่ดีที่สุดบางประการสำหรับการสร้างข้อมูล การใส่คำอธิบายประกอบ และการควบคุมคุณภาพ

รูปต่อไปนี้แสดงให้เห็นการพัฒนาซ้ำๆ ของไปป์ไลน์การสร้างข้อมูล ในแนวตั้ง เราจะพบบล็อกการจัดหาข้อมูล (สีเขียว) และบล็อกคำอธิบายประกอบ (สีน้ำเงิน) บล็อกทั้งสองมีรอบนำร่องที่เป็นอิสระ (การสร้างข้อมูล/คำอธิบายประกอบ, QAQC และอัปเดต) มีการสร้างข้อมูลที่มาจากแหล่งที่มาที่สูงขึ้นเรื่อยๆ และสามารถใช้เพื่อสร้างคำอธิบายประกอบคุณภาพสูงขึ้นเรื่อยๆ

ในระหว่างการพัฒนาซ้ำๆ ของการสร้างข้อมูลหรือไปป์ไลน์การทำหมายเหตุประกอบ ข้อมูลกลุ่มเล็กๆ จะถูกใช้สำหรับนักบินอิสระ แต่ละรอบนำร่องมีขั้นตอนการสร้างข้อมูลหรือคำอธิบายประกอบ การประกันคุณภาพและการควบคุมคุณภาพของผลลัพธ์ และขั้นตอนการอัปเดตเพื่อปรับแต่งกระบวนการ หลังจากที่กระบวนการเหล่านี้ได้รับการขัดเกลาผ่านโครงการนำร่องที่ต่อเนื่องกัน คุณสามารถดำเนินการสร้างข้อมูลขนาดใหญ่และใส่คำอธิบายประกอบได้

ภาพรวมของการพัฒนาซ้ำในไปป์ไลน์การสร้างข้อมูล

การสร้างแหล่งข้อมูล

กระบวนการสร้างอินพุตเกี่ยวข้องกับการจัดวางรายการที่คุณสนใจ ซึ่งขึ้นอยู่กับประเภทงานของคุณ สิ่งเหล่านี้อาจเป็นรูปภาพ (การสแกนในหนังสือพิมพ์) วิดีโอ (ฉากการจราจร) 3D point clouds (การสแกนทางการแพทย์) หรือเพียงแค่ข้อความ (แทร็กคำบรรยาย การถอดเสียงเป็นคำ) โดยทั่วไป เมื่อจัดเตรียมรายการที่เกี่ยวข้องกับงานของคุณ ให้ตรวจสอบสิ่งต่อไปนี้:

สะท้อนกรณีการใช้งานจริงสำหรับระบบ AI/ML ในที่สุด – การตั้งค่าการรวบรวมภาพหรือวิดีโอสำหรับข้อมูลการฝึกควรตรงกับการตั้งค่าข้อมูลที่ป้อนในแอปพลิเคชันจริง ซึ่งหมายความว่ามีพื้นผิวการจัดวาง แหล่งกำเนิดแสง หรือมุมกล้องที่สอดคล้องกัน
พิจารณาและลดแหล่งที่มาของความแปรปรวนให้เหลือน้อยที่สุด - พิจารณาสิ่งต่อไปนี้:
- พัฒนาแนวทางปฏิบัติที่ดีที่สุดในการรักษามาตรฐานการเก็บรวบรวมข้อมูล – ขึ้นอยู่กับความละเอียดของกรณีการใช้งานของคุณ คุณอาจต้องระบุข้อกำหนดเพื่อรับประกันความสอดคล้องระหว่างจุดข้อมูลของคุณ ตัวอย่างเช่น หากคุณกำลังรวบรวมข้อมูลรูปภาพหรือวิดีโอจากจุดกล้องเดี่ยว คุณอาจต้องตรวจสอบให้แน่ใจว่าวัตถุที่คุณสนใจอยู่ในตำแหน่งที่สอดคล้องกัน หรือต้องตรวจสอบคุณภาพของกล้องก่อนที่จะทำการบันทึกข้อมูล วิธีนี้ช่วยหลีกเลี่ยงปัญหาต่างๆ เช่น การเอียงหรือเบลอของกล้อง และลดโอเวอร์เฮดดาวน์สตรีม เช่น การนำรูปภาพที่ไม่อยู่ในกรอบหรือภาพเบลอออก ตลอดจนต้องจัดเฟรมรูปภาพให้อยู่ตรงกลางพื้นที่ที่คุณสนใจด้วยตนเอง
- แหล่งที่มาของความแปรปรวนของเวลาทดสอบที่จองไว้ล่วงหน้า – หากคุณคาดหวังความแปรปรวนในแอตทริบิวต์ใด ๆ ที่กล่าวถึงในช่วงเวลาทดสอบ ตรวจสอบให้แน่ใจว่าคุณสามารถรวบรวมแหล่งที่มาของความแปรปรวนเหล่านั้นได้ในระหว่างการสร้างข้อมูลการฝึกอบรม ตัวอย่างเช่น หากคุณคาดว่าแอปพลิเคชัน ML ของคุณจะทำงานในการตั้งค่าแสงที่แตกต่างกันหลายแบบ คุณควรตั้งเป้าที่จะสร้างภาพและวิดีโอการฝึกด้วยการตั้งค่าแสงต่างๆ ทั้งนี้ขึ้นอยู่กับกรณีการใช้งาน ความแปรปรวนในการวางตำแหน่งกล้องอาจส่งผลต่อคุณภาพของฉลากของคุณ
รวมความรู้โดเมนก่อนหน้านี้เมื่อมีให้ - พิจารณาสิ่งต่อไปนี้:
- อินพุตแหล่งที่มาของข้อผิดพลาด – ผู้ปฏิบัติงานโดเมนสามารถให้ข้อมูลเชิงลึกเกี่ยวกับแหล่งที่มาของข้อผิดพลาดตามประสบการณ์หลายปีของพวกเขา พวกเขาสามารถให้ข้อเสนอแนะเกี่ยวกับแนวทางปฏิบัติที่ดีที่สุดสำหรับสองประเด็นก่อนหน้า: การตั้งค่าใดที่สะท้อนถึงกรณีการใช้งานจริงได้ดีที่สุด อะไรคือแหล่งที่มาของความแปรปรวนระหว่างการรวบรวมข้อมูลหรือเมื่อใช้งาน?
- แนวทางปฏิบัติที่ดีที่สุดสำหรับการรวบรวมข้อมูลเฉพาะโดเมน – แม้ว่าผู้มีส่วนได้ส่วนเสียด้านเทคนิคของคุณอาจมีความคิดที่ดีเกี่ยวกับแง่มุมทางเทคนิคที่จะมุ่งเน้นในรูปภาพหรือวิดีโอที่รวบรวมไว้ แต่ผู้ปฏิบัติงานโดเมนสามารถให้ข้อเสนอแนะเกี่ยวกับวิธีที่ดีที่สุดในการจัดเวทีหรือรวบรวมข้อมูลเพื่อให้ตรงกับความต้องการเหล่านี้

การควบคุมคุณภาพและการประกันคุณภาพของข้อมูลที่สร้างขึ้น

ในตอนนี้ คุณได้ตั้งค่าไปป์ไลน์การรวบรวมข้อมูลแล้ว คุณอาจต้องการดำเนินการต่อและรวบรวมข้อมูลให้ได้มากที่สุด รอสักครู่! เราต้องตรวจสอบก่อนว่าข้อมูลที่รวบรวมผ่านการตั้งค่านั้นเหมาะสมกับกรณีการใช้งานจริงของคุณหรือไม่ เราสามารถใช้ตัวอย่างเริ่มต้นและปรับปรุงการตั้งค่าซ้ำๆ ผ่านข้อมูลเชิงลึกที่เราได้รับจากการวิเคราะห์ข้อมูลตัวอย่างนั้น ทำงานอย่างใกล้ชิดกับผู้มีส่วนได้ส่วนเสียด้านเทคนิค ธุรกิจ และคำอธิบายประกอบของคุณในระหว่างกระบวนการนำร่อง สิ่งนี้จะทำให้แน่ใจว่าไปป์ไลน์ผลลัพธ์ของคุณตอบสนองความต้องการทางธุรกิจในขณะที่สร้างข้อมูลที่มีป้ายกำกับพร้อม ML ภายในค่าใช้จ่ายที่น้อยที่สุด

คำอธิบายประกอบ

คำอธิบายประกอบของอินพุตเป็นที่ที่เราเพิ่มความมหัศจรรย์ให้กับข้อมูลของเรา นั่นคือป้ายกำกับ! ขึ้นอยู่กับประเภทงานและกระบวนการสร้างข้อมูลของคุณ คุณอาจต้องใส่คำอธิบายประกอบด้วยตนเอง หรือคุณสามารถใช้วิธีการอัตโนมัติที่พร้อมใช้งานได้ทันที ไปป์ไลน์การทำหมายเหตุประกอบข้อมูลอาจเป็นงานที่ท้าทายทางเทคนิค Ground Truth ทำให้การเดินทางครั้งนี้ง่ายขึ้นสำหรับผู้มีส่วนได้ส่วนเสียด้านเทคนิคของคุณด้วย ละครในตัวของเวิร์กโฟลว์การติดฉลากสำหรับแหล่งข้อมูลทั่วไป. ด้วยขั้นตอนเพิ่มเติมไม่กี่ขั้นตอน มันยังช่วยให้คุณสร้าง เวิร์กโฟลว์การติดฉลากแบบกำหนดเอง นอกเหนือจากตัวเลือกที่กำหนดไว้ล่วงหน้า

ถามคำถามต่อไปนี้กับตัวเองเมื่อพัฒนาเวิร์กโฟลว์คำอธิบายประกอบที่เหมาะสม:

ฉันจำเป็นต้องมีกระบวนการใส่คำอธิบายประกอบด้วยตนเองสำหรับข้อมูลของฉันหรือไม่ ในบางกรณี บริการการติดฉลากอัตโนมัติอาจเพียงพอสำหรับงานที่ทำอยู่ การตรวจสอบเอกสารและเครื่องมือที่มีอยู่สามารถช่วยให้คุณระบุได้ว่าการใส่คำอธิบายประกอบด้วยตนเองมีความจำเป็นสำหรับกรณีการใช้งานของคุณหรือไม่ (สำหรับข้อมูลเพิ่มเติม โปรดดูที่ การติดฉลากข้อมูลคืออะไร?). กระบวนการสร้างข้อมูลสามารถอนุญาตให้มีการควบคุมในระดับต่างๆ เกี่ยวกับความละเอียดของคำอธิบายประกอบข้อมูลของคุณ ทั้งนี้ขึ้นอยู่กับกระบวนการนี้ บางครั้งคุณยังสามารถข้ามความจำเป็นในการใส่คำอธิบายประกอบด้วยตนเองได้ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ สร้างชุดข้อมูล Q&A แบบกำหนดเองโดยใช้ Amazon SageMaker Ground Truth เพื่อฝึกโมเดล Hugging Face Q&A NLU.
อะไรคือความจริงพื้นฐานของฉัน? ในกรณีส่วนใหญ่ ความจริงพื้นฐานจะมาจากกระบวนการบันทึกย่อของคุณ นั่นคือประเด็นทั้งหมด! ในส่วนอื่นๆ ผู้ใช้อาจมีสิทธิ์เข้าถึงป้ายกำกับความจริงพื้นฐาน สิ่งนี้สามารถเร่งกระบวนการประกันคุณภาพของคุณได้อย่างมาก หรือลดค่าใช้จ่ายที่จำเป็นสำหรับการทำหมายเหตุประกอบด้วยตนเองหลายรายการ
ขอบเขตบนของจำนวนการเบี่ยงเบนจากสถานะความจริงพื้นฐานของฉันคือเท่าใด ทำงานร่วมกับผู้ใช้ปลายทางของคุณเพื่อทำความเข้าใจข้อผิดพลาดทั่วไปเกี่ยวกับป้ายกำกับเหล่านี้ แหล่งที่มาของข้อผิดพลาดดังกล่าว และการลดข้อผิดพลาดที่ต้องการ ซึ่งจะช่วยให้คุณระบุได้ว่างานการติดฉลากด้านใดที่ท้าทายที่สุดหรือมีแนวโน้มที่จะมีข้อผิดพลาดของคำอธิบายประกอบ
มีกฎที่มีอยู่ก่อนแล้วโดยผู้ใช้หรือผู้ปฏิบัติงานภาคสนามเพื่อติดป้ายกำกับรายการเหล่านี้หรือไม่ ใช้และปรับแต่งหลักเกณฑ์เหล่านี้เพื่อสร้างชุดคำสั่งสำหรับผู้ใส่คำอธิบายประกอบด้วยตนเอง

การนำกระบวนการใส่คำอธิบายประกอบการป้อนข้อมูล

เมื่อนำร่องกระบวนการใส่คำอธิบายประกอบ ให้พิจารณาสิ่งต่อไปนี้:

ตรวจสอบคำแนะนำกับผู้ใส่คำอธิบายประกอบและผู้ปฏิบัติงานภาคสนาม - คำแนะนำควรกระชับและเฉพาะเจาะจง ขอความคิดเห็นจากผู้ใช้ของคุณ (คำแนะนำถูกต้องหรือไม่ เราสามารถแก้ไขคำแนะนำใด ๆ เพื่อให้แน่ใจว่าผู้ปฏิบัติงานที่ไม่ใช่ภาคสนามเข้าใจพวกเขาได้หรือไม่) และผู้ทำหมายเหตุประกอบ (ทุกอย่างชัดเจนหรือไม่ งานมีความชัดเจนหรือไม่) หากเป็นไปได้ ให้เพิ่มตัวอย่างข้อมูลที่มีป้ายกำกับที่ดีและไม่ดีเพื่อช่วยให้ผู้ใส่คำอธิบายประกอบระบุสิ่งที่คาดหวังได้ และข้อผิดพลาดในการติดป้ายกำกับทั่วไปที่อาจมีหน้าตาเป็นอย่างไร
รวบรวมข้อมูลสำหรับคำอธิบายประกอบ – ตรวจสอบข้อมูลกับลูกค้าของคุณเพื่อให้แน่ใจว่าเป็นไปตามมาตรฐานที่คาดไว้ และเพื่อให้สอดคล้องกับผลลัพธ์ที่คาดหวังจากคำอธิบายประกอบแบบแมนนวล
จัดเตรียมตัวอย่างให้กับกลุ่มผู้ใส่คำอธิบายประกอบด้วยตนเองในการทดสอบการทำงาน – อะไรคือความแปรปรวนทั่วไปของคำอธิบายประกอบในชุดตัวอย่างนี้ ศึกษาความแปรปรวนของคำอธิบายประกอบแต่ละรายการในรูปภาพที่กำหนดเพื่อระบุแนวโน้มความสอดคล้องระหว่างผู้ใส่คำอธิบายประกอบ จากนั้นเปรียบเทียบความแปรปรวนของรูปภาพหรือเฟรมวิดีโอเพื่อระบุว่าป้ายกำกับใดยากต่อการวาง

การควบคุมคุณภาพของคำอธิบายประกอบ

การควบคุมคุณภาพคำอธิบายประกอบมีสององค์ประกอบหลัก: การประเมินความสอดคล้องระหว่างผู้ใส่คำอธิบายประกอบ และการประเมินคุณภาพของคำอธิบายประกอบเอง

คุณสามารถกำหนดคำอธิบายประกอบหลายรายการให้กับงานเดียวกันได้ (เช่น ผู้ทำหมายเหตุประกอบสามคนระบุจุดสำคัญบนรูปภาพเดียวกัน) และวัดค่าเฉลี่ยควบคู่ไปกับค่าเบี่ยงเบนมาตรฐานของป้ายกำกับเหล่านี้จากผู้ทำหมายเหตุประกอบ การทำเช่นนี้ช่วยให้คุณระบุคำอธิบายประกอบที่ผิดปกติได้ (ใช้ป้ายกำกับไม่ถูกต้อง หรือติดป้ายกำกับให้ห่างจากคำอธิบายประกอบทั่วไป) ซึ่งสามารถชี้นำผลลัพธ์ที่นำไปดำเนินการได้ เช่น ปรับแต่งคำสั่งของคุณหรือให้การฝึกอบรมเพิ่มเติมแก่ผู้ใส่คำอธิบายประกอบบางราย

การประเมินคุณภาพของคำอธิบายประกอบเองนั้นเชื่อมโยงกับความแปรปรวนของคำอธิบายประกอบและ (หากมี) ความพร้อมใช้งานของผู้เชี่ยวชาญโดเมนหรือข้อมูลความจริงเบื้องต้น มีป้ายกำกับบางอย่าง (ในรูปภาพทั้งหมดของคุณ) ที่ค่าความแปรปรวนเฉลี่ยระหว่างตัวสร้างคำอธิบายประกอบสูงอย่างสม่ำเสมอหรือไม่ มีป้ายกำกับใดที่ห่างไกลจากความคาดหวังของคุณว่าควรอยู่ที่ใด หรือควรมีลักษณะอย่างไร

จากประสบการณ์ของเรา ลูปควบคุมคุณภาพทั่วไปสำหรับคำอธิบายประกอบข้อมูลสามารถมีลักษณะดังนี้:

ทำซ้ำตามคำแนะนำหรือการแสดงภาพตามผลลัพธ์จากการทดสอบการทำงาน – มีสิ่งกีดขวางหรือไม่ หรือการแสดงภาพไม่ตรงกับความคาดหวังของผู้ใส่คำอธิบายประกอบหรือผู้ใช้ คำแนะนำทำให้เข้าใจผิดหรือคุณพลาดป้ายกำกับหรือข้อผิดพลาดทั่วไปในภาพตัวอย่างของคุณหรือไม่ คุณปรับแต่งคำแนะนำสำหรับผู้ใส่คำอธิบายประกอบได้หรือไม่
หากคุณพอใจว่าได้แก้ไขปัญหาใดๆ จากการทดสอบแล้ว ให้ทำชุดคำอธิบายประกอบ – สำหรับการทดสอบผลลัพธ์จากชุดงาน ให้ปฏิบัติตามแนวทางการประเมินคุณภาพเดียวกันในการประเมินความผันแปรของป้ายกำกับระหว่างคำอธิบายประกอบและป้ายกำกับระหว่างรูปภาพ

สรุป

โพสต์นี้ทำหน้าที่เป็นแนวทางสำหรับผู้มีส่วนได้ส่วนเสียทางธุรกิจเพื่อทำความเข้าใจความซับซ้อนของการสร้างข้อมูลสำหรับแอปพลิเคชัน AI/ML กระบวนการที่อธิบายไว้ยังทำหน้าที่เป็นแนวทางสำหรับผู้ปฏิบัติงานด้านเทคนิคในการสร้างข้อมูลคุณภาพในขณะที่ปรับข้อจำกัดทางธุรกิจ เช่น บุคลากรและต้นทุนให้เหมาะสม หากดำเนินการได้ไม่ดี ไปป์ไลน์การสร้างข้อมูลและการติดฉลากอาจใช้เวลานานถึง 4-6 เดือน

ด้วยแนวทางและคำแนะนำที่สรุปไว้ในโพสต์นี้ คุณสามารถยึดสิ่งกีดขวางบนถนน ลดเวลาที่จะทำให้เสร็จ และลดค่าใช้จ่ายในการเดินทางสู่การสร้างข้อมูลคุณภาพสูง

เกี่ยวกับผู้แต่ง

จัสลีน กรีวาล เป็นนักวิทยาศาสตร์ประยุกต์ที่ Amazon Web Services ซึ่งเธอทำงานร่วมกับลูกค้าของ AWS เพื่อแก้ปัญหาในโลกแห่งความเป็นจริงโดยใช้การเรียนรู้ของเครื่อง โดยมุ่งเน้นที่ยาที่แม่นยำและจีโนมเป็นพิเศษ เธอมีพื้นฐานที่แข็งแกร่งในด้านชีวสารสนเทศ เนื้องอก และจีโนมทางคลินิก เธอหลงใหลในการใช้บริการ AI/ML และบริการคลาวด์เพื่อปรับปรุงการดูแลผู้ป่วย

บอริส อารอนชิก เป็นผู้จัดการใน Amazon AI Machine Learning Solutions Lab ซึ่งเขาเป็นผู้นำทีมนักวิทยาศาสตร์และวิศวกร ML เพื่อช่วยให้ลูกค้า AWS บรรลุเป้าหมายทางธุรกิจโดยใช้โซลูชัน AI/ML

มิเกล โรเมโร คัลโว เป็นนักวิทยาศาสตร์ประยุกต์ที่ ห้องปฏิบัติการโซลูชัน Amazon ML ที่ซึ่งเขาเป็นพันธมิตรกับทีมภายในของ AWS และลูกค้าเชิงกลยุทธ์เพื่อเร่งธุรกิจของพวกเขาผ่าน ML และการนำระบบคลาวด์มาใช้

หลิน ลี ชอง เป็นนักวิทยาศาสตร์อาวุโสและผู้จัดการของทีม Amazon ML Solutions Lab ที่ Amazon Web Services เธอทำงานร่วมกับลูกค้า AWS เชิงกลยุทธ์เพื่อสำรวจและใช้ปัญญาประดิษฐ์และแมชชีนเลิร์นนิงเพื่อค้นหาข้อมูลเชิงลึกใหม่ๆ และแก้ปัญหาที่ซับซ้อน

ประทับเวลา: ตุลาคม 3, 2022ตุลาคม 3, 2022

ประทับเวลา: พฤศจิกายน 17, 2022

สร้างข้อมูลคุณภาพสูงสำหรับโมเดล ML ด้วย Amazon SageMaker Ground Truth

เผยแพร่ซ้ำโดยเพลโต

กระบวนการสร้างข้อมูล

การวางแผน

การสร้างแหล่งข้อมูล

การควบคุมคุณภาพและการประกันคุณภาพของข้อมูลที่สร้างขึ้น

คำอธิบายประกอบ

การนำกระบวนการใส่คำอธิบายประกอบการป้อนข้อมูล

การควบคุมคุณภาพของคำอธิบายประกอบ

สรุป

เกี่ยวกับผู้แต่ง

เพิ่มเติมจาก AWS Machine Learning AWS

ตอนนี้ Amazon SageMaker JumpStart มีสมุดบันทึก Amazon Comprehend สำหรับการจัดหมวดหมู่แบบกำหนดเองและการตรวจจับเอนทิตีแบบกำหนดเอง

ปรับปรุงความแม่นยำในการค้นหาด้วยตัวตรวจการสะกดใน Amazon Kendra

ระบุตำแหน่งของความผิดปกติโดยใช้ Amazon Lookout for Vision ที่ Edge โดยไม่ต้องใช้ GPU

วิศวกรรมฟีเจอร์ขนาดใหญ่พร้อมการปกป้องข้อมูลที่ละเอียดอ่อนโดยใช้เซสชันแบบโต้ตอบของ AWS Glue และ Amazon SageMaker Studio

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้