การติดฉลากมาสก์การแบ่งส่วนไม่กี่คลิกใน Amazon SageMaker Ground Truth Plus

การติดฉลากมาสก์การแบ่งส่วนไม่กี่คลิกใน Amazon SageMaker Ground Truth Plus

Amazon SageMaker Ground Truth Plus เป็นบริการติดฉลากข้อมูลที่มีการจัดการซึ่งทำให้ง่ายต่อการติดฉลากข้อมูลสำหรับแอปพลิเคชันแมชชีนเลิร์นนิง (ML) กรณีการใช้งานทั่วไปอย่างหนึ่งคือการแบ่งส่วนความหมาย ซึ่งเป็นเทคนิค Computer Vision ML ที่เกี่ยวข้องกับการกำหนดป้ายกำกับคลาสให้กับแต่ละพิกเซลในรูปภาพ ตัวอย่างเช่น ในเฟรมวิดีโอที่บันทึกโดยยานพาหนะที่กำลังเคลื่อนที่ ป้ายชื่อประเภทอาจรวมถึงยานพาหนะ คนเดินเท้า ถนน สัญญาณไฟจราจร อาคาร หรือพื้นหลัง ช่วยให้เข้าใจตำแหน่งของวัตถุต่างๆ ในภาพได้อย่างแม่นยำ และมักใช้ในการสร้างระบบการรับรู้สำหรับยานยนต์ไร้คนขับหรือหุ่นยนต์ ในการสร้างแบบจำลอง ML สำหรับการแบ่งกลุ่มความหมาย ก่อนอื่นจำเป็นต้องติดป้ายข้อมูลปริมาณมากที่ระดับพิกเซล กระบวนการติดฉลากนี้ซับซ้อน ต้องใช้ผู้ติดฉลากที่มีทักษะและเวลามาก—ภาพบางภาพอาจใช้เวลาถึง 2 ชั่วโมงหรือมากกว่านั้นในการติดฉลากอย่างแม่นยำ!

ใน 2019, เราเปิดตัวเครื่องมือติดฉลากแบบโต้ตอบที่ขับเคลื่อนด้วย ML ซึ่งเรียกว่าการแบ่งส่วนอัตโนมัติสำหรับความจริงพื้นฐาน ที่ช่วยให้คุณสร้างมาสก์การแบ่งส่วนคุณภาพสูงได้อย่างรวดเร็วและง่ายดาย สำหรับข้อมูลเพิ่มเติม โปรดดูที่ เครื่องมือแบ่งส่วนอัตโนมัติ. คุณลักษณะนี้ทำงานโดยอนุญาตให้คุณคลิก "จุดสูงสุด" บน ซ้าย ล่าง และขวาสุดบนวัตถุ โมเดล ML ที่ทำงานอยู่เบื้องหลังจะรับอินพุตของผู้ใช้นี้และส่งคืนมาสก์การแบ่งส่วนคุณภาพสูงที่แสดงผลทันทีในเครื่องมือติดฉลาก Ground Truth อย่างไรก็ตาม คุณลักษณะนี้อนุญาตให้คุณคลิกได้เพียงสี่ครั้งเท่านั้น ในบางกรณี มาสก์ที่สร้างโดย ML อาจพลาดบางส่วนของภาพโดยไม่ได้ตั้งใจ เช่น รอบขอบเขตของวัตถุที่ขอบไม่ชัดเจน หรือที่สี ความอิ่มตัว หรือเงากลมกลืนกับสภาพแวดล้อม

การคลิกจุดมากด้วยจำนวนการคลิกแก้ไขที่ยืดหยุ่น

ขณะนี้เราได้ปรับปรุงเครื่องมือเพื่อให้สามารถคลิกจุดขอบเขตเพิ่มเติมได้ ซึ่งให้ข้อเสนอแนะตามเวลาจริงไปยังโมเดล ML สิ่งนี้ช่วยให้คุณสร้างมาสก์การแบ่งส่วนได้แม่นยำยิ่งขึ้น ในตัวอย่างต่อไปนี้ ผลลัพธ์ของการแบ่งส่วนเริ่มต้นไม่ถูกต้องเนื่องจากขอบเขตที่อ่อนแอใกล้กับเงา ที่สำคัญ เครื่องมือนี้ทำงานในโหมดที่ให้ข้อเสนอแนะแบบเรียลไทม์ คุณไม่จำเป็นต้องระบุจุดทั้งหมดพร้อมกัน แต่ก่อนอื่น คุณสามารถคลิกเมาส์สี่ครั้ง ซึ่งจะทำให้โมเดล ML สร้างมาสก์การแบ่งส่วน จากนั้นคุณสามารถตรวจสอบมาสก์นี้ ค้นหาความไม่ถูกต้องที่อาจเกิดขึ้น จากนั้นคลิกเพิ่มเติมตามความเหมาะสมเพื่อ "ดัน" โมเดลไปสู่ผลลัพธ์ที่ถูกต้อง

การติดป้ายกำกับมาสก์การแบ่งส่วนเพียงไม่กี่คลิกใน Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เครื่องมือติดฉลากก่อนหน้านี้ของเราอนุญาตให้คุณคลิกเมาส์สี่ครั้ง (จุดสีแดง) ผลลัพธ์การแบ่งส่วนเริ่มต้น (พื้นที่สีแดงแรเงา) ไม่ถูกต้องเนื่องจากขอบเขตที่อ่อนแอใกล้กับเงา (ด้านล่างซ้ายของหน้ากากสีแดง)

ด้วยเครื่องมือการติดฉลากที่ได้รับการปรับปรุงของเรา ผู้ใช้จะทำการคลิกเมาส์สี่ครั้งก่อนอีกครั้ง (จุดสีแดงในรูปบนสุด) จากนั้นคุณมีโอกาสที่จะตรวจสอบมาสก์การแบ่งส่วนผลลัพธ์ (พื้นที่สีแดงแรเงาในรูปด้านบน) คุณสามารถคลิกเมาส์เพิ่มเติม (จุดสีเขียวในรูปด้านล่าง) เพื่อทำให้โมเดลปรับแต่งมาสก์ (พื้นที่แรเงาสีแดงในรูปด้านล่าง)

การติดป้ายกำกับมาสก์การแบ่งส่วนเพียงไม่กี่คลิกใน Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เมื่อเทียบกับเครื่องมือรุ่นเดิม รุ่นปรับปรุงให้ผลลัพธ์ที่ดีขึ้นเมื่อวัตถุเปลี่ยนรูปได้ ไม่นูน และมีรูปร่างและลักษณะแตกต่างกัน

เราจำลองประสิทธิภาพของเครื่องมือที่ได้รับการปรับปรุงนี้กับข้อมูลตัวอย่างโดยเรียกใช้เครื่องมือพื้นฐาน (ด้วยการคลิกมากสุดเพียงสี่ครั้ง) เพื่อสร้างมาสก์การแบ่งส่วนและประเมินค่าเฉลี่ยของ Intersection over Union (mIoU) ซึ่งเป็นการวัดความแม่นยำทั่วไปสำหรับมาสก์การแบ่งส่วน จากนั้นเราใช้การคลิกแก้ไขจำลองและประเมินการปรับปรุงใน mIoU หลังจากการคลิกจำลองแต่ละครั้ง ตารางต่อไปนี้สรุปผลลัพธ์เหล่านี้ แถวแรกแสดง mIoU และแถวที่สองแสดงข้อผิดพลาด (ซึ่งกำหนดโดย 100% ลบด้วย mIoU) ด้วยการคลิกเมาส์เพิ่มเติมเพียงห้าครั้ง เราสามารถลดข้อผิดพลาดได้ถึง 9% สำหรับงานนี้!

. . จำนวนคลิกแก้ไข .
. baseline 1 2 3 4 5
มิวยู 72.72 76.56 77.62 78.89 80.57 81.73
ความผิดพลาด 27% 23% 22% 21% 19% 18%

การผสานรวมกับ Ground Truth และการทำโปรไฟล์ประสิทธิภาพ

ในการรวมโมเดลนี้เข้ากับ Ground Truth เราทำตามรูปแบบสถาปัตยกรรมมาตรฐานตามที่แสดงในแผนภาพต่อไปนี้ ขั้นแรก เราสร้างโมเดล ML เป็นอิมเมจ Docker และปรับใช้กับ การลงทะเบียน Amazon Elastic Container (Amazon ECR) ซึ่งเป็นรีจีสทรีคอนเทนเนอร์ Docker ที่มีการจัดการเต็มรูปแบบซึ่งทำให้ง่ายต่อการจัดเก็บ แชร์ และปรับใช้อิมเมจคอนเทนเนอร์ ใช้ ชุดเครื่องมือการอนุมาน SageMaker ในการสร้างอิมเมจ Docker ช่วยให้เราสามารถใช้แนวทางปฏิบัติที่ดีที่สุดสำหรับการแสดงโมเดลได้อย่างง่ายดายและบรรลุการอนุมานที่มีเวลาแฝงต่ำ จากนั้นเราก็สร้าง อเมซอน SageMaker จุดสิ้นสุดตามเวลาจริงเพื่อโฮสต์โมเดล เราขอแนะนำ AWS แลมบ์ดา ทำหน้าที่เป็นพร็อกซีหน้าตำแหน่งข้อมูล SageMaker เพื่อนำเสนอการแปลงข้อมูลประเภทต่างๆ ในที่สุดเราก็ใช้ Amazon API Gateway Amazon เป็นวิธีการรวมเข้ากับส่วนหน้าของเรา ซึ่งเป็นแอปพลิเคชันการติดฉลาก Ground Truth เพื่อให้การรับรองความถูกต้องที่ปลอดภัยแก่แบ็กเอนด์ของเรา

การติดป้ายกำกับมาสก์การแบ่งส่วนเพียงไม่กี่คลิกใน Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

คุณสามารถทำตามรูปแบบทั่วไปนี้สำหรับกรณีการใช้งานของคุณเองสำหรับเครื่องมือ ML ที่สร้างขึ้นตามวัตถุประสงค์ และรวมเข้ากับ UI ของงาน Ground Truth ที่กำหนดเอง สำหรับข้อมูลเพิ่มเติม โปรดดูที่ สร้างเวิร์กโฟลว์การติดฉลากข้อมูลแบบกำหนดเองด้วย Amazon SageMaker Ground Truth.

หลังจากจัดเตรียมสถาปัตยกรรมนี้และปรับใช้โมเดลของเราโดยใช้ ชุดพัฒนา AWS Cloud (AWS CDK) เราได้ประเมินลักษณะเวลาแฝงของโมเดลของเราด้วยประเภทอินสแตนซ์ SageMaker ที่แตกต่างกัน สิ่งนี้ตรงไปตรงมามากเพราะเราใช้จุดสิ้นสุดการอนุมานตามเวลาจริงของ SageMaker เพื่อให้บริการโมเดลของเรา จุดสิ้นสุดการอนุมานตามเวลาจริงของ SageMaker ผสานรวมอย่างลงตัวกับ อเมซอน คลาวด์วอตช์ และปล่อยตัวชี้วัดเช่นการใช้หน่วยความจำและเวลาแฝงของแบบจำลองโดยไม่ต้องตั้งค่าที่จำเป็น (ดู เมตริกการเรียกใช้ปลายทางของ SageMaker สำหรับรายละเอียดเพิ่มเติม)

ในรูปต่อไปนี้ เราแสดงเมตริก ModelLatency ที่ปล่อยออกมาโดยกำเนิดโดยจุดสิ้นสุดการอนุมานตามเวลาจริงของ SageMaker เราสามารถใช้ฟังก์ชันทางคณิตศาสตร์เมตริกต่างๆ ใน ​​CloudWatch เพื่อแสดงเปอร์เซ็นต์ไทล์เวลาแฝง เช่น เวลาแฝง p50 หรือ p90 ได้อย่างง่ายดาย

การติดป้ายกำกับมาสก์การแบ่งส่วนเพียงไม่กี่คลิกใน Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ตารางต่อไปนี้สรุปผลลัพธ์เหล่านี้สำหรับเครื่องมือคลิกสุดโต่งที่ได้รับการปรับปรุงสำหรับการแบ่งกลุ่มความหมายสำหรับอินสแตนซ์สามประเภท: p2.xlarge, p3.2xlarge และ g4dn.xlarge แม้ว่าอินสแตนซ์ p3.2xlarge จะให้เวลาแฝงที่ต่ำที่สุด แต่อินสแตนซ์ g4dn.xlarge ก็มีอัตราส่วนต้นทุนต่อประสิทธิภาพที่ดีที่สุด อินสแตนซ์ g4dn.xlarge ช้ากว่าอินสแตนซ์ p8xlarge เพียง 35% (3.2 มิลลิวินาที) แต่มีราคาต่อชั่วโมงน้อยกว่า p81xlarge ถึง 3.2% (ดู ราคา Amazon SageMaker สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับประเภทอินสแตนซ์และราคาของ SageMaker)

ประเภทอินสแตนซ์ของ SageMaker p90 เวลาแฝง (มิลลิวินาที)
1 p2.xlarge 751
2 p3.2xlarge 424
3 g4dn.xlarge 459

สรุป

ในโพสต์นี้ เราแนะนำส่วนขยายของคุณสมบัติการแบ่งส่วนอัตโนมัติของ Ground Truth สำหรับงานคำอธิบายประกอบการแบ่งส่วนความหมาย ในขณะที่เครื่องมือเวอร์ชันดั้งเดิมอนุญาตให้คุณทำการคลิกเมาส์สี่ครั้งเท่านั้น ซึ่งจะเรียกใช้โมเดลเพื่อให้มาสก์การแบ่งส่วนคุณภาพสูง ส่วนขยายช่วยให้คุณทำการคลิกที่ถูกต้อง และด้วยเหตุนี้จึงอัปเดตและแนะนำโมเดล ML เพื่อให้คาดการณ์ได้ดีขึ้น เรายังนำเสนอรูปแบบสถาปัตยกรรมพื้นฐานที่คุณสามารถใช้เพื่อปรับใช้และผสานรวมเครื่องมือโต้ตอบเข้ากับ UI การติดฉลาก Ground Truth สุดท้าย เราได้สรุปเวลาแฝงของโมเดล และแสดงให้เห็นว่าการใช้จุดสิ้นสุดการอนุมานตามเวลาจริงของ SageMaker ทำให้ง่ายต่อการตรวจสอบประสิทธิภาพของโมเดลอย่างไร

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีที่เครื่องมือนี้สามารถลดต้นทุนการติดฉลากและเพิ่มความแม่นยำ โปรดไปที่ การติดฉลากข้อมูล Amazon SageMaker เพื่อเริ่มการให้คำปรึกษาในวันนี้


เกี่ยวกับผู้แต่ง

การติดป้ายกำกับมาสก์การแบ่งส่วนเพียงไม่กี่คลิกใน Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.โจนาธาน บัค เป็นวิศวกรซอฟต์แวร์ที่ Amazon Web Services ที่ทำงานที่จุดตัดของแมชชีนเลิร์นนิงและระบบกระจาย งานของเขาเกี่ยวข้องกับการผลิตโมเดลแมชชีนเลิร์นนิงและการพัฒนาแอปพลิเคชันซอฟต์แวร์ใหม่ที่ขับเคลื่อนโดยแมชชีนเลิร์นนิงเพื่อให้ลูกค้าได้รับความสามารถล่าสุด

การติดป้ายกำกับมาสก์การแบ่งส่วนเพียงไม่กี่คลิกใน Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.หลี่ เอ้อหราน หลี่ เป็นผู้จัดการวิทยาศาสตร์ประยุกต์ที่บริการ humain-in-the-loop, AWS AI, Amazon ความสนใจในการวิจัยของเขาคือการเรียนรู้เชิงลึก 3 มิติและการเรียนรู้การมองเห็นและการแสดงภาษา ก่อนหน้านี้เขาเป็นนักวิทยาศาสตร์อาวุโสที่ Alexa AI หัวหน้าฝ่ายการเรียนรู้ของเครื่องที่ Scale AI และหัวหน้านักวิทยาศาสตร์ที่ Pony.ai ก่อนหน้านั้น เขาเคยร่วมงานกับทีมการรับรู้ที่ Uber ATG และทีมแพลตฟอร์มการเรียนรู้ของเครื่องที่ Uber ซึ่งทำงานเกี่ยวกับการเรียนรู้ของเครื่องสำหรับการขับรถอัตโนมัติ ระบบการเรียนรู้ของเครื่อง และการริเริ่มเชิงกลยุทธ์ของ AI เขาเริ่มทำงานที่ Bell Labs และเป็นผู้ช่วยศาสตราจารย์ที่มหาวิทยาลัยโคลัมเบีย เขาร่วมสอนบทช่วยสอนที่ ICML'17 และ ICCV'19 และร่วมจัดเวิร์กชอปหลายครั้งที่ NeurIPS, ICML, CVPR, ICCV เกี่ยวกับการเรียนรู้ของเครื่องสำหรับการขับขี่อัตโนมัติ การมองเห็น 3 มิติและวิทยาการหุ่นยนต์ ระบบการเรียนรู้ของเครื่อง และการเรียนรู้ของเครื่องที่เป็นปฏิปักษ์ เขาจบปริญญาเอกด้านวิทยาการคอมพิวเตอร์ที่ Cornell University เขาเป็นเพื่อน ACM และเพื่อน IEEE

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS