نقرة قليلة على ملصق قناع التجزئة في Amazon SageMaker Ground Truth Plus

نقرة قليلة على ملصق قناع التجزئة في Amazon SageMaker Ground Truth Plus

أمازون سيج ميكر جراوند تروث بلس هي خدمة تصنيف البيانات المُدارة التي تجعل من السهل تسمية البيانات لتطبيقات التعلم الآلي (ML). إحدى حالات الاستخدام الشائعة هي التجزئة الدلالية ، وهي تقنية ML للرؤية الحاسوبية تتضمن تعيين تسميات فئة إلى وحدات بكسل فردية في صورة ما. على سبيل المثال ، في إطارات الفيديو التي تم التقاطها بواسطة مركبة متحركة ، يمكن أن تتضمن ملصقات الفئات المركبات أو المشاة أو الطرق أو إشارات المرور أو المباني أو الخلفيات. يوفر فهمًا عالي الدقة لمواقع الكائنات المختلفة في الصورة وغالبًا ما يستخدم لبناء أنظمة إدراك للمركبات المستقلة أو الروبوتات. لبناء نموذج ML للتجزئة الدلالية ، من الضروري أولاً تسمية حجم كبير من البيانات على مستوى البكسل. عملية وضع العلامات معقدة. إنها تتطلب أدوات ملصقات ماهرة ووقتًا طويلاً - يمكن أن تستغرق بعض الصور ما يصل إلى ساعتين أو أكثر لتسمية بدقة!

في 2019، أصدرنا أداة وسم تفاعلية تعمل بنظام ML تسمى Auto-piece for Ground Truth يتيح لك إنشاء أقنعة عالية الجودة بسرعة وسهولة. لمزيد من المعلومات، راجع أداة التجزئة التلقائية. تعمل هذه الميزة من خلال السماح لك بالنقر فوق "النقاط المتطرفة" العلوية واليسرى والسفلية واليمنى على الكائن. نموذج ML الذي يعمل في الخلفية سوف يستوعب إدخال المستخدم هذا ويعيد قناع تجزئة عالي الجودة يتم عرضه على الفور في أداة وضع العلامات على الحقيقة الأرضية. ومع ذلك ، تسمح لك هذه الميزة فقط بوضع أربع نقرات. في حالات معينة ، قد يفوت القناع الذي تم إنشاؤه بواسطة ML عن غير قصد أجزاء معينة من الصورة ، مثل حول حدود الكائن حيث تكون الحواف غير واضحة أو حيث يمتزج اللون أو التشبع أو الظلال مع البيئة المحيطة.

النقر فوق النقطة المتطرفة مع عدد مرن من النقرات التصحيحية

لقد قمنا الآن بتحسين الأداة للسماح بنقرات إضافية للنقاط الحدودية ، مما يوفر ملاحظات في الوقت الفعلي لنموذج ML. يتيح لك ذلك إنشاء قناع تجزئة أكثر دقة. في المثال التالي ، نتيجة التجزئة الأولية ليست دقيقة بسبب الحدود الضعيفة بالقرب من الظل. الأهم من ذلك ، أن هذه الأداة تعمل في وضع يسمح بالتعليقات في الوقت الفعلي — لا يتطلب منك تحديد جميع النقاط مرة واحدة. بدلاً من ذلك ، يمكنك أولاً إجراء أربع نقرات بالماوس ، مما يؤدي إلى تشغيل نموذج ML لإنتاج قناع تجزئة. بعد ذلك ، يمكنك فحص هذا القناع ، وتحديد أي أخطاء محتملة ، ثم وضع نقرات إضافية حسب الاقتضاء "لدفع" النموذج إلى النتيجة الصحيحة.

وضع علامات على قناع التجزئة بنقرات قليلة في Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

سمحت لك أداة وضع العلامات السابقة بوضع أربع نقرات بالماوس بالضبط (نقاط حمراء). نتيجة التقسيم الأولية (المنطقة الحمراء المظللة) ليست دقيقة بسبب الحدود الضعيفة بالقرب من الظل (أسفل يسار القناع الأحمر).

باستخدام أداة وضع العلامات المحسّنة الخاصة بنا ، يقوم المستخدم أولاً بأربع نقرات بالماوس (النقاط الحمراء في الشكل العلوي). ثم لديك الفرصة لفحص قناع التجزئة الناتج (المنطقة الحمراء المظللة في الشكل العلوي). يمكنك إجراء نقرات إضافية بالماوس (نقاط خضراء في الشكل السفلي) لجعل النموذج يقوم بتحسين القناع (المنطقة الحمراء المظللة في الشكل السفلي).

وضع علامات على قناع التجزئة بنقرات قليلة في Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

بالمقارنة مع الإصدار الأصلي من الأداة ، يوفر الإصدار المحسن نتيجة محسّنة عندما تكون الكائنات قابلة للتشوه وغير محدبة وتختلف في الشكل والمظهر.

قمنا بمحاكاة أداء هذه الأداة المحسّنة على بيانات العينة عن طريق تشغيل الأداة الأساسية أولاً (بأربع نقرات قصوى فقط) لإنشاء قناع تجزئة وتقييم متوسط ​​التقاطع عبر الاتحاد (mIoU) ، وهو مقياس شائع لدقة أقنعة التجزئة. ثم طبقنا نقرات تصحيحية محاكاة وقمنا بتقييم التحسن في mIoU بعد كل نقرة محاكاة. يلخص الجدول التالي هذه النتائج. يُظهر الصف الأول mIoU ، ويظهر الصف الثاني الخطأ (الذي يُعطى بنسبة 100٪ مطروحًا منه mIoU). من خلال خمس نقرات إضافية بالماوس فقط ، يمكننا تقليل الخطأ بنسبة 9٪ لهذه المهمة!

. . عدد النقرات التصحيحية .
. خط الأساس 1 2 3 4 5
mIoU 72.72 76.56 77.62 78.89 80.57 81.73
خطأ 27% 23% 22% 21% 19% 18%

التكامل مع الحقيقة الأرضية وتنميط الأداء

لدمج هذا النموذج مع Ground Truth ، نتبع نمطًا معماريًا قياسيًا كما هو موضح في الرسم التخطيطي التالي. أولاً ، نقوم ببناء نموذج ML في صورة Docker ونشره سجل الأمازون المرنة للحاويات (Amazon ECR) ، سجل حاويات Docker مُدار بالكامل يسهل تخزين صور الحاويات ومشاركتها ونشرها. باستخدام مجموعة أدوات الاستدلال SageMaker في بناء صورة Docker ، يمكننا بسهولة استخدام أفضل الممارسات لخدمة النموذج وتحقيق استنتاج بزمن انتقال منخفض. ثم نقوم بإنشاء ملف الأمازون SageMaker نقطة نهاية في الوقت الفعلي لاستضافة النموذج. نقدم لك ملف AWS لامدا تعمل كوكيل أمام نقطة نهاية SageMaker لتقديم أنواع مختلفة من تحويل البيانات. أخيرًا ، نستخدم ملفات بوابة أمازون API كطريقة للتكامل مع واجهتنا الأمامية ، تطبيق وضع العلامات Ground Truth ، لتوفير مصادقة آمنة لخلفيتنا.

وضع علامات على قناع التجزئة بنقرات قليلة في Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

يمكنك اتباع هذا النمط العام لحالات الاستخدام الخاصة بك لأدوات تعلم الآلة المصممة لهذا الغرض ودمجها مع واجهات مستخدم مهام الحقيقة الأرضية المخصصة. لمزيد من المعلومات ، يرجى الرجوع إلى قم ببناء سير عمل مخصص لتوسيم البيانات باستخدام Amazon SageMaker Ground Truth.

بعد توفير هذه البنية ونشر نموذجنا باستخدام مجموعة تطوير سحابة AWS (AWS CDK) ، قمنا بتقييم خصائص زمن الانتقال لنموذجنا باستخدام أنواع مثيلات SageMaker المختلفة. من السهل جدًا القيام بذلك لأننا نستخدم نقاط نهاية الاستدلال في الوقت الفعلي من SageMaker لخدمة نموذجنا. تتكامل نقاط نهاية الاستدلال في الوقت الحقيقي من SageMaker بسلاسة مع ملفات الأمازون CloudWatch وتنبعث منها مقاييس مثل استخدام الذاكرة ووقت استجابة النموذج بدون إعداد مطلوب (انظر مقاييس استدعاء نقطة نهاية SageMaker لمزيد من التفاصيل).

في الشكل التالي ، نعرض مقياس ModelLatency المنبعث أصلاً من نقاط نهاية الاستدلال في الوقت الفعلي من SageMaker. يمكننا بسهولة استخدام العديد من وظائف الرياضيات المترية في CloudWatch لإظهار النسب المئوية لوقت الاستجابة ، مثل زمن الانتقال p50 أو p90.

وضع علامات على قناع التجزئة بنقرات قليلة في Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

يلخص الجدول التالي هذه النتائج لأداة النقر القصوى المحسّنة الخاصة بنا للتجزئة الدلالية لثلاثة أنواع من المثيلات: p2.xlarge ، و p3.2xlarge ، و g4dn.xlarge. على الرغم من أن مثيل p3.2xlarge يوفر أقل زمن انتقال ، إلا أن مثيل g4dn.xlarge يوفر أفضل نسبة تكلفة إلى أداء. مثيل g4dn.xlarge أبطأ بنسبة 8٪ فقط (35 مللي ثانية) من مثيل p3.2xlarge ، ولكنه أقل تكلفة بنسبة 81٪ على أساس الساعة من مثيل p3.2xlarge (انظر الأمازون SageMaker التسعير لمزيد من التفاصيل حول أنواع مثيلات SageMaker وأسعارها).

نوع مثيل SageMaker p90 الكمون (مللي ثانية)
1 p2.xlarge 751
2 تكبير 424
3 g4dn.xlarge 459

وفي الختام

في هذا المنشور ، قدمنا ​​امتدادًا لميزة المقطع التلقائي لـ Ground Truth لمهام التعليقات التوضيحية للتجزئة الدلالية. في حين أن الإصدار الأصلي من الأداة يسمح لك بإجراء أربع نقرات بالماوس بالضبط ، مما يؤدي إلى تشغيل نموذج لتوفير قناع تجزئة عالي الجودة ، فإن الامتداد يتيح لك إجراء نقرات تصحيحية وبالتالي تحديث وتوجيه نموذج ML لعمل تنبؤات أفضل. قدمنا ​​أيضًا نمطًا معماريًا أساسيًا يمكنك استخدامه لنشر الأدوات التفاعلية ودمجها في واجهات مستخدم تصنيف الحقيقة الأرضية. أخيرًا ، قمنا بتلخيص زمن انتقال النموذج ، وأظهرنا كيف أن استخدام نقاط نهاية الاستدلال في الوقت الفعلي من SageMaker يجعل من السهل مراقبة أداء النموذج.

لمعرفة المزيد حول كيفية قيام هذه الأداة بتقليل تكلفة وضع العلامات وزيادة الدقة ، قم بزيارة تسمية بيانات Amazon SageMaker لبدء استشارة اليوم.


عن المؤلفين

وضع علامات على قناع التجزئة بنقرات قليلة في Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.جوناثان باك مهندس برمجيات في Amazon Web Services يعمل عند تقاطع التعلم الآلي والأنظمة الموزعة. يتضمن عمله إنتاج نماذج التعلم الآلي وتطوير تطبيقات برمجية جديدة مدعومة بالتعلم الآلي لوضع أحدث القدرات في أيدي العملاء.

وضع علامات على قناع التجزئة بنقرات قليلة في Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.لي إران لي هو مدير العلوم التطبيقية في خدمات الإنسان في الحلقة ، AWS AI ، Amazon. اهتماماته البحثية هي التعلم العميق ثلاثي الأبعاد ، وتعلم الرؤية وتمثيل اللغة. كان سابقًا أحد كبار العلماء في Alexa AI ، ورئيس التعلم الآلي في Scale AI وكبير العلماء في Pony.ai. قبل ذلك ، كان يعمل مع فريق الإدراك في Uber ATG وفريق منصة التعلم الآلي في Uber الذين يعملون على التعلم الآلي للقيادة الذاتية وأنظمة التعلم الآلي والمبادرات الإستراتيجية للذكاء الاصطناعي. بدأ حياته المهنية في Bell Labs وكان أستاذًا مساعدًا في جامعة كولومبيا. شارك في التدريس في ICML'3 و ICCV'17 ، وشارك في تنظيم العديد من ورش العمل في NeurIPS و ICML و CVPR و ICCV حول التعلم الآلي للقيادة الذاتية والرؤية ثلاثية الأبعاد والروبوتات وأنظمة التعلم الآلي والتعلم الآلي العدائي. حصل على دكتوراه في علوم الكمبيوتر من جامعة كورنيل. وهو زميل ACM وزميل IEEE.

الطابع الزمني:

اكثر من التعلم الآلي من AWS