يوفر Snapper علامات مدعومة بالتعلم الآلي لاكتشاف كائنات الصورة بشكل مثالي

أعاد نشره أفلاطون

المتابعون: 0

يعد التعليق التوضيحي للمربع المحيط مهمة شاقة وتستغرق وقتًا طويلاً وتتطلب من المعلقين إنشاء تعليقات توضيحية تلائم حدود الكائن بإحكام. تتطلب مهام التعليق التوضيحي للمربع المحيط ، على سبيل المثال ، المعلقين التوضيحيين للتأكد من أن جميع حواف الكائن الذي تم وضع تعليقات عليه مضمنة في التعليق التوضيحي. من الناحية العملية ، يعد إنشاء تعليقات توضيحية دقيقة ومتوافقة مع حواف الكائن عملية شاقة.

في هذا المنشور ، نقدم أداة تفاعلية جديدة تسمى Snapper ، مدعومة بنموذج التعلم الآلي (ML) الذي يقلل من الجهد المطلوب من المعلقين. تقوم أداة Snapper تلقائيًا بضبط التعليقات التوضيحية المشوشة ، مما يقلل الوقت المطلوب للتعليق على البيانات بمستوى عالي الجودة.

نظرة عامة على Snapper

Snapper هو نظام تفاعلي وذكي يقوم تلقائيًا "بإدراج" التعليقات التوضيحية للكائنات على كائنات قائمة على الصور في الوقت الفعلي. باستخدام Snapper ، يضع أصحاب التعليقات التعليقات التوضيحية للمربع المحيط عن طريق رسم المربعات ، ثم يشاهدون التعديلات الفورية والتلقائية على المربع المحيط لملاءمة الكائن المحدد بشكل أفضل.

يتكون نظام Snapper من نظامين فرعيين. النظام الفرعي الأول هو مكون ReactJS للواجهة الأمامية والذي يعترض أحداث الماوس المتعلقة بالتعليقات التوضيحية ويتعامل مع عرض تنبؤات النموذج. ندمج هذه الواجهة الأمامية مع الحقيقة الأمازون SageMaker الأرض شرح واجهة المستخدم. يتكون النظام الفرعي الثاني من الواجهة الخلفية للنموذج ، والتي تستقبل الطلبات من عميل الواجهة الأمامية ، وتوجه الطلبات إلى نموذج ML لإنشاء إحداثيات مربع الإحاطة المعدلة ، وترسل البيانات مرة أخرى إلى العميل.

نموذج ML الأمثل للمعلقين

تم اقتراح عدد هائل من نماذج الكشف عن الأشياء عالية الأداء من قبل مجتمع رؤية الكمبيوتر في السنوات الأخيرة. ومع ذلك ، يتم تحسين هذه النماذج الحديثة عادةً لاكتشاف الكائنات غير الموجهة. لتسهيل وظيفة Snapper "المفاجئة" لضبط التعليقات التوضيحية للمستخدمين ، فإن الإدخال إلى نموذجنا هو مربع إحاطة مبدئي ، يتم توفيره بواسطة المعلق ، والذي يمكن أن يكون بمثابة علامة لوجود كائن. علاوة على ذلك ، نظرًا لأن النظام لا يحتوي على فئة كائن مقصودة يهدف إلى دعمها ، يجب أن يكون نموذج تعديل Snapper حياديًا للكائنات بحيث يعمل النظام جيدًا على مجموعة من فئات الكائنات.

بشكل عام ، تختلف هذه المتطلبات بشكل كبير عن حالات استخدام نماذج الكشف عن كائن ML النموذجية. نلاحظ أن مشكلة اكتشاف الكائن التقليدية تتم صياغتها على أنها "اكتشاف مركز الكائن ، ثم تراجع الأبعاد". هذا غير بديهي ، لأن التنبؤات الدقيقة لحواف الصندوق المحيط تعتمد بشكل حاسم على إيجاد مركز مربع دقيق أولاً ، ثم محاولة إنشاء مسافات قياسية للحواف. علاوة على ذلك ، فإنه لا يوفر تقديرات ثقة جيدة تركز على أوجه عدم اليقين في مواقع الحافة ، لأن درجة المصنف فقط هي المتاحة للاستخدام.

لمنح نموذج Snapper الخاص بنا القدرة على ضبط التعليقات التوضيحية للمستخدمين ، نقوم بتصميم وتنفيذ نموذج ML مصمم خصيصًا لتعديل الصندوق المحيط. كمدخل ، يأخذ النموذج صورة وتعليق توضيحي للمربع المحيط المقابل. يستخرج النموذج ميزات من الصورة باستخدام شبكة عصبية تلافيفية. بعد استخراج الميزة ، يتم تطبيق التجميع المكاني الاتجاهي على كل بُعد لتجميع المعلومات اللازمة لتحديد موقع الحافة المناسب.

نقوم بصياغة توقع الموقع للمربعات المحيطة كمشكلة تصنيف على مواقع مختلفة. أثناء رؤية الكائن بالكامل ، نطلب من الجهاز التفكير في وجود أو عدم وجود حافة مباشرة في موقع كل بكسل كمهمة تصنيف. يعمل هذا على تحسين الدقة ، حيث يستخدم منطق كل حافة ميزات الصورة من الجوار المحلي المباشر. علاوة على ذلك ، يفصل المخطط المنطق بين الحواف المختلفة ، مما يمنع مواقع الحواف الواضحة من التأثر بالحواف غير المؤكدة. بالإضافة إلى ذلك ، فإنه يوفر لنا تقديرات ثقة بديهية ، حيث يأخذ نموذجنا في الاعتبار كل حافة للكائن بشكل مستقل (مثل المعلقين البشريين) ويوفر توزيعًا قابلاً للتفسير (أو تقدير عدم اليقين) لموقع كل حافة. يتيح لنا ذلك إبراز الحواف الأقل ثقة للحصول على مراجعة بشرية أكثر كفاءة ودقة.

قياس وتقييم أداة Snapper

من الناحية العملية ، نجد أن أداة Snapper تبسط مهمة التعليق التوضيحي للمربع المحيط وهي سهلة الاستخدام للغاية بالنسبة للمستخدمين. أجرينا أيضًا تحليلًا كميًا لـ Snapper لتوصيف الأداة بموضوعية. قمنا بتقييم نموذج تعديل Snapper باستخدام نوع من معايير التقييم لنماذج اكتشاف الكائنات التي تستخدم مقياسين لفحص الصلاحية: التقاطع عبر الاتحاد (IoU) ، وانحراف الحافة والزاوية. تحسب IoU المحاذاة بين تعليقين توضيحيين عن طريق قسمة منطقة التداخل في التعليقات التوضيحية على منطقة اتحاد التعليقات التوضيحية ، مما ينتج عنه مقياس يتراوح من 0 إلى 1. يتم حساب انحراف الحافة وانحراف الزاوية عن طريق أخذ جزء الحواف والزوايا التي تنحرف عن حقيقة الأرض بقيمة بكسل.

لتقييم Snapper ، أنشأنا بيانات التعليقات التوضيحية الصاخبة ديناميكيًا عن طريق تعديل ملف COCO ينسق مربع إحاطة الحقيقة الأرضية مع الارتعاش. يؤدي الإجراء الخاص بنا لإضافة الارتعاش أولاً إلى إزاحة مركز المربع المحيط بنسبة تصل إلى 10٪ من بُعد المربع المحيط المقابل على كل محور ، ثم إعادة قياس أبعاد المربع المحيط بنسبة عينات عشوائية بين 0.9-1.1. هنا ، نطبق هذه المقاييس على مجموعة التحقق من المسؤول مجموعة بيانات MS-COCO تستخدم للتدريب. نحسب على وجه التحديد جزء المربعات المحيطة مع IoU التي تتجاوز 90٪ جنبًا إلى جنب مع كسر انحرافات الحواف وانحرافات الزوايا التي تنحرف أقل من بكسل واحد أو ثلاثة بكسل عن حقيقة الأرض المقابلة. يلخص الجدول التالي النتائج التي توصلنا إليها.

كما هو موضح في الجدول السابق ، حسّن نموذج تعديل Snapper بشكل كبير مصدري البيانات الصاخبة عبر كل من المقاييس الثلاثة. مع التركيز على التعليقات التوضيحية عالية الدقة ، نلاحظ أن تطبيق Snapper على مجموعة بيانات MS COCO المتذبذبة يزيد جزء المربعات المحيطة مع IoU التي تتجاوز 90٪ بما يزيد عن 40٪.

وفي الختام

في هذا المنشور ، قدمنا أداة تعليقات توضيحية جديدة تعمل بنظام ML تسمى Snapper. يتكون Snapper من واجهة خلفية لنموذج SageMaker بالإضافة إلى مكون أمامي ندمجه في واجهة مستخدم تسمية الحقيقة الأرضية. قمنا بتقييم Snapper على التعليقات التوضيحية المحاكية لمربع الإحاطة الصاخبة ووجدنا أنه يمكن تحسين المربعات المحيطة غير الكاملة بنجاح. يمكن أن يؤدي استخدام Snapper في مهام وضع العلامات إلى تقليل التكلفة بشكل كبير وزيادة الدقة.

لمعرفة المزيد، يرجى زيارة تسمية بيانات Amazon SageMaker وجدولة استشارة اليوم.

عن المؤلفين

جوناثان باك مهندس برمجيات في Amazon Web Services يعمل عند تقاطع التعلم الآلي والأنظمة الموزعة. يتضمن عمله إنتاج نماذج التعلم الآلي وتطوير تطبيقات برمجية جديدة مدعومة بالتعلم الآلي لوضع أحدث القدرات في أيدي العملاء.

اليكس ويليامز هو عالم تطبيقي في فريق العلوم البشرية في الحلقة في AWS AI حيث يجري أبحاثًا تفاعلية للأنظمة عند تقاطع التفاعل بين الإنسان والحاسوب (HCI) والتعلم الآلي. قبل انضمامه إلى أمازون ، كان أستاذًا في قسم الهندسة الكهربائية وعلوم الكمبيوتر في جامعة تينيسي حيث شارك في إدارة مختبر أبحاث الأشخاص والوكلاء والتفاعلات والأنظمة (PAIRS). كما شغل أيضًا مناصب بحثية في Microsoft Research و Mozilla Research وجامعة أكسفورد. ينشر عمله بانتظام في prem

مين باي هو عالم تطبيقي في AWS ، مع تخصص حالي في رؤية الكمبيوتر ثنائية وثلاثية الأبعاد ، مع التركيز على مجالات القيادة الذاتية وأدوات الذكاء الاصطناعي سهلة الاستخدام. عندما لا يكون في العمل ، فإنه يستمتع باستكشاف الطبيعة ، خاصةً خارج المسار المطروق.

كومار شيلابيلا هو المدير العام والمدير في Amazon Web Services ويقود تطوير خدمات ML / AI مثل أنظمة الإنسان في الحلقة و AI DevOps و Geospatial ML و ADAS / تطوير المركبات الذاتية. قبل AWS ، كان كومار مديرًا للهندسة في Uber ATG و Lyft Level 5 وقاد فرقًا تستخدم التعلم الآلي لتطوير قدرات القيادة الذاتية مثل الإدراك ورسم الخرائط. كما عمل على تطبيق تقنيات التعلم الآلي لتحسين البحث والتوصيات والإعلان عن المنتجات في LinkedIn و Twitter و Bing و Microsoft Research.

باتريك هافنر هو عالم تطبيقي رئيسي مع فريق AWS Sagemaker Ground Truth. لقد كان يعمل على تحسين الإنسان في الحلقة منذ عام 1995 ، عندما طبق شبكة LeNet Convolutional Neural Network للتحقق من التعرف. إنه مهتم بالمقاربات الشاملة حيث يتم تحسين خوارزميات ML ووسم واجهات المستخدم معًا لتقليل تكلفة وضع العلامات.

اران لي هو مدير العلوم التطبيقية في خدمات الإنسان في الحلقة ، AWS AI ، Amazon. اهتماماته البحثية هي التعلم العميق ثلاثي الأبعاد ، وتعلم الرؤية وتمثيل اللغة. كان سابقًا أحد كبار العلماء في Alexa AI ، ورئيس التعلم الآلي في Scale AI وكبير العلماء في Pony.ai. قبل ذلك ، كان يعمل مع فريق الإدراك في Uber ATG وفريق منصة التعلم الآلي في Uber الذين يعملون على التعلم الآلي للقيادة الذاتية وأنظمة التعلم الآلي والمبادرات الإستراتيجية للذكاء الاصطناعي. بدأ حياته المهنية في Bell Labs وكان أستاذًا مساعدًا في جامعة كولومبيا. شارك في التدريس في ICML'3 و ICCV'17 ، وشارك في تنظيم العديد من ورش العمل في NeurIPS و ICML و CVPR و ICCV حول التعلم الآلي للقيادة الذاتية والرؤية ثلاثية الأبعاد والروبوتات وأنظمة التعلم الآلي والتعلم الآلي العدائي. حصل على دكتوراه في علوم الكمبيوتر من جامعة كورنيل. وهو زميل ACM وزميل IEEE.

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
المصدر https://aws.amazon.com/blogs/machine-learning/snapper-provides-machine-learning-assisted-labeling-for-pixel-perfect-image-object-detection/

الطابع الزمني: 30 آذار، 2023

الطابع الزمني: سبتمبر 7، 2022

يوفر Snapper وضع العلامات بمساعدة التعلم الآلي لاكتشاف كائن الصورة بشكل مثالي للبكسل

أعاد نشره أفلاطون

نظرة عامة على Snapper

نموذج ML الأمثل للمعلقين

قياس وتقييم أداة Snapper

وفي الختام

عن المؤلفين

اكثر من التعلم الآلي من AWS

كيف يقدم The Chefz الوجبة المثالية مع Amazon Personalize

هندسة الميزات واسعة النطاق مع حماية البيانات الحساسة باستخدام جلسات AWS Glue التفاعلية و Amazon SageMaker Studio

قم بفهرسة محتوى Dropbox الخاص بك باستخدام موصل Dropbox الخاص بـ Amazon Kendra

استخدم التعلم الآلي دون كتابة سطر واحد من التعليمات البرمجية باستخدام Amazon SageMaker Canvas | خدمات الويب الأمازون

حسِّن دقة النسخ لمكالمات وكيل العملاء باستخدام مفردات مخصصة في Amazon Transcribe

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي