يوفر Snapper وضع العلامات بمساعدة التعلم الآلي لاكتشاف كائن الصورة بشكل مثالي للبكسل

يوفر Snapper وضع العلامات بمساعدة التعلم الآلي لاكتشاف كائن الصورة بشكل مثالي للبكسل

يعد التعليق التوضيحي للمربع المحيط مهمة شاقة وتستغرق وقتًا طويلاً وتتطلب من المعلقين إنشاء تعليقات توضيحية تلائم حدود الكائن بإحكام. تتطلب مهام التعليق التوضيحي للمربع المحيط ، على سبيل المثال ، المعلقين التوضيحيين للتأكد من أن جميع حواف الكائن الذي تم وضع تعليقات عليه مضمنة في التعليق التوضيحي. من الناحية العملية ، يعد إنشاء تعليقات توضيحية دقيقة ومتوافقة مع حواف الكائن عملية شاقة.

في هذا المنشور ، نقدم أداة تفاعلية جديدة تسمى Snapper ، مدعومة بنموذج التعلم الآلي (ML) الذي يقلل من الجهد المطلوب من المعلقين. تقوم أداة Snapper تلقائيًا بضبط التعليقات التوضيحية المشوشة ، مما يقلل الوقت المطلوب للتعليق على البيانات بمستوى عالي الجودة.

نظرة عامة على Snapper

Snapper هو نظام تفاعلي وذكي يقوم تلقائيًا "بإدراج" التعليقات التوضيحية للكائنات على كائنات قائمة على الصور في الوقت الفعلي. باستخدام Snapper ، يضع أصحاب التعليقات التعليقات التوضيحية للمربع المحيط عن طريق رسم المربعات ، ثم يشاهدون التعديلات الفورية والتلقائية على المربع المحيط لملاءمة الكائن المحدد بشكل أفضل.

يتكون نظام Snapper من نظامين فرعيين. النظام الفرعي الأول هو مكون ReactJS للواجهة الأمامية والذي يعترض أحداث الماوس المتعلقة بالتعليقات التوضيحية ويتعامل مع عرض تنبؤات النموذج. ندمج هذه الواجهة الأمامية مع الحقيقة الأمازون SageMaker الأرض شرح واجهة المستخدم. يتكون النظام الفرعي الثاني من الواجهة الخلفية للنموذج ، والتي تستقبل الطلبات من عميل الواجهة الأمامية ، وتوجه الطلبات إلى نموذج ML لإنشاء إحداثيات مربع الإحاطة المعدلة ، وترسل البيانات مرة أخرى إلى العميل.

يوفر Snapper تصنيفًا مدعومًا بالتعلم الآلي للكشف عن كائنات الصورة المثالية للبكسل وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

نموذج ML الأمثل للمعلقين

تم اقتراح عدد هائل من نماذج الكشف عن الأشياء عالية الأداء من قبل مجتمع رؤية الكمبيوتر في السنوات الأخيرة. ومع ذلك ، يتم تحسين هذه النماذج الحديثة عادةً لاكتشاف الكائنات غير الموجهة. لتسهيل وظيفة Snapper "المفاجئة" لضبط التعليقات التوضيحية للمستخدمين ، فإن الإدخال إلى نموذجنا هو مربع إحاطة مبدئي ، يتم توفيره بواسطة المعلق ، والذي يمكن أن يكون بمثابة علامة لوجود كائن. علاوة على ذلك ، نظرًا لأن النظام لا يحتوي على فئة كائن مقصودة يهدف إلى دعمها ، يجب أن يكون نموذج تعديل Snapper حياديًا للكائنات بحيث يعمل النظام جيدًا على مجموعة من فئات الكائنات.

بشكل عام ، تختلف هذه المتطلبات بشكل كبير عن حالات استخدام نماذج الكشف عن كائن ML النموذجية. نلاحظ أن مشكلة اكتشاف الكائن التقليدية تتم صياغتها على أنها "اكتشاف مركز الكائن ، ثم تراجع الأبعاد". هذا غير بديهي ، لأن التنبؤات الدقيقة لحواف الصندوق المحيط تعتمد بشكل حاسم على إيجاد مركز مربع دقيق أولاً ، ثم محاولة إنشاء مسافات قياسية للحواف. علاوة على ذلك ، فإنه لا يوفر تقديرات ثقة جيدة تركز على أوجه عدم اليقين في مواقع الحافة ، لأن درجة المصنف فقط هي المتاحة للاستخدام.

لمنح نموذج Snapper الخاص بنا القدرة على ضبط التعليقات التوضيحية للمستخدمين ، نقوم بتصميم وتنفيذ نموذج ML مصمم خصيصًا لتعديل الصندوق المحيط. كمدخل ، يأخذ النموذج صورة وتعليق توضيحي للمربع المحيط المقابل. يستخرج النموذج ميزات من الصورة باستخدام شبكة عصبية تلافيفية. بعد استخراج الميزة ، يتم تطبيق التجميع المكاني الاتجاهي على كل بُعد لتجميع المعلومات اللازمة لتحديد موقع الحافة المناسب.

نقوم بصياغة توقع الموقع للمربعات المحيطة كمشكلة تصنيف على مواقع مختلفة. أثناء رؤية الكائن بالكامل ، نطلب من الجهاز التفكير في وجود أو عدم وجود حافة مباشرة في موقع كل بكسل كمهمة تصنيف. يعمل هذا على تحسين الدقة ، حيث يستخدم منطق كل حافة ميزات الصورة من الجوار المحلي المباشر. علاوة على ذلك ، يفصل المخطط المنطق بين الحواف المختلفة ، مما يمنع مواقع الحواف الواضحة من التأثر بالحواف غير المؤكدة. بالإضافة إلى ذلك ، فإنه يوفر لنا تقديرات ثقة بديهية ، حيث يأخذ نموذجنا في الاعتبار كل حافة للكائن بشكل مستقل (مثل المعلقين البشريين) ويوفر توزيعًا قابلاً للتفسير (أو تقدير عدم اليقين) لموقع كل حافة. يتيح لنا ذلك إبراز الحواف الأقل ثقة للحصول على مراجعة بشرية أكثر كفاءة ودقة.

قياس وتقييم أداة Snapper

من الناحية العملية ، نجد أن أداة Snapper تبسط مهمة التعليق التوضيحي للمربع المحيط وهي سهلة الاستخدام للغاية بالنسبة للمستخدمين. أجرينا أيضًا تحليلًا كميًا لـ Snapper لتوصيف الأداة بموضوعية. قمنا بتقييم نموذج تعديل Snapper باستخدام نوع من معايير التقييم لنماذج اكتشاف الكائنات التي تستخدم مقياسين لفحص الصلاحية: التقاطع عبر الاتحاد (IoU) ، وانحراف الحافة والزاوية. تحسب IoU المحاذاة بين تعليقين توضيحيين عن طريق قسمة منطقة التداخل في التعليقات التوضيحية على منطقة اتحاد التعليقات التوضيحية ، مما ينتج عنه مقياس يتراوح من 0 إلى 1. يتم حساب انحراف الحافة وانحراف الزاوية عن طريق أخذ جزء الحواف والزوايا التي تنحرف عن حقيقة الأرض بقيمة بكسل.

لتقييم Snapper ، أنشأنا بيانات التعليقات التوضيحية الصاخبة ديناميكيًا عن طريق تعديل ملف COCO ينسق مربع إحاطة الحقيقة الأرضية مع الارتعاش. يؤدي الإجراء الخاص بنا لإضافة الارتعاش أولاً إلى إزاحة مركز المربع المحيط بنسبة تصل إلى 10٪ من بُعد المربع المحيط المقابل على كل محور ، ثم إعادة قياس أبعاد المربع المحيط بنسبة عينات عشوائية بين 0.9-1.1. هنا ، نطبق هذه المقاييس على مجموعة التحقق من المسؤول مجموعة بيانات MS-COCO تستخدم للتدريب. نحسب على وجه التحديد جزء المربعات المحيطة مع IoU التي تتجاوز 90٪ جنبًا إلى جنب مع كسر انحرافات الحواف وانحرافات الزوايا التي تنحرف أقل من بكسل واحد أو ثلاثة بكسل عن حقيقة الأرض المقابلة. يلخص الجدول التالي النتائج التي توصلنا إليها.

يوفر Snapper تصنيفًا مدعومًا بالتعلم الآلي للكشف عن كائنات الصورة المثالية للبكسل وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

كما هو موضح في الجدول السابق ، حسّن نموذج تعديل Snapper بشكل كبير مصدري البيانات الصاخبة عبر كل من المقاييس الثلاثة. مع التركيز على التعليقات التوضيحية عالية الدقة ، نلاحظ أن تطبيق Snapper على مجموعة بيانات MS COCO المتذبذبة يزيد جزء المربعات المحيطة مع IoU التي تتجاوز 90٪ بما يزيد عن 40٪.

وفي الختام

في هذا المنشور ، قدمنا ​​أداة تعليقات توضيحية جديدة تعمل بنظام ML تسمى Snapper. يتكون Snapper من واجهة خلفية لنموذج SageMaker بالإضافة إلى مكون أمامي ندمجه في واجهة مستخدم تسمية الحقيقة الأرضية. قمنا بتقييم Snapper على التعليقات التوضيحية المحاكية لمربع الإحاطة الصاخبة ووجدنا أنه يمكن تحسين المربعات المحيطة غير الكاملة بنجاح. يمكن أن يؤدي استخدام Snapper في مهام وضع العلامات إلى تقليل التكلفة بشكل كبير وزيادة الدقة.

لمعرفة المزيد، يرجى زيارة تسمية بيانات Amazon SageMaker وجدولة استشارة اليوم.


عن المؤلفين

يوفر Snapper تصنيفًا مدعومًا بالتعلم الآلي للكشف عن كائنات الصورة المثالية للبكسل وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.جوناثان باك مهندس برمجيات في Amazon Web Services يعمل عند تقاطع التعلم الآلي والأنظمة الموزعة. يتضمن عمله إنتاج نماذج التعلم الآلي وتطوير تطبيقات برمجية جديدة مدعومة بالتعلم الآلي لوضع أحدث القدرات في أيدي العملاء.

يوفر Snapper تصنيفًا مدعومًا بالتعلم الآلي للكشف عن كائنات الصورة المثالية للبكسل وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.اليكس ويليامز هو عالم تطبيقي في فريق العلوم البشرية في الحلقة في AWS AI حيث يجري أبحاثًا تفاعلية للأنظمة عند تقاطع التفاعل بين الإنسان والحاسوب (HCI) والتعلم الآلي. قبل انضمامه إلى أمازون ، كان أستاذًا في قسم الهندسة الكهربائية وعلوم الكمبيوتر في جامعة تينيسي حيث شارك في إدارة مختبر أبحاث الأشخاص والوكلاء والتفاعلات والأنظمة (PAIRS). كما شغل أيضًا مناصب بحثية في Microsoft Research و Mozilla Research وجامعة أكسفورد. ينشر عمله بانتظام في prem

يوفر Snapper تصنيفًا مدعومًا بالتعلم الآلي للكشف عن كائنات الصورة المثالية للبكسل وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.مين باي هو عالم تطبيقي في AWS ، مع تخصص حالي في رؤية الكمبيوتر ثنائية وثلاثية الأبعاد ، مع التركيز على مجالات القيادة الذاتية وأدوات الذكاء الاصطناعي سهلة الاستخدام. عندما لا يكون في العمل ، فإنه يستمتع باستكشاف الطبيعة ، خاصةً خارج المسار المطروق.

يوفر Snapper تصنيفًا مدعومًا بالتعلم الآلي للكشف عن كائنات الصورة المثالية للبكسل وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.كومار شيلابيلا هو المدير العام والمدير في Amazon Web Services ويقود تطوير خدمات ML / AI مثل أنظمة الإنسان في الحلقة و AI DevOps و Geospatial ML و ADAS / تطوير المركبات الذاتية. قبل AWS ، كان كومار مديرًا للهندسة في Uber ATG و Lyft Level 5 وقاد فرقًا تستخدم التعلم الآلي لتطوير قدرات القيادة الذاتية مثل الإدراك ورسم الخرائط. كما عمل على تطبيق تقنيات التعلم الآلي لتحسين البحث والتوصيات والإعلان عن المنتجات في LinkedIn و Twitter و Bing و Microsoft Research.

يوفر Snapper تصنيفًا مدعومًا بالتعلم الآلي للكشف عن كائنات الصورة المثالية للبكسل وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.باتريك هافنر هو عالم تطبيقي رئيسي مع فريق AWS Sagemaker Ground Truth. لقد كان يعمل على تحسين الإنسان في الحلقة منذ عام 1995 ، عندما طبق شبكة LeNet Convolutional Neural Network للتحقق من التعرف. إنه مهتم بالمقاربات الشاملة حيث يتم تحسين خوارزميات ML ووسم واجهات المستخدم معًا لتقليل تكلفة وضع العلامات.

يوفر Snapper تصنيفًا مدعومًا بالتعلم الآلي للكشف عن كائنات الصورة المثالية للبكسل وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.اران لي هو مدير العلوم التطبيقية في خدمات الإنسان في الحلقة ، AWS AI ، Amazon. اهتماماته البحثية هي التعلم العميق ثلاثي الأبعاد ، وتعلم الرؤية وتمثيل اللغة. كان سابقًا أحد كبار العلماء في Alexa AI ، ورئيس التعلم الآلي في Scale AI وكبير العلماء في Pony.ai. قبل ذلك ، كان يعمل مع فريق الإدراك في Uber ATG وفريق منصة التعلم الآلي في Uber الذين يعملون على التعلم الآلي للقيادة الذاتية وأنظمة التعلم الآلي والمبادرات الإستراتيجية للذكاء الاصطناعي. بدأ حياته المهنية في Bell Labs وكان أستاذًا مساعدًا في جامعة كولومبيا. شارك في التدريس في ICML'3 و ICCV'17 ، وشارك في تنظيم العديد من ورش العمل في NeurIPS و ICML و CVPR و ICCV حول التعلم الآلي للقيادة الذاتية والرؤية ثلاثية الأبعاد والروبوتات وأنظمة التعلم الآلي والتعلم الآلي العدائي. حصل على دكتوراه في علوم الكمبيوتر من جامعة كورنيل. وهو زميل ACM وزميل IEEE.

الطابع الزمني:

اكثر من التعلم الآلي من AWS