Snapper برچسب‌گذاری به کمک یادگیری ماشینی برای تشخیص اشیاء تصویری بی‌نقص پیکسل ارائه می‌کند

بازنشر افلاطون

دنبال: 0

حاشیه نویسی جعبه محدود یک کار وقت گیر و خسته کننده است که به حاشیه نویسان نیاز دارد تا حاشیه نویسی هایی را ایجاد کنند که کاملاً متناسب با مرزهای یک شی باشد. به عنوان مثال، وظایف حاشیه نویسی جعبه مرزی، نیازمند حاشیه نویسان هستند تا اطمینان حاصل کنند که تمام لبه های یک شیء حاشیه نویسی در حاشیه قرار می گیرند. در عمل، ایجاد حاشیه‌نویسی‌هایی که دقیق و به خوبی با لبه‌های اشیا هماهنگ باشند، فرآیندی پر زحمت است.

در این پست، ابزار تعاملی جدیدی به نام Snapper را معرفی می‌کنیم که توسط یک مدل یادگیری ماشینی (ML) طراحی شده است که تلاش مورد نیاز حاشیه نویس‌ها را کاهش می‌دهد. ابزار Snapper به طور خودکار حاشیه نویسی های پر سر و صدا را تنظیم می کند و زمان مورد نیاز برای حاشیه نویسی داده ها را در سطح با کیفیت بالا کاهش می دهد.

نمای کلی Snapper

Snapper یک سیستم تعاملی و هوشمند است که به طور خودکار حاشیه نویسی اشیاء را به اشیاء مبتنی بر تصویر در زمان واقعی "snapper" می کند. با Snapper، حاشیه نویس ها حاشیه نویسی جعبه محدود را با کشیدن جعبه ها قرار می دهند و سپس تنظیمات فوری و خودکار را در جعبه محدود کننده خود مشاهده می کنند تا بهتر با شی محدود شده مطابقت داشته باشند.

سیستم اسنپر از دو زیرسیستم تشکیل شده است. اولین زیرسیستم یک جزء ReactJS جلویی است که رویدادهای ماوس مربوط به حاشیه نویسی را رهگیری می کند و رندر پیش بینی های مدل را مدیریت می کند. ما این قسمت جلویی را با خود ادغام می کنیم Amazon SageMaker Ground Truth رابط کاربری حاشیه نویسی زیرسیستم دوم شامل پشتیبان مدل است که درخواست‌ها را از کلاینت فرانت‌اند دریافت می‌کند، درخواست‌ها را به یک مدل ML هدایت می‌کند تا مختصات جعبه مرزی تنظیم‌شده را تولید کند، و داده‌ها را به مشتری ارسال می‌کند.

مدل ML برای حاشیه نویسان بهینه شده است

تعداد بسیار زیادی از مدل‌های تشخیص اشیا با کارایی بالا توسط جامعه بینایی کامپیوتر در سال‌های اخیر پیشنهاد شده‌اند. با این حال، این مدل های پیشرفته معمولاً برای تشخیص اشیاء هدایت نشده بهینه شده اند. برای تسهیل عملکرد "snapper" Snapper برای تنظیم حاشیه نویسی کاربران، ورودی مدل ما یک کادر محدود اولیه است که توسط حاشیه نویس ارائه شده است، که می تواند به عنوان نشانگری برای حضور یک شی باشد. علاوه بر این، از آنجایی که سیستم هیچ کلاس شی در نظر گرفته‌ای ندارد که قصد پشتیبانی آن را دارد، مدل تعدیل Snapper باید به گونه‌ای باشد که سیستم به خوبی روی طیفی از کلاس‌های شیء عمل کند.

به طور کلی، این الزامات به طور قابل توجهی با موارد استفاده از مدل‌های تشخیص شی ML معمولی متفاوت است. ما توجه می کنیم که مشکل سنتی تشخیص شی به صورت "مرکز شی را شناسایی کنید، سپس ابعاد را رگرسیون کنید." این غیر منطقی است، زیرا پیش‌بینی‌های دقیق لبه‌های جعبه‌بندی به‌شدت به یافتن یک مرکز جعبه دقیق و سپس تلاش برای ایجاد فاصله‌های اسکالر تا لبه‌ها بستگی دارد. علاوه بر این، تخمین های اطمینان خوبی را ارائه نمی دهد که بر عدم قطعیت مکان های لبه تمرکز می کنند، زیرا فقط امتیاز طبقه بندی کننده برای استفاده در دسترس است.

برای اینکه مدل Snapper ما توانایی تنظیم حاشیه نویسی کاربران را داشته باشد، یک مدل ML سفارشی طراحی شده برای تنظیم جعبه مرزی طراحی و اجرا می کنیم. به عنوان ورودی، مدل یک تصویر و یک حاشیه نویسی جعبه مرزی مربوطه می گیرد. این مدل با استفاده از یک شبکه عصبی کانولوشن ویژگی ها را از تصویر استخراج می کند. پس از استخراج ویژگی، ادغام فضایی جهت دار برای هر بعد اعمال می شود تا اطلاعات مورد نیاز برای شناسایی مکان مناسب لبه را جمع آوری کند.

ما پیش‌بینی مکان را برای جعبه‌های محدود به عنوان یک مسئله طبقه‌بندی در مکان‌های مختلف فرموله می‌کنیم. در حالی که کل شی را می بینیم، از ماشین می خواهیم که در مورد وجود یا عدم وجود لبه به طور مستقیم در محل هر پیکسل به عنوان یک کار طبقه بندی استدلال کند. این دقت را بهبود می بخشد، زیرا استدلال برای هر لبه از ویژگی های تصویر از همسایگی محلی استفاده می کند. علاوه بر این، این طرح استدلال را بین لبه‌های مختلف جدا می‌کند، که از تحت‌تاثیر قرار گرفتن مکان‌های لبه بدون ابهام توسط مکان‌های نامشخص جلوگیری می‌کند. به‌علاوه، تخمین‌های اطمینان شهودی لبه‌ای را در اختیار ما قرار می‌دهد، زیرا مدل ما هر لبه شی را به طور مستقل در نظر می‌گیرد (مانند حاشیه‌نویس‌های انسانی) و یک توزیع قابل تفسیر (یا برآورد عدم قطعیت) برای مکان هر یال ارائه می‌کند. این به ما امکان می‌دهد لبه‌های کمتر مطمئن را برای بررسی انسانی کارآمدتر و دقیق‌تر برجسته کنیم.

معیار و ارزیابی ابزار Snapper

در عمل، متوجه می‌شویم که ابزار Snapper وظیفه حاشیه‌نویسی جعبه مرزی را ساده می‌کند و برای کاربران بسیار شهودی است. ما همچنین یک تجزیه و تحلیل کمی از Snapper برای توصیف عینی ابزار انجام دادیم. ما مدل تعدیل Snapper را با استفاده از یک نوع استاندارد ارزیابی برای مدل‌های تشخیص شی مورد ارزیابی قرار دادیم که از دو معیار برای بررسی اعتبار استفاده می‌کند: تقاطع بیش از اتحادیه (IoU)، و انحراف لبه و گوشه. IoU تراز بین دو حاشیه نویسی را با تقسیم ناحیه همپوشانی حاشیه نویسی بر ناحیه اتحاد حاشیه نویسی محاسبه می کند و متریکی را از 0 تا 1 به دست می دهد. انحراف لبه و انحراف گوشه با گرفتن کسری از لبه ها و گوشه هایی که از حقیقت زمین با مقدار پیکسل منحرف می شوند محاسبه می شوند.

برای ارزیابی Snapper، ما به صورت پویا داده های حاشیه نویسی نویز را با تنظیم تصادفی COCO جعبه مرزی حقیقت زمین با جیتر هماهنگ می شود. روش ما برای اضافه کردن جیتر ابتدا مرکز جعبه مرزی را تا 10٪ از ابعاد جعبه مرزی مربوطه در هر محور تغییر می دهد و سپس ابعاد جعبه مرزی را با نسبت نمونه برداری تصادفی بین 0.9-1.1 تغییر مقیاس می دهد. در اینجا، ما این معیارها را به مجموعه تأیید اعتبار از طرف رسمی اعمال می کنیم مجموعه داده MS-COCO برای آموزش استفاده می شود. ما به طور خاص کسری از جعبه های مرزی با IoU بیش از 90٪ را در کنار کسر انحراف لبه ها و انحرافات گوشه ای که کمتر از یک یا سه پیکسل از حقیقت زمین مربوطه انحراف دارند محاسبه می کنیم. جدول زیر یافته های ما را خلاصه می کند.

همانطور که در جدول قبل نشان داده شده است، مدل تعدیل Snapper به طور قابل توجهی دو منبع داده های نویز را در هر یک از سه معیار بهبود بخشید. با تاکید بر حاشیه نویسی با دقت بالا، مشاهده می کنیم که استفاده از Snapper در مجموعه داده MS COCO لرزان، کسری از جعبه های مرزی با IoU بیش از 90٪ را تا 40٪ افزایش می دهد.

نتیجه

در این پست یک ابزار حاشیه نویسی جدید با قدرت ML به نام Snapper را معرفی کردیم. Snapper از یک باطن مدل SageMaker و همچنین یک جزء جلویی تشکیل شده است که ما آن را در رابط کاربری برچسب‌گذاری Ground Truth ادغام می‌کنیم. ما Snapper را بر روی حاشیه‌نویسی‌های جعبه مرزی پر سر و صدا شبیه‌سازی شده ارزیابی کردیم و متوجه شدیم که می‌تواند با موفقیت جعبه‌های مرزبندی ناقص را اصلاح کند. استفاده از Snapper در کارهای لیبلینگ می تواند هزینه را به میزان قابل توجهی کاهش داده و دقت را افزایش دهد.

برای کسب اطلاعات بیشتر، بازدید برچسب گذاری داده های آمازون SageMaker و امروز برای مشاوره برنامه ریزی کنید.

درباره نویسندگان

جاناتان باک یک مهندس نرم افزار در خدمات وب آمازون است که در تقاطع یادگیری ماشین و سیستم های توزیع شده کار می کند. کار او شامل تولید مدل‌های یادگیری ماشینی و توسعه نرم‌افزارهای جدید با استفاده از یادگیری ماشینی برای قرار دادن آخرین قابلیت‌ها در دست مشتریان است.

الکس ویلیامز یک دانشمند کاربردی در تیم علمی انسان در حلقه در AWS AI است که در آن تحقیقات سیستم های تعاملی را در تقاطع تعامل انسان و رایانه (HCI) و یادگیری ماشین انجام می دهد. او قبل از پیوستن به آمازون، استاد دپارتمان مهندسی برق و علوم کامپیوتر در دانشگاه تنسی بود، جایی که او آزمایشگاه تحقیقاتی افراد، عوامل، تعاملات و سیستم‌ها (PAIRS) را مدیریت می‌کرد. او همچنین سمت‌های تحقیقاتی در مایکروسافت ریسرچ، موزیلا ریسرچ و دانشگاه آکسفورد داشته است. او به طور مرتب آثار خود را در prem منتشر می کند

مین بای یک دانشمند کاربردی در AWS، با تخصص فعلی در بینایی کامپیوتری 2D/3D، با تمرکز بر زمینه های رانندگی مستقل و ابزارهای هوش مصنوعی کاربر پسند. زمانی که سر کار نیست، از کاوش در طبیعت، به خصوص خارج از مسیر پرتگاه لذت می برد.

کومار چلاپیلا مدیر کل و مدیر خدمات وب آمازون است و توسعه خدمات ML/AI مانند سیستم‌های انسان در حلقه، توسعه‌دهندگان هوش مصنوعی، Geospatial ML و توسعه ADAS/Autonomous Vehicle را رهبری می‌کند. قبل از AWS، کومار مدیر مهندسی Uber ATG و Lyft Level 5 بود و تیم‌هایی را با استفاده از یادگیری ماشین برای توسعه قابلیت‌های خودرانی مانند درک و نقشه‌برداری هدایت می‌کرد. او همچنین روی استفاده از تکنیک‌های یادگیری ماشینی برای بهبود جستجو، توصیه‌ها و محصولات تبلیغاتی در لینکدین، توییتر، بینگ و مایکروسافت ریسرچ کار کرد.

پاتریک هافنر یک دانشمند کاربردی اصلی با تیم AWS Sagemaker Ground Truth است. او از سال 1995 روی بهینه سازی انسان در حلقه کار می کند، زمانی که از شبکه عصبی کانولوشن لنت برای بررسی تشخیص استفاده کرد. او به رویکردهای کل نگر علاقه دارد که در آن الگوریتم‌های ML و رابط‌های کاربری برچسب‌گذاری با هم بهینه‌سازی می‌شوند تا هزینه برچسب‌گذاری را به حداقل برسانند.

اران لی مدیر علوم کاربردی در خدمات انسانی در حلقه، AWS AI، آمازون است. علایق تحقیقاتی او یادگیری عمیق سه بعدی و یادگیری بازنمایی بینایی و زبان است. او قبلاً دانشمند ارشد Alexa AI، رئیس یادگیری ماشین در Scale AI و دانشمند ارشد در Pony.ai بود. قبل از آن، او با تیم ادراک Uber ATG و تیم پلتفرم یادگیری ماشین در Uber بود که بر روی یادگیری ماشین برای رانندگی خودکار، سیستم‌های یادگیری ماشین و ابتکارات استراتژیک هوش مصنوعی کار می‌کرد. او کار خود را در آزمایشگاه بل آغاز کرد و در دانشگاه کلمبیا استادیار بود. او آموزش‌های مشترکی را در ICML'3 و ICCV'17 تدریس کرد و چندین کارگاه آموزشی در NeurIPS، ICML، CVPR، ICCV در مورد یادگیری ماشین برای رانندگی مستقل، دید سه‌بعدی و روباتیک، سیستم‌های یادگیری ماشین و یادگیری ماشینی متخاصم سازمان‌دهی کرد. او دارای دکترای علوم کامپیوتر از دانشگاه کرنل است. او همکار ACM و همکار IEEE است.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/snapper-provides-machine-learning-assisted-labeling-for-pixel-perfect-image-object-detection/

تمبر زمان: مارس 30، 2023

تمبر زمان: ژوئیه 20، 2022

Snapper برچسب‌گذاری به کمک یادگیری ماشینی برای تشخیص اشیاء تصویری بی‌نقص پیکسلی ارائه می‌کند

بازنشر افلاطون

نمای کلی Snapper

مدل ML برای حاشیه نویسان بهینه شده است

معیار و ارزیابی ابزار Snapper

نتیجه

درباره نویسندگان

بیشتر از آموزش ماشین AWS

تأثیر تجاری توصیه های شخصی سازی آمازون را اندازه گیری کنید

تسریع آموزش شبکه عصبی در مقیاس بزرگ در CPU با ThirdAI و AWS Graviton | خدمات وب آمازون

با استفاده از یادگیری ماشین شخصی سازی شده و Amazon SageMaker به راحتی در خودرو دست یابید

استقرار مدل های بزرگ در Amazon SageMaker با استفاده از استنتاج موازی مدل DJLServing و DeepSpeed

با استفاده از Amazon Lookout for Metrics یک آشکارساز ناهنجاری کیفیت هوا بسازید

عملکرد قیمت آموزش مدل خود را با استفاده از خوشه های ناهمگن Amazon SageMaker بهبود بخشید

اعلام ابزارها و قابلیت های جدید برای فعال کردن نوآوری هوش مصنوعی مسئول | خدمات وب آمازون

الگوهای میزبانی مدل در SageMaker: بهترین روش ها در آزمایش و به روز رسانی مدل ها در SageMaker

معرفی مدیریت سهمیه سلف سرویس و سهمیه های خدمات پیش فرض بالاتر برای آمازون تکست

با استفاده از AWS Media Intelligence و Hugging Face BERT هدف‌گیری متنی مبتنی بر طبقه‌بندی بسازید.

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب