برچسب‌گذاری ماسک تقسیم‌بندی با چند کلیک در Amazon SageMaker Ground Truth Plus

برچسب‌گذاری ماسک تقسیم‌بندی با چند کلیک در Amazon SageMaker Ground Truth Plus

Amazon SageMaker Ground Truth Plus یک سرویس برچسب گذاری داده مدیریت شده است که برچسب گذاری داده ها را برای برنامه های کاربردی یادگیری ماشین (ML) آسان می کند. یکی از موارد استفاده رایج، تقسیم‌بندی معنایی است، که یک تکنیک ML بینایی کامپیوتری است که شامل تخصیص برچسب‌های کلاس به پیکسل‌های جداگانه در یک تصویر است. به عنوان مثال، در فریم‌های ویدئویی که توسط یک وسیله نقلیه در حال حرکت ضبط می‌شود، برچسب‌های کلاس می‌تواند شامل وسایل نقلیه، عابران پیاده، جاده‌ها، علائم راهنمایی و رانندگی، ساختمان‌ها یا پس‌زمینه باشد. درک دقیقی از مکان اشیاء مختلف در تصویر ارائه می دهد و اغلب برای ساختن سیستم های ادراک برای وسایل نقلیه خودران یا روباتیک استفاده می شود. برای ساخت یک مدل ML برای تقسیم بندی معنایی، ابتدا لازم است که حجم زیادی از داده ها را در سطح پیکسل برچسب گذاری کنیم. این فرآیند برچسب گذاری پیچیده است. این به برچسب‌زنان ماهر و زمان قابل توجهی نیاز دارد—برخی از تصاویر ممکن است تا ۲ ساعت یا بیشتر طول بکشد تا با دقت برچسب‌گذاری شوند!

در 2019، ما یک ابزار برچسب‌گذاری تعاملی مبتنی بر ML به نام Auto-Segment for Ground Truth منتشر کردیم که به شما امکان می دهد سریع و آسان ماسک های تقسیم بندی با کیفیت بالا ایجاد کنید. برای اطلاعات بیشتر ببین ابزار تقسیم خودکار. این ویژگی بدین گونه کار می کند که به شما امکان می دهد بر روی "نقاط افراطی" بالا، چپ، پایین و راست کلیک کنید. یک مدل ML که در پس‌زمینه اجرا می‌شود، این ورودی کاربر را دریافت می‌کند و یک ماسک تقسیم‌بندی با کیفیت بالا را برمی‌گرداند که بلافاصله در ابزار برچسب‌گذاری Ground Truth ارائه می‌شود. با این حال، این ویژگی تنها به شما اجازه می دهد تا چهار کلیک انجام دهید. در موارد خاص، ماسک تولید شده توسط ML ممکن است به طور ناخواسته بخش‌های خاصی از یک تصویر را از دست بدهد، مانند اطراف مرز جسم که در آن لبه‌ها مشخص نیست یا رنگ، اشباع، یا سایه‌ها با محیط اطراف ترکیب می‌شوند.

کلیک نقطه ای شدید با تعداد قابل انعطاف کلیک های اصلاحی

ما اکنون این ابزار را تقویت کرده‌ایم تا امکان کلیک‌های اضافی روی نقاط مرزی را فراهم کند، که بازخورد بلادرنگ را به مدل ML ارائه می‌دهد. این به شما امکان می دهد ماسک تقسیم بندی دقیق تری ایجاد کنید. در مثال زیر، نتیجه تقسیم بندی اولیه به دلیل مرزهای ضعیف در نزدیکی سایه دقیق نیست. نکته مهم این است که این ابزار در حالتی عمل می کند که امکان بازخورد بلادرنگ را فراهم می کند—نیازی ندارد همه نقاط را به یکباره مشخص کنید. در عوض، ابتدا می توانید چهار کلیک ماوس انجام دهید، که مدل ML را برای تولید یک ماسک تقسیم بندی فعال می کند. سپس می‌توانید این ماسک را بررسی کنید، هرگونه نادرستی احتمالی را پیدا کنید، و متعاقباً کلیک‌های اضافی را در صورت لزوم انجام دهید تا مدل را به سمت نتیجه صحیح هدایت کنید.

برچسب‌گذاری ماسک تقسیم‌بندی چند کلیک در Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

ابزار برچسب گذاری قبلی ما به شما این امکان را می داد که دقیقاً چهار کلیک ماوس (نقاط قرمز) قرار دهید. نتیجه تقسیم بندی اولیه (منطقه قرمز سایه دار) به دلیل مرزهای ضعیف در نزدیکی سایه (پایین-چپ ماسک قرمز) دقیق نیست.

با ابزار برچسب گذاری پیشرفته ما، کاربر دوباره ابتدا چهار کلیک ماوس (نقاط قرمز در شکل بالا) انجام می دهد. سپس شما این فرصت را دارید که ماسک تقسیم بندی حاصل را بررسی کنید (منطقه قرمز سایه دار در شکل بالا). می‌توانید کلیک‌های اضافی ماوس (نقاط سبز در شکل پایین) انجام دهید تا مدل ماسک را اصلاح کند (ناحیه قرمز سایه‌دار در شکل پایین).

برچسب‌گذاری ماسک تقسیم‌بندی چند کلیک در Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

در مقایسه با نسخه اصلی ابزار، نسخه بهبودیافته هنگامی که اجسام قابل تغییر شکل، غیر محدب هستند و از نظر شکل و ظاهر متفاوت هستند، نتیجه بهبود یافته ای را ارائه می دهد.

ما عملکرد این ابزار بهبودیافته را بر روی داده‌های نمونه با اجرای ابزار پایه (فقط با چهار کلیک شدید) برای تولید یک ماسک تقسیم‌بندی شبیه‌سازی کردیم و میانگین تقاطع آن بر روی اتحادیه (mIoU) را ارزیابی کردیم، معیاری رایج از دقت برای ماسک‌های تقسیم‌بندی. سپس کلیک‌های اصلاحی شبیه‌سازی شده را اعمال کردیم و بهبود در mIoU را پس از هر کلیک شبیه‌سازی شده ارزیابی کردیم. جدول زیر به طور خلاصه این نتایج را نشان می دهد. ردیف اول mIoU را نشان می دهد و ردیف دوم خطا را نشان می دهد (که 100% منهای mIoU داده می شود). تنها با پنج کلیک اضافی ماوس، می توانیم خطای این کار را تا 9 درصد کاهش دهیم!

. . تعداد کلیک های اصلاحی .
. خط مقدم 1 2 3 4 5
mIoU 72.72 76.56 77.62 78.89 80.57 81.73
خطا ٪۱۰۰ ٪۱۰۰ ٪۱۰۰ ٪۱۰۰ ٪۱۰۰ ٪۱۰۰

ادغام با Ground Truth و پروفایل عملکرد

برای ادغام این مدل با Ground Truth، از یک الگوی معماری استاندارد پیروی می کنیم که در نمودار زیر نشان داده شده است. ابتدا مدل ML را در یک تصویر داکر می سازیم و آن را در آن مستقر می کنیم رجیستری ظروف الاستیک آمازون (Amazon ECR)، یک رجیستری کانتینر Docker کاملاً مدیریت شده که ذخیره، اشتراک گذاری و استقرار تصاویر کانتینر را آسان می کند. با استفاده از SageMaker Inference Toolkit در ساختن تصویر داکر به ما این امکان را می دهد که به راحتی از بهترین روش ها برای ارائه مدل استفاده کنیم و به استنتاج با تأخیر کم دست یابیم. سپس یک را ایجاد می کنیم آمازون SageMaker نقطه پایانی بلادرنگ برای میزبانی مدل. ما یک را معرفی می کنیم AWS لامبدا به عنوان یک پروکسی در مقابل نقطه پایانی SageMaker عمل می کند تا انواع مختلفی از تبدیل داده ها را ارائه دهد. در نهایت استفاده می کنیم دروازه API آمازون به عنوان راهی برای ادغام با قسمت جلویی ما، برنامه برچسب‌گذاری Ground Truth، برای ارائه احراز هویت ایمن به باطن ما.

برچسب‌گذاری ماسک تقسیم‌بندی چند کلیک در Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

شما می توانید این الگوی عمومی را برای موارد استفاده خود برای ابزارهای ML ساخته شده و ادغام آنها با رابط های کاربری اختصاصی Ground Truth دنبال کنید. برای اطلاعات بیشتر مراجعه کنید با Amazon SageMaker Ground Truth یک گردش کار برچسب‌گذاری داده سفارشی بسازید.

پس از ارائه این معماری و استقرار مدل خود با استفاده از کیت توسعه ابری AWS (AWS CDK)، ما ویژگی‌های تاخیر مدل خود را با انواع مختلف نمونه SageMaker ارزیابی کردیم. انجام این کار بسیار ساده است زیرا ما از نقاط پایانی استنتاج بلادرنگ SageMaker برای ارائه مدل خود استفاده می کنیم. نقاط پایانی استنتاج بلادرنگ SageMaker به طور یکپارچه با آنها ادغام می شوند CloudWatch آمازون و معیارهایی مانند استفاده از حافظه و تأخیر مدل را بدون تنظیمات مورد نیاز منتشر می کند (نگاه کنید به معیارهای فراخوانی نقطه پایانی SageMaker برای جزئیات بیشتر)

در شکل زیر، متریک ModelLatency را نشان می‌دهیم که بوسیله نقاط پایانی استنتاج بلادرنگ SageMaker منتشر می‌شود. ما به راحتی می‌توانیم از توابع مختلف ریاضی متریک در CloudWatch برای نشان دادن صدک‌های تأخیر، مانند تأخیر p50 یا p90 استفاده کنیم.

برچسب‌گذاری ماسک تقسیم‌بندی چند کلیک در Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

جدول زیر این نتایج را برای ابزار کلیک افراطی پیشرفته ما برای تقسیم بندی معنایی برای سه نوع نمونه خلاصه می کند: p2.xlarge، p3.2xlarge، و g4dn.xlarge. اگرچه نمونه p3.2xlarge کمترین تاخیر را ارائه می دهد، نمونه g4dn.xlarge بهترین نسبت هزینه به عملکرد را ارائه می دهد. نمونه g4dn.xlarge تنها 8٪ کندتر (35 میلی ثانیه) از نمونه p3.2xlarge است، اما 81٪ ارزانتر از p3.2xlarge به صورت ساعتی است (نگاه کنید به). قیمت گذاری آمازون SageMaker برای جزئیات بیشتر در مورد انواع نمونه SageMaker و قیمت).

نوع نمونه SageMaker تأخیر p90 (ms)
1 p2.xlarge 751
2 p3.2xlarge 424
3 g4dn.xlarge 459

نتیجه

در این پست، افزونه‌ای را برای ویژگی بخش خودکار Ground Truth برای وظایف حاشیه‌نویسی تقسیم‌بندی معنایی معرفی کردیم. در حالی که نسخه اصلی ابزار به شما امکان می دهد دقیقاً چهار کلیک ماوس انجام دهید، که باعث می شود یک مدل یک ماسک تقسیم بندی با کیفیت بالا ارائه دهد، برنامه افزودنی به شما امکان می دهد کلیک های اصلاحی انجام دهید و در نتیجه مدل ML را برای پیش بینی بهتر به روز رسانی و راهنمایی کنید. ما همچنین یک الگوی اساسی معماری ارائه کردیم که می‌توانید از آن برای استقرار و ادغام ابزارهای تعاملی در رابط‌های کاربری برچسب‌گذاری Ground Truth استفاده کنید. در نهایت، تأخیر مدل را خلاصه کردیم و نشان دادیم که چگونه استفاده از نقاط پایانی استنتاج بلادرنگ SageMaker نظارت بر عملکرد مدل را آسان می‌کند.

برای کسب اطلاعات بیشتر در مورد اینکه چگونه این ابزار می تواند هزینه برچسب گذاری را کاهش دهد و دقت را افزایش دهد، به سایت مراجعه کنید برچسب گذاری داده های آمازون SageMaker برای شروع مشاوره از امروز


درباره نویسندگان

برچسب‌گذاری ماسک تقسیم‌بندی چند کلیک در Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.جاناتان باک یک مهندس نرم افزار در خدمات وب آمازون است که در تقاطع یادگیری ماشین و سیستم های توزیع شده کار می کند. کار او شامل تولید مدل‌های یادگیری ماشینی و توسعه نرم‌افزارهای جدید با استفاده از یادگیری ماشینی برای قرار دادن آخرین قابلیت‌ها در دست مشتریان است.

برچسب‌گذاری ماسک تقسیم‌بندی چند کلیک در Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.لی اران لی مدیر علوم کاربردی در خدمات انسانی در حلقه، AWS AI، آمازون است. علایق تحقیقاتی او یادگیری عمیق سه بعدی و یادگیری بازنمایی بینایی و زبان است. او قبلاً دانشمند ارشد Alexa AI، رئیس یادگیری ماشین در Scale AI و دانشمند ارشد در Pony.ai بود. قبل از آن، او با تیم ادراک Uber ATG و تیم پلتفرم یادگیری ماشین در Uber بود که بر روی یادگیری ماشین برای رانندگی خودکار، سیستم‌های یادگیری ماشین و ابتکارات استراتژیک هوش مصنوعی کار می‌کرد. او کار خود را در آزمایشگاه بل آغاز کرد و در دانشگاه کلمبیا استادیار بود. او آموزش‌های مشترکی را در ICML'3 و ICCV'17 تدریس کرد و چندین کارگاه آموزشی در NeurIPS، ICML، CVPR، ICCV در مورد یادگیری ماشین برای رانندگی مستقل، دید سه‌بعدی و روباتیک، سیستم‌های یادگیری ماشین و یادگیری ماشینی متخاصم سازمان‌دهی کرد. او دارای دکترای علوم کامپیوتر از دانشگاه کرنل است. او همکار ACM و همکار IEEE است.

تمبر زمان:

بیشتر از آموزش ماشین AWS