Позначення маски сегментації кількома клацаннями миші в Amazon SageMaker Ground Truth Plus

Позначення маски сегментації кількома клацаннями миші в Amazon SageMaker Ground Truth Plus

Amazon SageMaker Ground Truth Plus це керована служба маркування даних, яка спрощує маркування даних для програм машинного навчання (ML). Одним із поширених випадків використання є семантична сегментація, яка є технікою ML комп’ютерного бачення, яка передбачає призначення міток класу окремим пікселям зображення. Наприклад, у відеокадрах, знятих транспортним засобом, що рухається, мітки класів можуть включати транспортні засоби, пішоходів, дороги, сигнали світлофора, будівлі або фон. Він забезпечує високоточне розуміння розташування різних об’єктів на зображенні та часто використовується для створення систем сприйняття для автономних транспортних засобів або робототехніки. Щоб побудувати модель ML для семантичної сегментації, спочатку необхідно позначити великий обсяг даних на рівні пікселів. Цей процес маркування складний. Для цього потрібні кваліфіковані наклейки та значний час — для точного маркування деяких зображень може знадобитися до 2 годин або більше!

У 2019, ми випустили інструмент інтерактивного маркування на базі ML під назвою Auto-segment for Ground Truth що дозволяє швидко та легко створювати високоякісні маски сегментації. Для отримання додаткової інформації див Інструмент автоматичної сегментації. Ця функція працює, дозволяючи клацати верхню, ліву, нижню та праву «крайні точки» об’єкта. Модель ML, що працює у фоновому режимі, отримуватиме введені користувачем дані та повертатиме високоякісну маску сегментації, яка негайно відтворюватиметься в інструменті маркування Ground Truth. Однак ця функція дозволяє зробити лише чотири клацання. У деяких випадках маска, згенерована ML, може випадково пропустити певні частини зображення, наприклад навколо межі об’єкта, де краї нечіткі або де колір, насиченість або тіні зливаються з оточенням.

Крайнє точкове клацання з гнучкою кількістю коригуючих клацань

Тепер ми вдосконалили інструмент, щоб дозволити додаткові клацання граничних точок, що забезпечує зворотний зв’язок у режимі реального часу з моделлю ML. Це дозволяє створити більш точну маску сегментації. У наступному прикладі початковий результат сегментації є неточним через слабкі межі біля тіні. Важливо, що цей інструмент працює в режимі, який забезпечує зворотний зв’язок у реальному часі — не вимагає від вас вказувати всі моменти одночасно. Замість цього ви можете спочатку зробити чотири клацання мишею, що запустить модель ML для створення маски сегментації. Потім ви можете перевірити цю маску, знайти будь-які потенційні неточності та згодом розмістити додаткові клацання, щоб «підштовхнути» модель до правильного результату.

Позначення маски сегментації кількома клацаннями миші в Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Наш попередній інструмент міток дозволяв розмістити рівно чотири клацання мишею (червоні точки). Початковий результат сегментації (заштрихована червона область) є неточним через слабкі межі біля тіні (нижня ліворуч від червоної маски).

З нашим удосконаленим інструментом маркування користувач знову спочатку робить чотири клацання мишею (червоні крапки на верхньому малюнку). Потім у вас є можливість перевірити отриману маску сегментації (заштрихована червона область на верхньому малюнку). Ви можете зробити додаткові клацання мишею (зелені точки на нижньому малюнку), щоб змусити модель уточнити маску (заштрихована червона область на нижньому малюнку).

Позначення маски сегментації кількома клацаннями миші в Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Порівняно з оригінальною версією інструменту, покращена версія забезпечує покращений результат, коли об’єкти деформуються, не є опуклими та відрізняються за формою та зовнішнім виглядом.

Ми змоделювали продуктивність цього покращеного інструменту на зразках даних, спочатку запустивши базовий інструмент (лише з чотирма надзвичайними клацаннями), щоб створити маску сегментації, і оцінили його середнє перетину через об’єднання (mIoU), загальну міру точності для масок сегментації. Потім ми застосували змодельовані коригувальні клацання та оцінили покращення в mIoU після кожного змодельованого клацання. Наступна таблиця підсумовує ці результати. Перший рядок показує mIoU, а другий рядок показує похибку (яка визначається як 100% мінус mIoU). За допомогою лише п’яти додаткових клацань миші ми можемо зменшити помилку на 9% для цього завдання!

. . Кількість коригуючих кліків .
. Базова лінія 1 2 3 4 5
mIoU 72.72 76.56 77.62 78.89 80.57 81.73
помилка 27% 23% 22% 21% 19% 18%

Інтеграція з Ground Truth і профілювання продуктивності

Щоб інтегрувати цю модель із Ground Truth, ми дотримуємося шаблону стандартної архітектури, як показано на наступній діаграмі. Спочатку ми вбудовуємо модель ML в образ Docker і розгортаємо його Реєстр контейнерів Amazon Elastic (Amazon ECR), повністю керований реєстр контейнерів Docker, який дозволяє легко зберігати, ділитися та розгортати зображення контейнерів. Використовуючи Набір інструментів висновку SageMaker у створенні образу Docker дозволяє нам легко використовувати найкращі практики для обслуговування моделі та досягти висновку з низькою затримкою. Потім ми створюємо Amazon SageMaker кінцева точка реального часу для розміщення моделі. Ми представляємо AWS Lambda функціонувати як проксі-сервер перед кінцевою точкою SageMaker, щоб запропонувати різні типи перетворення даних. Нарешті використовуємо API -шлюз Amazon як спосіб інтеграції з нашим інтерфейсом, програмою маркування Ground Truth, щоб забезпечити безпечну автентифікацію для нашого серверу.

Позначення маски сегментації кількома клацаннями миші в Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ви можете дотримуватися цього загального шаблону для власних випадків використання спеціально створених інструментів машинного навчання та інтегрувати їх із спеціальними інтерфейсами користувача завдань Ground Truth. Для отримання додаткової інформації див Створіть власний робочий процес маркування даних за допомогою Amazon SageMaker Ground Truth.

Після надання цієї архітектури та розгортання нашої моделі за допомогою Набір хмарних розробок AWS (AWS CDK), ми оцінили характеристики затримки нашої моделі з різними типами екземплярів SageMaker. Це дуже просто зробити, оскільки ми використовуємо кінцеві точки висновку в реальному часі SageMaker для обслуговування нашої моделі. Кінцеві точки висновку SageMaker у реальному часі бездоганно інтегруються з Amazon CloudWatch і видавати такі метрики, як використання пам’яті та модельна затримка без необхідності налаштування (див Метрики виклику кінцевої точки SageMaker детальніше).

На наступному малюнку ми показуємо метрику ModelLatency, створену кінцевими точками виводу в реальному часі SageMaker. Ми можемо легко використовувати різні метричні математичні функції в CloudWatch, щоб показати процентилі затримки, наприклад затримку p50 або p90.

Позначення маски сегментації кількома клацаннями миші в Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

У наведеній нижче таблиці підсумовано ці результати для нашого покращеного інструменту екстремального клацання для семантичної сегментації для трьох типів примірників: p2.xlarge, p3.2xlarge та g4dn.xlarge. Хоча примірник p3.2xlarge забезпечує найнижчу затримку, примірник g4dn.xlarge забезпечує найкраще співвідношення ціни та продуктивності. Екземпляр g4dn.xlarge лише на 8% повільніший (35 мілісекунд), ніж екземпляр p3.2xlarge, але він на 81% дешевший на погодинній основі, ніж p3.2xlarge (див. Ціни на Amazon SageMaker для отримання додаткової інформації про типи екземплярів SageMaker і ціни).

Тип екземпляра SageMaker p90 Затримка (мс)
1 p2.xlarge 751
2 p3.2 збільшити 424
3 g4dn.xlarge 459

Висновок

У цій публікації ми представили розширення функції автоматичного сегментування Ground Truth для завдань анотації семантичної сегментації. У той час як оригінальна версія інструменту дозволяє зробити рівно чотири клацання мишкою, що запускає модель для надання високоякісної маски сегментації, розширення дає змогу робити коригуючі клацання та таким чином оновлювати та направляти модель ML для кращих прогнозів. Ми також представили базовий архітектурний шаблон, який можна використовувати для розгортання та інтеграції інтерактивних інструментів в інтерфейси користувача Ground Truth. Нарешті, ми підсумували затримку моделі та показали, як використання кінцевих точок висновку в реальному часі SageMaker полегшує моніторинг продуктивності моделі.

Щоб дізнатися більше про те, як цей інструмент може зменшити витрати на маркування та підвищити точність, відвідайте Позначення даних Amazon SageMaker почати консультацію сьогодні.


Про авторів

Позначення маски сегментації кількома клацаннями миші в Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Джонатан Бак є інженером-програмістом Amazon Web Services, який працює на стику машинного навчання та розподілених систем. Його робота включає виробництво моделей машинного навчання та розробку нових програмних додатків на основі машинного навчання, щоб надати новітні можливості клієнтам.

Позначення маски сегментації кількома клацаннями миші в Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Лі Ерран Лі є менеджером із прикладних наук у службах human-in-the-loop, AWS AI, Amazon. Його дослідницькі інтереси — глибоке 3D-навчання, а також навчання бачення та представлення мови. Раніше він був старшим науковим співробітником Alexa AI, керівником машинного навчання Scale AI і головним науковим співробітником Pony.ai. До цього він працював у групі сприйняття в Uber ATG і команді платформи машинного навчання в Uber, працюючи над машинним навчанням для автономного водіння, системами машинного навчання та стратегічними ініціативами ШІ. Він розпочав свою кар’єру в Bell Labs і був ад’юнкт-професором у Колумбійському університеті. Він був співвикладачем на ICML'17 та ICCV'19, а також був співорганізатором кількох семінарів у NeurIPS, ICML, CVPR, ICCV з машинного навчання для автономного водіння, 3D-бачення та робототехніки, систем машинного навчання та змагального машинного навчання. Він має ступінь доктора філософії з інформатики в Корнельському університеті. Він є членом ACM та IEEE.

Часова мітка:

Більше від AWS Машинне навчання