Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Комп’ютерний зір із використанням синтетичних наборів даних із користувацькими етикетками Amazon Rekognition та Dassault Systèmes 3DEXCITE

Це пост, написаний у співавторстві з Бернардом Пакесом, технічним директором Storm Reply, і Карлом Герктом, старшим стратегом Dassault Systèmes 3DExcite.

Хоча комп’ютерний зір може мати вирішальне значення для промислового обслуговування, виробництва, логістики та споживчих додатків, його застосування обмежене ручним створенням наборів навчальних даних. Створення маркованих зображень у промисловому контексті в основному виконується вручну, що створює обмежені можливості розпізнавання, не масштабується та призводить до витрат на оплату праці та затримок у реалізації цінності бізнесу. Це суперечить гнучкості бізнесу, що забезпечується швидкими ітераціями в дизайні продукту, інженерії та конфігурації продукту. Цей процес не масштабується для складних продуктів, таких як автомобілі, літаки або сучасні будівлі, оскільки в цих сценаріях кожен проект маркування унікальний (пов’язаний з унікальними продуктами). Як наслідок, технологію комп’ютерного зору неможливо легко застосувати до великомасштабних унікальних проектів без великих зусиль у підготовці даних, що іноді обмежує доставку варіантів використання.

У цій публікації ми представляємо новий підхід, коли вузькоспеціалізовані системи комп’ютерного зору створюються з файлів проектування та CAD. Ми починаємо зі створення візуально правильних цифрових близнюків і створення синтетичних мічених зображень. Потім ми підштовхуємо ці зображення до Спеціальні етикетки Amazon Rekogmination для навчання користувацькій моделі виявлення об’єктів. Використовуючи наявну інтелектуальну власність із програмним забезпеченням, ми робимо комп’ютерний зір доступним і відповідним для різних промислових контекстів.

Налаштування систем розпізнавання допомагає досягти результатів бізнесу

Спеціалізовані системи комп’ютерного зору, виготовлені з цифрових близнюків, мають конкретні переваги, які можна проілюструвати в таких випадках:

  • Відстежуваність унікальних продуктів – Airbus, Boeing та інші виробники літаків присвоюють унікальність Серійні номери виробника (MSN) до кожного літака, який вони виробляють. Цим керують протягом усього виробничого процесу, щоб генерувати документація льотної придатності і отримати дозвіл на політ. А цифровий близнюк (віртуальна 3D-модель, що представляє фізичний продукт) може бути отримана з конфігурації кожної MSN і генерує розподілену систему комп'ютерного зору, яка відстежує прогрес цієї MSN на промислових об'єктах. Спеціальне розпізнавання автоматизує прозорість, надану авіакомпаніям, і замінює більшість контрольних пунктів, виконуваних авіакомпаніями вручну. Автоматичне забезпечення якості унікальних продуктів може застосовуватися до літаків, автомобілів, будівель і навіть ремісничих виробництв.
  • Контекстуальна доповнена реальність – Системи комп’ютерного зору професійного рівня можуть охоплювати обмежені ландшафти, але з більш високими можливостями розрізнення. Наприклад, у промисловому обслуговуванні знайти викрутку на картинці марно; потрібно визначити модель викрутки або навіть її серійний номер. У таких обмежених контекстах користувацькі системи розпізнавання перевершують загальні системи розпізнавання, оскільки вони більш доречні у своїх висновках. Індивідуальні системи розпізнавання забезпечують точні цикли зворотного зв'язку через спеціалізована доповнена реальність поставляється в HMI або в мобільних пристроях.
  • Наскрізний контроль якості - З системна інженерія, ви можете створювати цифрові двійники часткових конструкцій та створювати системи комп’ютерного зору, які адаптуються до різних фаз виробництва та виробничих процесів. Візуальний контроль може бути пов’язаний із виробничими робочими станціями, що дозволяє здійснювати наскрізний огляд і раннє виявлення дефектів. Спеціальне розпізнавання для наскрізного контролю ефективно запобігає каскадному потраплянню дефектів на складальні лінії. Кінцевою метою є зниження рівня браку та максимізації виробництва.
  • Гнучкий контроль якості – Сучасний контроль якості має адаптуватися до варіацій дизайну та гнучкого виробництва. Варіації в дизайні виникають через зворотний зв’язок щодо використання продукту та його обслуговування. Гнучкість виготовлення є ключовою здатністю для стратегії виготовлення на замовлення, і відповідає принципу бережливого виробництва – оптимізації витрат. Завдяки інтеграції варіантів дизайну та параметрів конфігурації в цифрові двійники, користувацьке розпізнавання дозволяє динамічно адаптувати системи комп’ютерного зору до виробничих планів і варіантів дизайну.

Покращте комп’ютерний зір за допомогою Dassault Systèmes 3DEXCITE на основі Amazon Rekognition

У Dassault Systèmes, компанії з глибоким досвідом у цифрових близнюках, яка також є другим за величиною європейським редактором програмного забезпечення, команда 3DEXCITE досліджує інший шлях. Як пояснив Карл Геркт: «Що якби нейронна модель, навчена за допомогою синтетичних зображень, могла розпізнати фізичний продукт?» 3DEXCITE вирішив цю проблему, об’єднавши свою технологію з інфраструктурою AWS, довівши доцільність цього своєрідного підходу. Він також відомий як виявлення міждоменного об'єкта, де модель виявлення вивчає мічені зображення з вихідного домену (синтетичні зображення) і робить прогнози для немаркованого цільового домену (фізичні компоненти).

Dassault Systèmes 3DEXCITE і команда AWS Prototyping об’єднали зусилля, щоб створити демонстраційну систему, яка розпізнає частини промислової коробки передач. Цей прототип був побудований за 3 тижні, і навчена модель отримала 98% балів у F1. Модель розпізнавання була повністю навчена з конвеєра програмного забезпечення, який не містить жодних зображень реальної частини. На основі файлів проектування та CAD промислової коробки передач 3DEXCITE створив візуально правильні цифрові близнюки. Вони також створили тисячі синтетичних зображень із цифровими близнюками. Потім вони використали користувацькі мітки Rekognition для навчання вузькоспеціалізованої нейронної моделі з цих зображень і надали відповідний API розпізнавання. Вони створили веб-сайт для розпізнавання з будь-якої веб-камери однієї фізичної частини коробки передач.

Amazon Rekognition — це служба штучного інтелекту, яка використовує технологію глибокого навчання, щоб дозволити вам витягувати значущі метадані із зображень і відео, зокрема ідентифікувати об’єкти, людей, текст, сцени, дії та потенційно невідповідний вміст, — не потребує досвіду машинного навчання (ML). Amazon Rekognition також надає високоточний аналіз облич і можливості пошуку облич, які можна використовувати для виявлення, аналізу та порівняння облич для широкого спектру верифікації користувачів, підрахунку людей та випадків використання безпеки. Нарешті, за допомогою користувацьких міток Rekognition ви можете використовувати власні дані для створення моделей виявлення об’єктів та класифікації зображень.

Поєднання технології Dassault Systèmes для створення синтетичних мічених зображень із користувацькими етикетками Rekognition для комп’ютерного зору забезпечує масштабований робочий процес для систем розпізнавання. Простота використання є важливим позитивним фактором тут, оскільки додавання користувацьких міток Rekognition до загального програмного потоку не є складним — це так само просто, як інтеграція API в робочий процес. Не потрібно бути вченим ML; просто надсилайте захоплені кадри в AWS і отримайте результат, який можна ввести в базу даних або відобразити у веб-браузері.

Це ще більше підкреслює значне покращення порівняно з ручним створенням наборів навчальних даних. Ви можете досягти кращих результатів швидше і з більшою точністю, не витрачаючи дорогих і непотрібних робочих годин. З такою кількістю потенційних випадків використання комбінація Dassault Systèmes і користувацьких етикеток Rekognition може забезпечити сучасному бізнесу значну й негайну рентабельність інвестицій.

Огляд рішення

Першим кроком у цьому рішенні є відтворення зображень, які створюють навчальний набір даних. Це робиться на платформі 3DEXCITE. Ми можемо згенерувати дані маркування програмно за допомогою скриптів. Основна правда Amazon SageMaker надає інструмент анотації для легкого позначення зображень і відео для завдань класифікації та виявлення об’єктів. Щоб навчити модель у Amazon Rekognition, файл маркування має відповідати формату Ground Truth. Ці мітки містяться в JSON, включаючи таку інформацію, як розмір зображення, координати рамки та ідентифікатори класів.

Потім завантажте синтетичні зображення та маніфест Служба простого зберігання Amazon (Amazon S3), де користувацькі мітки Rekognition можуть імпортувати їх як компоненти набору навчальних даних.

Щоб дозволити користувацьким етикеткам Rekognition протестувати моделі порівняно з набором зображень реальних компонентів, ми надаємо набір фотографій реальних деталей двигуна, зроблених за допомогою камери, і завантажуємо їх на Amazon S3 для використання в якості набору даних для тестування.

Нарешті, Rekognition Custom Labels тренує найкращу модель виявлення об’єктів, використовуючи синтетичний навчальний набір і набір даних тестування, що складається з зображень реальних об’єктів, і створює кінцеву точку з моделлю, яку ми можемо використовувати для запуску розпізнавання об’єктів у нашій програмі.

Наступна діаграма ілюструє наш робочий процес рішення:
Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Створюйте синтетичні образи

Синтетичні зображення створюються на платформі 3Dexperience, яка є продуктом Dassault Systèmes. Ця платформа дозволяє створювати та відображати фотореалістичні зображення на основі файлу CAD (комп’ютерного проектування) об’єкта. Ми можемо створити тисячі варіантів за кілька годин, змінивши конфігурації трансформації зображень на платформі.

У цьому прототипі ми вибрали наступні п’ять візуально відмінних деталей коробки передач для виявлення об’єктів. Вони включають в себе корпус редуктора, передавальне число, кришку підшипника, фланець і черв'ячну передачу.
Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ми використали наступні методи збільшення даних, щоб збільшити різноманітність зображень і зробити синтетичні дані більш фотореалістичними. Це допомагає зменшити помилку узагальнення моделі.

  • Збільшення / зменшення – Цей метод випадковим чином збільшує або зменшує масштаб об’єкта на зображеннях.
  • Обертання – Цей метод повертає об’єкт на зображеннях, і виглядає так, ніби віртуальна камера робить випадкові знімки об’єкта під кутом 360 градусів.
  • Покращити зовнішній вигляд і відчуття матеріалу – Ми виявили, що для деяких деталей шестерні вигляд матеріалу менш реалістичний при початковій візуалізації. Ми додали ефект металу, щоб покращити синтетичні зображення.
  • Використовуйте різні налаштування освітлення – У цьому прототипі ми змоделювали два умови освітлення:
    • Склад – Реалістичний розподіл світла. Можливі тіні та відображення.
    • Studio – Навколо об’єкта розміщується однорідне світло. Це нереалістично, але немає ні тіней, ні відблисків.
  • Використовуйте реалістичну позицію того, як об’єкт розглядається в реальному часі – У реальному житті деякі об’єкти, такі як фланець і кришка підшипника, зазвичай розміщуються на поверхні, і модель виявляє об’єкти на основі верхньої та нижньої граней. Тому ми видалили навчальні зображення, які показують тонкі краї деталей, які також називають положенням краю, і збільшили зображення об’єктів у плоскому положенні.
  • Додайте кілька об’єктів в одне зображення – У реальних сценаріях кілька деталей шестерні можуть відображатися в одному виді, тому ми підготували зображення, які містять кілька деталей.

На платформі 3Dexperience ми можемо застосовувати різні фони до зображень, що може допомогти збільшити різноманітність зображень. Через обмеження часу ми не реалізували це в цьому прототипі.
Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Імпортуйте синтетичний навчальний набір даних

У ML мічені дані означають, що навчальні дані анотуються, щоб показати ціль, яка є відповіддю, яку ви хочете, щоб ваша модель ML передбачила. Позначені дані, які можуть використовуватися користувацькими мітками Rekognition, мають відповідати вимогам до файлу маніфесту Ground Truth. Файл маніфесту складається з одного або кількох рядків JSON; кожен рядок містить інформацію про одне зображення. Для синтетичних навчальних даних інформація про маркування може бути згенерована програмно на основі файлу CAD та конфігурацій перетворення зображень, про які ми згадували раніше, що заощаджує значні зусилля вручну при роботі з маркуванням. Додаткову інформацію про вимоги до форматів файлів маркування див Створіть файл маніфесту та Локалізація об’єктів у файлах маніфесту. Нижче наведено приклад маркування зображень:

{ "source-ref": "s3://<bucket>/<prefix>/multiple_objects.png", "bounding-box": { "image_size": [ { "width": 1024, "height": 1024, "depth": 3 } ], "annotations": [ { "class_id": 1, "top": 703, "left": 606, "width": 179, "height": 157 }, { "class_id": 4, "top": 233, "left": 533, "width": 118, "height": 139 }, { "class_id": 0, "top": 592, "left": 154, "width": 231, "height": 332 }, { "class_id": 3, "top": 143, "left": 129, "width": 268, "height": 250 } ] }, "bounding-box-metadata": { "objects": [ { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 } ], "class-map": { "0": "Gear_Housing", "1": "Gear_Ratio", "3": "Flange", "4": "Worm_Gear" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2021-06-18T11:56:01", "job-name": "3DEXCITE" }
}

Після того, як файл маніфесту підготовлений, ми завантажуємо його в сегмент S3, а потім створюємо навчальний набір даних у Rekognition Custom Labels, вибираючи параметр Імпортуйте зображення, позначені Amazon SageMaker Ground Truth.
Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Після імпортування файлу маніфесту ми можемо візуально переглянути інформацію про маркування на консолі Amazon Rekognition. Це допомагає нам підтвердити, що файл маніфесту згенеровано та імпортовано. Точніше, обмежувальні рамки мають вирівнюватися з об’єктами на зображеннях, а ідентифікатори класів об’єктів мають бути правильно призначені.
Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Створіть набір даних для тестування

Тестові зображення знімаються в реальному житті за допомогою телефону або камери під різними кутами та умовами освітлення, тому що ми хочемо перевірити точність моделі, яку ми навчили за допомогою синтетичних даних, у порівнянні з реальними сценаріями. Ви можете завантажити ці тестові зображення в сегмент S3, а потім імпортувати їх як набори даних у Rekognition Custom Labels. Або ви можете завантажити їх безпосередньо до наборів даних із локальної машини.
Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Rekognition Custom Labels надає вбудовану можливість анотації зображень, яка має подібний досвід, як і Ground Truth. Ви можете розпочати роботу з маркуванням, коли імпортуються тестові дані. У випадку використання виявлення об’єктів, обмежувальні рамки повинні бути створені щільно навколо об’єктів, що цікавлять, що допомагає моделі точно дізнатися регіони та пікселі, які належать цільовим об’єктам. Крім того, ви повинні позначити кожен екземпляр цільових об’єктів на всіх зображеннях, навіть ті, які частково не видно або закриті іншими об’єктами, інакше модель передбачить більше помилкових негативів.
Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Створіть модель міждоменного виявлення об’єктів

Rekognition Custom Labels — це повністю керована послуга; вам просто потрібно надати набори даних поїзда та тестування. Він навчає набір моделей і вибирає найефективнішу на основі наданих даних. У цьому прототипі ми готуємо синтетичні навчальні набори даних ітераційно, експериментуючи з різними комбінаціями методів збільшення зображення, про які ми згадували раніше. Для кожного набору навчальних даних у Rekognition Custom Labels створюється одна модель, що дозволяє нам порівнювати та знаходити оптимальний набір навчальних даних для цього конкретного випадку використання. Кожна модель має мінімальну кількість навчальних зображень, містить хорошу різноманітність зображень і забезпечує найкращу точність моделі. Після 15 ітерацій ми досягли оцінки F1 98% точності моделі, використовуючи близько 10,000 2,000 синтетичних навчальних зображень, що в середньому становить XNUMX XNUMX зображень на об’єкт.
Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Результати модельного висновку

На наступному зображенні показано, як модель Amazon Rekognition використовується в додатку для висновку в реальному часі. Усі компоненти визначаються правильно з високою впевненістю.

Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Висновок

У цій публікації ми продемонстрували, як навчити модель комп’ютерного зору на чисто синтетичних зображеннях і як модель все ще може надійно розпізнавати об’єкти реального світу. Це заощаджує значні зусилля вручну, збираючи та позначаючи навчальні дані. Завдяки цьому дослідженню Dassault Systèmes розширює бізнес-цінність 3D-моделей продуктів, створених дизайнерами та інженерами, оскільки тепер ви можете використовувати дані CAD, CAE та PLM в системах розпізнавання зображень у фізичному світі.

Додаткову інформацію про основні функції та варіанти використання користувацьких міток Rekognition див Спеціальні етикетки Amazon Rekogmination. Якщо ваші зображення не мають оригінальної позначки Ground Truth, як це було в цьому проекті, див Створення файлу маніфесту щоб перетворити дані маркування у формат, який можуть використовувати користувацькі етикетки Rekognition.


Про авторів

Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Вуді Борраччіно зараз є старшим спеціалістом з машинного навчання архітектором рішень у AWS. Перебуваючи в Мілані (Італія), Вуді працював над розробкою програмного забезпечення, перш ніж приєднатися до AWS у 2015 році, де він розвивався — це пристрасть до технологій комп’ютерного зору та просторових обчислень (AR/VR/XR). Його пристрасть тепер зосереджена на інноваціях метавсесвіту. Слідуйте за ним Linkedin.

Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Ін Хоу, PhD, є архітектором з машинного навчання прототипування в AWS. Її основні сфери інтересів – глибоке навчання, комп’ютерний зір, НЛП та прогнозування даних часових рядів. У вільний час вона любить читати романи та ходити в походи в національні парки Великобританії.

Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Бернар Пак зараз є технічним директором Storm Reply, зосередженим на промислових рішеннях, розгорнутих на AWS. Перебуваючи в Парижі, Франція, Бернар раніше працював головним архітектором рішень і головним консультантом в AWS. Його внесок у модернізацію підприємства охоплює AWS for Industrial, AWS CDK, а тепер вони пов’язані з зеленими ІТ та голосовими системами. Слідуйте за ним Twitter.

Комп’ютерне бачення з використанням синтетичних наборів даних з Amazon Rekognition Custom Labels і Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Карл Геркт зараз є старшим стратегом у Dassault Systèmes 3DExcite. Базується в Мюнхені, Німеччина, він створює інноваційні реалізації комп’ютерного зору, які дають відчутні результати. Слідуйте за ним LinkedIn.

Часова мітка:

Більше від AWS Машинне навчання