Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Компьютерное зрение с использованием синтетических наборов данных с Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE

Этот пост написан совместно с Бернаром Пакесом, техническим директором Storm Reply, и Карлом Херктом, старшим стратегом Dassault Systèmes 3DExcite.

Хотя компьютерное зрение может иметь решающее значение для промышленного обслуживания, производства, логистики и потребительских приложений, его внедрение ограничено созданием наборов обучающих данных вручную. Создание маркированных изображений в промышленном контексте в основном выполняется вручную, что ограничивает возможности распознавания, не масштабируется и приводит к трудозатратам и задержкам в реализации бизнес-ценности. Это противоречит гибкости бизнеса, обеспечиваемой быстрыми итерациями в дизайне продукта, его разработке и конфигурации. Этот процесс не масштабируется для сложных продуктов, таких как автомобили, самолеты или современные здания, поскольку в этих сценариях каждый проект маркировки уникален (связан с уникальными продуктами). В результате технологию компьютерного зрения невозможно легко применить к крупномасштабным уникальным проектам без больших усилий по подготовке данных, что иногда ограничивает реализацию сценариев использования.

В этом посте мы представляем новый подход, при котором узкоспециализированные системы компьютерного зрения создаются на основе файлов дизайна и САПР. Мы начнем с создания визуально правильных цифровых двойников и генерации синтетических маркированных изображений. Затем мы помещаем эти изображения в Пользовательские ярлыки Amazon Rekognition для обучения пользовательской модели обнаружения объектов. Используя существующую интеллектуальную собственность вместе с программным обеспечением, мы делаем компьютерное зрение доступным и актуальным для различных промышленных контекстов.

Настройка систем распознавания помогает добиться бизнес-результатов

Специализированные системы компьютерного зрения, созданные на основе цифровых двойников, имеют особые преимущества, которые можно проиллюстрировать в следующих случаях использования:

  • Прослеживаемость уникальных продуктов – Airbus, Boeing и другие производители самолетов присваивают уникальные Серийные номера производителя (MSN) к каждому самолету, который они производят. Этим управляют на протяжении всего производственного процесса, чтобы генерировать документация по летной годности и получить разрешение на полет. А цифровой близнец (виртуальная трехмерная модель, представляющая физический продукт) может быть получена на основе конфигурации каждого MSN и создает распределенную систему компьютерного зрения, которая отслеживает продвижение этого MSN на промышленных объектах. Таможенное распознавание автоматизирует прозрачность, предоставляемую авиакомпаниям, и заменяет большинство контрольно-пропускных пунктов, выполняемых авиакомпаниями вручную. Автоматизированный контроль качества уникальных продуктов может применяться к самолетам, автомобилям, зданиям и даже ремесленным производствам.
  • Контекстуализированная дополненная реальность – Системы компьютерного зрения профессионального уровня могут охватывать ограниченные ландшафты, но с более высокими возможностями распознавания. Например, при ремонте промышленных предприятий найти на картинке отвертку бесполезно; вам необходимо определить модель отвертки или даже ее серийный номер. В таких ограниченных контекстах специальные системы распознавания превосходят общие системы распознавания, поскольку их результаты более релевантны. Пользовательские системы распознавания обеспечивают точную обратную связь через выделенная дополненная реальность поставляется в HMI или на мобильных устройствах.
  • Сквозной контроль качества - С участием системная инженерия, вы можете создавать цифровые двойники частичных конструкций и создавать системы компьютерного зрения, которые адаптируются к различным этапам производства и производственных процессов. Визуальный контроль может быть интегрирован с производственными рабочими станциями, что обеспечивает сквозной контроль и раннее обнаружение дефектов. Пользовательское распознавание для сквозного контроля эффективно предотвращает каскадное распространение дефектов на сборочные линии. Конечная цель — снизить процент брака и максимизировать производительность.
  • Гибкая проверка качества – Современный контроль качества должен адаптироваться к вариациям конструкции и гибкому производству. Вариации в дизайне происходят из-за обратной связи по использованию и обслуживанию продукта. Гибкое производство является ключевой возможностью для стратегии изготовления на заказ и соответствует принципу бережливого производства, заключающемуся в оптимизации затрат. Интегрируя варианты дизайна и варианты конфигурации в цифровых двойниках, пользовательское распознавание обеспечивает динамическую адаптацию систем компьютерного зрения к производственным планам и вариантам дизайна.

Улучшите компьютерное зрение с помощью Dassault Systèmes 3DEXCITE на базе Amazon Rekognition

В Dassault Systèmes, компании с глубоким опытом в области цифровых двойников, которая также является вторым по величине редактором программного обеспечения в Европе, команда 3DEXCITE ищет другой путь. Как объяснил Карл Херкт: «Что, если нейронная модель, обученная на синтетических изображениях, сможет распознавать физический продукт?» Компания 3DEXCITE решила эту проблему, объединив свою технологию с инфраструктурой AWS, доказав осуществимость этого своеобразного подхода. Он также известен как обнаружение междоменных объектов, где модель обнаружения обучается на помеченных изображениях из исходного домена (синтетические изображения) и делает прогнозы для немаркированного целевого домена (физические компоненты).

Dassault Systèmes 3DEXCITE и команда AWS по прототипированию объединили усилия для создания демонстрационной системы, которая распознает детали промышленного редуктора. Этот прототип был построен за 3 недели, а обученная модель набрала 98% баллов в Формуле-1. Модель распознавания была полностью обучена с помощью программного конвейера, который не содержит изображений реальной детали. На основе файлов проектирования и САПР промышленного редуктора компания 3DEXCITE создала визуально правильные цифровые двойники. Они также создали тысячи синтетических изображений с цифровыми двойниками. Затем они использовали пользовательские метки Rekognition для обучения узкоспециализированной нейронной модели на основе этих изображений и предоставили соответствующий API распознавания. Они создали веб-сайт, позволяющий распознавать с любой веб-камеры одну физическую часть коробки передач.

Апостол — это служба искусственного интеллекта, которая использует технологию глубокого обучения, позволяющую извлекать значимые метаданные из изображений и видео, включая идентификацию объектов, людей, текста, сцен, действий и потенциально нежелательного контента, без необходимости использования знаний в области машинного обучения (ML). Amazon Rekognition также предоставляет возможности высокоточного анализа лиц и поиска по лицам, которые можно использовать для обнаружения, анализа и сравнения лиц для самых разных целей проверки пользователей, подсчета людей и обеспечения безопасности. Наконец, с помощью Rekognition Custom Labels вы можете использовать свои собственные данные для построения моделей обнаружения объектов и классификации изображений.

Сочетание технологии Dassault Systèmes для создания изображений с синтетическими метками и Rekognition Custom Labels для компьютерного зрения обеспечивает масштабируемый рабочий процесс для систем распознавания. Простота использования является здесь важным положительным фактором, поскольку добавить пользовательские метки Rekognition в общий конвейер программного обеспечения несложно — это так же просто, как интегрировать API в рабочий процесс. Не обязательно быть ученым в области МО; просто отправьте захваченные кадры в AWS и получите результат, который можно ввести в базу данных или отобразить в веб-браузере.

Это еще раз подчеркивает значительное улучшение по сравнению с созданием наборов обучающих данных вручную. Вы можете добиться лучших результатов быстрее и с большей точностью, без необходимости тратить дорогостоящее и ненужное рабочее время. Учитывая такое большое количество потенциальных вариантов использования, сочетание Dassault Systèmes и Rekognition Custom Labels может обеспечить современному бизнесу значительную и немедленную окупаемость инвестиций.

Обзор решения

Первым шагом в этом решении является визуализация изображений, которые создают набор обучающих данных. Это делается с помощью платформы 3DEXCITE. Мы можем генерировать данные маркировки программно, используя сценарии. Amazon SageMaker - основа правды предоставляет инструмент аннотаций, позволяющий легко маркировать изображения и видео для задач классификации и обнаружения объектов. Для обучения модели в Amazon Rekognition файл меток должен соответствовать формату Ground Truth. Эти метки находятся в формате JSON и включают такую ​​информацию, как размер изображения, координаты ограничивающего прямоугольника и идентификаторы классов.

Затем загрузите синтетические изображения и манифест в Простой сервис хранения Amazon (Amazon S3), где Rekognition Custom Labels может импортировать их как компоненты набора обучающих данных.

Чтобы позволить Rekognition Custom Labels протестировать модели по сравнению с набором реальных изображений компонентов, мы предоставляем набор изображений реальных частей двигателя, сделанных камерой, и загружаем их в Amazon S3 для использования в качестве набора тестовых данных.

Наконец, Rekognition Custom Labels обучает лучшую модель обнаружения объектов, используя набор синтетических обучающих данных и набор тестовых данных, состоящий из изображений реальных объектов, и создает конечную точку с моделью, которую мы можем использовать для запуска распознавания объектов в нашем приложении.

Следующая диаграмма иллюстрирует рабочий процесс нашего решения:
Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Создавайте синтетические изображения

Синтетические изображения создаются на платформе 3Dexperience, которая является продуктом Dassault Systèmes. Эта платформа позволяет создавать и визуализировать фотореалистичные изображения на основе файла CAD (системы автоматизированного проектирования) объекта. Мы можем создать тысячи вариантов за несколько часов, изменив конфигурации преобразования изображений на платформе.

В этом прототипе мы выбрали следующие пять визуально отличающихся частей коробки передач для обнаружения объектов. Они включают в себя корпус редуктора, передаточное число, крышку подшипника, фланец и червячную передачу.
Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Мы использовали следующие методы увеличения данных, чтобы увеличить разнообразие изображений и сделать синтетические данные более фотореалистичными. Это помогает уменьшить ошибку обобщения модели.

  • Увеличение / уменьшение – Этот метод случайным образом увеличивает или уменьшает масштаб объекта на изображениях.
  • Вращение – Этот метод вращает объект на изображениях, и создается впечатление, что виртуальная камера делает случайные снимки объекта под углом 360 градусов.
  • Улучшите внешний вид материала. – Мы обнаружили, что для некоторых деталей шестерни внешний вид материала при первоначальном рендеринге менее реалистичен. Мы добавили металлический эффект, чтобы улучшить синтетические изображения.
  • Используйте разные настройки освещения – В этом прототипе мы смоделировали два условия освещения:
    • Склады - Реалистичное распределение света. Возможны тени и отражения.
    • Студия – Вокруг объекта распространяется однородный свет. Это не реалистично, но здесь нет теней и отражений.
  • Используйте реалистичное положение того, как объект просматривается в реальном времени. – В реальной жизни некоторые объекты, такие как фланец и крышка подшипника, обычно размещаются на поверхности, и модель обнаруживает объекты на основе верхних и нижних граней. Поэтому мы удалили обучающие изображения, на которых видны тонкие края деталей, также называемые положением края, и увеличили изображения объектов в плоском положении.
  • Добавьте несколько объектов в одно изображение – В реальных сценариях несколько частей шестерни могут отображаться на одном виде, поэтому мы подготовили изображения, содержащие несколько частей шестерни.

На платформе 3Dexperience мы можем применять к изображениям разные фоны, что может помочь еще больше увеличить разнообразие изображений. Из-за ограничений по времени мы не реализовали это в этом прототипе.
Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Импортируйте набор синтетических обучающих данных.

В машинном обучении помеченные данные означают, что данные обучения аннотированы, чтобы показать цель, которая является ответом, который вы хотите, чтобы ваша модель машинного обучения предсказывала. Помеченные данные, которые могут использоваться пользовательскими метками Rekognition, должны соответствовать требованиям к файлу манифеста Ground Truth. Файл манифеста состоит из одной или нескольких строк JSON; каждая строка содержит информацию для одного изображения. Для синтетических обучающих данных информация о маркировке может быть сгенерирована программно на основе конфигураций преобразования файлов САПР и изображений, о которых мы упоминали ранее, что экономит значительные ручные усилия при работе с маркировкой. Дополнительную информацию о требованиях к маркировке форматов файлов см. Создать файл манифеста и Локализация объектов в файлах манифеста. Ниже приведен пример маркировки изображений:

{ "source-ref": "s3://<bucket>/<prefix>/multiple_objects.png", "bounding-box": { "image_size": [ { "width": 1024, "height": 1024, "depth": 3 } ], "annotations": [ { "class_id": 1, "top": 703, "left": 606, "width": 179, "height": 157 }, { "class_id": 4, "top": 233, "left": 533, "width": 118, "height": 139 }, { "class_id": 0, "top": 592, "left": 154, "width": 231, "height": 332 }, { "class_id": 3, "top": 143, "left": 129, "width": 268, "height": 250 } ] }, "bounding-box-metadata": { "objects": [ { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 } ], "class-map": { "0": "Gear_Housing", "1": "Gear_Ratio", "3": "Flange", "4": "Worm_Gear" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2021-06-18T11:56:01", "job-name": "3DEXCITE" }
}

После подготовки файла манифеста мы загружаем его в корзину S3, а затем создаем набор обучающих данных в Rekognition Custom Labels, выбрав опцию Импортируйте изображения, помеченные Amazon SageMaker Ground Truth.
Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

После импорта файла манифеста мы можем просмотреть информацию о маркировке визуально на консоли Amazon Rekognition. Это поможет нам убедиться, что файл манифеста создан и импортирован. Точнее, ограничивающие рамки должны совпадать с объектами на изображениях, а идентификаторы классов объектов должны быть назначены правильно.
Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Создайте набор тестовых данных

Тестовые изображения делаются в реальной жизни с помощью телефона или камеры под разными углами и в разных условиях освещения, поскольку мы хотим проверить точность модели, которую мы обучили с использованием синтетических данных, в сравнении с реальными сценариями. Вы можете загрузить эти тестовые изображения в корзину S3, а затем импортировать их как наборы данных в пользовательские метки Rekognition. Или вы можете загрузить их непосредственно в наборы данных со своего локального компьютера.
Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Rekognition Custom Labels предоставляет встроенную возможность аннотирования изображений, которая аналогична Ground Truth. Вы можете начать работу по маркировке после импорта тестовых данных. В случае использования обнаружения объектов ограничивающие рамки должны быть созданы плотно вокруг интересующих объектов, что помогает модели точно изучить области и пиксели, принадлежащие целевым объектам. Кроме того, вам следует пометить каждый экземпляр целевых объектов на всех изображениях, даже на тех, которые частично находятся вне поля зрения или закрыты другими объектами, иначе модель прогнозирует больше ложноотрицательных результатов.
Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Создайте модель обнаружения междоменных объектов.

Rekognition Custom Labels — это полностью управляемый сервис; вам просто нужно предоставить наборы обучающих и тестовых данных. Он обучает набор моделей и выбирает наиболее эффективную на основе предоставленных данных. В этом прототипе мы итеративно подготавливаем наборы синтетических обучающих данных, экспериментируя с различными комбинациями методов увеличения изображений, о которых мы упоминали ранее. Для каждого набора обучающих данных в Rekognition Custom Labels создается одна модель, что позволяет нам сравнивать и находить оптимальный набор обучающих данных специально для этого варианта использования. Каждая модель имеет минимальное количество обучающих изображений, хорошее разнообразие изображений и обеспечивает максимальную точность модели. После 15 итераций мы достигли показателя F1 с точностью модели 98%, используя около 10,000 2,000 синтетических обучающих изображений, что в среднем составляет XNUMX изображений на объект.
Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Результаты модельного вывода

На следующем изображении показана модель Amazon Rekognition, используемая в приложении вывода в реальном времени. Все компоненты определяются правильно и с высокой степенью достоверности.

Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Заключение

В этом посте мы продемонстрировали, как обучать модель компьютерного зрения на чисто синтетических изображениях и как модель может надежно распознавать объекты реального мира. Это экономит значительные ручные усилия по сбору и маркировке обучающих данных. Благодаря этому исследованию Dassault Systèmes увеличивает коммерческую ценность 3D-моделей продуктов, созданных дизайнерами и инженерами, поскольку теперь вы можете использовать данные CAD, CAE и PLM в системах распознавания изображений в физическом мире.

Дополнительную информацию об основных функциях и вариантах использования Rekognition Custom Labels см. Пользовательские ярлыки Amazon Rekognition. Если ваши изображения изначально не помечены Ground Truth, как это было в этом проекте, см. Создание файла манифеста для преобразования данных маркировки в формат, который могут использовать Rekognition Custom Labels.


Об авторах

Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Вуди Борраччино в настоящее время является старшим специалистом по архитектуре решений по машинному обучению в AWS. Базируясь в Милане, Италия, Вуди занимался разработкой программного обеспечения, прежде чем присоединиться к AWS еще в 2015 году, где его страстью является технология компьютерного зрения и пространственных вычислений (AR/VR/XR). Его страсть теперь сосредоточена на инновациях в метавселенной. Следуй за ним дальше LinkedIn.

Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Ин Хоу, доктор философии, архитектор прототипов машинного обучения в AWS. Ее основными областями интересов являются глубокое обучение, компьютерное зрение, НЛП и прогнозирование данных временных рядов. В свободное время она любит читать романы и ходить в походы по национальным паркам Великобритании.

Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Бернар Пакес в настоящее время является техническим директором компании Storm Reply, специализирующейся на промышленных решениях, развернутых на AWS. Базируясь в Париже, Франция, Бернар ранее работал главным архитектором решений и главным консультантом в AWS. Его вклад в модернизацию предприятий охватывает AWS для промышленности, AWS CDK, а теперь он перешел в экологически чистые ИТ и голосовые системы. Следуй за ним дальше Twitter.

Компьютерное зрение с использованием синтетических наборов данных с помощью Amazon Rekognition Custom Labels и Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Карл Херкт в настоящее время является старшим стратегом в Dassault Systèmes 3DExcite. Базируясь в Мюнхене, Германия, он создает инновационные реализации компьютерного зрения, которые приносят ощутимые результаты. Следуй за ним дальше LinkedIn.

Отметка времени:

Больше от Машинное обучение AWS