Создайте конвейер активного обучения для автоматического аннотирования изображений с помощью сервисов AWS

Переиздано Платоном

Читают: 0

Эта запись в блоге написана в соавторстве с Кэролайн Чанг из Veoneer.

Veoneer — глобальная компания по производству автомобильной электроники и мировой лидер в области автомобильных электронных систем безопасности. Они предлагают лучшие в своем классе системы управления удерживающими устройствами и поставили производителям автомобилей по всему миру более 1 миллиарда электронных блоков управления и датчиков столкновения. Компания продолжает развивать 70-летнюю историю развития автомобильной безопасности, специализируясь на новейшем оборудовании и системах, которые предотвращают дорожно-транспортные происшествия и смягчают последствия аварий.

Автомобильные датчики в салоне (ICS) — это развивающаяся область, в которой используется комбинация нескольких типов датчиков, таких как камеры и радары, а также алгоритмы на основе искусственного интеллекта (ИИ) и машинного обучения (ML) для повышения безопасности и улучшения впечатлений от езды. Создание такой системы может оказаться сложной задачей. Разработчикам приходится вручную аннотировать большие объемы изображений в целях обучения и тестирования. Это требует очень много времени и ресурсов. Срок выполнения такой задачи – несколько недель. Кроме того, компаниям приходится сталкиваться с такими проблемами, как противоречивые этикетки из-за человеческих ошибок.

AWS стремится помочь вам повысить скорость разработки и снизить затраты на создание таких систем с помощью расширенной аналитики, такой как машинное обучение. Наше видение состоит в том, чтобы использовать машинное обучение для автоматического аннотирования, позволяя переобучать модели безопасности и обеспечивая согласованные и надежные показатели производительности. В этом посте мы рассказываем, как, сотрудничая со Всемирной организацией специалистов Amazon и Инновационный центр генеративного ИИ, мы разработали конвейер активного обучения для ограничивающих рамок головы изображения в салоне и аннотаций ключевых точек. Решение снижает затраты более чем на 90 %, ускоряет процесс аннотирования с недель до часов с точки зрения времени обработки и обеспечивает возможность повторного использования для аналогичных задач маркировки данных ML.

Обзор решения

Активное обучение — это подход машинного обучения, который включает в себя итеративный процесс выбора и аннотирования наиболее информативных данных для обучения модели. Учитывая небольшой набор размеченных данных и большой набор неразмеченных данных, активное обучение повышает производительность модели, сокращает усилия по разметке и объединяет человеческий опыт для получения надежных результатов. В этом посте мы создаем конвейер активного обучения для аннотаций изображений с помощью сервисов AWS.

На следующей диаграмме показана общая структура нашего конвейера активного обучения. Конвейер маркировки берет изображения из Простой сервис хранения Amazon (Amazon S3) и выводит аннотированные изображения при сотрудничестве моделей машинного обучения и человеческого опыта. Конвейер обучения предварительно обрабатывает данные и использует их для обучения моделей машинного обучения. Первоначальная модель настраивается и обучается на небольшом наборе данных, размеченных вручную, и будет использоваться в конвейере разметки. Конвейер маркировки и конвейер обучения можно постепенно повторять с большим количеством помеченных данных, чтобы повысить производительность модели.

Рабочий процесс автоматической маркировки

В конвейере маркировки Уведомление о событии Amazon S3 вызывается, когда в корзину S3 Unlabeled Datastore поступает новый пакет изображений, активируя конвейер маркировки. Модель выдает результаты вывода на новых изображениях. Настраиваемая функция оценки выбирает части данных на основе показателя достоверности вывода или других определяемых пользователем функций. Эти данные вместе с результатами вывода отправляются на работу по маркировке человека на Amazon SageMaker - основа правды созданный конвейером. Процесс маркировки вручную помогает аннотировать данные, а измененные результаты объединяются с оставшимися автоматически аннотированными данными, которые позже могут быть использованы в конвейере обучения.

Переобучение модели происходит в конвейере обучения, где мы используем набор данных, содержащий данные, помеченные человеком, для переобучения модели. Создается файл манифеста, описывающий, где хранятся файлы, и та же исходная модель переобучается на новых данных. После переобучения новая модель заменяет исходную модель, и запускается следующая итерация конвейера активного обучения.

Развертывание модели

И конвейер маркировки, и конвейер обучения развернуты на Кодовый конвейер AWS. Сборка кода AWS Для реализации используются экземпляры, которые являются гибкими и быстрыми для небольшого объема данных. Когда нужна скорость, мы используем Создатель мудреца Амазонки конечные точки на основе экземпляра графического процессора, чтобы выделить больше ресурсов для поддержки и ускорения процесса.

Конвейер переобучения модели можно вызвать при появлении нового набора данных или при необходимости улучшения производительности модели. Одной из важнейших задач конвейера переобучения является наличие системы контроля версий как для обучающих данных, так и для модели. Хотя такие сервисы AWS, как Апостол имеют встроенную функцию контроля версий, что упрощает реализацию конвейера; настраиваемые модели требуют регистрации метаданных или дополнительных инструментов контроля версий.

Весь рабочий процесс реализован с помощью Комплект для разработки облачных сервисов AWS (AWS CDK) для создания необходимых компонентов AWS, включая следующее:

Две роли для заданий CodePipeline и SageMaker
Два задания CodePipeline, которые организуют рабочий процесс.
Два сегмента S3 для артефактов кода конвейеров.
Одна корзина S3 для маркировки манифеста задания, наборов данных и моделей.
Предварительная и постобработка AWS Lambda функции для заданий по маркировке SageMaker Ground Truth

Стеки AWS CDK имеют высокую степень модульности и могут повторно использоваться для решения различных задач. Код обучения, вывода и шаблон SageMaker Ground Truth можно заменить на любые аналогичные сценарии активного обучения.

Модельное обучение

Обучение модели включает в себя две задачи: аннотацию ограничивающей рамки головы и аннотацию ключевых точек человека. Мы представляем их обоих в этом разделе.

Аннотация к ограничивающей рамке головы

Аннотация к ограничивающей рамке головы — это задача предсказать расположение ограничивающей рамки головы человека на изображении. Мы используем Пользовательские ярлыки Amazon Rekognition модель для аннотаций в ограничивающей рамке заголовка. Следующее образец тетради предоставляет пошаговое руководство по обучению модели пользовательских меток Rekognition с помощью SageMaker.

Сначала нам нужно подготовить данные, чтобы начать обучение. Мы генерируем файл манифеста для обучения и файл манифеста для тестового набора данных. Файл манифеста содержит несколько элементов, каждый из которых предназначен для изображения. Ниже приведен пример файла манифеста, который включает путь к изображению, размер и информацию аннотаций:

{
    "source-ref": "s3://mlsl-sandox/rekognition_images/train/IMS_00000_00_000_000_R2_1900_01_01_00000_compressed_front_tof_amp_000.jpeg",
    "bounding-box-attribute-name": {
        "image_size": [{
                "width": 640,
                "height": 480,
                "depth": 3
            }
        ],
        "annotations": [{
                "class_id": 1,
                "top": 189,
                "left": 209,
                "width": 97,
                "height": 121
            }
        ]
    },
    "bounding-box-attribute-name-metadata": {
        "objects": [{
                "confidence": 1
            }
        ],
        "class-map": {
            "1": "Head"
        },
        "type": "groundtruth/object-detection",
        "human-annotated": "yes",
        "creation-date": "2023-04-07T20:04:42",
        "job-name": "testjob"
    }
}

Используя файлы манифеста, мы можем загружать наборы данных в модель Rekognition Custom Labels для обучения и тестирования. Мы повторили модель с различным объемом обучающих данных и протестировали ее на тех же 239 невидимых изображениях. В этом тесте mAP_50 Оценка увеличилась с 0.33 при использовании 114 обучающих изображений до 0.95 при использовании 957 обучающих изображений. На следующем снимке экрана показаны показатели производительности окончательной модели пользовательских меток Rekognition, которая обеспечивает отличную производительность с точки зрения оценки F1, точности и отзыва.

Создайте конвейер активного обучения для автоматического аннотирования изображений с помощью сервисов AWS | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Далее мы протестировали модель на скрытом наборе данных, содержащем 1,128 изображений. Модель последовательно предсказывает точные прогнозы ограничивающей рамки на невидимых данных, что дает высокую mAP_50 94.9%. В следующем примере показано изображение с автоматическими аннотациями и ограничивающей рамкой головы.

Аннотация к ключевым моментам

Аннотация ключевых точек определяет расположение ключевых точек, включая глаза, уши, нос, рот, шею, плечи, локти, запястья, бедра и лодыжки. В дополнение к прогнозированию местоположения для прогнозирования этой конкретной задачи необходима видимость каждой точки, для которой мы разрабатываем новый метод.

Для аннотации ключевых моментов мы используем Модель Йоло 8 Поза на SageMaker в качестве исходной модели. Сначала мы подготавливаем данные для обучения, включая создание файлов меток и файла конфигурации .yaml в соответствии с требованиями Yolo. После подготовки данных мы обучаем модель и сохраняем артефакты, включая файл весов модели. С помощью файла весов обученной модели мы можем аннотировать новые изображения.

На этапе обучения для обучения используются все помеченные точки с указанием местоположения, включая видимые точки и закрытые точки. Таким образом, эта модель по умолчанию обеспечивает местоположение и достоверность прогноза. На следующем рисунке большой доверительный порог (основной порог) около 0.6 позволяет разделить точки, которые видны или закрыты, от точек, находящихся за пределами точек обзора камеры. Однако закрытые точки и видимые точки не разделены достоверностью, а это означает, что прогнозируемая достоверность бесполезна для прогнозирования видимости.

Чтобы получить прогноз видимости, мы вводим дополнительную модель, обученную на наборе данных, содержащем только видимые точки, исключая как закрытые точки, так и точки за пределами точек обзора камеры. На следующем рисунке показано распределение точек с разной видимостью. Видимые точки и другие точки можно разделить в дополнительной модели. Мы можем использовать порог (дополнительный порог) около 0.6, чтобы получить видимые точки. Объединив эти две модели, мы разработали метод прогнозирования местоположения и видимости.

Ключевая точка сначала прогнозируется основной моделью с указанием местоположения и основной достоверности, затем мы получаем прогноз дополнительной достоверности из дополнительной модели. Его видимость тогда классифицируется следующим образом:

Видно, если его основная достоверность превышает основной порог, а дополнительная достоверность превышает дополнительный порог.
Закрыто, если его основная достоверность больше основного порога, а дополнительная достоверность меньше или равна дополнительному порогу.
Вне обзора камеры, если иное

Пример аннотации ключевых точек показан на следующем изображении, где сплошные метки — это видимые точки, а пустые метки — это перекрытые точки. За пределами камеры точки обзора не отображаются.

На основе стандарта ОКС определению в наборе данных MS-COCO, наш метод способен достичь mAP_50 98.4% в невидимом наборе тестовых данных. С точки зрения наглядности, метод дает точность классификации 79.2% для того же набора данных.

Маркировка и переподготовка человека

Несмотря на то, что модели демонстрируют высокую производительность на тестовых данных, все же существует вероятность ошибок на новых реальных данных. Человеческая маркировка — это процесс исправления этих ошибок для повышения производительности модели с помощью переобучения. Мы разработали функцию оценки, которая объединила значения достоверности, полученные из моделей ML, для выходных данных всех ограничивающих рамок головы или ключевых точек. Мы используем окончательную оценку, чтобы выявить эти ошибки и полученные в результате неправильно помеченные изображения, которые необходимо отправить в процесс маркировки человеком.

Помимо плохо помеченных изображений, небольшая часть изображений выбирается случайным образом для маркировки человеком. Эти помеченные человеком изображения добавляются в текущую версию обучающего набора для повторного обучения, повышения производительности модели и общей точности аннотаций.

В реализации мы используем SageMaker Ground Truth для человеческая маркировка процесс. SageMaker Ground Truth предоставляет удобный и интуитивно понятный пользовательский интерфейс для маркировки данных. На следующем снимке экрана показано задание маркировки SageMaker Ground Truth для аннотации, ограничивающей заголовок.

На следующем снимке экрана показано задание маркировки SageMaker Ground Truth для аннотаций ключевых точек.

Стоимость, скорость и возможность повторного использования

Стоимость и скорость являются ключевыми преимуществами использования нашего решения по сравнению с маркировкой человеком, как показано в следующих таблицах. Мы используем эти таблицы для представления экономии затрат и увеличения скорости. При использовании ускоренного экземпляра SageMaker на графическом процессоре ml.g4dn.xlarge стоимость обучения и вывода на протяжении всей жизни на 100,000 99 изображений на 10 % меньше, чем стоимость маркировки человеком, а скорость в 10,000–XNUMX XNUMX раз выше, чем маркировка человеком, в зависимости от задача.

В первой таблице суммированы показатели эффективности затрат.

Модель	mAP_50 на основе 1,128 тестовых изображений	Стоимость обучения из расчета на 100,000 XNUMX изображений	Стоимость вывода на основе 100,000 XNUMX изображений	Снижение затрат по сравнению с аннотированием вручную	Время вывода на основе 100,000 XNUMX изображений	Ускорение времени по сравнению с человеческими аннотациями
Рамка, ограничивающая голову Rekognition	0.949	$4	$22	99% меньше	5.5 ч	Дней
Йоло Ключевые моменты	0.984	$27.20	* 10 $	99.9% меньше	минут	Недели

В следующей таблице приведены показатели производительности.

Задача аннотации	mAP_50 (%)	Стоимость обучения ($)	Стоимость вывода ($)	Время вывода
Ограничительная рамка для головы	94.9	4	22	5.5 часа
Ключевые моменты	98.4	27	10	5 минут

Более того, наше решение обеспечивает возможность повторного использования для аналогичных задач. Наше решение также может быть использовано при разработке камер для других систем, таких как усовершенствованная система помощи водителю (ADAS) и бортовые системы.

Обзор

В этом посте мы показали, как создать конвейер активного обучения для автоматического аннотирования изображений в салоне с использованием сервисов AWS. Мы демонстрируем возможности машинного обучения, которые позволяют автоматизировать и ускорить процесс аннотирования, а также гибкость платформы, использующей модели, поддерживаемые сервисами AWS или настроенные в SageMaker. С помощью Amazon S3, SageMaker, Lambda и SageMaker Ground Truth вы можете оптимизировать хранение данных, аннотирование, обучение и развертывание, а также добиться возможности повторного использования при значительном сокращении затрат. Внедрив это решение, автомобильные компании могут стать более гибкими и экономически эффективными за счет использования расширенной аналитики на основе машинного обучения, такой как автоматическое аннотирование изображений.

Начните сегодня и раскройте возможности Сервисы AWS и машинное обучение для использования датчиков в салоне вашего автомобиля!

Об авторах

Яньсян Юй является научным сотрудником Инновационного центра генеративного искусственного интеллекта Amazon. Имея более 9 лет опыта создания решений искусственного интеллекта и машинного обучения для промышленных приложений, он специализируется на генеративном искусственном интеллекте, компьютерном зрении и моделировании временных рядов.

Тяньи Мао — учёный-прикладник в AWS из Чикаго. Он имеет более чем 5-летний опыт создания решений для машинного и глубокого обучения и специализируется на компьютерном зрении и обучении с подкреплением с использованием обратной связи от людей. Ему нравится работать с клиентами, чтобы понять их проблемы и решить их, создавая инновационные решения с использованием сервисов AWS.

Янру Сяо — учёный-прикладник в Инновационном центре Amazon Generative AI, где он создаёт решения AI/ML для решения реальных бизнес-задач клиентов. Он работал в нескольких областях, включая производство, энергетику и сельское хозяйство. Янру получил докторскую степень. Степень бакалавра компьютерных наук в Университете Олд Доминион.

Пол Джордж является опытным лидером в области продуктов с более чем 15-летним опытом работы в автомобильных технологиях. Он является экспертом в руководстве командами по управлению продуктами, стратегии, выводу на рынок и системному проектированию. Он разработал и запустил несколько новых продуктов сенсорного восприятия и восприятия по всему миру. В AWS он руководит стратегией и выводом на рынок рабочих нагрузок для автономных транспортных средств.

Кэролайн Чанг работает инженером-менеджером в компании Veoneer (приобретенной Magna International). У нее более 14 лет опыта разработки систем зондирования и восприятия. В настоящее время она возглавляет программы подготовки к разработке внутреннего зондирования в Magna International, управляя командой инженеров компьютерного зрения и специалистов по обработке данных.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/build-an-active-learning-pipeline-for-automatic-annotation-of-images-with-aws-services/

Отметка времени: 10 апреля 2024

Отметка времени: Декабрь 16, 2022

Переиздано Платоном

Обнаружение дефектов на изображениях высокого разрешения с использованием двухэтапных моделей Amazon Rekognition Custom Labels | Веб-сервисы Amazon

Автоматизируйте предварительную маркировку PDF-файлов для Amazon Comprehend | Веб-сервисы Amazon

Используйте примеры Github с Amazon SageMaker Data Wrangler

Мощные рекомендации и поиск с использованием графа знаний IMDb — часть 1

Расширение мошеннических транзакций с помощью синтетических данных в Amazon SageMaker

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись