Советы по улучшению модели пользовательских меток Amazon Rekognition

Переиздано Платоном

Читают: 0

В этом посте мы обсудим передовые методы повышения производительности ваших моделей компьютерного зрения с помощью Пользовательские ярлыки Amazon Rekognition. Rekognition Custom Labels — это полностью управляемый сервис для создания пользовательских моделей компьютерного зрения для классификации изображений и вариантов использования обнаружения объектов. Rekognition Custom Labels строится на основе предварительно обученных моделей в Апостол, которые уже обучены на десятках миллионов изображений во многих категориях. Вместо тысяч изображений вы можете начать с небольшого набора обучающих изображений (несколько сотен или меньше), которые соответствуют вашему варианту использования. Rekognition Custom Labels абстрагируется от сложностей, связанных с созданием пользовательской модели. Он автоматически проверяет обучающие данные, выбирает правильные алгоритмы машинного обучения, выбирает тип экземпляра, обучает несколько моделей-кандидатов с различными настройками гиперпараметров и выводит наилучшую обученную модель. Rekognition Custom Labels также предоставляет простой в использовании интерфейс из Консоль управления AWS для управления всем рабочим процессом машинного обучения, включая маркировку изображений, обучение модели, развертывание модели и визуализацию результатов тестирования.

Бывают случаи, когда точность модели не самая лучшая, и у вас не так много возможностей для настройки параметров конфигурации модели. За кулисами есть несколько факторов, которые играют ключевую роль в построении высокопроизводительной модели, например следующие:

Угол изображения
Разрешение изображения
Соотношение сторон изображения
Воздействие света
Четкость и яркость фона
Цветовой контраст
Размер выборки данных

Ниже приведены общие шаги, которые необходимо выполнить для обучения модели пользовательских этикеток Rekognition промышленного уровня.

Обзор таксономии – Это определяет список атрибутов/элементов, которые вы хотите идентифицировать в изображении.
Соберите соответствующие данные — Это самый важный шаг, на котором вам нужно собрать соответствующие изображения, которые должны напоминать то, что вы видите в производственной среде. Это могут быть изображения объектов с разным фоном, освещением или углами камеры. Затем вы создаете наборы данных для обучения и тестирования, разделяя собранные изображения. Вы должны включать только реальные изображения как часть тестового набора данных и не должны включать какие-либо синтетически сгенерированные изображения. Аннотации собранных вами данных имеют решающее значение для производительности модели. Убедитесь, что ограничивающие рамки плотно облегают объекты, а метки точны. Далее в этом посте мы обсудим некоторые советы, которые вы можете учесть при создании соответствующего набора данных.
Просмотр показателей обучения – Используйте предыдущие наборы данных для обучения модели и просмотра показателей обучения для оценки F1, точности и отзыва. Мы подробно обсудим, как анализировать показатели обучения, позже в этом посте.
Оцените обученную модель – Используйте набор невидимых изображений (не используемых для обучения модели) с известными метками для оценки прогнозов. Этот шаг следует всегда выполнять, чтобы убедиться, что модель работает должным образом в производственной среде.
Повторное обучение (по желанию) — В целом обучение любой модели машинного обучения — это итеративный процесс для достижения желаемых результатов, модель компьютерного зрения ничем не отличается. Просмотрите результаты на шаге 4, чтобы увидеть, нужно ли добавить больше изображений к обучающим данным, и повторите описанные выше шаги 3–5.

В этом посте мы сосредоточимся на передовых методах сбора релевантных данных (шаг 2) и оценки обученных метрик (шаг 3) для повышения производительности вашей модели.

Соберите соответствующие данные

Это наиболее важный этап обучения модели Rekognition Custom Labels производственного уровня. В частности, есть два набора данных: обучающий и тестовый. Обучающие данные используются для обучения модели, и вам необходимо приложить усилия для создания соответствующего обучающего набора. Модели Rekognition Custom Labels оптимизированы для Счет F1 на тестовом наборе данных, чтобы выбрать наиболее точную модель для вашего проекта. Поэтому очень важно создать набор данных для тестирования, максимально приближенный к реальному миру.

Количество изображений

Мы рекомендуем иметь как минимум 15-20 изображений на этикетке. Наличие большего количества изображений с большим количеством вариаций, отражающих ваш вариант использования, улучшит производительность модели.

Сбалансированный набор данных

В идеале каждая метка в наборе данных должна иметь одинаковое количество образцов. Не должно быть большого расхождения в количестве изображений на этикетке. Например, набор данных, в котором наибольшее количество изображений для одной этикетки составляет 1,000, а для другой этикетки — 50, напоминает несбалансированный набор данных. Мы рекомендуем избегать сценариев с неравномерным соотношением 1:50 между ярлыком с наименьшим количеством изображений и ярлыком с наибольшим количеством изображений.

Различные типы изображений

Включите изображения в обучающий и тестовый набор данных, которые напоминают то, что вы будете использовать в реальном мире. Например, если вы хотите классифицировать изображения гостиных и спален, вы должны включить пустые и меблированные изображения обеих комнат.

Ниже приведен пример изображения меблированной гостиной.

Напротив, ниже приведен пример немеблированной гостиной.

Ниже приведен пример изображения меблированной спальни.

Ниже приведен пример изображения спальни без мебели.

Различные фоны

Включите изображения с разным фоном. Изображения с естественным контекстом могут дать лучшие результаты, чем простой фон.

Ниже приведен пример изображения переднего двора дома.

Ниже приведен пример изображения переднего двора другого дома с другим фоном.

Различные условия освещения

Включите изображения с различным освещением, чтобы они охватывали различные условия освещения, возникающие во время вывода (например, со вспышкой и без нее). Вы также можете включать изображения с различной насыщенностью, оттенком и яркостью.

Ниже приведен пример изображения цветка при обычном освещении.

Напротив, следующее изображение того же цветка при ярком свете.

Различные углы

Включите изображения, сделанные с разных ракурсов объекта. Это помогает модели изучить различные характеристики объектов.

На следующих фотографиях одна и та же спальня с разных ракурсов.

Советы по улучшению модели пользовательских меток Amazon Rekognition. PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Могут быть случаи, когда невозможно получить изображения различных типов. В этих сценариях синтетические изображения могут быть созданы как часть набора обучающих данных. Дополнительные сведения о распространенных методах увеличения изображения см. Увеличение данных.

Добавить исключенные ярлыки

Для классификации изображений добавление отрицательных меток может помочь повысить точность модели. Например, вы можете добавить отрицательную метку, которая не соответствует ни одной из требуемых меток. На следующем изображении представлены различные этикетки, используемые для идентификации полностью выращенных цветов.

Добавление минус-метки not_fully_grown помогает модели изучить характеристики, которые не являются частью fully_grown этикетка.

Устранение путаницы с этикетками

Проанализируйте результаты в тестовом наборе данных, чтобы распознать любые шаблоны, которые пропущены в обучающем или тестовом наборе данных. Иногда такие закономерности легко обнаружить, визуально изучив изображения. На следующем изображении модель пытается выбрать между меткой «задний двор» и «патио».

В этом сценарии добавление дополнительных изображений к этим меткам в наборе данных, а также переопределение меток, чтобы каждая метка была уникальной, может помочь повысить точность модели.

Увеличение данных

В Rekognition Custom Labels мы выполняем различные дополнения данных для обучения модели, включая случайное кадрирование изображения, дрожание цвета, случайные гауссовы шумы и многое другое. В зависимости от ваших конкретных вариантов использования также может быть полезно добавить более явные дополнения данных к вашим обучающим данным. Например, если вы заинтересованы в обнаружении животных как на цветных, так и на черно-белых изображениях, вы потенциально можете повысить точность, добавив к обучающим данным черно-белые и цветные версии одних и тех же изображений.

Мы не рекомендуем дополнения к тестовым данным, если они не отражают ваши производственные варианты использования.

Просмотр показателей обучения

Оценка F1, точность, полнота и предполагаемый порог являются метрика которые создаются в результате обучения модели с помощью пользовательских меток Rekognition. Модели оптимизированы для наилучшего результата F1 на основе предоставленного набора данных для тестирования. Предполагаемый порог также генерируется на основе набора данных тестирования. Вы можете настроить порог в зависимости от ваших бизнес-требований с точки зрения точности или отзыва.

Поскольку предполагаемые пороговые значения устанавливаются в наборе данных для тестирования, соответствующий набор тестов должен отражать реальный вариант использования в производстве. Если набор тестовых данных не является репрезентативным для варианта использования, вы можете увидеть искусственно завышенные оценки F1 и низкую производительность модели на ваших реальных изображениях.

Эти метрики полезны при первоначальной оценке модели. Для системы производственного уровня мы рекомендуем оценивать модель по внешнему набору данных (500–1,000 невидимых изображений), репрезентативному для реального мира. Это помогает оценить, как модель будет работать в производственной системе, а также выявить любые отсутствующие шаблоны и исправить их путем повторного обучения модели. Если вы видите несоответствие между баллами F1 и внешней оценкой, мы предлагаем вам проверить, отражают ли ваши тестовые данные реальный вариант использования.

Заключение

В этом посте мы познакомили вас с передовыми методами улучшения моделей Rekognition Custom Labels. Предлагаем вам узнать больше о Пользовательские этикетки Rekognition и попробуйте его для наборов данных, специфичных для вашего бизнеса.

Об авторах

Амит Гупта является старшим архитектором решений AI Services в AWS. Он увлечен предоставлением клиентам хорошо спроектированных решений машинного обучения в масштабе.

Йогеш Чатурведи — архитектор решений в AWS, специализирующийся на компьютерном зрении. Он работает с клиентами над решением их бизнес-задач с помощью облачных технологий. Вне работы он любит ходить в походы, путешествовать и смотреть спортивные передачи.

Хао Ян — старший научный сотрудник группы Amazon Rekognition Custom Labels. Его основные исследовательские интересы связаны с обнаружением объектов и обучением с ограниченными аннотациями. Вне работы Хао любит смотреть фильмы, фотографировать и проводить время на свежем воздухе.

Пашмин Мистри является старшим менеджером по продуктам для пользовательских этикеток Amazon Rekognition. Вне работы Пашмин любит авантюрные походы, фотографирует и проводит время со своей семьей.