Создавайте высококачественные данные для моделей машинного обучения с помощью Amazon SageMaker Ground Truth

Переиздано Платоном

Читают: 0

В последние годы машинное обучение (МО) улучшило бизнес в различных отраслях — от системы рекомендаций на вашем Prime Video учетной записи, для обобщения документов и эффективного поиска с помощью Alexaголосовой помощник. Однако остается вопрос, как внедрить эту технологию в свой бизнес. В отличие от традиционных методов, основанных на правилах, машинное обучение автоматически выводит шаблоны из данных, чтобы выполнить интересующую вас задачу. Несмотря на то, что это избавляет от необходимости создавать правила для автоматизации, это также означает, что модели машинного обучения могут быть настолько хороши, насколько хороши данные, на которых они обучены. Однако создание данных часто является сложной задачей. В Лаборатория решений для машинного обучения Amazon, мы неоднократно сталкивались с этой проблемой и хотим упростить этот путь для наших клиентов. Если вы хотите разгрузить этот процесс, вы можете использовать Amazon SageMaker Ground Truth Plus.

К концу этого поста вы сможете достичь следующего:

Понимать бизнес-процессы, связанные с настройкой конвейера сбора данных.
Определите облачные сервисы AWS для поддержки и ускорения конвейера маркировки данных.
Запустите задачу сбора и маркировки данных для пользовательских вариантов использования.
Создавайте высококачественные данные в соответствии с лучшими деловыми и техническими практиками

В этом посте мы сосредоточимся на процессе создания данных и полагаемся на сервисы AWS для управления инфраструктурой и компонентами процесса. А именно, мы используем Amazon SageMaker - основа правды для обработки конвейера инфраструктуры маркировки и пользовательского интерфейса. Этот сервис использует точечный подход для сбора ваших данных из Простой сервис хранения Amazon (Amazon S3) и настроить рабочий процесс маркировки. Для маркировки он предоставляет встроенную гибкость для получения меток данных с помощью вашей частной команды, Amazon Mechanical Turk Force или предпочитаемого поставщика этикеток из Торговая площадка AWS. Наконец, вы можете использовать AWS Lambda и Блокноты Amazon SageMaker для обработки, визуализации или контроля качества данных — до или после маркировки.

Теперь, когда все кусочки уложены, давайте начнем процесс!

Процесс создания данных

Вопреки общепринятому мнению, первый шаг к созданию данных — это не сбор данных. Работать в обратном направлении от пользователей, чтобы сформулировать проблему, имеет решающее значение. Например, что интересует пользователей в финальном артефакте? Где, по мнению экспертов, в данных находятся сигналы, относящиеся к варианту использования? Какую информацию о среде варианта использования можно предоставить модели? Если вы не знаете ответов на эти вопросы, не волнуйтесь. Дайте себе немного времени, чтобы поговорить с пользователями и полевыми экспертами, чтобы понять нюансы. Это первоначальное понимание сориентирует вас в правильном направлении и настроит на успех.

В этом посте мы предполагаем, что вы рассмотрели этот начальный процесс спецификации требований пользователя. Следующие три раздела проведут вас через последующий процесс создания качественных данных: планирование, создание исходных данных и аннотирование данных. Пилотные циклы на этапах создания данных и аннотирования жизненно важны для обеспечения эффективного создания размеченных данных. Это включает в себя итерацию между созданием данных, аннотированием, обеспечением качества и обновлением конвейера по мере необходимости.

На следующем рисунке представлен обзор шагов, необходимых для типичного конвейера создания данных. Вы можете работать в обратном направлении от варианта использования, чтобы определить, какие данные вам нужны (Спецификация требований), построить процесс для получения данных (Планирование), реализовать фактический процесс сбора данных (Сбор данных и аннотирование) и оценить результаты. Пилотные прогоны, выделенные пунктирными линиями, позволяют повторять процесс до тех пор, пока не будет разработан высококачественный конвейер сбора данных.

Обзор шагов, необходимых в типичном конвейере создания данных.

Стандартный процесс создания данных может занять много времени и привести к пустой трате ценных человеческих ресурсов, если он проводится неэффективно. Почему это может занять много времени? Чтобы ответить на этот вопрос, мы должны понимать масштабы процесса создания данных. Чтобы помочь вам, мы собрали контрольный список высокого уровня и описание ключевых компонентов и заинтересованных сторон, которые вы должны учитывать. Ответить на эти вопросы поначалу может быть сложно. В зависимости от вашего варианта использования могут быть применимы только некоторые из них.

Определите юридическое контактное лицо для получения необходимых разрешений – Использование данных для вашего приложения может потребовать проверки лицензии или контракта с поставщиком, чтобы обеспечить соответствие политикам компании и вариантам использования. Важно определить вашу юридическую поддержку на всех этапах сбора данных и аннотирования процесса.
Определить точку контакта безопасности для обработки данных – Утечка купленных данных может привести к серьезным штрафам и последствиям для вашей компании. Важно определить вашу поддержку безопасности на всех этапах сбора данных и аннотирования, чтобы обеспечить безопасные методы.
Детализируйте требования к вариантам использования и определите исходные данные и рекомендации по аннотациям. – Создание и аннотирование данных затруднено из-за требуемой высокой специфичности. Заинтересованные стороны, в том числе генераторы данных и аннотаторы, должны быть полностью согласованы, чтобы не тратить ресурсы впустую. С этой целью обычной практикой является использование руководящего документа, в котором указаны все аспекты задачи создания аннотаций: точные инструкции, пограничные случаи, пример пошагового руководства и т. д.
Выровняйте ожидания по сбору исходных данных – Учитывайте следующее:
- Провести исследование потенциальных источников данных – Например, общедоступные наборы данных, существующие наборы данных от других внутренних групп, самостоятельно собранные или приобретенные у поставщиков данные.
- Выполнить оценку качества – Создайте конвейер анализа по отношению к конечному варианту использования.
Согласование с ожиданиями для создания аннотаций данных – Учитывайте следующее:
- Определите технические заинтересованные стороны – Обычно это человек или команда в вашей компании, способные использовать техническую документацию, касающуюся Ground Truth, для реализации конвейера аннотаций. Эти заинтересованные стороны также несут ответственность за оценку качества аннотированных данных, чтобы убедиться, что они соответствуют потребностям вашего последующего приложения машинного обучения.
- Определение аннотаторов данных – Эти люди используют заранее определенные инструкции, чтобы добавлять метки к вашим исходным данным в Ground Truth. Им может потребоваться знание предметной области в зависимости от вашего варианта использования и рекомендаций по аннотации. Вы можете использовать рабочую силу внутри вашей компании или платить за рабочая сила, управляемая внешним поставщиком.
Обеспечьте надзор за процессом создания данных – Как видно из предыдущих пунктов, создание данных – это детальный процесс, в котором участвуют многочисленные специализированные заинтересованные стороны. Поэтому крайне важно контролировать его от начала до конца для достижения желаемого результата. Наличие специального человека или команды, наблюдающей за процессом, может помочь вам обеспечить целостный и эффективный процесс создания данных.

В зависимости от маршрута, который вы решите выбрать, вы также должны учитывать следующее:

Создайте исходный набор данных – Это относится к случаям, когда существующие данные не подходят для поставленной задачи или юридические ограничения не позволяют вам их использовать. Необходимо использовать внутренние команды или внешних поставщиков (следующий пункт). Это часто имеет место для узкоспециализированных областей или областей с низким уровнем общественных исследований. Например, общие вопросы врача, расклад одежды или спортивные эксперты. Он может быть внутренним или внешним.
Исследуйте поставщиков и проведите процесс адаптации – Когда используются внешние поставщики, между обеими сторонами должен быть установлен процесс заключения контрактов и адаптации.

В этом разделе мы рассмотрели компоненты и заинтересованные стороны, которые мы должны учитывать. Однако как выглядит реальный процесс? На следующем рисунке мы намечаем рабочий процесс процесса создания данных и аннотации. В итеративном подходе используются небольшие пакеты данных, называемые пилотными, чтобы сократить время обработки, обнаружить ошибки на ранней стадии и избежать траты ресурсов на создание данных низкого качества. Мы опишем эти пилотные раунды позже в этом посте. Мы также рассмотрим некоторые передовые методы создания данных, аннотирования и контроля качества.

На следующем рисунке показана итеративная разработка конвейера создания данных. По вертикали мы находим блок источника данных (зеленый) и блок аннотации (синий). Оба блока имеют независимые пилотные раунды (создание данных/аннотации, QAQC и обновление). Создаются все более качественные исходные данные, которые можно использовать для создания аннотаций все более высокого качества.

Во время итеративной разработки конвейера создания данных или аннотации небольшие пакеты данных используются для независимых пилотных проектов. В каждом пилотном раунде есть фаза создания данных или аннотирования, определенная гарантия качества и контроль качества результатов, а также этап обновления для уточнения процесса. После того, как эти процессы будут отлажены с помощью последовательных пилотных проектов, вы можете приступить к крупномасштабному созданию данных и аннотированию.

Обзор итеративной разработки в конвейере создания данных.

Создание исходных данных

Процесс создания входных данных вращается вокруг размещения интересующих вас элементов, которые зависят от типа вашей задачи. Это могут быть изображения (сканы газет), видео (дорожные сцены), 3D-облака точек (медицинские сканы) или просто текст (дорожки субтитров, транскрипции). Как правило, при подготовке элементов, связанных с задачами, убедитесь в следующем:

Отражение реального варианта использования будущей системы AI/ML. – Настройка сбора изображений или видео для ваших данных тренировки должна точно соответствовать настройке ваших входных данных в реальном приложении. Это означает наличие согласованных поверхностей размещения, источников освещения или ракурсов камеры.
Учет и минимизация источников изменчивости – Учитывайте следующее:
- Разработка лучших практик для поддержания стандартов сбора данных – В зависимости от детализации вашего варианта использования вам может потребоваться указать требования, чтобы гарантировать согласованность между вашими точками данных. Например, если вы собираете изображения или видеоданные с отдельных точек камеры, вам может потребоваться убедиться в последовательном размещении интересующих вас объектов или потребовать проверки качества камеры перед раундом сбора данных. Это позволяет избежать таких проблем, как наклон или размытие камеры, а также свести к минимуму накладные расходы, связанные с последующей обработкой, такие как удаление изображений вне кадра или размытых изображений, а также необходимость вручную центрировать кадр изображения в интересующей вас области.
- Упреждение источников изменчивости во время тестирования – Если вы предполагаете изменчивость любого из упомянутых выше атрибутов во время тестирования, убедитесь, что вы можете зафиксировать эти источники изменчивости во время создания обучающих данных. Например, если вы ожидаете, что ваше приложение машинного обучения будет работать при различных настройках освещения, вам следует стремиться создавать обучающие изображения и видео при различных настройках освещения. В зависимости от варианта использования вариативность положения камеры также может повлиять на качество ваших этикеток.
Включить предыдущие знания предметной области, когда они доступны – Учитывайте следующее:
- Входные данные об источниках ошибок – Практики предметной области могут дать представление об источниках ошибок, основываясь на своем многолетнем опыте. Они могут предоставить отзывы о лучших практиках для предыдущих двух пунктов: Какие настройки лучше всего отражают реальный вариант использования? Каковы возможные источники изменчивости во время сбора данных или во время использования?
- Лучшие практики сбора данных для предметной области – Хотя ваши технические заинтересованные стороны могут уже иметь хорошее представление о технических аспектах, на которых следует сосредоточиться в собранных изображениях или видео, специалисты в предметной области могут предоставить отзывы о том, как лучше всего подготовить или собрать данные, чтобы удовлетворить эти потребности.

Контроль качества и обеспечение качества созданных данных

Теперь, когда вы настроили конвейер сбора данных, может возникнуть соблазн пойти дальше и собрать как можно больше данных. Подождите минуту! Сначала мы должны проверить, подходят ли данные, собранные при установке, для вашего реального варианта использования. Мы можем использовать некоторые исходные образцы и итеративно улучшать настройку с помощью информации, полученной в результате анализа данных этих образцов. Тесно сотрудничайте со своими техническими, деловыми и аннотационными заинтересованными сторонами во время пилотного процесса. Это гарантирует, что ваш результирующий конвейер соответствует бизнес-потребностям, генерируя готовые к машинному обучению помеченные данные с минимальными накладными расходами.

Аннотации

Аннотации входных данных — это то место, где мы добавляем волшебный штрих к нашим данным — метки! В зависимости от типа вашей задачи и процесса создания данных вам могут понадобиться ручные аннотаторы или вы можете использовать готовые автоматизированные методы. Сам конвейер аннотирования данных может быть технически сложной задачей. Ground Truth облегчает этот путь для ваших технических заинтересованных сторон благодаря встроенный репертуар маркировки рабочих процессов для общих источников данных. С помощью нескольких дополнительных шагов он также позволяет вам создавать пользовательские рабочие процессы маркировки помимо предварительно настроенных опций.

Задайте себе следующие вопросы при разработке подходящего рабочего процесса аннотации:

Нужен ли мне ручной процесс аннотирования моих данных? В некоторых случаях для решения поставленной задачи может быть достаточно автоматизированных служб маркировки. Просмотр документации и доступных инструментов может помочь вам определить, необходимы ли ручные аннотации для вашего варианта использования (дополнительную информацию см. Что такое маркировка данных?). Процесс создания данных может обеспечивать различные уровни контроля над степенью детализации аннотаций данных. В зависимости от этого процесса вы также можете иногда обойти необходимость аннотирования вручную. Для получения дополнительной информации см. Создайте пользовательский набор данных вопросов и ответов с помощью Amazon SageMaker Ground Truth для обучения модели NLU вопросов и ответов Hugging Face..
Что формирует мою основную истину? В большинстве случаев основная правда будет исходить из вашего процесса аннотации — в этом весь смысл! В других случаях пользователь может иметь доступ к наземным меткам истинности. Это может значительно ускорить процесс обеспечения качества или сократить накладные расходы, необходимые для многочисленных ручных аннотаций.
Какова верхняя граница отклонения от моего основного истинного состояния? Работайте со своими конечными пользователями, чтобы понять типичные ошибки, связанные с этими метками, источники таких ошибок и желаемое сокращение ошибок. Это поможет вам определить, какие аспекты задачи маркировки являются наиболее сложными или могут содержать ошибки при аннотации.
Существуют ли уже существующие правила, используемые пользователями или полевыми практиками для маркировки этих предметов? Используйте и уточняйте эти рекомендации, чтобы создать набор инструкций для ваших ручных аннотаторов.

Пилотирование процесса ввода аннотаций

При пилотировании процесса ввода аннотаций учитывайте следующее:

Ознакомьтесь с инструкциями вместе с аннотаторами и полевыми практиками. – Инструкции должны быть краткими и конкретными. Запросите отзывы у ваших пользователей (Точны ли инструкции? Можем ли мы пересмотреть какие-либо инструкции, чтобы убедиться, что они понятны не практикующим специалистам?) и аннотаторов (Все ли понятно? Ясна ли задача?). Если возможно, добавьте пример данных с хорошей и плохой маркировкой, чтобы помочь вашим аннотаторам определить, что ожидается, и как могут выглядеть распространенные ошибки маркировки.
Сбор данных для аннотаций – Просмотрите данные вместе с вашим клиентом, чтобы убедиться, что они соответствуют ожидаемым стандартам, и согласовать ожидаемые результаты ручной аннотации.
Предоставьте примеры для вашего пула ручных аннотаторов в качестве тестового прогона. – Каковы типичные различия среди аннотаторов в этом наборе примеров? Изучите дисперсию для каждой аннотации на данном изображении, чтобы определить тенденции согласованности среди аннотаторов. Затем сравните различия между изображениями или видеокадрами, чтобы определить, какие метки сложно разместить.

Контроль качества аннотаций

Контроль качества аннотаций состоит из двух основных компонентов: оценка согласованности между аннотаторами и оценка качества самих аннотаций.

Вы можете назначить несколько аннотаторов для одной и той же задачи (например, три аннотатора помечают ключевые точки на одном изображении) и измерять среднее значение вместе со стандартным отклонением этих меток среди аннотаторов. Это поможет вам определить любые аннотации, выпадающие из нормы (используется неправильная метка или метка, далекая от средней аннотации), что может привести к практическим результатам, таким как уточнение ваших инструкций или дополнительное обучение определенных аннотаторов.

Оценка качества самих аннотаций связана с изменчивостью аннотаторов и (если доступно) наличием экспертов в предметной области или достоверной информации. Существуют ли определенные ярлыки (на всех ваших изображениях), где средняя дисперсия между аннотаторами постоянно высока? Есть ли какие-либо этикетки, далекие от ваших ожиданий относительно того, где они должны быть или как они должны выглядеть?

Исходя из нашего опыта, типичный цикл контроля качества аннотирования данных может выглядеть следующим образом:

Повторите инструкции или постановку образа на основе результатов тестового прогона. – Не перекрыты ли какие-либо объекты или постановка изображения не соответствует ожиданиям аннотаторов или пользователей? Вводят ли инструкции в заблуждение, или вы пропустили какие-либо метки или распространенные ошибки в изображениях ваших образцов? Можете ли вы уточнить инструкции для ваших аннотаторов?
Если вы удовлетворены тем, что устранили какие-либо проблемы во время тестового прогона, сделайте пакет аннотаций. – Для тестирования результатов из партии используйте тот же подход к оценке качества, что и при оценке различий между аннотаторами и метками между изображениями.

Заключение

Этот пост служит руководством для заинтересованных сторон, чтобы понять сложности создания данных для приложений AI/ML. Описанные процессы также служат руководством для технических специалистов по созданию качественных данных при оптимизации бизнес-ограничений, таких как персонал и затраты. Если не все сделано правильно, конвейер создания и маркировки данных может занять более 4–6 месяцев.

Руководствуясь рекомендациями и предложениями, изложенными в этом посте, вы сможете упредить препятствия, сократить время до завершения и минимизировать затраты на пути к созданию высококачественных данных.

Об авторах

Джаслин Гревал — ученый-прикладник в Amazon Web Services, где она работает с клиентами AWS над решением реальных проблем с помощью машинного обучения, уделяя особое внимание точной медицине и геномике. У нее большой опыт работы в области биоинформатики, онкологии и клинической геномики. Она увлечена использованием AI/ML и облачных сервисов для улучшения ухода за пациентами.

Борис Арончик является менеджером в лаборатории решений для машинного обучения Amazon AI, где он возглавляет команду ученых и инженеров по машинному обучению, помогая клиентам AWS достигать бизнес-целей, используя решения AI/ML.

Мигель Ромеро Кальво является ученым-прикладником в Лаборатория решений Amazon ML где он сотрудничает с внутренними командами AWS и стратегическими клиентами, чтобы ускорить их бизнес за счет внедрения машинного обучения и облака.

Лин Ли Чеонг является старшим научным сотрудником и менеджером команды Amazon ML Solutions Lab в Amazon Web Services. Она работает со стратегическими клиентами AWS, исследуя и применяя искусственный интеллект и машинное обучение для получения новых идей и решения сложных проблем.

Отметка времени: 3 октября 20223 октября 2022

Отметка времени: 17 ноября, 2022

Создавайте высококачественные данные для моделей машинного обучения с помощью Amazon SageMaker Ground Truth

Переиздано Платоном

Процесс создания данных

Меню

Создание исходных данных

Контроль качества и обеспечение качества созданных данных

Аннотации

Пилотирование процесса ввода аннотаций

Контроль качества аннотаций

Заключение

Об авторах

Больше от Машинное обучение AWS

Amazon SageMaker JumpStart теперь предлагает записные книжки Amazon Comprehend для пользовательской классификации и обнаружения пользовательских сущностей.

Обеспечьте помощь оператора в реальном времени для пользователей ваших чат-ботов с помощью Amazon Lex и облачного контакт-центра Talkdesk | Веб-сервисы Amazon

Повысьте точность поиска с помощью проверки орфографии в Amazon Kendra

Определение местоположения аномалий с помощью Amazon Lookout for Vision на периферии без использования графического процессора

Крупномасштабная разработка функций с защитой конфиденциальных данных с использованием интерактивных сеансов AWS Glue и Amazon SageMaker Studio.

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись