Створюйте високоякісні дані для моделей ML за допомогою Amazon SageMaker Ground Truth

Перевидано Платоном

читають: 0

За останні роки машинне навчання (ML) покращило бізнес у різних галузях – завдяки системі рекомендацій на вашому сайті Прем'єр-відео обліковий запис, для документального узагальнення та ефективного пошуку Alexaголосова допомога. Однак залишається відкритим питання, як запровадити цю технологію у свій бізнес. На відміну від традиційних методів, заснованих на правилах, ML автоматично виводить шаблони з даних, щоб виконати завдання, яке вас цікавить. Незважаючи на те, що це обходить потребу в підготовці правил для автоматизації, це також означає, що моделі ML можуть бути настільки хорошими, наскільки хороші дані, на яких вони навчені. Однак створення даних часто є складним завданням. Біля Лабораторія рішень машинного навчання Amazon, ми неодноразово стикалися з цією проблемою та хочемо полегшити цю подорож для наших клієнтів. Якщо ви хочете розвантажити цей процес, ви можете використовувати Amazon SageMaker Ground Truth Plus.

До кінця цієї публікації ви зможете досягти наступного:

Зрозумійте бізнес-процеси, пов’язані з налаштуванням конвеєра збору даних
Визначте хмарні служби AWS для підтримки та прискорення конвеєра маркування даних
Запустіть завдання збору даних і маркування для нестандартних випадків використання
Створюйте високоякісні дані, дотримуючись передових ділових і технічних практик

У цій публікації ми зосереджуємося на процесі створення даних і покладаємося на служби AWS для обробки інфраструктури та компонентів процесу. А саме використовуємо Основна правда Amazon SageMaker для обробки конвеєра інфраструктури маркування та інтерфейсу користувача. Ця служба використовує точковий підхід для збору ваших даних Служба простого зберігання Amazon (Amazon S3) і налаштуйте робочий процес маркування. Для маркування він надає вам вбудовану гнучкість для отримання міток даних за допомогою вашої приватної команди Amazon Mechanical Turk force або від бажаного постачальника маркування Торговий майданчик AWS. Нарешті, ви можете використовувати AWS Lambda та Ноутбуки Amazon SageMaker для обробки, візуалізації або контролю якості даних — до або після маркування.

Тепер, коли всі деталі складено, почнемо процес!

Процес створення даних

Всупереч поширеній інтуїції, першим кроком для створення даних є не збір даних. Важливо відступити від користувачів, щоб сформулювати проблему. Наприклад, що цікавить користувачів у фінальному артефакті? Де, на думку експертів, у даних містяться сигнали, що стосуються варіанту використання? Яку інформацію про середовище варіантів використання можна надати для моделювання? Якщо ви не знаєте відповіді на ці запитання, не хвилюйтеся. Дайте собі час поговорити з користувачами та експертами, щоб зрозуміти нюанси. Це початкове розуміння зорієнтує вас у правильному напрямку та налаштує на успіх.

Для цієї публікації ми припускаємо, що ви охопили цей початковий процес специфікації вимог користувача. Наступні три розділи проведуть вас через подальший процес створення якісних даних: планування, створення вихідних даних і анотації даних. Пілотування циклів на етапах створення даних і анотацій є життєво важливим для забезпечення ефективного створення мічених даних. Це передбачає ітерацію між створенням даних, анотаціями, забезпеченням якості та оновленням конвеєра за необхідності.

На наступному малюнку наведено огляд кроків, необхідних у типовому конвеєрі створення даних. Ви можете працювати у зворотному напрямку від варіанту використання, щоб визначити потрібні вам дані (специфікація вимог), створити процес для отримання даних (планування), запровадити фактичний процес збору даних (збір даних і анотація) і оцінити результати. Пілотні запуски, виділені пунктирними лініями, дозволяють повторювати процес, доки не буде розроблено високоякісний конвеєр збору даних.

Огляд кроків, необхідних у типовому конвеєрі створення даних.

Планування

Стандартний процес створення даних може зайняти багато часу та втрачати цінні людські ресурси, якщо його проводити неефективно. Чому це займає багато часу? Щоб відповісти на це питання, ми повинні зрозуміти масштаби процесу створення даних. Щоб допомогти вам, ми зібрали контрольний список високого рівня та опис ключових компонентів і зацікавлених сторін, яких ви повинні враховувати. Відповісти на ці запитання спочатку може бути важко. Залежно від вашого випадку використання лише деякі з них можуть бути застосовані.

Визначте юридичну контактну особу для отримання необхідних погоджень – Використання даних для вашої програми може вимагати перевірки ліцензії або контракту з постачальником, щоб забезпечити відповідність політикам компанії та сценаріям використання. Важливо визначити вашу юридичну підтримку на всіх етапах процесу збору даних і анотацій.
Визначте контактну точку безпеки для обробки даних – Витік придбаних даних може призвести до серйозних штрафів і наслідків для вашої компанії. Важливо визначити вашу підтримку безпеки на всіх етапах збору даних і анотацій, щоб забезпечити безпечні дії.
Деталізуйте вимоги до варіантів використання та визначте вихідні дані та вказівки щодо анотацій – Створювати та анотувати дані важко через високу необхідну специфічність. Зацікавлені сторони, у тому числі генератори даних і анотатори, повинні бути повністю узгоджені, щоб уникнути марної витрати ресурсів. Для цього прийнято використовувати документ із рекомендаціями, який визначає кожен аспект завдання анотації: точні інструкції, граничні випадки, приклад покрокового керівництва тощо.
Вирівнюйте очікування щодо збору вихідних даних – Зверніть увагу на наступне:
- Проведіть дослідження потенційних джерел даних – Наприклад, загальнодоступні набори даних, наявні набори даних від інших внутрішніх команд, дані, зібрані власноруч або придбані у постачальників.
- Провести оцінку якості – Створіть конвеєр аналізу щодо кінцевого сценарію використання.
Вирівнюйте очікування щодо створення анотацій даних – Зверніть увагу на наступне:
- Визначте технічних зацікавлених сторін – Зазвичай це окрема особа або команда у вашій компанії, здатні використовувати технічну документацію щодо Ground Truth для реалізації конвеєра анотацій. Ці зацікавлені сторони також відповідають за оцінку якості анотованих даних, щоб переконатися, що вони відповідають потребам вашої подальшої програми ML.
- Визначте анотатори даних – Ці особи використовують заздалегідь визначені інструкції, щоб додати мітки до ваших вихідних даних у Ground Truth. Їм може знадобитися знання домену залежно від вашого випадку використання та вказівок щодо анотацій. Ви можете використовувати внутрішню робочу силу вашої компанії або платити за робоча сила, якою керує зовнішній постачальник.
Забезпечити нагляд за процесом створення даних – Як ви можете бачити з попередніх пунктів, створення даних є детальним процесом, який включає багато спеціалізованих зацікавлених сторін. Тому вкрай важливо стежити за цим від кінця до кінця для досягнення бажаного результату. Наявність спеціальної особи або команди, яка контролює процес, може допомогти вам забезпечити злагоджений та ефективний процес створення даних.

Залежно від маршруту, яким ви вирішите скористатися, ви також повинні враховувати наступне:

Створіть вихідний набір даних – Це стосується випадків, коли наявні дані не підходять для поставленого завдання або юридичні обмеження не дозволяють вам їх використовувати. Необхідно використовувати внутрішні команди або зовнішніх постачальників (наступний пункт). Це часто стосується вузькоспеціалізованих областей або сфер із низьким рівнем публічних досліджень. Наприклад, загальні запитання лікаря, одягу чи спортивних експертів. Він може бути внутрішнім або зовнішнім.
Дослідіть постачальників і проведіть процес адаптації – Якщо використовуються зовнішні постачальники, між обома організаціями має бути налаштовано процес укладання контракту та адаптації.

У цьому розділі ми розглянули компоненти та зацікавлені сторони, які ми повинні враховувати. Однак як виглядає сам процес? На наступному малюнку показано робочий процес для створення даних і анотацій. Ітеративний підхід використовує невеликі пакети даних, які називаються пілотними, щоб скоротити час обробки, виявити помилки на ранній стадії та уникнути витрачання ресурсів на створення даних низької якості. Ми опишемо ці пілотні раунди далі в цій публікації. Ми також розглядаємо деякі передові методи створення даних, анотацій і контролю якості.

Наступний малюнок ілюструє ітераційну розробку конвеєра створення даних. По вертикалі ми знаходимо блок джерела даних (зелений) і блок анотацій (синій). Обидва блоки мають незалежні пілотні раунди (створення даних/анотація, QAQC та оновлення). Створюються все більш високі вихідні дані, які можна використовувати для створення все більш якісних анотацій.

Під час ітеративної розробки конвеєра створення даних або анотацій невеликі пакети даних використовуються для незалежних пілотів. Кожен пілотний раунд має етап створення даних або анотації, певну гарантію якості та контроль якості результатів, а також етап оновлення для вдосконалення процесу. Після того, як ці процеси будуть відпрацьовані за допомогою послідовних пілотів, ви можете переходити до створення великомасштабних даних і анотацій.

Огляд ітераційної розробки в конвеєрі створення даних.

Створення вихідних даних

Процес створення вхідних даних обертається навколо розміщення ваших цікавих елементів, які залежать від типу вашого завдання. Це можуть бути зображення (газетні скани), відео (сцени дорожнього руху), тривимірні хмари точок (медичні скани) або просто текст (субтитри, транскрипції). Загалом, під час розміщення елементів, пов’язаних із завданням, переконайтеся в наступному:

Відображайте реальний варіант використання можливої системи AI/ML – Налаштування для збору зображень або відео для ваших тренувальних даних мають точно відповідати налаштуванням ваших вхідних даних у реальній програмі. Це означає наявність узгоджених поверхонь розміщення, джерел освітлення або ракурсів камери.
Враховуйте та мінімізуйте джерела мінливості – Зверніть увагу на наступне:
- Розробити найкращі практики для підтримки стандартів збору даних – Залежно від деталізації вашого випадку використання, вам може знадобитися вказати вимоги, щоб гарантувати узгодженість між вашими точками даних. Наприклад, якщо ви збираєте зображення чи відеодані з окремих точок камери, вам може знадобитися переконатися в узгодженому розміщенні об’єктів, що вас цікавлять, або вимагати перевірки якості камери перед циклом збору даних. Це може уникнути таких проблем, як нахил або розмиття камери, і мінімізувати накладні витрати, як-от видалення поза кадром або розмитих зображень, а також необхідності вручну центрувати рамку зображення в області інтересу.
- Випереджайте джерела мінливості часу тестування – Якщо ви очікуєте мінливість у будь-якому з атрибутів, згаданих досі під час тестування, переконайтеся, що ви можете охопити ці джерела мінливості під час створення навчальних даних. Наприклад, якщо ви очікуєте, що ваша програма ML працюватиме з різними налаштуваннями освітлення, вам слід прагнути створювати навчальні зображення та відео з різними налаштуваннями освітлення. Залежно від варіанту використання змінність позиціонування камери також може вплинути на якість ваших етикеток.
Включіть попередні знання предметної області, якщо вони є – Зверніть увагу на наступне:
- Вхідні дані про джерела помилок – Практикуючі галузі можуть надати інформацію про джерела помилок на основі свого багаторічного досвіду. Вони можуть надати відгук про найкращі практики для попередніх двох пунктів: які параметри найкраще відображають реальний варіант використання? Які можливі джерела мінливості під час збору даних або під час використання?
- Найкращі методи збору даних для конкретного домену – Хоча ваші технічні зацікавлені сторони, можливо, вже мають гарне уявлення про технічні аспекти, на які слід зосередитися в зібраних зображеннях або відео, спеціалісти домену можуть надати відгук про те, як найкраще організувати або зібрати дані, щоб ці потреби були задоволені.

Контроль якості та забезпечення якості створених даних

Тепер, коли ви налаштували конвеєр збору даних, може виникнути спокуса зібрати якомога більше даних. Почекай хвилинку! Спочатку ми повинні перевірити, чи дані, зібрані за допомогою налаштування, підходять для вашого реального випадку використання. Ми можемо використати деякі початкові зразки та ітеративно вдосконалювати налаштування за допомогою розуміння, яке ми отримали в результаті аналізу цих зразків даних. Під час пілотного процесу тісно співпрацюйте зі своїми технічними, бізнесовими та анотаційними зацікавленими сторонами. Це гарантує, що кінцевий конвеєр відповідає потребам бізнесу, водночас створюючи готові для ML дані з мінімальними накладними витратами.

Анотації

Анотація вхідних даних – це те, де ми додаємо чарівний штрих до наших даних — мітки! Залежно від типу завдання та процесу створення даних вам можуть знадобитися анотатори вручну або ви можете скористатися стандартними автоматизованими методами. Сам конвеєр анотації даних може бути технічно складним завданням. Ground Truth полегшує цю подорож вашим технічним зацікавленим сторонам вбудований набір робочих процесів маркування для загальних джерел даних. За допомогою кількох додаткових кроків ви також зможете будувати користувацькі робочі процеси маркування крім попередньо налаштованих параметрів.

Поставте собі такі запитання, розробляючи відповідний робочий процес для анотацій:

Чи потрібен мені ручний процес анотації для моїх даних? У деяких випадках автоматизованих служб маркування може бути достатньо для поставленого завдання. Перегляд документації та доступних інструментів може допомогти вам визначити, чи потрібна анотація вручну для вашого випадку використання (додаткову інформацію див. Що таке маркування даних?). Процес створення даних може передбачати різні рівні контролю щодо деталізації ваших анотацій даних. Залежно від цього процесу ви також можете іноді обійти потребу в ручному анотуванні. Для отримання додаткової інформації див Створіть власний набір даних запитань і відповідей за допомогою Amazon SageMaker Ground Truth для навчання моделі запитань і відповідей Hugging Face NLU.
Що формує мою основну правду? У більшості випадків основну правду випливає з вашого процесу анотування — у цьому й суть! В інших випадках користувач може мати доступ до основних міток істинності. Це може значно пришвидшити процес перевірки якості або зменшити накладні витрати, необхідні для кількох ручних анотацій.
Яка верхня межа відхилення від мого основного стану правди? Працюйте зі своїми кінцевими користувачами, щоб зрозуміти типові помилки навколо цих міток, джерела таких помилок і бажане зменшення помилок. Це допоможе вам визначити, які аспекти завдання маркування є найскладнішими або можуть мати помилки анотації.
Чи існують попередні правила, якими користуються користувачі або польові практики для маркування цих предметів? Використовуйте та вдосконалюйте ці вказівки, щоб створити набір інструкцій для ваших ручних анотаторів.

Пілотування процесу введення анотацій

Під час пілотування процесу введення анотацій враховуйте наступне:

Перегляньте інструкції з анотаторами та практиками – Інструкції мають бути лаконічними та конкретними. Попросіть відгуків у своїх користувачів (Чи точні інструкції? Чи можемо ми переглянути будь-які інструкції, щоб переконатися, що вони зрозумілі неспеціалістам?) і анотаторів (Чи все зрозуміло? Чи зрозуміле завдання?). Якщо можливо, додайте приклад хороших і поганих мічених даних, щоб допомогти вашим анотаторам визначити, що очікується, і як можуть виглядати поширені помилки міток.
Збирайте дані для анотацій – Перегляньте дані зі своїм клієнтом, щоб переконатися, що вони відповідають очікуваним стандартам, і узгодити очікувані результати з анотації вручну.
Надайте приклади своєму пулу ручних анотаторів як тестовий запуск – Яка типова відмінність серед анотаторів у цьому наборі прикладів? Вивчіть дисперсію для кожної анотації в межах даного зображення, щоб визначити тенденції узгодженості серед анотаторів. Потім порівняйте відхилення між зображеннями чи відеокадрами, щоб визначити, які мітки складно розмістити.

Контроль якості анотацій

Контроль якості анотацій складається з двох основних компонентів: оцінки узгодженості між анотаторами та оцінки якості самих анотацій.

Ви можете призначити кілька анотаторів одному завданню (наприклад, три анотатори позначають ключові точки на одному зображенні) і вимірювати середнє значення разом зі стандартним відхиленням цих міток серед анотаторів. Це допоможе вам виявити будь-які анотації, що виходять за межі (використано неправильну мітку або мітку, далеку від середньої анотації), що може скерувати до ефективних результатів, наприклад удосконалити ваші інструкції чи забезпечити подальше навчання певних анотаторів.

Оцінка якості самих анотацій пов’язана з мінливістю анотаторів і (якщо доступно) наявністю експертів із домену чи основної правдивої інформації. Чи є певні мітки (на всіх ваших зображеннях), де середня дисперсія між анотаторами постійно висока? Чи є якісь ярлики далекими від ваших очікувань щодо того, де вони мають бути або як вони мають виглядати?

Виходячи з нашого досвіду, типовий цикл контролю якості для анотації даних може виглядати так:

Повторюйте інструкції або створюйте зображення на основі результатів тестового запуску – Чи закриті якісь об’єкти, чи постановка зображення не відповідає очікуванням анотаторів або користувачів? Інструкції вводять в оману, чи ви пропустили якісь мітки чи поширені помилки на зразкових зображеннях? Чи можете ви вдосконалити інструкції для ваших анотаторів?
Якщо ви задоволені тим, що ви вирішили будь-які проблеми під час тестового запуску, зробіть серію анотацій – Для тестування результатів із партії дотримуйтеся того самого підходу до оцінки якості оцінки варіативності міток між анотаторами та між зображеннями.

Висновок

Ця публікація є посібником для зацікавлених сторін у бізнесі, щоб зрозуміти складність створення даних для додатків AI/ML. Описані процеси також слугують керівництвом для технічних практиків для створення якісних даних при оптимізації бізнес-обмежень, таких як персонал і витрати. Якщо це не зроблено належним чином, процес створення даних і маркування може зайняти більше 4–6 місяців.

За допомогою вказівок і пропозицій, викладених у цій публікації, ви можете запобігти перешкодам, скоротити час до завершення та мінімізувати витрати на вашому шляху до створення високоякісних даних.

Про авторів

Джаслін Гревал є прикладним науковцем у Amazon Web Services, де вона працює з клієнтами AWS над вирішенням проблем реального світу за допомогою машинного навчання, приділяючи особливу увагу прецизійній медицині та геноміці. Вона має великий досвід у біоінформатиці, онкології та клінічній геноміці. Вона захоплена використанням AI/ML і хмарних сервісів для покращення догляду за пацієнтами.

Борис Арончик є менеджером у лабораторії рішень машинного навчання Amazon AI, де він очолює команду вчених та інженерів ML, щоб допомогти клієнтам AWS реалізувати бізнес-цілі, використовуючи рішення AI/ML.

Мігель Ромеро Кальво є вченим-прикладником в Лабораторія рішень Amazon ML де він співпрацює з внутрішніми командами AWS і стратегічними клієнтами, щоб прискорити їхній бізнес за допомогою впровадження машинного навчання та хмари.

Лін Лі Чон є старшим науковим співробітником і менеджером команди Amazon ML Solutions Lab в Amazon Web Services. Вона працює зі стратегічними клієнтами AWS, щоб досліджувати та застосовувати штучний інтелект і машинне навчання для відкриття нових ідей і вирішення складних проблем.

Часова мітка: Жовтень 3, 2022Жовтень 3, 2022

Часова мітка: Листопад 17, 2022

Створюйте високоякісні дані для моделей ML за допомогою Amazon SageMaker Ground Truth

Перевидано Платоном

Процес створення даних

Планування

Створення вихідних даних

Контроль якості та забезпечення якості створених даних

Анотації

Пілотування процесу введення анотацій

Контроль якості анотацій

Висновок

Про авторів

Більше від AWS Машинне навчання

Amazon SageMaker JumpStart тепер пропонує блокноти Amazon Comprehend для спеціальної класифікації та виявлення власних об’єктів

Надайте живу допомогу агента своїм користувачам чат-бота за допомогою хмарного контакт-центру Amazon Lex і Talkdesk | Веб-сервіси Amazon

Підвищте точність пошуку за допомогою перевірки орфографії в Amazon Kendra

Визначте розташування аномалій за допомогою Amazon Lookout for Vision на краю без використання GPU

Масштабна розробка функцій із захистом конфіденційних даних за допомогою інтерактивних сеансів AWS Glue і Amazon SageMaker Studio

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки