Искусственный интеллект (ИИ) и машинное обучение (МО) получили широкое распространение на предприятиях и в государственных организациях. Обработка неструктурированных данных стала проще благодаря достижениям в области обработки естественного языка (NLP) и удобным для пользователя сервисам искусственного интеллекта и машинного обучения, таким как Амазонка Текст, Amazon транскрибироватьи Amazon Comprehend. Организации начали использовать сервисы искусственного интеллекта и машинного обучения, такие как Amazon Comprehend, для создания моделей классификации на основе неструктурированных данных и получения глубокой информации, которой у них раньше не было. Хотя вы можете использовать предварительно обученные модели с минимальными усилиями, без надлежащего управления данными и настройки модели вы не сможете реализовать все преимущества моделей AI/ML.
В этом посте мы объясним, как создать и оптимизировать пользовательскую модель классификации с помощью Amazon Comprehend. Мы демонстрируем это, используя пользовательскую классификацию Amazon Comprehend для создания пользовательской модели классификации с несколькими метками, а также предоставляем рекомендации по подготовке набора обучающих данных и настройке модели для соответствия таким показателям производительности, как точность, точность, полнота и оценка F1. Мы используем выходные данные обучения модели Amazon Comprehend, такие как матрица путаницы, чтобы настроить производительность модели и помочь вам улучшить данные обучения.
Обзор решения
Это решение представляет собой подход к созданию оптимизированной пользовательской модели классификации с использованием Amazon Comprehend. Мы проходим несколько этапов, включая подготовку данных, создание модели, анализ показателей производительности модели и оптимизацию выводов на основе нашего анализа. Мы используем Создатель мудреца Амазонки ноутбук и Консоль управления AWS чтобы выполнить некоторые из этих шагов.
Мы также применяем лучшие практики и методы оптимизации при подготовке данных, построении и настройке модели.
Предпосылки
Если у вас нет экземпляра блокнота SageMaker, вы можете его создать. Инструкции см. Создание экземпляра записной книжки Amazon SageMaker.
Подготовьте данные
Для этого анализа мы используем набор данных классификации токсичных комментариев из Kaggle. Этот набор данных содержит 6 меток с 158,571 10 точкой данных. Однако каждая метка содержит только менее 1% от общего числа данных в качестве положительных примеров, а две метки содержат менее XNUMX%.
Мы преобразуем существующий набор данных Kaggle в Amazon Comprehend в формате CSV с двумя столбцами с разделением меток с помощью разделителя вертикальной черты (|). Amazon Comprehend ожидает как минимум одну метку для каждой точки данных. В этом наборе данных мы встречаем несколько точек данных, которые не подпадают ни под один из предоставленных ярлыков. Мы создаем новую метку под названием «чистая» и присваиваем этой метке любые точки данных, которые не являются токсичными, положительными. Наконец, мы разделили курируемые наборы данных на обучающие и тестовые наборы данных, используя соотношение 80/20 для каждой метки.
Мы будем использовать блокнот для подготовки данных. Следующие шаги используют набор данных Kaggle и подготавливают данные для нашей модели.
- На консоли SageMaker выберите Экземпляры ноутбуков в навигационной панели.
- Выберите экземпляр записной книжки, который вы настроили, и выберите Открытый Юпитер.
- На Новые Меню, выберите Терминал.
- Выполните следующие команды в терминале, чтобы загрузить необходимые артефакты для этого поста:
- Закройте окно терминала.
Вы должны увидеть три тетради и поезд.csv файлы.
- Выберите блокнот Подготовка данных.ipynb.
- Выполните все шаги в блокноте.
Эти шаги подготавливают необработанный набор данных Kaggle для использования в качестве тщательно подобранных наборов данных для обучения и тестирования. Отобранные наборы данных будут храниться в блокноте и Простой сервис хранения Amazon (Amazon S3).
При работе с крупномасштабными наборами данных с несколькими метками учитывайте следующие рекомендации по подготовке данных:
- Наборы данных должны содержать не менее 10 образцов на этикетку.
- Amazon Comprehend принимает максимум 100 этикеток. Это мягкий лимит, который можно увеличить.
- Убедитесь, что файл набора данных правильно отформатирован с правильным разделителем. Неправильные разделители могут привести к появлению пустых меток.
- Все точки данных должны иметь метки.
- Наборы обучающих и тестовых данных должны иметь сбалансированное распределение данных по каждой метке. Не используйте случайное распределение, поскольку оно может внести систематическую ошибку в наборы обучающих и тестовых данных.
Создайте собственную модель классификации
Для построения нашей модели мы используем тщательно подобранные наборы обучающих и тестовых данных, созданные на этапе подготовки данных. Следующие шаги создают пользовательскую модель классификации Amazon Comprehend с несколькими метками:
- На консоли Amazon Comprehend выберите Пользовательская классификация в навигационной панели.
- Выберите Создать новую модель.
- Что касается Название модели, введите модель классификации токсичных веществ.
- Что касается Название версиивведите 1.
- Что касается Аннотация и формат данных, выберите Использование режима нескольких меток.
- Что касается Набор обучающих данных, введите местоположение тщательно подобранного набора обучающих данных на Amazon S3.
- Выберите Набор тестовых данных, предоставленный клиентом и введите местоположение тщательно отобранных тестовых данных на Amazon S3.
- Что касается Выходные данныевведите местоположение Amazon S3.
- Что касается Роль IAM, наведите на Создайте роль IAM, укажите суффикс имени как «comprehend-blog».
- Выберите Создавай чтобы начать обучение пользовательской модели классификации и создание модели.
На следующем снимке экрана показаны сведения о пользовательской модели классификации в консоли Amazon Comprehend.
Настройка производительности модели
На следующем снимке экрана показаны показатели производительности модели. Он включает в себя ключевые показатели, такие как точность, отзыв, показатель F1, точность и многое другое.
После обучения и создания модели она сгенерирует файл output.tar.gz, который содержит метки из набора данных, а также матрицу путаницы для каждой из меток. Чтобы дополнительно настроить эффективность прогнозирования модели, вам необходимо понять свою модель с вероятностями прогнозирования для каждого класса. Для этого вам необходимо создать задание анализа для определения оценок Amazon Comprehend, присвоенных каждой точке данных.
Выполните следующие шаги, чтобы создать задание анализа:
- На консоли Amazon Comprehend выберите Работа по анализу в навигационной панели.
- Выберите Создать работу.
- Что касается Имя, войти
toxic_train_data_analysis_job
. - Что касается Тип анализа, выберите Пользовательская классификация.
- Что касается Классификация моделей и маховиков, указывать
toxic-classification-model
. - Что касается Версия, укажите 1.
- Что касается Входные данные Местоположение S3, введите расположение файла данных обучения.
- Что касается Формат ввода, выберите Один документ в строке.
- Что касается Расположение выходных данных S3, введите местоположение.
- Что касается Разрешения доступа, наведите на Использовать существующую роль IAM и выберите роль, созданную ранее.
- Выберите Создать работу чтобы начать работу по анализу.
- Выберите Работа по анализу чтобы просмотреть подробную информацию о вакансии. Пожалуйста, запишите идентификатор вакансии в разделе «Информация о вакансии». На следующем шаге мы будем использовать идентификатор задания.
Повторите шаги для запуска задания анализа для выбранных тестовых данных. Мы используем результаты прогнозирования наших аналитических заданий, чтобы узнать о вероятностях прогнозирования нашей модели. Пожалуйста, запишите идентификаторы должностей по обучению и анализу тестов.
Мы используем Модель-Порог-Анализ.ipynb блокнот для проверки результатов на всех возможных пороговых значениях и оценки результатов на основе вероятности прогнозирования с использованием scikit-learn. precision_recall_curve
функция. Кроме того, мы можем вычислить оценку F1 для каждого порога.
Нам понадобятся идентификаторы заданий анализа Amazon Comprehend в качестве входных данных для Модель-Пороговый Анализ блокнот. Вы можете получить идентификаторы заданий из консоли Amazon Comprehend. Выполните все шаги в Модель-Пороговый Анализ тетрадь для соблюдения порогов по всем классам.
Обратите внимание, как точность возрастает с увеличением порога, тогда как с отзывом происходит обратная ситуация. Чтобы найти баланс между ними, мы используем показатель F1, на кривой которого имеются видимые пики. Пики оценки F1 соответствуют определенному порогу, который может улучшить производительность модели. Обратите внимание, что большинство меток имеют пороговое значение около 0.5, за исключением метки угрозы, пороговое значение которой составляет около 0.04.
Затем мы можем использовать этот порог для конкретных ярлыков, которые неэффективны, используя только пороговое значение по умолчанию 0.5. Благодаря использованию оптимизированных пороговых значений результаты модели на тестовых данных улучшаются для угрозы метки с 0.00 до 0.24. Мы используем максимальную оценку F1 на пороге в качестве эталона для определения положительного или отрицательного значения для этой метки вместо общего контрольного показателя (стандартное значение, например > 0.7) для всех меток.
Обработка недостаточно представленных классов
Другой подход, эффективный для несбалансированного набора данных: передискретизации. Путем избыточной выборки недостаточно представленного класса модель чаще видит недостаточно представленный класс и подчеркивает важность этих выборок. Мы используем Передискретизация-недостаточно представлена.ipynb блокнот для оптимизации наборов данных.
Для этого набора данных мы протестировали, как меняется производительность модели в наборе оценочных данных по мере предоставления большего количества образцов. Мы используем технику передискретизации, чтобы увеличить количество недопредставленных классов и повысить производительность.
В данном конкретном случае мы протестировали 10, 25, 50, 100, 200 и 500 положительных примеров. Обратите внимание: хотя мы повторяем точки данных, мы по сути улучшаем производительность модели, подчеркивая важность недостаточно представленного класса.
Цена
При использовании Amazon Comprehend вы платите по мере использования в зависимости от количества обработанных текстовых символов. Ссылаться на Amazon понимают цены для фактических затрат.
Убирать
Закончив экспериментировать с этим решением, очистите свои ресурсы, чтобы удалить все ресурсы, развернутые в этом примере. Это поможет вам избежать продолжающихся расходов в вашем аккаунте.
Заключение
В этом посте мы представили лучшие практики и рекомендации по подготовке данных, настройке модели с использованием вероятностей прогнозирования и методам обработки недостаточно представленных классов данных. Вы можете использовать эти лучшие практики и методы, чтобы улучшить показатели производительности вашей пользовательской модели классификации Amazon Comprehend.
Для получения дополнительной информации об Amazon Comprehend посетите Ресурсы для разработчиков Amazon Comprehend найти видеоресурсы и сообщения в блогах, а также обратиться к Часто задаваемые вопросы по AWS Comprehend.
Об авторах
Сатья Балакришнан является старшим архитектором по работе с клиентами в группе профессиональных услуг в AWS, специализирующейся на решениях для обработки данных и машинного обучения. Он работает с федеральными финансовыми клиентами США. Он увлечен созданием прагматичных решений для решения бизнес-проблем клиентов. В свободное время он любит смотреть фильмы и ходить в походы со своей семьей.
Принц Маллари является специалистом по данным NLP в группе профессиональных услуг в AWS, специализирующейся на приложениях NLP для клиентов из государственного сектора. Он увлечен использованием машинного обучения в качестве инструмента, позволяющего клиентам работать более продуктивно. В свободное время он любит играть в видеоигры и разрабатывать их вместе со своими друзьями.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/
- :имеет
- :является
- :куда
- $UP
- 1
- 10
- 100
- 200
- 24
- 25
- 50
- 500
- 7
- 9
- a
- О нас
- Принимает
- Учетная запись
- точность
- через
- фактического соединения
- Дополнительно
- Принятие
- достижения
- AI
- AI / ML
- Все
- позволять
- причислены
- Несмотря на то, что
- Amazon
- Amazon Comprehend
- Создатель мудреца Амазонки
- Amazon Web Services
- an
- анализ
- и
- любой
- Приложения
- Приложения НЛП
- подхода
- МЫ
- около
- AS
- Активы
- назначенный
- At
- избежать
- AWS
- Баланс
- основанный
- BE
- , так как:
- становиться
- до
- эталонный тест
- Преимущества
- ЛУЧШЕЕ
- лучшие практики
- между
- смещение
- Блог
- Сообщения в блоге
- строить
- Строительство
- бизнес
- by
- под названием
- CAN
- Может получить
- случаев
- изменения
- символы
- Выберите
- класс
- классов
- классификация
- клиентов
- комментарий
- Общий
- полный
- постигать
- Вычисление
- настроить
- замешательство
- Консоли
- содержит
- продолжающийся
- конвертировать
- Расходы
- Создайте
- создали
- создание
- Куратор
- курирование
- кривая
- изготовленный на заказ
- клиент
- Клиенты
- данным
- точки данных
- Подготовка данных
- ученый данных
- Наборы данных
- занимавшийся
- глубоко
- По умолчанию
- поставка
- демонстрировать
- развернуть
- подробнее
- Определять
- Застройщик
- развивающийся
- распределение
- do
- документ
- Dont
- скачать
- в течение
- каждый
- легче
- Эффективный
- усилие
- подчеркивает
- подчеркивающий
- Enter
- Предприятие
- оценка
- пример
- Примеры
- Кроме
- выполнять
- существующий
- надеется
- Объяснять
- f1
- Осень
- семья
- Федеральный
- Файл
- Файлы
- в заключение
- финансовый
- Найдите
- после
- Что касается
- друзья
- от
- полный
- функция
- далее
- Игры
- порождать
- получить
- Go
- идет
- Правительство
- руководство
- инструкция
- методические рекомендации
- обрабатывать
- Есть
- имеющий
- he
- помогает
- его
- Как
- How To
- Однако
- HTML
- HTTP
- HTTPS
- ID
- определения
- идентификаторы
- значение
- улучшать
- улучшение
- in
- включает в себя
- В том числе
- Увеличение
- расширились
- информация
- по существу
- вход
- размышления
- пример
- вместо
- инструкции
- Интеллекта
- в
- вводить
- IT
- работа
- Джобс
- всего
- Основные
- этикетка
- Этикетки
- язык
- крупномасштабный
- УЧИТЬСЯ
- изучение
- наименее
- Меньше
- такое как
- ОГРАНИЧЕНИЯ
- расположение
- машина
- обучение с помощью машины
- сделать
- управление
- отметка
- матрица
- Макс
- максимальный
- Встречайте
- Меню
- метрический
- Метрика
- может быть
- минимальный
- минимальный
- ML
- модель
- Модели
- БОЛЕЕ
- самых
- Кино
- должен
- имя
- натуральный
- Обработка естественного языка
- Навигация
- Необходимость
- отрицательный
- Новые
- следующий
- НЛП
- ноутбук
- Уведомление..
- номер
- наблюдать
- вхождение
- of
- .
- on
- ONE
- только
- оптимизация
- Оптимизировать
- оптимизированный
- оптимизирующий
- организации
- наши
- выходной
- хлеб
- особый
- страстный
- ОПЛАТИТЬ
- для
- производительность
- выбирать
- труба
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- игры
- пожалуйста
- Точка
- пунктов
- положительный
- возможное
- После
- Блог
- практиками
- прагматический
- Точность
- прогноз
- подготовка
- Подготовить
- разрабатывает
- предварительно
- проблемам
- Обработанный
- обработка
- производительный
- профессиональный
- правильный
- обеспечивать
- при условии
- что такое варган?
- случайный
- соотношение
- Сырье
- реализовать
- относиться
- обязательный
- Полезные ресурсы
- Итоги
- Роли
- sagemaker
- Ученый
- Гол
- сектор
- посмотреть
- видел
- видит
- служить
- Услуги
- несколько
- должен
- Шоу
- просто
- мягкая
- Решение
- Решения
- РЕШАТЬ
- некоторые
- специализация
- конкретный
- раскол
- стандарт
- Начало
- и политические лидеры
- Шаг
- Шаги
- диск
- хранить
- такие
- взять
- команда
- техника
- снижения вреда
- Терминал
- тестXNUMX
- проверенный
- текст
- чем
- который
- Ассоциация
- их
- тогда
- Эти
- они
- этой
- те
- угроза
- три
- порог
- Через
- время
- в
- инструментом
- Всего
- специалистов
- Обучение
- два
- под
- недопредставленными
- понимать
- us
- Федеральный
- использование
- удобно
- через
- ценностное
- Видео
- видеоигры
- Вид
- видимый
- Войти
- vs
- наблюдение
- we
- Web
- веб-сервисы
- ЧТО Ж
- когда
- который
- в то время как
- широко распространена
- будете
- окно
- без
- работает
- Ты
- ВАШЕ
- зефирнет
- ZIP