Улучшите качество прогнозирования в пользовательских моделях классификации с помощью Amazon Comprehend

Переиздано Платоном

Читают: 0

Искусственный интеллект (ИИ) и машинное обучение (МО) получили широкое распространение на предприятиях и в государственных организациях. Обработка неструктурированных данных стала проще благодаря достижениям в области обработки естественного языка (NLP) и удобным для пользователя сервисам искусственного интеллекта и машинного обучения, таким как Амазонка Текст, Amazon транскрибироватьи Amazon Comprehend. Организации начали использовать сервисы искусственного интеллекта и машинного обучения, такие как Amazon Comprehend, для создания моделей классификации на основе неструктурированных данных и получения глубокой информации, которой у них раньше не было. Хотя вы можете использовать предварительно обученные модели с минимальными усилиями, без надлежащего управления данными и настройки модели вы не сможете реализовать все преимущества моделей AI/ML.

В этом посте мы объясним, как создать и оптимизировать пользовательскую модель классификации с помощью Amazon Comprehend. Мы демонстрируем это, используя пользовательскую классификацию Amazon Comprehend для создания пользовательской модели классификации с несколькими метками, а также предоставляем рекомендации по подготовке набора обучающих данных и настройке модели для соответствия таким показателям производительности, как точность, точность, полнота и оценка F1. Мы используем выходные данные обучения модели Amazon Comprehend, такие как матрица путаницы, чтобы настроить производительность модели и помочь вам улучшить данные обучения.

Обзор решения

Это решение представляет собой подход к созданию оптимизированной пользовательской модели классификации с использованием Amazon Comprehend. Мы проходим несколько этапов, включая подготовку данных, создание модели, анализ показателей производительности модели и оптимизацию выводов на основе нашего анализа. Мы используем Создатель мудреца Амазонки ноутбук и Консоль управления AWS чтобы выполнить некоторые из этих шагов.

Мы также применяем лучшие практики и методы оптимизации при подготовке данных, построении и настройке модели.

Предпосылки

Если у вас нет экземпляра блокнота SageMaker, вы можете его создать. Инструкции см. Создание экземпляра записной книжки Amazon SageMaker.

Подготовьте данные

Для этого анализа мы используем набор данных классификации токсичных комментариев из Kaggle. Этот набор данных содержит 6 меток с 158,571 10 точкой данных. Однако каждая метка содержит только менее 1% от общего числа данных в качестве положительных примеров, а две метки содержат менее XNUMX%.

Мы преобразуем существующий набор данных Kaggle в Amazon Comprehend в формате CSV с двумя столбцами с разделением меток с помощью разделителя вертикальной черты (|). Amazon Comprehend ожидает как минимум одну метку для каждой точки данных. В этом наборе данных мы встречаем несколько точек данных, которые не подпадают ни под один из предоставленных ярлыков. Мы создаем новую метку под названием «чистая» и присваиваем этой метке любые точки данных, которые не являются токсичными, положительными. Наконец, мы разделили курируемые наборы данных на обучающие и тестовые наборы данных, используя соотношение 80/20 для каждой метки.

Мы будем использовать блокнот для подготовки данных. Следующие шаги используют набор данных Kaggle и подготавливают данные для нашей модели.

На консоли SageMaker выберите Экземпляры ноутбуков в навигационной панели.
Выберите экземпляр записной книжки, который вы настроили, и выберите Открытый Юпитер.
На Новые Меню, выберите Терминал.

Улучшите качество прогнозирования в пользовательских моделях классификации с помощью Amazon Comprehend | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Выполните следующие команды в терминале, чтобы загрузить необходимые артефакты для этого поста:

cd SageMaker
wget https://aws-ml-blog.s3.amazonaws.com/artifacts/amazon-comprehend-improve-prediction-quality/comprehend-blog-artifacts.zip
unzip comprehend-blog-artifacts.zip
rm comprehend-blog-artifacts.zip
mkdir assets

Закройте окно терминала.

Вы должны увидеть три тетради и поезд.csv файлы.

Выберите блокнот Подготовка данных.ipynb.
Выполните все шаги в блокноте.

Эти шаги подготавливают необработанный набор данных Kaggle для использования в качестве тщательно подобранных наборов данных для обучения и тестирования. Отобранные наборы данных будут храниться в блокноте и Простой сервис хранения Amazon (Amazon S3).

При работе с крупномасштабными наборами данных с несколькими метками учитывайте следующие рекомендации по подготовке данных:

Наборы данных должны содержать не менее 10 образцов на этикетку.
Amazon Comprehend принимает максимум 100 этикеток. Это мягкий лимит, который можно увеличить.
Убедитесь, что файл набора данных правильно отформатирован с правильным разделителем. Неправильные разделители могут привести к появлению пустых меток.
Все точки данных должны иметь метки.
Наборы обучающих и тестовых данных должны иметь сбалансированное распределение данных по каждой метке. Не используйте случайное распределение, поскольку оно может внести систематическую ошибку в наборы обучающих и тестовых данных.

Создайте собственную модель классификации

Для построения нашей модели мы используем тщательно подобранные наборы обучающих и тестовых данных, созданные на этапе подготовки данных. Следующие шаги создают пользовательскую модель классификации Amazon Comprehend с несколькими метками:

На консоли Amazon Comprehend выберите Пользовательская классификация в навигационной панели.
Выберите Создать новую модель.
Что касается Название модели, введите модель классификации токсичных веществ.
Что касается Название версиивведите 1.
Что касается Аннотация и формат данных, выберите Использование режима нескольких меток.
Что касается Набор обучающих данных, введите местоположение тщательно подобранного набора обучающих данных на Amazon S3.
Выберите Набор тестовых данных, предоставленный клиентом и введите местоположение тщательно отобранных тестовых данных на Amazon S3.
Что касается Выходные данныевведите местоположение Amazon S3.
Что касается Роль IAM, наведите на Создайте роль IAM, укажите суффикс имени как «comprehend-blog».
Выберите Создавай чтобы начать обучение пользовательской модели классификации и создание модели.

На следующем снимке экрана показаны сведения о пользовательской модели классификации в консоли Amazon Comprehend.

Настройка производительности модели

На следующем снимке экрана показаны показатели производительности модели. Он включает в себя ключевые показатели, такие как точность, отзыв, показатель F1, точность и многое другое.

После обучения и создания модели она сгенерирует файл output.tar.gz, который содержит метки из набора данных, а также матрицу путаницы для каждой из меток. Чтобы дополнительно настроить эффективность прогнозирования модели, вам необходимо понять свою модель с вероятностями прогнозирования для каждого класса. Для этого вам необходимо создать задание анализа для определения оценок Amazon Comprehend, присвоенных каждой точке данных.

Выполните следующие шаги, чтобы создать задание анализа:

На консоли Amazon Comprehend выберите Работа по анализу в навигационной панели.
Выберите Создать работу.
Что касается Имя, войти toxic_train_data_analysis_job.
Что касается Тип анализа, выберите Пользовательская классификация.
Что касается Классификация моделей и маховиков, указывать toxic-classification-model.
Что касается Версия, укажите 1.
Что касается Входные данные Местоположение S3, введите расположение файла данных обучения.
Что касается Формат ввода, выберите Один документ в строке.
Что касается Расположение выходных данных S3, введите местоположение.
Что касается Разрешения доступа, наведите на Использовать существующую роль IAM и выберите роль, созданную ранее.
Выберите Создать работу чтобы начать работу по анализу.
Выберите Работа по анализу чтобы просмотреть подробную информацию о вакансии. Пожалуйста, запишите идентификатор вакансии в разделе «Информация о вакансии». На следующем шаге мы будем использовать идентификатор задания.

Повторите шаги для запуска задания анализа для выбранных тестовых данных. Мы используем результаты прогнозирования наших аналитических заданий, чтобы узнать о вероятностях прогнозирования нашей модели. Пожалуйста, запишите идентификаторы должностей по обучению и анализу тестов.

Мы используем Модель-Порог-Анализ.ipynb блокнот для проверки результатов на всех возможных пороговых значениях и оценки результатов на основе вероятности прогнозирования с использованием scikit-learn. precision_recall_curve функция. Кроме того, мы можем вычислить оценку F1 для каждого порога.

Нам понадобятся идентификаторы заданий анализа Amazon Comprehend в качестве входных данных для Модель-Пороговый Анализ блокнот. Вы можете получить идентификаторы заданий из консоли Amazon Comprehend. Выполните все шаги в Модель-Пороговый Анализ тетрадь для соблюдения порогов по всем классам.

Обратите внимание, как точность возрастает с увеличением порога, тогда как с отзывом происходит обратная ситуация. Чтобы найти баланс между ними, мы используем показатель F1, на кривой которого имеются видимые пики. Пики оценки F1 соответствуют определенному порогу, который может улучшить производительность модели. Обратите внимание, что большинство меток имеют пороговое значение около 0.5, за исключением метки угрозы, пороговое значение которой составляет около 0.04.

Затем мы можем использовать этот порог для конкретных ярлыков, которые неэффективны, используя только пороговое значение по умолчанию 0.5. Благодаря использованию оптимизированных пороговых значений результаты модели на тестовых данных улучшаются для угрозы метки с 0.00 до 0.24. Мы используем максимальную оценку F1 на пороге в качестве эталона для определения положительного или отрицательного значения для этой метки вместо общего контрольного показателя (стандартное значение, например > 0.7) для всех меток.

Обработка недостаточно представленных классов

Другой подход, эффективный для несбалансированного набора данных: передискретизации. Путем избыточной выборки недостаточно представленного класса модель чаще видит недостаточно представленный класс и подчеркивает важность этих выборок. Мы используем Передискретизация-недостаточно представлена.ipynb блокнот для оптимизации наборов данных.

Для этого набора данных мы протестировали, как меняется производительность модели в наборе оценочных данных по мере предоставления большего количества образцов. Мы используем технику передискретизации, чтобы увеличить количество недопредставленных классов и повысить производительность.

В данном конкретном случае мы протестировали 10, 25, 50, 100, 200 и 500 положительных примеров. Обратите внимание: хотя мы повторяем точки данных, мы по сути улучшаем производительность модели, подчеркивая важность недостаточно представленного класса.

Цена

При использовании Amazon Comprehend вы платите по мере использования в зависимости от количества обработанных текстовых символов. Ссылаться на Amazon понимают цены для фактических затрат.

Убирать

Закончив экспериментировать с этим решением, очистите свои ресурсы, чтобы удалить все ресурсы, развернутые в этом примере. Это поможет вам избежать продолжающихся расходов в вашем аккаунте.

Заключение

В этом посте мы представили лучшие практики и рекомендации по подготовке данных, настройке модели с использованием вероятностей прогнозирования и методам обработки недостаточно представленных классов данных. Вы можете использовать эти лучшие практики и методы, чтобы улучшить показатели производительности вашей пользовательской модели классификации Amazon Comprehend.

Для получения дополнительной информации об Amazon Comprehend посетите Ресурсы для разработчиков Amazon Comprehend найти видеоресурсы и сообщения в блогах, а также обратиться к Часто задаваемые вопросы по AWS Comprehend.

Об авторах

Сатья Балакришнан является старшим архитектором по работе с клиентами в группе профессиональных услуг в AWS, специализирующейся на решениях для обработки данных и машинного обучения. Он работает с федеральными финансовыми клиентами США. Он увлечен созданием прагматичных решений для решения бизнес-проблем клиентов. В свободное время он любит смотреть фильмы и ходить в походы со своей семьей.

Принц Маллари является специалистом по данным NLP в группе профессиональных услуг в AWS, специализирующейся на приложениях NLP для клиентов из государственного сектора. Он увлечен использованием машинного обучения в качестве инструмента, позволяющего клиентам работать более продуктивно. В свободное время он любит играть в видеоигры и разрабатывать их вместе со своими друзьями.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/

Отметка времени: 5 октября 2023

Отметка времени: 26 ноября, 2023

Повышайте качество прогнозирования в пользовательских моделях классификации с помощью Amazon Comprehend | Веб-сервисы Amazon

Переиздано Платоном

Обзор решения

Предпосылки

Подготовьте данные

Создайте собственную модель классификации

Настройка производительности модели

Обработка недостаточно представленных классов

Цена

Убирать

Заключение

Об авторах

Больше от Машинное обучение AWS

Настройте Amazon SageMaker Studio с Jupyter Lab 3 с помощью AWS CDK

Используйте Amazon SageMaker Data Wrangler в Amazon SageMaker Studio с конфигурацией жизненного цикла по умолчанию.

Обнаружение мультиколлинеарности, выявление утечек и корреляция функций с помощью Amazon SageMaker Data Wrangler

Анализ заражения грызунами с помощью геопространственных возможностей Amazon SageMaker | Веб-сервисы Амазонки

Повысьте качество своих помощников по самообслуживанию с помощью новых функций генеративного искусственного интеллекта в Amazon Lex | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись