Создайте конвейер классификации с помощью пользовательской классификации Amazon Comprehend (часть I)

Переиздано Платоном

Читают: 0

«Данные, хранящиеся в тексте, аудио, социальных сетях и других неструктурированных источниках, могут стать конкурентным преимуществом для фирм, которые поймут, как их использовать».

Только 18% организаций в Опрос Deloitte 2019 г. сообщили, что могут воспользоваться неструктурированными данными. Большая часть данных, от 80% до 90%, представляет собой неструктурированные данные. Это большой неиспользованный ресурс, который может дать компаниям конкурентное преимущество, если они найдут, как его использовать. Из этих данных может быть сложно получить ценную информацию, особенно если необходимы усилия по их классификации, маркировке или маркировке. Amazon Comprehend В этой ситуации может оказаться полезной пользовательская классификация. Amazon Comprehend — это служба обработки естественного языка (НЛП), которая использует машинное обучение для выявления ценной информации и связей в тексте.

Категоризация или классификация документов имеет значительные преимущества во всех сферах бизнеса:

Улучшенный поиск и извлечение – Разделение документов на соответствующие темы или категории значительно упрощает пользователям поиск и получение необходимых им документов. Они могут выполнять поиск по определенным категориям, чтобы сузить результаты.
Управление знаниями – Систематическая категоризация документов помогает организовать базу знаний организации. Это облегчает поиск соответствующей информации и просмотр связей между связанным контентом.
Оптимизированные рабочие процессы – Автоматическая сортировка документов может помочь оптимизировать многие бизнес-процессы, такие как обработка счетов, поддержка клиентов или соблюдение нормативных требований. Документы могут быть автоматически перенаправлены нужным людям или нужным рабочим процессам.
Экономия затрат и времени – Категоризация документов вручную утомительна, отнимает много времени и стоит дорого. Технологии искусственного интеллекта могут взять на себя эту рутинную задачу и классифицировать тысячи документов за короткое время и с гораздо меньшими затратами.
Генерация информации – Анализ тенденций в категориях документов может дать полезную информацию для бизнеса. Например, увеличение количества жалоб клиентов на определенную категорию продуктов может указывать на некоторые проблемы, которые необходимо решить.
Управление и обеспечение соблюдения политики – Настройка правил категоризации документов помогает обеспечить правильную классификацию документов в соответствии с политиками и стандартами управления организации. Это позволяет улучшить мониторинг и аудит.
Индивидуальный опыт – В таких контекстах, как контент веб-сайта, категоризация документов позволяет показывать пользователям индивидуальный контент на основе их интересов и предпочтений, определяемых их поведением при просмотре. Это может повысить вовлеченность пользователей.

Сложность разработки индивидуальной модели машинного обучения для классификации варьируется в зависимости от множества аспектов, таких как качество данных, алгоритм, масштабируемость и знание предметной области, и это лишь некоторые из них. Очень важно начать с четкого определения проблемы, чистых и актуальных данных и постепенно проходить различные этапы разработки модели. Однако компании могут создавать свои собственные уникальные модели машинного обучения, используя пользовательскую классификацию Amazon Comprehend, чтобы автоматически классифицировать текстовые документы по категориям или тегам в соответствии с конкретными бизнес-требованиями и сопоставлять их с бизнес-технологиями и категориями документов. Поскольку человеческая маркировка или категоризация больше не нужны, это может сэкономить предприятиям много времени, денег и труда. Мы упростили этот процесс, автоматизировав весь процесс обучения.

В первой части этой многосерийной публикации в блоге вы узнаете, как создать масштабируемый конвейер обучения и подготовить данные обучения для моделей Comprehend Custom Classification. Мы представим собственный конвейер обучения классификаторов, который можно будет развернуть в вашей учетной записи AWS несколькими щелчками мыши. Мы используем набор данных новостей BBC и будем обучать классификатор определять класс (например, политика, спорт), к которому принадлежит документ. Этот конвейер позволит вашей организации быстро реагировать на изменения и обучать новые модели без необходимости каждый раз начинать с нуля. Вы можете легко масштабировать и обучать несколько моделей в зависимости от ваших потребностей.

Предпосылки

Активная учетная запись AWS (Нажмите здесь для создания новой учетной записи AWS)
Доступ к Amazon Comprehend, Amazon S3, Amazon Lambda, Amazon Step Function, Amazon SNS и Amazon CloudFormation.
Данные обучения (полуструктура или текст), подготовленные в следующем разделе.
Базовые знания о Python и машинном обучении в целом.

Подготовьте обучающие данные

Это решение может принимать входные данные как текстовый формат (например, CSV) или полуструктурированный формат (например, PDF).

Ввод текста

Amazon Comprehend Пользовательская классификация поддерживает два режима: мультиклассовый и мультиметочный.

В многоклассовом режиме каждому документу может быть присвоен один и только один класс. Данные обучения должны быть подготовлены в виде файла CSV с двумя столбцами, каждая строка которого содержит один класс и текст документа, демонстрирующего этот класс.

CLASS, Text of document 1
CLASS, Text of document 2
...

Пример для Набор данных новостей BBC:

Business, Europe blames US over weak dollar...
Tech, Cabs collect mountain of mobiles...
...

В режиме с несколькими метками каждому документу присвоен хотя бы один класс, но может быть и больше. Данные обучения должны быть представлены в виде CSV-файла с двумя столбцами, каждая строка которого содержит один или несколько классов и текст учебного документа. Следует указывать более одного класса, используя разделитель между каждым классом.

CLASS, Text of document 1
CLASS|CLASS|CLASS, Text of document 2
...

Ни для одного из режимов обучения в CSV-файл не следует включать заголовок.

Полуструктурированный ввод

Начиная с 2023, Amazon Comprehend теперь поддерживает модели обучения с использованием полуструктурированных документов. Обучающие данные для ввода полуструктуры состоят из набора помеченных документов, которые могут быть предварительно идентифицированными документами из хранилища документов, к которому у вас уже есть доступ. Ниже приведен пример данных CSV файла аннотаций, необходимых для обучения (Пример данных):

CLASS, document1.pdf, 1
CLASS, document1.pdf, 2
...

CSV-файл аннотаций содержит три столбца: первый столбец содержит метку документа, второй столбец — имя документа (т. е. имя файла), а последний столбец — номер страницы документа, который вы хотите включить в файл. набор обучающих данных. В большинстве случаев, если CSV-файл аннотаций находится в одной папке со всем остальным документом, вам просто нужно указать имя документа во втором столбце. Однако если CSV-файл находится в другом месте, вам необходимо указать путь к нему во втором столбце, например: path/to/prefix/document1.pdf.

Подробную информацию о том, как подготовить данные для обучения, см. здесь.

Обзор решения

Создание конвейера классификации с помощью пользовательской классификации Amazon Comprehend (часть I) | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Amazon Comprehend Конвейер обучения запускается, когда данные обучения (файл .csv для ввода текста и файл аннотаций .csv для ввода полуструктуры) загружаются в выделенный сервис Amazon Simple Storage Service (Amazon S3) ведро.
An AWS Lambda функция вызывается Amazon S3 триггер, так что каждый раз, когда объект загружается в указанный Amazon S3 местоположение, функция AWS Lambda извлекает имя исходного сегмента и имя ключа загруженного объекта и передает их для обучения. функция шага рабочий процесс.
В функции шага обучения после получения имени сегмента обучающих данных и имени ключа объекта в качестве входных параметров рабочий процесс обучения пользовательской модели запускается как серия лямбда-функций, как описано:
1. StartComprehendTraining: Эта функция AWS Lambda определяет ComprehendClassifier объект в зависимости от типа входных файлов (т. е. текстовые или полуструктурированные), а затем запускает Amazon Comprehend пользовательская задача обучения классификации, позвонив create_document_classifier Интерфейс прикладного программирования (API), который возвращает имена ресурсов Amazon (ARN) обучающего задания. Впоследствии эта функция проверяет статус задания обучения, вызывая описать_документ_классификатор API. Наконец, он возвращает ARN учебного задания и статус задания в качестве выходных данных для следующего этапа рабочего процесса обучения.
2. GetTrainingJobStatus: эта AWS Lambda проверяет статус задания обучения каждые 15 минут, вызывая описать_документ_классификатор API, пока статус задания обучения не изменится на «Завершено» или «Не выполнено».
3. GenerateMultiClass or GenerateMultiLabel: Если вы выберете Да для отчета о производительности при запуске стека одна из этих двух AWS Lambdas выполнит анализ в соответствии с результатами вашей модели Amazon Comprehend, которая генерирует анализ производительности для каждого класса и сохраняет его в Amazon S3.
4. GenerateMultiClass: эта AWS Lambda будет вызвана, если вы введете Мультикласс и вы выбираете Да для отчета о работе.
5. GenerateMultiLabel: эта AWS Lambda будет вызвана, если вы введете Мультиэтикетка и вы выбираете Да для отчета о работе.
После успешного завершения обучения решение генерирует следующие выходные данные:
1. Пользовательская модель классификации. Обученная модель ARN будет доступна в вашей учетной записи для будущих выводов.
2. Матрица путаницы [Опцияl]: матрица путаницы (confusion_matrix.json) будет доступен в пользовательском выводе Amazon S3 путь, в зависимости от выбора пользователя.
3. Amazon Простая служба уведомлений уведомление [Опцияl]: подписчикам будет отправлено электронное письмо с уведомлением о статусе задания по обучению, в зависимости от первоначального выбора пользователя.

Прохождение

Запуск решения

Чтобы развернуть конвейер, выполните следующие действия:

Выберите Стек запуска Кнопка:

Выберите Далее

Укажите детали конвейера с параметрами, подходящими для вашего варианта использования:

Информация для каждой детали стека:

Имя стека (обязательно) — имя, которое вы указали для этого AWS CloudFormation куча. Имя должно быть уникальным в регионе, в котором вы его создаете.
Q01ClassifierInputBucketName (обязательно) – Имя корзины Amazon S3 для хранения входных данных. Это должно быть глобально уникальное имя, и стек AWS CloudFormation поможет вам создать корзину во время ее запуска.
Q02ClassifierOutputBucketName (обязательно) – Имя корзины Amazon S3 для хранения выходных данных Amazon Comprehend и конвейера. Это также должно быть глобально уникальное имя.
Q03Формат ввода - Выпадающий список, вы можете выбрать текст (если ваши данные обучения представляют собой файлы CSV) или полуструктура (если ваши обучающие данные являются полуструктурированными [например, PDF-файлы]) на основе вашего формата ввода данных.
Q04Язык – Выпадающий список выбора языка документов из списка поддерживаемых. Обратите внимание: в настоящее время поддерживается только английский язык, если ваш входной формат является полуструктурным.
Q05Мультикласс – В раскрывающемся списке выберите Да если ваш ввод в режиме MultiClass. В противном случае выберите нет.
Q06Разделитель меток – Требуется только в том случае, если ваш ответ на вопрос Q05MultiClass нет. Этот разделитель используется в ваших обучающих данных для разделения каждого класса.
Q07Набор данных проверки – Выпадающий список, измените ответ на Да если вы хотите проверить производительность обученного классификатора с помощью собственных тестовых данных.
Q08S3Путь проверки – Требуется только в том случае, если ваш ответ Q07ValidationDataset Да.
Q09Отчет о производительности – В раскрывающемся списке выберите Да если вы хотите создать отчет о производительности на уровне класса после обучения модели. Отчет будет сохранен в указанном вами выходном сегменте в Q02ClassifierOutputBucketName.
Q10Уведомление по электронной почте – Выпадающий выбор. Выбирать Да если вы хотите получать уведомление после обучения модели.
Q11Идентификатор электронной почты – Введите действительный адрес электронной почты для получения уведомления об отчете о производительности. Обратите внимание: вам необходимо подтвердить подписку по электронной почте после запуска стека AWS CloudFormation, прежде чем вы сможете получить уведомление о завершении обучения.

В разделе параметров стека Amazon Configuration добавьте дополнительные теги, разрешения и другие дополнительные настройки.

Выберите Следующая
Просмотрите сведения о стеке и выберите «Я подтверждаю это». AWS CloudFormation может создать AWS IAM Ресурсы.

Выберите Отправить. Это инициирует развертывание конвейера в вашей учетной записи AWS.
После успешного развертывания стека вы можете начать использовать конвейер. Создать /training-data папку в указанном вами местоположении Amazon S3 для ввода. Примечание: Amazon S3 автоматически применяет шифрование на стороне сервера (SSE-S3) для каждого нового объекта, если вы не укажете другой вариант шифрования. Пожалуйста, обратитесь Защита данных в Amazon S3 Более подробную информацию о защите и шифровании данных см. Amazon S3.

Загрузите данные тренировок в папку. (Если данные обучения являются полуструктурированными, загрузите все файлы PDF перед загрузкой информации метки формата .csv).

Все готово! Вы успешно развернули свой конвейер и можете проверить его состояние в функции шага развертывания. (У вас будет обученная модель на панели пользовательской классификации Amazon Comprehend).

Если вы выберете модель и ее версию внутри Amazon Comprehend Консоль, теперь вы можете увидеть более подробную информацию о модели, которую вы только что обучили. Он включает выбранный вами режим, соответствующий опции Q05MultiClass, количество меток, а также количество обучающих и тестовых документов в ваших обучающих данных. Вы также можете проверить общую производительность ниже; однако, если вы хотите проверить подробную производительность для каждого класса, обратитесь к отчету о производительности, созданному развернутым конвейером.

Квоты на услуги

В вашей учетной записи AWS установлены квоты по умолчанию для Amazon Comprehend и AmazonТекст, если входные данные имеют полуструктурный формат. Чтобы просмотреть квоты на услуги, см. здесь для Amazon Comprehend и здесь для AmazonТекст.

Убирать

Чтобы избежать текущих расходов, удалите ресурсы, которые вы создали как часть этого решения, когда закончите.

На Amazon S3 консоли, вручную удалите содержимое внутри сегментов, которые вы создали для входных и выходных данных.
На AWS CloudFormation консоль, выберите Стеки в навигационной панели.
Выберите основной стек и выберите Удалить.

При этом развернутый стек автоматически удаляется.

Ваш обученный Amazon Comprehend пользовательская модель классификации останется в вашем аккаунте. Если вам это больше не нужно, в Amazon Comprehend консоль, удалите созданную модель.

Заключение

В этом посте мы показали вам концепцию масштабируемого конвейера обучения для Amazon Comprehend пользовательские модели классификации и предоставление автоматизированного решения для эффективного обучения новых моделей. AWS CloudFormation Предоставленный шаблон позволяет вам легко создавать собственные модели классификации текста в соответствии с требуемыми масштабами. Решение использует недавно анонсированную функцию Euclid и принимает входные данные в текстовом или полуструктурированном формате.

Теперь мы призываем вас, наших читателей, протестировать эти инструменты. Вы можете узнать более подробную информацию о подготовка обучающих данных и понять метрики пользовательского классификатора. Попробуйте его и убедитесь воочию, как он может упростить процесс обучения вашей модели и повысить эффективность. Пожалуйста, поделитесь с нами своим мнением!

Об авторах

Сандип Сингх — старший специалист по данным в сфере профессиональных услуг AWS. Он с энтузиазмом помогает клиентам внедрять инновации и достигать своих бизнес-целей путем разработки современных решений на базе искусственного интеллекта и машинного обучения. В настоящее время он занимается генеративным искусственным интеллектом, LLM, быстрым инжинирингом и масштабированием машинного обучения на предприятиях. Он рассказывает о последних достижениях в области искусственного интеллекта, чтобы создать ценность для клиентов.

Яньян Чжан — старший специалист по данным в группе энергоснабжения AWS Professional Services. Она с энтузиазмом помогает клиентам решать реальные проблемы с помощью знаний AI/ML. В последнее время ее внимание было сосредоточено на изучении потенциала генеративного искусственного интеллекта и LLM. Вне работы она любит путешествовать, заниматься спортом и исследовать что-то новое.

Врик Талукдар является старшим архитектором в команде Amazon Comprehend Service. Он работает с клиентами AWS, помогая им широко внедрять машинное обучение. Вне работы любит читать и фотографировать.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
ЧартПрайм. Улучшите свою торговую игру с ChartPrime. Доступ здесь.
Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/build-a-classification-pipeline-with-amazon-comprehend-custom-classification-part-i/

Отметка времени: 14 сентября, 2023

Отметка времени: 13 Апрель, 2023

Переиздано Платоном

Сокращение пищевых отходов для повышения устойчивости и финансовых результатов в розничной торговле с помощью Amazon Forecast

Трехмерная маркировка облака точек LiDAR с датчиком Velodyne LiDAR в Amazon SageMaker Ground Truth

Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для обучения и экспериментов с машинным обучением.

Получите более точные результаты поиска с Amazon Kendra Intelligent Ranking и подключаемым модулем OpenSearch

Как Patsnap использовал вывод GPT-2 в Amazon SageMaker с низкой задержкой и затратами | Веб-сервисы Амазонки

Безопасные предварительно подписанные URL-адреса Amazon SageMaker Studio. Часть 3. Доступ к Studio через частный API с несколькими учетными записями

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись