«Данные, хранящиеся в тексте, аудио, социальных сетях и других неструктурированных источниках, могут стать конкурентным преимуществом для фирм, которые поймут, как их использовать».
Только 18% организаций в Опрос Deloitte 2019 г. сообщили, что могут воспользоваться неструктурированными данными. Большая часть данных, от 80% до 90%, представляет собой неструктурированные данные. Это большой неиспользованный ресурс, который может дать компаниям конкурентное преимущество, если они найдут, как его использовать. Из этих данных может быть сложно получить ценную информацию, особенно если необходимы усилия по их классификации, маркировке или маркировке. Amazon Comprehend В этой ситуации может оказаться полезной пользовательская классификация. Amazon Comprehend — это служба обработки естественного языка (НЛП), которая использует машинное обучение для выявления ценной информации и связей в тексте.
Категоризация или классификация документов имеет значительные преимущества во всех сферах бизнеса:
- Улучшенный поиск и извлечение – Разделение документов на соответствующие темы или категории значительно упрощает пользователям поиск и получение необходимых им документов. Они могут выполнять поиск по определенным категориям, чтобы сузить результаты.
- Управление знаниями – Систематическая категоризация документов помогает организовать базу знаний организации. Это облегчает поиск соответствующей информации и просмотр связей между связанным контентом.
- Оптимизированные рабочие процессы – Автоматическая сортировка документов может помочь оптимизировать многие бизнес-процессы, такие как обработка счетов, поддержка клиентов или соблюдение нормативных требований. Документы могут быть автоматически перенаправлены нужным людям или нужным рабочим процессам.
- Экономия затрат и времени – Категоризация документов вручную утомительна, отнимает много времени и стоит дорого. Технологии искусственного интеллекта могут взять на себя эту рутинную задачу и классифицировать тысячи документов за короткое время и с гораздо меньшими затратами.
- Генерация информации – Анализ тенденций в категориях документов может дать полезную информацию для бизнеса. Например, увеличение количества жалоб клиентов на определенную категорию продуктов может указывать на некоторые проблемы, которые необходимо решить.
- Управление и обеспечение соблюдения политики – Настройка правил категоризации документов помогает обеспечить правильную классификацию документов в соответствии с политиками и стандартами управления организации. Это позволяет улучшить мониторинг и аудит.
- Индивидуальный опыт – В таких контекстах, как контент веб-сайта, категоризация документов позволяет показывать пользователям индивидуальный контент на основе их интересов и предпочтений, определяемых их поведением при просмотре. Это может повысить вовлеченность пользователей.
Сложность разработки индивидуальной модели машинного обучения для классификации варьируется в зависимости от множества аспектов, таких как качество данных, алгоритм, масштабируемость и знание предметной области, и это лишь некоторые из них. Очень важно начать с четкого определения проблемы, чистых и актуальных данных и постепенно проходить различные этапы разработки модели. Однако компании могут создавать свои собственные уникальные модели машинного обучения, используя пользовательскую классификацию Amazon Comprehend, чтобы автоматически классифицировать текстовые документы по категориям или тегам в соответствии с конкретными бизнес-требованиями и сопоставлять их с бизнес-технологиями и категориями документов. Поскольку человеческая маркировка или категоризация больше не нужны, это может сэкономить предприятиям много времени, денег и труда. Мы упростили этот процесс, автоматизировав весь процесс обучения.
В первой части этой многосерийной публикации в блоге вы узнаете, как создать масштабируемый конвейер обучения и подготовить данные обучения для моделей Comprehend Custom Classification. Мы представим собственный конвейер обучения классификаторов, который можно будет развернуть в вашей учетной записи AWS несколькими щелчками мыши. Мы используем набор данных новостей BBC и будем обучать классификатор определять класс (например, политика, спорт), к которому принадлежит документ. Этот конвейер позволит вашей организации быстро реагировать на изменения и обучать новые модели без необходимости каждый раз начинать с нуля. Вы можете легко масштабировать и обучать несколько моделей в зависимости от ваших потребностей.
Предпосылки
- Активная учетная запись AWS (Нажмите здесь для создания новой учетной записи AWS)
- Доступ к Amazon Comprehend, Amazon S3, Amazon Lambda, Amazon Step Function, Amazon SNS и Amazon CloudFormation.
- Данные обучения (полуструктура или текст), подготовленные в следующем разделе.
- Базовые знания о Python и машинном обучении в целом.
Подготовьте обучающие данные
Это решение может принимать входные данные как текстовый формат (например, CSV) или полуструктурированный формат (например, PDF).
Ввод текста
Amazon Comprehend Пользовательская классификация поддерживает два режима: мультиклассовый и мультиметочный.
В многоклассовом режиме каждому документу может быть присвоен один и только один класс. Данные обучения должны быть подготовлены в виде файла CSV с двумя столбцами, каждая строка которого содержит один класс и текст документа, демонстрирующего этот класс.
Пример для Набор данных новостей BBC:
В режиме с несколькими метками каждому документу присвоен хотя бы один класс, но может быть и больше. Данные обучения должны быть представлены в виде CSV-файла с двумя столбцами, каждая строка которого содержит один или несколько классов и текст учебного документа. Следует указывать более одного класса, используя разделитель между каждым классом.
Ни для одного из режимов обучения в CSV-файл не следует включать заголовок.
Полуструктурированный ввод
Начиная с 2023, Amazon Comprehend теперь поддерживает модели обучения с использованием полуструктурированных документов. Обучающие данные для ввода полуструктуры состоят из набора помеченных документов, которые могут быть предварительно идентифицированными документами из хранилища документов, к которому у вас уже есть доступ. Ниже приведен пример данных CSV файла аннотаций, необходимых для обучения (Пример данных):
CSV-файл аннотаций содержит три столбца: первый столбец содержит метку документа, второй столбец — имя документа (т. е. имя файла), а последний столбец — номер страницы документа, который вы хотите включить в файл. набор обучающих данных. В большинстве случаев, если CSV-файл аннотаций находится в одной папке со всем остальным документом, вам просто нужно указать имя документа во втором столбце. Однако если CSV-файл находится в другом месте, вам необходимо указать путь к нему во втором столбце, например: path/to/prefix/document1.pdf
.
Подробную информацию о том, как подготовить данные для обучения, см. здесь.
Обзор решения
- Amazon Comprehend Конвейер обучения запускается, когда данные обучения (файл .csv для ввода текста и файл аннотаций .csv для ввода полуструктуры) загружаются в выделенный сервис Amazon Simple Storage Service (Amazon S3) ведро.
- An AWS Lambda функция вызывается Amazon S3 триггер, так что каждый раз, когда объект загружается в указанный Amazon S3 местоположение, функция AWS Lambda извлекает имя исходного сегмента и имя ключа загруженного объекта и передает их для обучения. функция шага рабочий процесс.
- В функции шага обучения после получения имени сегмента обучающих данных и имени ключа объекта в качестве входных параметров рабочий процесс обучения пользовательской модели запускается как серия лямбда-функций, как описано:
StartComprehendTraining
: Эта функция AWS Lambda определяетComprehendClassifier
объект в зависимости от типа входных файлов (т. е. текстовые или полуструктурированные), а затем запускает Amazon Comprehend пользовательская задача обучения классификации, позвонив create_document_classifier Интерфейс прикладного программирования (API), который возвращает имена ресурсов Amazon (ARN) обучающего задания. Впоследствии эта функция проверяет статус задания обучения, вызывая описать_документ_классификатор API. Наконец, он возвращает ARN учебного задания и статус задания в качестве выходных данных для следующего этапа рабочего процесса обучения.GetTrainingJobStatus
: эта AWS Lambda проверяет статус задания обучения каждые 15 минут, вызывая описать_документ_классификатор API, пока статус задания обучения не изменится на «Завершено» или «Не выполнено».GenerateMultiClass
orGenerateMultiLabel
: Если вы выберете Да для отчета о производительности при запуске стека одна из этих двух AWS Lambdas выполнит анализ в соответствии с результатами вашей модели Amazon Comprehend, которая генерирует анализ производительности для каждого класса и сохраняет его в Amazon S3.GenerateMultiClass
: эта AWS Lambda будет вызвана, если вы введете Мультикласс и вы выбираете Да для отчета о работе.GenerateMultiLabel
: эта AWS Lambda будет вызвана, если вы введете Мультиэтикетка и вы выбираете Да для отчета о работе.
- После успешного завершения обучения решение генерирует следующие выходные данные:
- Пользовательская модель классификации. Обученная модель ARN будет доступна в вашей учетной записи для будущих выводов.
- Матрица путаницы [Опцияl]: матрица путаницы (
confusion_matrix
.json) будет доступен в пользовательском выводе Amazon S3 путь, в зависимости от выбора пользователя. - Amazon Простая служба уведомлений уведомление [Опцияl]: подписчикам будет отправлено электронное письмо с уведомлением о статусе задания по обучению, в зависимости от первоначального выбора пользователя.
Прохождение
Запуск решения
Чтобы развернуть конвейер, выполните следующие действия:
- Выберите Стек запуска Кнопка:
- Выберите Далее
- Укажите детали конвейера с параметрами, подходящими для вашего варианта использования:
Информация для каждой детали стека:
- Имя стека (обязательно) — имя, которое вы указали для этого AWS CloudFormation куча. Имя должно быть уникальным в регионе, в котором вы его создаете.
- Q01ClassifierInputBucketName (обязательно) – Имя корзины Amazon S3 для хранения входных данных. Это должно быть глобально уникальное имя, и стек AWS CloudFormation поможет вам создать корзину во время ее запуска.
- Q02ClassifierOutputBucketName (обязательно) – Имя корзины Amazon S3 для хранения выходных данных Amazon Comprehend и конвейера. Это также должно быть глобально уникальное имя.
- Q03Формат ввода - Выпадающий список, вы можете выбрать текст (если ваши данные обучения представляют собой файлы CSV) или полуструктура (если ваши обучающие данные являются полуструктурированными [например, PDF-файлы]) на основе вашего формата ввода данных.
- Q04Язык – Выпадающий список выбора языка документов из списка поддерживаемых. Обратите внимание: в настоящее время поддерживается только английский язык, если ваш входной формат является полуструктурным.
- Q05Мультикласс – В раскрывающемся списке выберите Да если ваш ввод в режиме MultiClass. В противном случае выберите нет.
- Q06Разделитель меток – Требуется только в том случае, если ваш ответ на вопрос Q05MultiClass нет. Этот разделитель используется в ваших обучающих данных для разделения каждого класса.
- Q07Набор данных проверки – Выпадающий список, измените ответ на Да если вы хотите проверить производительность обученного классификатора с помощью собственных тестовых данных.
- Q08S3Путь проверки – Требуется только в том случае, если ваш ответ Q07ValidationDataset Да.
- Q09Отчет о производительности – В раскрывающемся списке выберите Да если вы хотите создать отчет о производительности на уровне класса после обучения модели. Отчет будет сохранен в указанном вами выходном сегменте в Q02ClassifierOutputBucketName.
- Q10Уведомление по электронной почте – Выпадающий выбор. Выбирать Да если вы хотите получать уведомление после обучения модели.
- Q11Идентификатор электронной почты – Введите действительный адрес электронной почты для получения уведомления об отчете о производительности. Обратите внимание: вам необходимо подтвердить подписку по электронной почте после запуска стека AWS CloudFormation, прежде чем вы сможете получить уведомление о завершении обучения.
- В разделе параметров стека Amazon Configuration добавьте дополнительные теги, разрешения и другие дополнительные настройки.
- Выберите Следующая
- Просмотрите сведения о стеке и выберите «Я подтверждаю это». AWS CloudFormation может создать AWS IAM Ресурсы.
- Выберите Отправить. Это инициирует развертывание конвейера в вашей учетной записи AWS.
- После успешного развертывания стека вы можете начать использовать конвейер. Создать
/training-data
папку в указанном вами местоположении Amazon S3 для ввода. Примечание: Amazon S3 автоматически применяет шифрование на стороне сервера (SSE-S3) для каждого нового объекта, если вы не укажете другой вариант шифрования. Пожалуйста, обратитесь Защита данных в Amazon S3 Более подробную информацию о защите и шифровании данных см. Amazon S3.
- Загрузите данные тренировок в папку. (Если данные обучения являются полуструктурированными, загрузите все файлы PDF перед загрузкой информации метки формата .csv).
Все готово! Вы успешно развернули свой конвейер и можете проверить его состояние в функции шага развертывания. (У вас будет обученная модель на панели пользовательской классификации Amazon Comprehend).
Если вы выберете модель и ее версию внутри Amazon Comprehend Консоль, теперь вы можете увидеть более подробную информацию о модели, которую вы только что обучили. Он включает выбранный вами режим, соответствующий опции Q05MultiClass, количество меток, а также количество обучающих и тестовых документов в ваших обучающих данных. Вы также можете проверить общую производительность ниже; однако, если вы хотите проверить подробную производительность для каждого класса, обратитесь к отчету о производительности, созданному развернутым конвейером.
Квоты на услуги
В вашей учетной записи AWS установлены квоты по умолчанию для Amazon Comprehend и AmazonТекст, если входные данные имеют полуструктурный формат. Чтобы просмотреть квоты на услуги, см. здесь для Amazon Comprehend и здесь для AmazonТекст.
Убирать
Чтобы избежать текущих расходов, удалите ресурсы, которые вы создали как часть этого решения, когда закончите.
- На Amazon S3 консоли, вручную удалите содержимое внутри сегментов, которые вы создали для входных и выходных данных.
- На AWS CloudFormation консоль, выберите Стеки в навигационной панели.
- Выберите основной стек и выберите Удалить.
При этом развернутый стек автоматически удаляется.
- Ваш обученный Amazon Comprehend пользовательская модель классификации останется в вашем аккаунте. Если вам это больше не нужно, в Amazon Comprehend консоль, удалите созданную модель.
Заключение
В этом посте мы показали вам концепцию масштабируемого конвейера обучения для Amazon Comprehend пользовательские модели классификации и предоставление автоматизированного решения для эффективного обучения новых моделей. AWS CloudFormation Предоставленный шаблон позволяет вам легко создавать собственные модели классификации текста в соответствии с требуемыми масштабами. Решение использует недавно анонсированную функцию Euclid и принимает входные данные в текстовом или полуструктурированном формате.
Теперь мы призываем вас, наших читателей, протестировать эти инструменты. Вы можете узнать более подробную информацию о подготовка обучающих данных и понять метрики пользовательского классификатора. Попробуйте его и убедитесь воочию, как он может упростить процесс обучения вашей модели и повысить эффективность. Пожалуйста, поделитесь с нами своим мнением!
Об авторах
Сандип Сингх — старший специалист по данным в сфере профессиональных услуг AWS. Он с энтузиазмом помогает клиентам внедрять инновации и достигать своих бизнес-целей путем разработки современных решений на базе искусственного интеллекта и машинного обучения. В настоящее время он занимается генеративным искусственным интеллектом, LLM, быстрым инжинирингом и масштабированием машинного обучения на предприятиях. Он рассказывает о последних достижениях в области искусственного интеллекта, чтобы создать ценность для клиентов.
Яньян Чжан — старший специалист по данным в группе энергоснабжения AWS Professional Services. Она с энтузиазмом помогает клиентам решать реальные проблемы с помощью знаний AI/ML. В последнее время ее внимание было сосредоточено на изучении потенциала генеративного искусственного интеллекта и LLM. Вне работы она любит путешествовать, заниматься спортом и исследовать что-то новое.
Врик Талукдар является старшим архитектором в команде Amazon Comprehend Service. Он работает с клиентами AWS, помогая им широко внедрять машинное обучение. Вне работы любит читать и фотографировать.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- ЧартПрайм. Улучшите свою торговую игру с ChartPrime. Доступ здесь.
- Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/build-a-classification-pipeline-with-amazon-comprehend-custom-classification-part-i/
- :имеет
- :является
- $UP
- 1
- 100
- 11
- 15%
- 2023
- 24
- 26%
- 7
- 9
- a
- в состоянии
- О нас
- Принимает
- доступ
- По
- Учетная запись
- Достигать
- признавать
- через
- активный
- Добавить
- адрес
- адресованный
- принять
- продвинутый
- достижения
- плюс
- После
- AI
- AI / ML
- алгоритм
- Все
- позволяет
- уже
- причислены
- Amazon
- Amazon Comprehend
- Amazon Web Services
- an
- анализ
- анализ
- и
- объявило
- ответ
- больше не
- API
- Применение
- применяется
- МЫ
- AS
- аспекты
- назначенный
- At
- аудио
- аудит
- Автоматизированный
- Автоматический
- автоматически
- Автоматизация
- доступен
- избежать
- прочь
- AWS
- AWS CloudFormation
- AWS Lambda
- Профессиональные услуги AWS
- Использование темпера с изогнутым основанием
- основанный
- BBC
- BE
- было
- до
- поведение
- не являетесь
- принадлежит
- ниже
- Преимущества
- сделанный на заказ
- Лучшая
- между
- большой
- Блог
- Приносит
- просмотр
- строить
- бизнес
- бизнес
- но
- кнопка
- by
- под названием
- вызова
- CAN
- случаев
- случаев
- категории
- категоризации
- Категории
- изменение
- изменения
- расходы
- проверка
- Проверки
- Выберите
- Выбирая
- класс
- классов
- классификация
- классифицированный
- классифицировать
- Очистить
- нажмите на
- собирать
- Column
- Колонки
- конкурентоспособный
- жалобы
- полный
- Заполненная
- сложность
- Соответствие закону
- постигать
- Состоит
- сама концепция
- подтвердить
- замешательство
- Коммутация
- Консоли
- содержит
- содержание
- содержание
- контексты
- соответствует
- Цена
- может
- Создайте
- Создать ценность
- создали
- Создающий
- В настоящее время
- изготовленный на заказ
- клиент
- служба поддержки
- Клиенты
- данным
- защита данных
- ученый данных
- преданный
- По умолчанию
- определенный
- Определяет
- определение
- поставка
- Делойта
- Спрос
- демонстрирует
- в зависимости
- развертывание
- развернуть
- развертывание
- описано
- подробность
- подробный
- подробнее
- определены
- развивающийся
- Развитие
- различный
- трудный
- документ
- Документация
- Доллар
- домен
- доменов
- сделанный
- Dont
- вниз
- e
- каждый
- легче
- легко
- Edge
- затрат
- эффективно
- легко
- усилия
- или
- включить
- поощрять
- шифрование
- энергетика
- обязательство
- Проект и
- Английский
- повышать
- обеспечивать
- Enter
- предприятий
- существенный
- Европе
- Каждая
- пример
- дорогим
- Исследование
- Oшибка
- Особенность
- Обратная связь
- несколько
- фигура
- Файл
- Файлы
- в заключение
- Найдите
- Компаний
- Во-первых,
- примерка
- Фокус
- внимание
- после
- Что касается
- формат
- от
- функция
- Функции
- будущее
- порождать
- генерируется
- генерирует
- генеративный
- Генеративный ИИ
- Дайте
- ГЛОБАЛЬНО
- управление
- постепенно
- Есть
- имеющий
- he
- помощь
- помощь
- помогает
- ее
- Как
- How To
- Однако
- HTML
- HTTPS
- человек
- i
- определения
- if
- in
- включают
- включены
- включает в себя
- Увеличение
- указанный
- информация
- начальный
- Посвященные
- обновлять
- вход
- затраты
- внутри
- размышления
- интересы
- в
- вводить
- вызывается
- вопросы
- IT
- ЕГО
- работа
- JPG
- JSON
- всего
- Основные
- знания
- этикетка
- Этикетки
- труд
- язык
- большой
- Фамилия
- запустили
- запуск
- УЧИТЬСЯ
- изучение
- наименее
- такое как
- линия
- Список
- LLM
- расположенный
- расположение
- запертый
- дольше
- серия
- любит
- ниже
- машина
- обучение с помощью машины
- сделанный
- Главная
- Большинство
- ДЕЛАЕТ
- руководство
- вручную
- многих
- карта
- матрица
- Май..
- Медиа
- Встречайте
- может быть
- Минут
- режим
- модель
- Модели
- Режимы
- деньги
- Мониторинг
- БОЛЕЕ
- самых
- гора
- много
- с разными
- должен
- имя
- имена
- Узкий
- Навигация
- необходимо
- Необходимость
- необходимый
- Новые
- Новости
- следующий
- НЛП
- нет
- уведомление
- сейчас
- номер
- объект
- целей
- of
- on
- ONE
- постоянный
- только
- Опция
- Опции
- or
- организация
- организации
- Другое
- в противном случае
- наши
- внешний
- выходной
- внешнюю
- за
- общий
- собственный
- страница
- хлеб
- панель
- параметры
- часть
- особенно
- pass
- страстный
- путь
- Люди
- для
- производительность
- Разрешения
- фотография
- трубопровод
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- пожалуйста
- сборах
- политика
- политика
- возможное
- После
- потенциал
- Питание
- предпочтения
- Подготовить
- (например,
- Проблема
- проблемам
- процесс
- Процессы
- обработка
- Продукт
- профессиональный
- Программирование
- защиту
- обеспечивать
- при условии
- обеспечение
- Питон
- быстро
- читатели
- Reading
- реальные
- Получать
- получение
- последний
- недавно
- относиться
- область
- регуляторы
- Соответствие нормативным требованиям
- Связанный
- соответствующие
- оставаться
- отчету
- Сообщается
- хранилище
- обязательный
- Требования
- ресурс
- Полезные ресурсы
- Реагируйте
- Итоги
- Возвращает
- правую
- условиями,
- Run
- то же
- Сохранить
- сохраняются
- Масштабируемость
- масштабируемые
- Шкала
- Весы
- масштабирование
- Ученый
- поцарапать
- Поиск
- Во-вторых
- Раздел
- посмотреть
- выбор
- старший
- послать
- отдельный
- Серии
- обслуживание
- Услуги
- набор
- установка
- настройки
- Поделиться
- она
- Короткое
- должен
- показал
- показанный
- значительный
- означать
- просто
- одинарной
- ситуация
- Соцсети
- социальные сети
- Решение
- Решения
- РЕШАТЬ
- некоторые
- Источник
- Источники
- конкретный
- указанный
- Спорт
- стек
- Этап
- этапы
- стандартов
- Начало
- начинается
- современное состояние
- Статус:
- Шаг
- Шаги
- диск
- магазин
- упорядочить
- Абоненты
- подписка
- впоследствии
- Успешно
- такие
- поддержка
- Поддержанный
- Поддержка
- Опрос
- TAG
- с учетом
- взять
- Сложность задачи
- команда
- технологии
- снижения вреда
- Технологии
- шаблон
- тестXNUMX
- текст
- Классификация текста
- чем
- который
- Ассоциация
- Источник
- их
- Их
- тогда
- Эти
- они
- вещи
- этой
- тысячи
- три
- Через
- время
- кропотливый
- в
- инструменты
- Темы
- Train
- специалистов
- Обучение
- Путешествие
- Тенденции
- вызвать
- стараться
- два
- напишите
- открывай
- под
- понимать
- созданного
- неиспользованный
- до
- загружено
- Загрузка
- us
- использование
- прецедент
- используемый
- Информация о пользователе
- пользователей
- использования
- через
- ценный
- ценностное
- разнообразие
- версия
- Вид
- хотеть
- Путь..
- we
- Web
- веб-сервисы
- Вебсайт
- когда
- , которые
- в то время как
- все
- будете
- в
- без
- Работа
- рабочий
- Рабочие процессы
- работает
- разработка
- работает
- Ты
- ВАШЕ
- зефирнет
- ZIP