Amazon SageMaker JumpStart теперь предлагает блокноты Amazon Comprehend для пользовательской классификации и обнаружения пользовательских объектов PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Amazon SageMaker JumpStart теперь предлагает записные книжки Amazon Comprehend для пользовательской классификации и обнаружения пользовательских сущностей.

Amazon Comprehend — это служба обработки естественного языка (NLP), которая использует машинное обучение (ML) для извлечения информации из текста. Amazon Comprehend предоставляет настраиваемые функции, пользовательское распознавание объектов, пользовательская классификацияи предварительно обученные API таких как извлечение ключевых фраз, анализ тональности, распознавание сущностей и многое другое, чтобы вы могли легко интегрировать НЛП в свои приложения.

Недавно мы добавили блокноты, связанные с Amazon Comprehend, в Amazon SageMaker JumpStart записные книжки, которые помогут вам быстро приступить к работе с пользовательским классификатором и распознавателем сущностей Amazon Comprehend. Пользовательскую классификацию можно использовать для организации документов по определенным вами категориям (классам). Пользовательское распознавание сущностей расширяет возможности предварительно обученного API обнаружения сущностей Amazon Comprehend, помогая вам идентифицировать типы сущностей, уникальные для вашего домена или бизнеса, которые не входят в предустановленные общие типы сущностей.

В этом посте мы покажем вам, как использовать JumpStart для создания пользовательских моделей классификации Amazon Comprehend и пользовательских моделей обнаружения сущностей в рамках требований NLP вашего предприятия.

SageMaker JumpStart

Ассоциация Студия Amazon SageMaker целевая страница предоставляет возможность использовать JumpStart. JumpStart предлагает быстрый способ начать работу, предоставляя предварительно обученные модели для различных типов задач. Вы можете обучать и настраивать эти модели. JumpStart также предоставляет другие ресурсы, такие как записные книжки, блоги и видео.

Записные книжки JumpStart — это, по сути, образцы кода, которые можно использовать в качестве отправной точки для быстрого начала работы. В настоящее время мы предоставляем вам более 40 записных книжек, которые вы можете использовать как есть или настроить по мере необходимости. Вы можете найти свои записные книжки с помощью поиска или панели просмотра с вкладками. Найдя записную книжку, которую хотите использовать, вы можете импортировать ее, настроить в соответствии со своими требованиями и выбрать инфраструктуру и среду для запуска записной книжки.

Начните работу с ноутбуками JumpStart

Чтобы начать работу с JumpStart, перейдите на Создатель мудреца Амазонки консоль и откройте Студию. Ссылаться на Начните работу с SageMaker Studio инструкции по началу работы со Studio. Затем выполните следующие шаги:

  1. В Studio перейдите на стартовую страницу JumpStart и выберите Перейти к SageMaker JumpStart.

Вам предлагается несколько способов поиска. Вы можете либо использовать вкладки вверху, чтобы получить то, что вы хотите, либо использовать окно поиска, как показано на следующем снимке экрана.

  1. Чтобы найти тетради, идем в Ноутбуки меню.

Перейти на вкладку Ноутбуки

На момент написания JumpStart предлагает 47 ноутбуков. Вы можете использовать фильтры, чтобы найти блокноты, связанные с Amazon Comprehend.

  1. На Тип содержимого выпадающее меню, выберите ноутбук.

Как видно на следующем снимке экрана, в настоящее время у нас есть два ноутбука Amazon Comprehend.

Найти блокноты для понимания

В следующих разделах мы исследуем оба ноутбука.

Пользовательский классификатор Amazon Comprehend

В этой записной книжке мы покажем, как использовать API пользовательского классификатора создать модель классификации документов.

Пользовательский классификатор — это полностью управляемая функция Amazon Comprehend, которая позволяет создавать настраиваемые модели классификации текста, уникальные для вашего бизнеса, даже если у вас мало или совсем нет опыта в области машинного обучения. Пользовательский классификатор основан на существующих возможностях Amazon Comprehend, которые уже прошли обучение на десятках миллионов документов. Он абстрагируется от большей части сложности, необходимой для построения модели классификации НЛП. Пользовательский классификатор автоматически загружает и проверяет обучающие данные, выбирает правильные алгоритмы машинного обучения, обучает вашу модель, находит оптимальные гиперпараметры, тестирует модель и предоставляет показатели производительности модели. Пользовательский классификатор Amazon Comprehend также предоставляет удобную консоль для всего рабочего процесса машинного обучения, включая маркировку текста с помощью Amazon SageMaker - основа правды, обучение и развертывание модели, а также визуализация результатов тестирования. С помощью пользовательского классификатора Amazon Comprehend можно создавать следующие модели:

  • Модель многоклассовой классификации – В многоклассовой классификации каждому документу может быть присвоен один и только один класс. Отдельные классы взаимоисключающие. Например, фильм можно классифицировать как документальный или научно-фантастический, но не то и другое одновременно.
  • Модель классификации с несколькими метками – В многоуровневой классификации отдельные классы представляют разные категории, но эти категории каким-то образом связаны, а не исключают друг друга. В результате каждому документу назначен хотя бы один класс, но может быть и больше. Например, фильм может быть просто боевиком или боевиком, научно-фантастическим фильмом и комедией одновременно.

Эта записная книжка не требует опыта машинного обучения для обучения модели с помощью примера набора данных или вашего собственного набора данных для бизнеса. Вы можете использовать операции API, описанные в этой записной книжке, в своих собственных приложениях.

Пользовательский распознаватель сущностей Amazon

В этой записной книжке мы покажем, как использовать настраиваемый API распознавания сущностей для создания модели распознавания сущностей.

Распознавание настраиваемых сущностей расширяет возможности Amazon Comprehend, помогая определить конкретные типы сущностей, которых нет в предустановленных универсальных типах сущностей. Это означает, что вы можете анализировать документы и извлекать объекты, такие как коды продуктов или бизнес-объекты, которые соответствуют вашим конкретным потребностям.

Самостоятельное создание точного пользовательского распознавателя сущностей может быть сложным процессом, требующим подготовки больших наборов аннотированных вручную учебных документов и выбора правильных алгоритмов и параметров для обучения модели. Amazon Comprehend помогает снизить сложность за счет автоматического добавления аннотаций и разработки моделей для создания настраиваемой модели распознавания сущностей.

Блокнот в качестве примера берет обучающий набор данных в формате CSV и выполняет вывод по введенному тексту. Amazon Comprehend также поддерживает расширенный вариант использования, который использует аннотированные данные Ground Truth для обучения и позволяет напрямую выполнять логические выводы в документах PDF и Word. Для получения дополнительной информации см. Создайте собственный распознаватель сущностей для документов PDF с помощью Amazon Comprehend..

Amazon Comprehend снизил ограничения на аннотации и позволил получить более стабильные результаты, особенно для подвыборок с небольшим количеством снимков. Дополнительные сведения об этом улучшении см. Amazon Comprehend объявляет о снижении лимита аннотаций для распознавания пользовательских сущностей.

Эта записная книжка не требует опыта машинного обучения для обучения модели с помощью примера набора данных или вашего собственного набора данных для бизнеса. Вы можете использовать операции API, описанные в этой записной книжке, в своих собственных приложениях.

Использование, настройка и развертывание блокнотов Amazon Comprehend JumpStart

Выбрав записную книжку Amazon Comprehend, которую хотите использовать, выберите Импорт блокнота. Когда вы это сделаете, вы увидите, как запускается ядро ​​ноутбука.

Импортировать Блокнот

Импорт записной книжки инициирует выбор экземпляра записной книжки, ядра и образа, которые используются для запуска записной книжки. После подготовки инфраструктуры по умолчанию вы можете изменить выбор в соответствии с вашими требованиями.

Блокнот в SageMaker Studio

Теперь просмотрите схему записной книжки и внимательно прочитайте разделы, посвященные настройке предварительных условий, настройке данных, обучению модели, выполнению логического вывода и остановке модели. Не стесняйтесь настраивать сгенерированный код в соответствии с вашими потребностями.

В зависимости от ваших требований вы можете настроить следующие разделы:

  • Разрешения... – Для производственного приложения мы рекомендуем ограничивать политики доступа только теми, которые необходимы для запуска приложения. Разрешения могут быть ограничены в зависимости от варианта использования, такого как обучение или логический вывод, а также конкретных имен ресурсов, таких как полное Простой сервис хранения Amazon (Amazon S3) имя корзины или шаблон имени корзины S3. Вам также следует ограничить доступ к пользовательскому классификатору или операциям SageMaker только теми, которые необходимы вашему приложению.
  • Данные и местоположение – В примере записной книжки представлены образцы данных и местоположения S3. В зависимости от ваших требований вы можете использовать свои собственные данные для обучения, проверки и тестирования, а также использовать различные местоположения S3 по мере необходимости. Точно так же, когда модель создается, вы можете хранить модель в разных местах. Просто убедитесь, что вы предоставили правильные разрешения для доступа к корзинам S3.
  • Шаги предварительной обработки – Если вы используете разные данные для обучения и тестирования, вы можете настроить этапы предварительной обработки в соответствии со своими требованиями.
  • Данные тестирования - Вы можете принести свои собственные данные для вывода для тестирования.
  • Убирать – Удалите ресурсы, запущенные записной книжкой, чтобы избежать повторяющихся списаний.

Заключение

В этом посте мы показали, как использовать JumpStart для изучения и ускорения работы с API-интерфейсами Amazon Comprehend, упрощая поиск и запуск блокнотов, связанных с Amazon Comprehend, из Studio, имея при этом возможность изменять код по мере необходимости. В записных книжках используются образцы наборов данных с объявлениями о продуктах AWS и примерами новостных статей. Вы можете использовать эту записную книжку, чтобы узнать, как использовать API Amazon Comprehend в записной книжке Python, или вы можете использовать ее в качестве отправной точки и расширить код для своих уникальных требований и производственных развертываний.

Вы можете начать использовать JumpStart и пользоваться преимуществами более 40 блокнотов по различным темам во всех регионах, где доступна Studio, без дополнительной платы.


Об авторах

Автор - Лана ЧжанЛана Чжан является старшим архитектором решений в команде AWS WWSO AI Services с опытом в области искусственного интеллекта и машинного обучения для модерации и распознавания контента. Она увлечена продвижением сервисов AWS AI и помогает клиентам трансформировать их бизнес-решения.

Автор - Минакшисундарам ТандавараянМинакшисундарам Тандавараян является старшим специалистом по AI/ML в AWS. Он помогает высокотехнологичным стратегическим клиентам в их путешествии по искусственному интеллекту и машинному обучению. Он очень увлечен ИИ, управляемым данными.

Автор - Рахна ЧадхаРахна Чадха является главным архитектором решений AI/ML в области стратегических счетов в AWS. Рахна — оптимистка, считающая, что этичное и ответственное использование ИИ может улучшить общество в будущем и принести экономическое и социальное процветание. В свободное время Рахна любит проводить время со своей семьей, ходить в походы и слушать музыку.

Отметка времени:

Больше от Машинное обучение AWS