Поиск информации в репозитории текстовых документов произвольной формы может быть похож на поиск иголки в стоге сена. Традиционным подходом может быть использование подсчета слов или другого базового анализа для анализа документов, но благодаря возможностям Amazon AI и инструментам машинного обучения (ML) мы можем получить более глубокое понимание контента.
Amazon Comprehend — это полностью управляемый сервис, который использует обработку естественного языка (NLP) для извлечения информации о содержании документов. Amazon Comprehend формирует ценную информацию, распознавая сущности, ключевые фразы, тональность, темы и пользовательские элементы в документе. Amazon Comprehend может создавать новые аналитические данные, основанные на понимании структуры документа и взаимоотношений сущностей. Например, с помощью Amazon Comprehend вы можете сканировать весь репозиторий документов на наличие ключевых фраз.
Amazon Comprehend позволяет специалистам, не связанным с машинным обучением, легко выполнять задачи, которые обычно занимают часы времени. Amazon Comprehend экономит большую часть времени, необходимого для очистки, построения и обучения вашей собственной модели. Для создания более глубоких пользовательских моделей в НЛП или любой другой области: Создатель мудреца Амазонки позволяет вам создавать, обучать и развертывать модели в гораздо более традиционном рабочем процессе машинного обучения, если это необходимо.
В этой статье мы используем Amazon Comprehend и другие сервисы AWS для анализа и извлечения новой информации из репозитория документов. Затем мы используем Amazon QuickSight создать простое, но мощное визуальное облако слов, позволяющее легко определять темы и тенденции.
Обзор решения
Следующая диаграмма иллюстрирует архитектуру решения.
Для начала мы собираем данные для анализа и загружаем их в файл. Простой сервис хранения Amazon (Amazon S3) в аккаунте AWS. В этом примере мы используем файлы в текстовом формате. Затем данные анализируются Amazon Comprehend. Amazon Comprehend создает выходные данные в формате JSON, которые необходимо преобразовать и обработать в формат базы данных с помощью Клей AWS. Мы проверяем данные и извлекаем определенные таблицы форматированных данных, используя Амазонка Афина для анализа QuickSight с использованием облака слов. Дополнительную информацию о визуализациях см. Визуализация данных в Amazon QuickSight.
Предпосылки
Для этого прохождения у вас должны быть следующие предпосылки:
Загрузить данные в корзину S3
Загрузите свои данные в корзину S3. В этом посте мы используем текст Конституции США в формате UTF-8 в качестве входного файла. После этого вы готовы анализировать данные и создавать визуализации.
Анализируйте данные с помощью Amazon Comprehend
Существует множество типов текстовой и графической информации, которую можно обрабатывать с помощью Amazon Comprehend. Помимо текстовых файлов, вы можете использовать Amazon Comprehend для одноэтапной классификации и распознавания объектов чтобы принимать в качестве входных файлов файлы изображений, файлы PDF и файлы Microsoft Word, которые не обсуждаются в этом посте.
Чтобы проанализировать данные, выполните следующие действия:
- На консоли Amazon Comprehend выберите Работа по анализу в навигационной панели.
- Выберите Создать аналитическое задание.
- Введите название для своей работы.
- Что касается Тип анализа, выберите Ключевые слова.
- Что касается Языквыберите Английский.
- Что касается Расположение входных данных, укажите созданную вами папку в качестве предварительного условия.
- Что касается Расположение выходных данных, укажите созданную вами папку в качестве предварительного условия.
- Выберите Создать роль IAM.
- Введите суффикс к имени роли.
- Выберите Создать работу.
Задание будет запущено, и его статус отобразится на Работа по анализу стр.
Подождите, пока задание анализа завершится. Amazon Comprehend создаст файл и поместит его в указанную вами папку выходных данных. Файл имеет формат .gz или GZIP.
Этот файл необходимо скачать и преобразовать в несжатый формат. Вы можете загрузить объект из папки данных или корзины S3 с помощью консоли Amazon S3.
- На консоли Amazon S3 выберите объект и выберите Скачать. Если вы хотите загрузить объект в определенную папку, выберите Скачать на Действия .
- После загрузки файла на локальный компьютер откройте заархивированный файл и сохраните его как несжатый файл.
Несжатый файл необходимо загрузить в выходную папку, прежде чем сканер AWS Glue сможет его обработать. В этом примере мы загружаем несжатый файл в ту же выходную папку, которую будем использовать на последующих шагах.
- На консоли Amazon S3 перейдите к корзине S3 и выберите Загрузите.
- Выберите Добавить файлы.
- Выберите несжатые файлы с вашего локального компьютера.
- Выберите Загрузите.
После загрузки файла удалите исходный заархивированный файл.
- На консоли Amazon S3 выберите корзину и выберите Удалить.
- Подтвердите имя файла, чтобы окончательно удалить его, введя имя файла в текстовое поле.
- Выберите Удалить объекты.
В выходной папке останется один файл: несжатый файл.
Преобразование данных JSON в формат таблицы с помощью AWS Glue
На этом этапе вы подготавливаете выходные данные Amazon Comprehend для использования в качестве входных данных в Athena. Выходные данные Amazon Comprehend имеют формат JSON. Вы можете использовать AWS Glue для преобразования JSON в структуру базы данных, которая в конечном итоге будет прочитана QuickSight.
- На консоли AWS Glue выберите ползунки в навигационной панели.
- Выберите Создать сканер.
- Введите имя для своего сканера.
- Выберите Следующая.
- Что касается Ваши данные уже сопоставлены с таблицами Glue?, наведите на Не.
- Добавьте источник данных.
- Что касается путь S3, введите местоположение папки выходных данных Amazon Comprehend.
Обязательно добавьте завершающий /
к имени пути. AWS Glue выполнит поиск всех файлов по пути к папке.
- Выберите Просканировать все подпапки.
- Выберите Добавьте источник данных S3.
- Создать новый Управление идентификацией и доступом AWS (IAM) роль для сканера.
- Введите имя роли IAM.
- Выберите Обновить выбранную роль IAM чтобы убедиться, что новая роль назначена сканеру.
- Выберите Следующая для ввода выходной информации (базы данных).
- Выберите Добавить базу данных.
- Введите имя базы данных.
- Выберите Следующая.
- Выберите Создать сканер.
- Выберите Запустить краулер для запуска сканера.
Статус сканера можно отслеживать в консоли AWS Glue.
Используйте Athena для подготовки таблиц для QuickSight.
Athena извлечет данные из таблиц базы данных, созданных сканером AWS Glue, чтобы предоставить формат, который QuickSight будет использовать для создания облака слов.
- На консоли Athena выберите Редактор запросов в навигационной панели.
- Что касается Источник данных, выберите Каталог данных AwsData.
- Что касается База данных, выберите базу данных, созданную искателем.
Чтобы создать таблицу, совместимую с QuickSight, данные должны быть отделены от массивов.
- Первым шагом является создание временной базы данных с соответствующими данными Amazon Comprehend:
- Следующее утверждение ограничивается фразами, состоящими как минимум из трех слов и групп по частоте фраз:
Используйте QuickSight для визуализации вывода
Наконец, вы можете создать визуальный результат анализа.
- На консоли QuickSight выберите Новый анализ.
- Выберите Новый набор данных.
- Что касается Создать набор данных, выберите Из новых источников данных.
- Выберите Афина в качестве источника данных.
- Введите имя источника данных и выберите Создать источник данных.
- Выберите Визуализируйте.
Убедитесь, что QuickSight имеет доступ к сегментам S3, в которых хранятся таблицы Athena.
- В консоли QuickSight выберите значок профиля пользователя и выберите Управление QuickSight.
- Выберите Безопасность и разрешения.
- Ищите раздел Доступ QuickSight к сервисам AWS.
Настроив доступ к сервисам AWS, QuickSight может получить доступ к данным в этих сервисах. Доступ пользователей и групп можно контролировать с помощью опций.
- Убедитесь, что Amazon S3 предоставлен доступ.
Теперь вы можете создать облако слов.
- Выберите облако слов под Визуальные типы.
- Перетащите текст в Группа по и считать до Размер.
Выберите меню параметров (три точки) в визуализации, чтобы получить доступ к параметрам редактирования. Например, вы можете захотеть скрыть от отображения термин «другое». Вы также можете редактировать такие элементы, как заголовок и подзаголовок вашего визуального элемента. Чтобы загрузить облако слов в формате PDF, выберите Скачать на панели инструментов QuickSight.
Убирать
Чтобы избежать текущих расходов, удалите все неиспользуемые данные, процессы или ресурсы, предоставленные на соответствующей сервисной консоли.
Заключение
Amazon Comprehend использует NLP для получения информации о содержании документов. Он развивает понимание, распознавая сущности, ключевые фразы, язык, настроения и другие общие элементы в документе. Вы можете использовать Amazon Comprehend для создания новых продуктов на основе понимания структуры документов. Например, с помощью Amazon Comprehend вы можете сканировать весь репозиторий документов на наличие ключевых фраз.
В этом посте описаны шаги по созданию облака слов для визуализации анализа текстового контента из Amazon Comprehend с использованием инструментов AWS и QuickSight для визуализации данных.
Давайте оставаться на связи через раздел комментариев!
Об авторах
Крис Гедман является лидером продаж в сфере розничной торговли и потребительских товаров на востоке США в Amazon Web Services. Когда он не работает, он любит проводить время со своими друзьями и семьей, особенно летом на Кейп-Коде. Крис — временно вышедший на пенсию воин-ниндзя, но сейчас ему нравится наблюдать за своими двумя сыновьями и тренировать их.
Кларк Лефавур является руководителем архитектора решений в Amazon Web Services, занимающегося поддержкой корпоративных клиентов в восточном регионе. Кларк живет в Новой Англии и любит проводить время, создавая рецепты на кухне.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- ЧартПрайм. Улучшите свою торговую игру с ChartPrime. Доступ здесь.
- Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :имеет
- :является
- :нет
- :куда
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- О нас
- Принять
- доступ
- Учетная запись
- Добавить
- дополнение
- AI
- Все
- уже
- причислены
- Amazon
- Amazon Comprehend
- Amazon QuickSight
- Amazon Web Services
- an
- анализ
- анализировать
- проанализированы
- и
- любой
- подхода
- архитектура
- МЫ
- AS
- назначенный
- At
- избежать
- AWS
- Клей AWS
- основанный
- основной
- BE
- до
- начинать
- Коробка
- строить
- Строительство
- но
- by
- CAN
- расходы
- Выберите
- выбранный
- классификация
- облако
- тренировка
- Комментарии
- Общий
- совместим
- полный
- постигать
- компьютер
- Консоли
- Конституция
- содержание
- контроль
- обычный
- конвертировать
- переделанный
- подсчет
- CpG
- гусеничный
- Создайте
- создали
- создает
- Пересекать
- изготовленный на заказ
- Клиенты
- данным
- База данных
- более глубокий
- развертывание
- описано
- желанный
- развивается
- обсуждается
- Дисплей
- отображается
- do
- документ
- Документация
- домен
- скачать
- легко
- восток
- элементы
- ликвидирует
- позволяет
- Англия
- Enter
- входящий
- Предприятие
- Весь
- лиц
- организация
- особенно
- пример
- эксперты
- извлечение
- семья
- Файл
- Файлы
- обнаружение
- Во-первых,
- после
- Что касается
- формат
- частота
- друзья
- от
- полностью
- собирать
- порождать
- предоставленный
- группы
- Группы
- Есть
- he
- Спрятать
- его
- ЧАСЫ
- HTML
- HTTP
- HTTPS
- ICON
- Личность
- if
- иллюстрирует
- изображение
- in
- информация
- вход
- размышления
- в
- IT
- пункты
- работа
- присоединиться
- JPG
- JSON
- Основные
- язык
- новее
- лидер
- изучение
- наименее
- Оставлять
- Lets
- такое как
- рамки
- загрузка
- локальным
- расположение
- любит
- машина
- обучение с помощью машины
- управляемого
- многих
- Меню
- Microsoft
- может быть
- ML
- модель
- Модели
- монитор
- БОЛЕЕ
- много
- должен
- имя
- натуральный
- Обработка естественного языка
- Откройте
- Навигация
- необходимый
- потребности
- Новые
- новые продукты
- ниндзя
- НЛП
- нормально
- сейчас
- объект
- of
- on
- ONE
- постоянный
- открытый
- Опции
- or
- заказ
- оригинал
- Другое
- выходной
- собственный
- страница
- хлеб
- путь
- постоянно
- фразы
- Часть
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- После
- мощностью
- мощный
- Подготовить
- предпосылки
- процесс
- Обработанный
- Процессы
- обработка
- Продукция
- Профиль
- обеспечивать
- при условии
- Читать
- готовый
- признавая
- относиться
- область
- Отношения
- соответствующие
- осталось
- хранилище
- Полезные ресурсы
- те
- розничный
- Роли
- Run
- главная
- то же
- Сохранить
- сканирование
- Гол
- Поиск
- Раздел
- настроение
- чувства
- обслуживание
- Услуги
- должен
- просто
- Решение
- Решения
- Источник
- конкретный
- Расходы
- Спотовая торговля
- заявление
- Статус:
- оставаться
- Шаг
- Шаги
- диск
- хранить
- Структура
- такие
- поддержки
- Убедитесь
- ТАБЛИЦЫ
- взять
- задачи
- временный
- срок
- текст
- который
- Ассоциация
- их
- темы
- тогда
- этой
- те
- три
- Через
- время
- Название
- в
- инструменты
- трогать
- традиционный
- Трейлинг
- Train
- преобразован
- Тенденции
- два
- Типы
- В конечном счете
- под
- понимание
- неиспользованный
- загружено
- us
- использование
- используемый
- Информация о пользователе
- пользователей
- использования
- через
- проверить
- с помощью
- визуализация
- визуализации
- прохождение
- хотеть
- наблюдение
- we
- Web
- веб-сервисы
- когда
- который
- будете
- Word
- слова
- рабочий
- работает
- еще
- Ты
- ВАШЕ
- зефирнет