Пошук інформації у сховищі текстових документів довільної форми схожий на пошук голки в стозі сіна. Традиційним підходом може бути використання підрахунку слів або іншого базового аналізу для аналізу документів, але за допомогою потужності Amazon AI та інструментів машинного навчання (ML) ми можемо глибше зрозуміти вміст.
«Амазонка» – це повністю керована служба, яка використовує обробку природної мови (NLP) для отримання інформації про вміст документів. Amazon Comprehend створює аналітику, розпізнаючи сутності, ключові фрази, настрої, теми та спеціальні елементи в документі. Amazon Comprehend може створювати нові ідеї на основі розуміння структури документа та зв’язків сутностей. Наприклад, за допомогою Amazon Comprehend ви можете сканувати все сховище документів на пошук ключових фраз.
Amazon Comprehend дозволяє фахівцям, які не займаються машинобудуванням, легко виконувати завдання, які зазвичай займають години часу. Amazon Comprehend позбавляє від значної частини часу, необхідного для очищення, створення та навчання вашої власної моделі. Для побудови глибших користувацьких моделей у НЛП чи будь-якому іншому домені, Amazon SageMaker дає змогу створювати, навчати та розгортати моделі в набагато більш традиційному робочому процесі ML, якщо це потрібно.
У цій публікації ми використовуємо Amazon Comprehend та інші служби AWS для аналізу та отримання нових ідей із сховища документів. Потім використовуємо Amazon QuickSight створити просту, але потужну візуальну хмару слів, щоб легко виявляти теми чи тенденції.
Огляд рішення
Наступна діаграма ілюструє архітектуру рішення.
Для початку ми збираємо дані для аналізу та завантажуємо їх у файл Служба простого зберігання Amazon (Amazon S3) в обліковому записі AWS. У цьому прикладі ми використовуємо текстові файли. Потім дані аналізуються Amazon Comprehend. Amazon Comprehend створює вихідні дані у форматі JSON, які потрібно трансформувати та обробити у формат бази даних за допомогою Клей AWS. Ми перевіряємо дані та витягуємо певні форматовані таблиці даних за допомогою Амазонка Афіна для аналізу QuickSight за допомогою хмари слів. Додаткову інформацію про візуалізацію див Візуалізація даних в Amazon QuickSight.
Передумови
Для цього покрокового керівництва ви повинні мати такі передумови:
Завантажте дані в сегмент S3
Завантажте свої дані в сегмент S3. Для цієї публікації ми використовуємо текст Конституції США у форматі UTF-8 як вхідний файл. Тоді ви готові аналізувати дані та створювати візуалізації.
Аналізуйте дані за допомогою Amazon Comprehend
За допомогою Amazon Comprehend можна обробити багато типів текстової та графічної інформації. Крім текстових файлів можна використовувати Amazon Comprehend для одноетапної класифікації та розпізнавання об’єктів щоб приймати файли зображень, PDF-файли та файли Microsoft Word як вхідні дані, які не обговорюються в цій публікації.
Щоб проаналізувати свої дані, виконайте такі кроки:
- На консолі Amazon Comprehend виберіть Роботи з аналізу у навігаційній панелі.
- Вибирати Створити завдання аналізу.
- Введіть назву своєї роботи.
- для Тип аналізувиберіть Ключові фрази.
- для Language¸ вибрати англійська.
- для Розташування вхідних даних, вкажіть створену вами папку як попередню умову.
- для Розташування вихідних даних, вкажіть створену вами папку як попередню умову.
- Вибирати Створіть роль IAM.
- Введіть суфікс для імені ролі.
- Вибирати Створити роботу.
Завдання буде виконано, а статус буде відображено на Роботи з аналізу стр.
Дочекайтеся завершення аналізу. Amazon Comprehend створить файл і розмістить його у наданій вами папці вихідних даних. Файл має формат .gz або GZIP.
Цей файл потрібно завантажити та конвертувати в нестиснутий формат. Ви можете завантажити об’єкт із папки даних або сегмента S3 за допомогою консолі Amazon S3.
- На консолі Amazon S3 виберіть об’єкт і виберіть Завантажити. Якщо ви хочете завантажити об’єкт у певну папку, виберіть Завантажити на Дії меню.
- Завантаживши файл на локальний комп’ютер, відкрийте заархівований файл і збережіть його як нестиснутий файл.
Перш ніж сканер AWS Glue зможе обробити його, нестиснений файл має бути завантажений у вихідну папку. У цьому прикладі ми завантажуємо нестиснений файл у ту саму вихідну папку, яку використовуємо на наступних кроках.
- На консолі Amazon S3 перейдіть до свого сегмента S3 і виберіть Завантажувати.
- Вибирати Додати файли.
- Виберіть нестиснуті файли з локального комп’ютера.
- Вибирати Завантажувати.
Після завантаження файлу видаліть оригінальний заархівований файл.
- На консолі Amazon S3 виберіть відро та виберіть видаляти.
- Щоб остаточно видалити файл, підтвердьте ім’я файлу, ввівши ім’я файлу в текстове поле.
- Вибирати Видалити об’єкти.
Це залишить один файл у вихідній папці: нестиснутий файл.
Перетворіть дані JSON у формат таблиці за допомогою AWS Glue
На цьому кроці ви готуєте вихідні дані Amazon Comprehend для використання в Athena. Результат Amazon Comprehend має формат JSON. Ви можете використовувати AWS Glue, щоб перетворити JSON на структуру бази даних, яка зрештою може бути прочитана QuickSight.
- На консолі AWS Glue виберіть Гусениці у навігаційній панелі.
- Вибирати Створити сканер.
- Введіть назву для свого сканера.
- Вибирати МАЙБУТНІ.
- для Чи ваші дані вже зіставлено в таблиці Glue?виберіть Ще ні.
- Додайте джерело даних.
- для Шлях S3, введіть розташування папки вихідних даних Amazon Comprehend.
Обов’язково додайте кінцівку /
до імені шляху. AWS Glue шукатиме шлях до папки для всіх файлів.
- Select Сканувати всі вкладені папки.
- Вибирати Додайте джерело даних S3.
- Створіть новий Управління ідентифікацією та доступом AWS (IAM) для сканера.
- Введіть назву для ролі IAM.
- Вибирати Оновіть вибрану роль IAM щоб переконатися, що нову роль призначено сканеру.
- Вибирати МАЙБУТНІ для введення вихідної інформації (бази даних).
- Вибирати Додати базу даних.
- Введіть назву бази даних.
- Вибирати МАЙБУТНІ.
- Вибирати Створити сканер.
- Вибирати Запустити сканер щоб запустити сканер.
Ви можете відстежувати стан сканера на консолі AWS Glue.
Використовуйте Athena для підготовки таблиць для QuickSight
Athena витягне дані з таблиць бази даних, створених сканером AWS Glue, щоб забезпечити формат, який QuickSight використовуватиме для створення хмари слів.
- На консолі Athena виберіть Запит-редактор у навігаційній панелі.
- для Джерело данихвиберіть AwsDataCatalog.
- для Database, виберіть базу даних, створену сканером.
Щоб створити таблицю, сумісну з QuickSight, дані мають бути не вкладені в масиви.
- Першим кроком є створення тимчасової бази даних із відповідними даними Amazon Comprehend:
- Наступне твердження обмежує фрази щонайменше з трьох слів і груп за частотою фраз:
Використовуйте QuickSight для візуалізації вихідних даних
Нарешті, ви можете створити візуальний результат аналізу.
- На консолі QuickSight виберіть Новий аналіз.
- Вибирати Новий набір даних.
- для Створіть набір данихвиберіть З нових джерел даних.
- Вибирати Афіна як джерело даних.
- Введіть назву джерела даних і виберіть Створити джерело даних.
- Вибирати Візуалізувати.
Переконайтеся, що QuickSight має доступ до відер S3, де зберігаються таблиці Athena.
- На консолі QuickSight виберіть піктограму профілю користувача та виберіть Керуйте QuickSight.
- Вибирати Безпека та дозволи.
- Шукайте розділ Доступ QuickSight до служб AWS.
Налаштувавши доступ до служб AWS, QuickSight може отримати доступ до даних у цих службах. Доступ користувачів і груп можна контролювати за допомогою параметрів.
- Переконайтеся, що Amazon S3 надано доступ.
Тепер ви можете створити хмару слів.
- Виберіть хмару слова під Візуальні види.
- Перетягніть текст до Групувати за і порахуйте до Розмір.
Виберіть меню параметрів (три крапки) у візуалізації, щоб отримати доступ до параметрів редагування. Наприклад, ви можете приховати термін «інше» від дисплея. Ви також можете редагувати такі елементи, як заголовок і підзаголовок для вашого візуального зображення. Щоб завантажити хмару слів у форматі PDF, виберіть Завантажити на панелі інструментів QuickSight.
Прибирати
Щоб уникнути поточних платежів, видаліть будь-які невикористані дані та процеси чи ресурси, надані на їхній відповідній консолі обслуговування.
Висновок
Amazon Comprehend використовує NLP для отримання інформації про вміст документів. Він розвиває ідеї, розпізнаючи сутності, ключові фрази, мову, настрої та інші загальні елементи в документі. Ви можете використовувати Amazon Comprehend для створення нових продуктів на основі розуміння структури документів. Наприклад, за допомогою Amazon Comprehend ви можете сканувати все сховище документів на пошук ключових фраз.
У цій публікації описано кроки для створення хмари слів для візуалізації аналізу текстового вмісту від Amazon Comprehend за допомогою інструментів AWS і QuickSight для візуалізації даних.
Давайте залишатися на зв’язку через розділ коментарів!
Про авторів
Кріс Гедман є лідером продажів на Сході США для Retail & CPG Amazon Web Services. Коли він не працює, він любить проводити час зі своїми друзями та родиною, особливо влітку на Кейп-Коді. Кріс тимчасово залишився воїн-ніндзя, але наразі він любить спостерігати за своїми двома синами та тренувати їх.
Кларк Лефавор є керівником архітектора рішень у Amazon Web Services, який підтримує корпоративних клієнтів у східному регіоні. Кларк живе в Новій Англії і любить проводити час, створюючи рецепти на кухні.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. Автомобільні / електромобілі, вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- ChartPrime. Розвивайте свою торгову гру за допомогою ChartPrime. Доступ тут.
- BlockOffsets. Модернізація екологічної компенсаційної власності. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- : має
- :є
- : ні
- :де
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- МЕНЮ
- Прийняти
- доступ
- рахунки
- додавати
- доповнення
- AI
- ВСІ
- вже
- Також
- Amazon
- «Амазонка»
- Amazon QuickSight
- Amazon Web Services
- an
- аналіз
- аналізувати
- проаналізовані
- та
- будь-який
- підхід
- архітектура
- ЕСТЬ
- AS
- призначений
- At
- уникнути
- AWS
- Клей AWS
- заснований
- основний
- BE
- перед тим
- починати
- Box
- будувати
- Створюємо
- але
- by
- CAN
- вантажі
- Вибирати
- вибраний
- класифікація
- хмара
- тренування
- коментарі
- загальний
- сумісний
- повний
- осягнути
- комп'ютер
- Консоль
- Конституція
- зміст
- контроль
- звичайний
- конвертувати
- перероблений
- підрахунок
- cpg
- гусеничний
- створювати
- створений
- створює
- Перетинати
- виготовлений на замовлення
- Клієнти
- дані
- Database
- глибше
- розгортання
- описаний
- бажаний
- розвивається
- обговорювалися
- дисплей
- displayed
- do
- документ
- документація
- домен
- скачати
- легко
- Схід
- елементи
- Усуває
- дозволяє
- England
- Що натомість? Створіть віртуальну версію себе у
- вхід
- підприємство
- Весь
- юридичні особи
- суб'єкта
- особливо
- приклад
- experts
- витяг
- сім'я
- філе
- Файли
- виявлення
- Перший
- після
- для
- формат
- частота
- друзі
- від
- повністю
- збирати
- породжувати
- надається
- Group
- Групи
- Мати
- he
- приховувати
- його
- ГОДИННИК
- HTML
- HTTP
- HTTPS
- ICON
- Особистість
- if
- ілюструє
- зображення
- in
- інформація
- вхід
- розуміння
- в
- IT
- пунктів
- робота
- приєднатися
- JPG
- json
- ключ
- мова
- пізніше
- лідер
- вивчення
- найменш
- Залишати
- дозволяє
- як
- рамки
- загрузка
- місцевий
- розташування
- любить
- машина
- навчання за допомогою машини
- вдалося
- багато
- Меню
- Microsoft
- може бути
- ML
- модель
- Моделі
- монітор
- більше
- багато
- повинен
- ім'я
- Природний
- Обробка природних мов
- Переміщення
- навігація
- необхідний
- потреби
- Нові
- нові продукти
- ніндзя
- nlp
- нормально
- зараз
- об'єкт
- of
- on
- ONE
- постійний
- відкрити
- Опції
- or
- порядок
- оригінал
- Інше
- вихід
- власний
- сторінка
- pane
- шлях
- постійно
- фрази
- місце
- plato
- Інформація про дані Платона
- PlatoData
- пошта
- влада
- потужний
- Готувати
- передумови
- процес
- Оброблено
- процеси
- обробка
- Продукти
- профіль
- забезпечувати
- за умови
- Читати
- готовий
- визнаючи
- послатися
- регіон
- Відносини
- доречний
- решті
- Сховище
- ресурси
- ті
- роздрібна торгівля
- Роль
- прогін
- продажів
- то ж
- зберегти
- сканування
- рахунок
- Пошук
- розділ
- настрій
- почуття
- обслуговування
- Послуги
- Повинен
- простий
- рішення
- Рішення
- Source
- конкретний
- Витрати
- Spot
- Заява
- Статус
- залишатися
- Крок
- заходи
- зберігання
- зберігати
- структура
- такі
- Підтримуючий
- Переконайтеся
- таблиця
- Приймати
- завдання
- тимчасовий
- термін
- текст
- Що
- Команда
- їх
- Теми
- потім
- це
- ті
- три
- через
- час
- назва
- до
- інструменти
- торкатися
- традиційний
- Трейлінг
- поїзд
- перетворений
- Тенденції
- два
- Типи
- Зрештою
- при
- розуміння
- невикористаний
- завантажено
- us
- використання
- використовуваний
- користувач
- користувачі
- використовує
- використання
- перевірити
- через
- візуалізації
- візуалізувати
- покрокове керівництво
- хотіти
- спостереження
- we
- Web
- веб-сервіси
- коли
- який
- волі
- з
- слово
- слова
- робочий
- робочий
- ще
- Ти
- вашу
- зефірнет