在自由格式文本文档存储库中搜索见解就像大海捞针一样。 传统方法可能是使用字数统计或其他基本分析来解析文档,但借助 Amazon AI 和机器学习 (ML) 工具的强大功能,我们可以更深入地了解内容。
亚马逊领悟 是一项完全托管的服务,它使用自然语言处理 (NLP) 来提取有关文档内容的见解。 Amazon Comprehend 通过识别文档中的实体、关键短语、情绪、主题和自定义元素来开发见解。 Amazon Comprehend 可以基于对文档结构和实体关系的理解来创建新的见解。 例如,使用 Amazon Comprehend,您可以扫描整个文档存储库以查找关键短语。
Amazon Comprehend 可让非机器学习专家轻松完成通常需要数小时时间的任务。 Amazon Comprehend 消除了清理、构建和训练您自己的模型所需的大量时间。 为了在 NLP 或任何其他领域构建更深入的自定义模型, 亚马逊SageMaker 如果需要,您可以使用更传统的 ML 工作流程来构建、训练和部署模型。
在本文中,我们使用 Amazon Comprehend 和其他 AWS 服务来分析文档存储库并提取新的见解。 然后,我们使用 亚马逊QuickSight 生成简单而强大的词云视觉效果,以轻松发现主题或趋势。
解决方案概述
下图说明了解决方案体系结构。
首先,我们收集要分析的数据并将其加载到 亚马逊简单存储服务 AWS 账户中的 (Amazon S3) 存储桶。 在此示例中,我们使用文本格式的文件。 然后,Amazon Comprehend 会分析数据。 Amazon Comprehend 创建 JSON 格式的输出,需要使用以下命令将其转换并处理为数据库格式: AWS胶水。 我们验证数据并使用提取特定格式的数据表 亚马逊雅典娜 使用词云进行 QuickSight 分析。 有关可视化的更多信息,请参阅 在 Amazon QuickSight 中可视化数据.
先决条件
对于本演练,您应该具有以下先决条件:
将数据上传到 S3 存储桶
将您的数据上传到 S3 存储桶。 对于本文,我们使用 UTF-8 格式的美国宪法文本作为输入文件。 然后您就可以分析数据并创建可视化效果。
使用 Amazon Comprehend 分析数据
有许多类型的基于文本和图像的信息可以使用 Amazon Comprehend 进行处理。 除了文本文件之外,您还可以使用 Amazon Comprehend 用于一步分类和实体识别 接受图像文件、PDF 文件和 Microsoft Word 文件作为输入,本文不讨论这些文件。
要分析您的数据,请完成以下步骤:
- 在Amazon Comprehend控制台上,选择 分析职位 在导航窗格中。
- 创建分析工作.
- 输入您的工作名称。
- 针对 分析类型,选择 关键短语.
- 针对 语言¸选择 英语.
- 针对 输入数据位置,指定您创建的文件夹作为先决条件。
- 针对 输出数据位置,指定您创建的文件夹作为先决条件。
- 创建一个IAM角色.
- 输入角色名称的后缀。
- 建立工作.
作业将运行并且状态将显示在 分析职位 页面上发布服务提醒。
等待分析作业完成。 Amazon Comprehend 将创建一个文件并将其放置在您提供的输出数据文件夹中。 该文件为 .gz 或 GZIP 格式。
需要下载该文件并将其转换为非压缩格式。 您可以使用 Amazon S3 控制台从数据文件夹或 S3 存储桶下载对象。
- 在 Amazon S3 控制台上,选择对象并选择 下载。 如果要将对象下载到特定文件夹,请选择 下载 在 行动 菜单。
- 将文件下载到本地计算机后,打开压缩文件并将其另存为未压缩文件。
必须先将未压缩的文件上传到输出文件夹,AWS Glue 爬网程序才能处理该文件。 在此示例中,我们将未压缩的文件上传到我们在后续步骤中使用的同一输出文件夹中。
- 在 Amazon S3 控制台上,导航到您的 S3 存储桶并选择 上传.
- 添加文件.
- 从本地计算机中选择未压缩的文件。
- 上传.
上传文件后,删除原始压缩文件。
- 在 Amazon S3 控制台上,选择存储桶并选择 删除.
- 在文本框中输入文件名,确认文件名以永久删除该文件。
- 删除对象.
这将在输出文件夹中留下一个文件:未压缩的文件。
使用 AWS Glue 将 JSON 数据转换为表格式
在此步骤中,您准备 Amazon Comprehend 输出以用作 Athena 的输入。 Amazon Comprehend 输出采用 JSON 格式。 您可以使用 AWS Glue 将 JSON 转换为数据库结构,最终由 QuickSight 读取。
- 在 AWS Glue 控制台上,选择 爬行 在导航窗格中。
- 创建爬虫.
- 输入您的抓取工具的名称。
- 下一页.
- 针对 您的数据是否已经映射到 Glue 表, 选择 未.
- 添加数据源。
- 针对 S3 路径,输入 Amazon Comprehend 输出数据文件夹的位置。
请务必添加尾随 /
到路径名。 AWS Glue 将搜索所有文件的文件夹路径。
- 选择 抓取所有子文件夹.
- 添加 S3 数据源.
- 创建一个新的 AWS身份和访问管理 爬网程序的 (IAM) 角色。
- 输入 IAM 角色的名称。
- 更新选择的 IAM 角色 确保将新角色分配给爬网程序。
- 下一页 输入输出(数据库)信息。
- 添加数据库.
- 输入数据库名称。
- 下一页.
- 创建爬虫.
- 运行搜寻器 运行爬虫。
您可以在 AWS Glue 控制台上监控爬网程序状态。
使用 Athena 为 QuickSight 准备表
Athena 将从 AWS Glue 爬网程序创建的数据库表中提取数据,以提供 QuickSight 用于创建词云的格式。
- 在Athena控制台上,选择 查询编辑器 在导航窗格中。
- 针对 数据源,选择 AwsData目录.
- 针对 数据库,选择爬虫创建的数据库。
要创建与 QuickSight 兼容的表,必须取消数组中数据的嵌套。
- 第一步是使用相关 Amazon Comprehend 数据创建临时数据库:
- 以下语句将短语限制为至少三个单词和按短语频率分组:
使用 QuickSight 可视化输出
最后,您可以创建分析的可视化输出。
- 在QuickSight控制台上,选择 新的分析.
- 新数据集.
- 针对 创建数据集,选择 来自新的数据源.
- 雅典娜 作为数据源。
- 输入数据源的名称并选择 创建数据源.
- 可视化.
确保 QuickSight 有权访问存储 Athena 表的 S3 存储桶。
- 在 QuickSight 控制台上,选择用户配置文件图标,然后选择 管理QuickSight.
- 安全与权限.
- 寻找栏目 QuickSight对AWS服务的访问.
通过配置对 AWS 服务的访问,QuickSight 可以访问这些服务中的数据。 用户和组的访问可以通过选项进行控制。
- 验证 Amazon S3 是否被授予访问权限。
现在您可以创建词云。
- 选择下面的词云 视觉类型.
- 将文本拖至 通过...分组 并数到 尺寸.
选择可视化中的选项菜单(三个点)以访问编辑选项。 例如,您可能希望在显示中隐藏术语“其他”。 您还可以编辑视觉效果的标题和副标题等项目。 要将词云下载为 PDF,请选择 下载 在 QuickSight 工具栏上。
清理
为了避免产生持续费用,请删除在各自的服务控制台上配置的任何未使用的数据和流程或资源。
结论
Amazon Comprehend 使用 NLP 提取有关文档内容的见解。 它通过识别文档中的实体、关键短语、语言、情感和其他常见元素来形成洞察力。 您可以使用 Amazon Comprehend 在了解文档结构的基础上创建新产品。 例如,使用 Amazon Comprehend,您可以扫描整个文档存储库以查找关键短语。
本文介绍了使用 AWS 工具和 QuickSight 构建词云以可视化 Amazon Comprehend 中的文本内容分析的步骤,以可视化数据。
让我们通过评论部分保持联系!
作者简介
克里斯·格德曼 是 Amazon Web Services 零售和消费品领域的美国东部销售领导者。 不工作时,他喜欢与朋友和家人共度时光,尤其是在科德角度过夏天。 克里斯是一名暂时退休的忍者武士,但他现在喜欢观看和指导他的两个儿子。
克拉克·勒法弗 是 Amazon Web Services 的解决方案架构师领导者,为东部地区的企业客户提供支持。 克拉克住在新英格兰,喜欢花时间在厨房里设计食谱。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 汽车/电动汽车, 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- 图表Prime。 使用 ChartPrime 提升您的交易游戏。 访问这里。
- 块偏移量。 现代化环境抵消所有权。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :具有
- :是
- :不是
- :在哪里
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- 关于
- 接受
- ACCESS
- 账号管理
- 加
- 增加
- AI
- 所有类型
- 已经
- 还
- Amazon
- 亚马逊领悟
- 亚马逊QuickSight
- 亚马逊网络服务
- an
- 分析
- 分析
- 分析
- 和
- 任何
- 的途径
- 架构
- 保健
- AS
- 分配
- At
- 避免
- AWS
- AWS胶水
- 基于
- 基本包
- BE
- before
- 开始
- 盒子
- 建立
- 建筑物
- 但是
- by
- CAN
- 收费
- 选择
- 分类
- 云端技术
- 教练
- 注释
- 相当常见
- 兼容
- 完成
- 理解
- 一台
- 安慰
- 规程
- 内容
- 受控
- 常规
- 兑换
- 转换
- 计数
- CPG
- 履带
- 创建信息图
- 创建
- 创建
- USB和Thunderbolt Cross
- 习俗
- 合作伙伴
- data
- 数据库
- 更深
- 部署
- 描述
- 期望
- 发展
- 讨论
- 屏 显:
- 显示
- do
- 文件
- 文件
- 域
- 下载
- 容易
- 东部
- 分子
- 消除
- 使
- 英国
- 输入
- 进入
- 企业
- 整个
- 实体
- 实体
- 特别
- 例子
- 专家
- 提取
- 家庭
- 文件
- 档
- 寻找
- 姓氏:
- 以下
- 针对
- 格式
- 频率
- 朋友
- 止
- 充分
- 收集
- 生成
- 授予
- 团队
- 组的
- 有
- he
- 隐藏
- 他的
- HOURS
- HTML
- HTTP
- HTTPS
- ICON
- 身分
- if
- 说明
- 图片
- in
- 信息
- 输入
- 可行的洞见
- 成
- IT
- 项目
- 工作
- 加入
- JPG
- JSON
- 键
- 语言
- 后来
- 领导者
- 学习
- 最少
- 离开
- 让
- 喜欢
- 范围
- 加载
- 本地
- 圖書分館的位置
- 爱
- 机
- 机器学习
- 管理
- 许多
- 菜单
- 微软
- 可能
- ML
- 模型
- 模型
- 显示器
- 更多
- 许多
- 必须
- 姓名
- 自然
- 自然语言处理
- 导航
- 旅游导航
- 打印车票
- 需要
- 全新
- 新产品
- 忍者
- NLP
- 通常
- 现在
- 对象
- of
- on
- 一
- 正在进行
- 打开
- 附加选项
- or
- 秩序
- 原版的
- 其他名称
- 产量
- 己
- 页
- 面包
- 径
- 永久
- 短语
- 地方
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 帖子
- 功率
- 强大
- Prepare
- 先决条件
- 过程
- 处理
- 过程
- 处理
- 核心产品
- 本人简介
- 提供
- 提供
- 阅读
- 准备
- 认识
- 参考
- 地区
- 关系
- 相应
- 其余
- 知识库
- 资源
- 那些
- 零售
- 角色
- 运行
- 销售
- 同
- 保存
- 浏览
- 得分了
- 搜索
- 部分
- 情绪
- 情怀
- 服务
- 特色服务
- 应该
- 简易
- 方案,
- 解决方案
- 来源
- 具体的
- 花费
- Spot
- 个人陈述
- Status
- 留
- 步
- 步骤
- 存储
- 存储
- 结构体
- 这样
- 支持
- 肯定
- 表
- 采取
- 任务
- 临时
- 术语
- 文本
- 这
- 其
- 主题
- 然后
- Free Introduction
- 那些
- 三
- 通过
- 次
- 标题
- 至
- 工具
- 触摸
- 传统
- 尾随
- 培训
- 转化
- 趋势
- 二
- 类型
- 最终
- 下
- 理解
- 未使用
- 上传
- us
- 使用
- 用过的
- 用户
- 用户
- 使用
- 运用
- 确认
- 通过
- 可视化
- 想像
- 演练
- 想
- 观看
- we
- 卷筒纸
- Web服务
- ,尤其是
- 这
- 将
- Word
- 话
- 工作流程
- 加工
- 但
- 完全
- 您一站式解决方案
- 和风网