使用 Amazon SageMaker Canvas 无需编写任何代码即可使用机器学习 | 亚马逊网络服务

使用 Amazon SageMaker Canvas 无需编写任何代码即可使用机器学习 | 亚马逊网络服务

最近,使用机器学习 (ML) 进行预测,尤其是文本和图像形式的数据,需要大量的 ML 知识来创建和调整深度学习模型。 如今,任何想要使用 ML 模型来产生业务价值的用户都可以更轻松地使用 ML。 和 亚马逊 SageMaker 画布,您可以为表格或时间序列数据之外的多种不同数据类型创建预测,而无需编写任何代码。 这些功能包括针对图像、文本和文档数据类型的预训练模型。

在这篇文章中,我们讨论如何使用预训练模型来检索表格数据之外支持的数据类型的预测。

文字数据

SageMaker Canvas 提供了用于构建、训练和部署 ML 模型的可视化无代码环境。 对于自然语言处理 (NLP) 任务,SageMaker Canvas 与 亚马逊领悟 允许您执行关键的 NLP 功能,如语言检测、实体识别、情感分析、主题建模等。 该集成无需任何编码或数据工程即可使用 Amazon Comprehend 强大的 NLP 模型。 您只需提供文本数据并从四种常用功能中进行选择:情感分析、语言检测、实体提取和个人信息检测。 对于每个场景,您可以使用 UI 进行测试并使用批量预测来选择存储在 亚马逊简单存储服务 (亚马逊S3)。

分析 SageMaker Canvas 上的文本数据

情绪分析

通过情绪分析,SageMaker Canvas 允许您分析输入文本的情绪。 它可以确定整体情绪是积极的、消极的、混合的还是中性的,如下面的屏幕截图所示。 这在分析产品评论等情况下很有用。 例如,文本“我喜欢这个产品,太棒了!” 会被 SageMaker Canvas 归类为具有积极情绪,而“这个产品太糟糕了,我后悔买了它”会被标记为消极情绪。

SageMaker Canvas 上的情绪分析

实体提取

SageMaker Canvas 可以分析文本并自动检测其中提到的实体。 当文档发送到 SageMaker Canvas 进行分析时,它将识别文本中的人员、组织、位置、日期、数量和其他实体。 此实体提取功能使您能够快速深入了解文档中讨论的关键人物、地点和详细信息。 有关受支持实体的列表,请参阅 实体.

SageMaker Canvas 上的实体提取

语言检测

SageMaker Canvas 还可以使用 Amazon Comprehend 确定文本的主要语言。 它分析文本以识别主要语言,并提供检测到的主导语言的置信度分数,但不指示多语言文档的百分比细分。 为了获得多种语言的长文档的最佳效果,请将文本分成较小的部分并汇总结果以估计语言百分比。 它对于至少 20 个字符的文本效果最佳。

SageMaker Canvas 上的语言检测

个人信息检测

您还可以使用 SageMaker Canvas 进行个人信息检测来保护敏感数据。 它可以分析文本文档以自动检测个人身份信息 (PII) 实体,使您能够定位姓名、地址、出生日期、电话号码、电子邮件地址等敏感数据。 它可以分析高达 100 KB 的文档,并为每个检测到的实体提供置信度分数,以便您可以查看并有选择地编辑最敏感的信息。 有关检测到的实体列表,请参阅 检测 PII 实体.

SageMaker Canvas 上的 PII 检测

图像数据

SageMaker Canvas 提供了一个可视化的无代码界面,使您可以通过集成来轻松使用计算机视觉功能 亚马逊重新认识 用于图像分析。 例如,您可以上传图像数据集,使用 Amazon Rekognition 检测对象和场景,并执行文本检测来解决各种用例。 可视化界面和 Amazon Rekognition 集成使非开发人员能够利用先进的计算机视觉技术。

分析 SageMaker Canvas 上的图像数据

图像中的物体检测

SageMaker Canvas 使用 Amazon Rekognition 检测图像中的标签(对象)。 您可以从 SageMaker Canvas UI 上传图像或使用 批量预测 选项卡以选择存储在 S3 存储桶中的图像。 如下例所示,它可以提取图像中的物体,例如钟楼、公共汽车、建筑物等。 您可以使用该界面搜索预测结果并对它们进行排序。

SageMaker Canvas 上图像中的对象检测

图像中的文本检测

从图像中提取文本是一个非常常见的用例。 现在,您可以在 SageMaker Canvas 上轻松执行此任务,无需任何代码。 文本被提取为行项目,如以下屏幕截图所示。 图像内的短语被分类在一起并被识别为短语。

SageMaker Canvas 上图像中的文本检测

您可以通过上传一组图像来执行批量预测,在单个批处理作业中提取所有图像,并将结果下载为 CSV 文件。 当您想要提取和检测图像中的文本时,此解决方案非常有用。

文件资料

SageMaker Canvas 提供各种即用型解决方案,可满足您的日常文档理解需求。 这些解决方案由 亚马逊Textract。 要查看文档的所有可用选项,请选择 即用型 在导航窗格中并按以下条件过滤 文件,如以下屏幕截图所示。

分析 SageMaker Canvas 上的文档数据

文档分析

文档分析分析文档和表单中检测到的文本之间的关系。 这些操作返回四类文档提取:原始文本、表单、表格和签名。 该解决方案能够理解文档结构,使您能够更加灵活地选择要从文档中提取的数据类型。 以下屏幕截图是表检测的示例。

SageMaker Canvas 上的文档分析

该解决方案能够理解复杂文档的布局,这在您需要提取文档中的特定信息时非常有用。

身份证明文件分析

该解决方案旨在分析个人身份证、驾驶执照或其他类似形式的身份证明等文件。 每个身份证明文件都将返回中间名、县和出生地等信息以及其个人准确度置信度得分,如下面的屏幕截图所示。

SageMaker Canvas 上的身份文档分析

有一个选项可以进行批量预测,您可以批量上传多组身份证明文件并将其作为批处理作业进行处理。 这提供了一种快速、无缝的方式,将身份文档详细信息转换为可用于数据分析等下游流程的键值对。

费用分析

费用分析旨在分析发票和收据等费用单据。 以下屏幕截图是提取信息的示例。

SageMaker Canvas 上的费用分析

结果以汇总字段和行项目字段的形式返回。 摘要字段是从文档中提取的键值对,包含以下键: 累计, 截止日期税务。 行项目字段是指文档中结构化为表格的数据。 这对于从文档中提取信息同时保留其布局非常有用。

文档查询

文档查询旨在让您提出有关文档的问题。 当您有多页文档并且您想从文档中提取非常具体的答案时,这是一个很好的解决方案。 以下是您可以提出的问题类型以及提取的答案的示例。

SageMaker Canvas 上的文档查询

该解决方案为您提供了一个简单的界面来与文档进行交互。 当您想要获取大型文档中的特定详细信息时,这非常有用。

结论

SageMaker Canvas 提供了一个无代码环境,可以在文本、图像和文档等各种数据类型上轻松使用机器学习。 可视化界面以及与 Amazon Comprehend、Amazon Rekognition 和 Amazon Textract 等 AWS 服务的集成消除了编码和数据工程的需要。 您可以分析文本的情绪、实体、语言和 PII。 对于图像、对象和文​​本检测,可以实现计算机视觉用例。 最后,文档分析可以提取文本,同时保留其布局以供下游流程使用。 SageMaker Canvas 中的即用型解决方案使您能够利用先进的 ML 技术从结构化和非结构化数据中生成见解。 如果您有兴趣使用带有即用型 ML 模型的无代码工具,请立即尝试 SageMaker Canvas。 欲了解更多信息,请参阅 开始使用 Amazon SageMaker Canvas.


关于作者

使用 Amazon SageMaker Canvas 无需编写任何代码即可使用机器学习 | 亚马逊网络服务柏拉图区块链数据智能。 垂直搜索。 人工智能。朱莉娅·昂 是一位驻新加坡的解决方案架构师。 她与从健康和公共部门到数字原生企业等一系列领域的客户合作,根据他们的业务需求采用解决方案。 她还一直支持东南亚及其他地区的客户在其业务中使用人工智能和机器学习。 工作之余,她喜欢通过旅行和从事创造性的追求来了解世界。

使用 Amazon SageMaker Canvas 无需编写任何代码即可使用机器学习 | 亚马逊网络服务柏拉图区块链数据智能。 垂直搜索。 人工智能。陆俊凯 是新加坡的 AI/ML 专业解决方案架构师。 他与东盟各地的客户合作,在 AWS 中大规模构建机器学习解决方案。 俊凯是低代码无代码机器学习工具的倡导者。 闲暇时,他喜欢与大自然相处。

时间戳记:

更多来自 AWS机器学习