使用 Amazon Transcribe 自动识别多语言音频中的语言

由柏拉图重新发布

关注： 0

如果您在一个使用多种官方语言的国家或跨多个地区运营，您的音频文件可能包含不同的语言。参与者可能会说完全不同的语言，也可能会在不同语言之间切换。考虑一个客户服务电话，以报告在一个拥有大量多语言人口的地区的问题。尽管对话可以以一种语言开始，但客户可能会更改为另一种语言来描述问题，这取决于其他语言的舒适度或使用偏好。同样，客户服务代表在传达操作或故障排除说明时可能会在不同语言之间转换。

至少 3 秒的音频，亚马逊转录可以自动识别并高效生成音频中所说语言的文字记录，无需人工指定语言。这适用于各种用例，例如转录客户电话、将语音邮件转换为文本、捕获会议交互、跟踪用户论坛通信或监控媒体内容制作和本地化工作流程。

这篇博文介绍了使用 Amazon Transcribe 转录多语言音频文件的步骤。我们讨论了如何使音频文件可供 Amazon Transcribe 使用，以及如何在调用 Amazon Transcribe API 时启用多语言音频文件的转录。

解决方案概述

Amazon Transcribe 是一项 AWS 服务，可让您轻松地将语音转换为文本。借助自动语音识别 (ASR) 服务 Amazon Transcribe，将语音转文本功能添加到任何应用程序都很简单。您可以使用 Amazon Transcribe 提取音频输入，创建易于阅读和审阅的清晰转录本，通过自定义提高准确性，并过滤信息以保护客户隐私。

该解决方案还使用亚马逊简单存储服务 (Amazon S3)，一种对象存储服务，用于从任何地方存储和检索任意数量的数据。它是一种简单的存储服务，以极低的成本提供行业领先的耐用性、可用性、性能、安全性和几乎无限的可扩展性。当您将数据存储在 Amazon S3 中时，您使用的资源称为桶和对象. 桶是对象的容器。对象是一个文件和描述该文件的任何元数据。

在本文中，我们将引导您完成以下步骤来实施多语言音频转录解决方案：

创建一个S3存储桶。
将您的音频文件上传到存储桶。
创建转录作业。
查看作业输出。

先决条件

对于本演练，您应该具有以下先决条件：

Amazon Transcribe 提供了将转录输出存储在服务管理或客户管理的 S3 存储桶中的选项。对于这篇博文，我们让 Amazon Transcribe 将结果写入服务管理的 S3 存储桶。

请注意，Amazon Transcribe 是一项区域服务，被调用的 Amazon Transcribe API 终端节点需要与 S3 存储桶位于同一区域。

创建一个 S3 存储桶来存储您的音频输入文件

要创建 S3 存储桶，请完成以下步骤：

在Amazon S3控制台上，选择 创建存储桶.
针对桶名, 为存储桶输入一个全局唯一的名称。
针对 AWS地区，选择与您的 Amazon Transcribe API 终端节点相同的区域。
保留所有默认值。
创建存储桶.

将您的音频文件上传到 S3 存储桶

将您的多语言音频文件上传到您的 AWS 账户中的 S3 存储桶。出于本练习的目的，我们使用以下示例多语言音频文件. 它捕获涉及英语和西班牙语的客户支持电话.

在Amazon S3控制台上，选择水桶在导航窗格中。
选择您之前创建的用于存储输入音频文件的存储桶。
上传.
添加文件.
从本地计算机选择要转录的音频文件。
上传.

您的音频文件很快就会在 S3 存储桶中可用。

创建转录作业

上传音频文件后，我们现在创建转录作业。

在 Amazon Transcribe 控制台上，选择 转录职位 在导航窗格中。
建立工作.
针对名称, 输入作业的唯一名称。
这也将是输出脚本文件的名称。
针对 语言设定，选择 自动多语言识别.
此功能使 Amazon Transcribe 能够自动识别和转录音频文件中使用的所有语言。
针对 自动语言识别的语言选项, 将其取消选中。
Amazon Transcribe 自动识别和转录音频中所说的所有语言。为了提高转录的准确性，您可以选择选择两种或多种您知道的音频中使用的语言。
针对 型号类型，只有 通用型号 该选项在撰写本文时可用。
针对 输入数据，选择 浏览S3.
选择我们之前上传的音频源文件。
针对 输出数据，您可以选择 服务管理的 S3 存储桶 or 客户指定的 S3 存储桶. 对于这篇文章，选择 服务管理的 S3 存储桶。
下一页.
建立工作.

查看作业输出

转录作业完成后，打开转录作业。

向下滚动到 转录预览 部分。音频转录显示在文本标签。转录包括对话的英语和西班牙语部分。

您可以选择将成绩单的副本下载为 JSON 文件，您可以将其用于进一步通话后分析.

清理

为避免产生未来费用，请清空并删除您为存储输入音频源文件而创建的 S3 存储桶。确保将文件存储在别处，因为这将永久删除存储桶中包含的所有对象。在 Amazon Transcribe 控制台上，选择并删除之前为转录创建的作业。

结论

在这篇文章中，我们创建了一个端到端的工作流程来自动识别和转录多语言音频文件，而无需编写任何代码。我们使用 Amazon Transcribe 中的新功能自动识别音频文件中的不同语言并正确转录每种语言。

有关更多信息，请参阅批量转录作业的语言识别.

作者简介

穆尔图萨布特瓦拉 是 AWS 的高级解决方案架构师，对 AI/ML 技术感兴趣。他喜欢与客户合作，帮助他们实现业务成果。工作之余，他喜欢户外活动和与家人共度时光。

维克多·罗霍（Victor Rojo） 对 AI/ML 和软件开发充满热情。他帮助亚马逊 Alexa 在美国和墨西哥启动并运行。他还将 Amazon Textract 引入 AWS 合作伙伴，并启动了 AWS Contact Center Intelligence (CCI)。他目前是 Conversational AI Partners 的全球技术负责人。

巴布·斯里尼瓦桑（Babu Srinivasan） 是位于芝加哥的 AWS 高级专家 SA（语言 AI 服务）。他专注于 Amazon Transcribe（语音转文本），帮助我们的客户使用 AI 服务解决业务问题。工作之余，他喜欢木工和表演魔术。

时间戳记： 2022 年 12 月 14 日2022 年 12 月 14 日

时间戳记： 2022 年 7 月 8 日

Amazon SageMaker 中 TensorFlow 图像分类模型的迁移学习

源群集：

AWS机器学习

源节点： 1655641

时间戳记： 2022 年 9 月 7 日

Amazon SageMaker 内置 LightGBM 现在使用 Dask 提供分布式训练

源群集：

AWS机器学习

源节点： 1797416

时间戳记： 2023 年 1 月 30 日

使用 Amazon Transcribe 自动识别多语言音频中的语言

由柏拉图重新发布

解决方案概述

先决条件

创建一个 S3 存储桶来存储您的音频输入文件

将您的音频文件上传到 S3 存储桶

创建转录作业

查看作业输出

清理

结论

作者简介

更多来自 AWS机器学习

使用 Amazon Kinesis、AWS Glue 和 Amazon SageMaker 构建预测性维护解决方案

使视障者能够使用 Amazon Textract 和 Amazon Polly 听到文档

使用 Amazon SageMaker 对数千个 ML 模型进行规模训练和推理 | 亚马逊网络服务

AWS 提供新的人工智能、机器学习和生成式 AI 指南来规划您的 AI 策略 | 亚马逊网络服务

板载 PaddleOCR 与 Amazon SageMaker Projects for MLOps 对身份证件执行光学字符识别

Amazon SageMaker 中 TensorFlow 图像分类模型的迁移学习

Amazon SageMaker 内置 LightGBM 现在使用 Dask 提供分布式训练

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理