Amazon Transcribe 宣布推出一款由语音基础模型驱动的新 ASR 系统，该系统将支持范围扩展到 100 多种语言 |亚马逊网络服务

由柏拉图重新发布

关注： 0

亚马逊转录是一项完全托管的自动语音识别 (ASR) 服务，使您可以轻松地向应用程序添加语音转文本功能。今天，我们很高兴地宣布推出下一代数十亿参数语音基础模型驱动的系统，该系统将自动语音识别扩展到超过 100语言。在这篇文章中，我们讨论该系统的一些好处、公司如何使用它以及如何开始。我们还在下面提供了转录输出的示例。

Transcribe 的语音基础模型使用一流的自监督算法进行训练，以学习跨语言和口音的人类语音的固有通用模式。它接受了来自 100 多种语言的数百万小时未标记音频数据的训练。通过智能数据采样来优化训练配方，以平衡语言之间的训练数据，确保传统上代表性不足的语言也达到高精度水平。

Carbyne 是一家软件公司，为紧急呼叫响应人员开发基于云的关键任务联络中心解决方案。卡宾的使命是帮助紧急救援人员拯救生命，语言无法妨碍他们实现目标。以下是他们如何使用 Amazon Transcribe 来实现其使命：

“人工智能驱动的 Carbyne 实时音频翻译的直接目的是帮助改善 68 万在家里说英语以外语言的美国人以及每年多达 79 万外国游客的应急响应。通过利用 Amazon Transcribe 由 ASR 驱动的新多语言基础模型，Carbyne 将能够更好地实现救生紧急服务的民主化，因为 Every。人。算数。”

– Alex Dizengof，Carbyne 联合创始人兼首席技术官。

通过利用语音基础模型，Amazon Transcribe 将大多数语言的准确性显着提高了 20% 到 50%。在电话语音这个充满挑战且数据稀缺的领域，准确率提高了 30% 到 70%。除了大幅提高准确性之外，这个大型 ASR 模型还通过更准确的标点符号和大写来提高可读性。随着生成式 AI 的出现，成千上万的企业正在使用 Amazon Transcribe 从其音频内容中获取丰富的见解。 Amazon Transcribe 显着提高了准确性并支持 100 多种语言，将对所有此类用例产生积极影响。在批处理模式下使用 Amazon Transcribe 的所有现有客户和新客户都可以访问语音基础模型驱动的语音识别，无需对 API 终端节点或输入参数进行任何更改。

新的 ASR 系统在所有 100 多种语言中提供了与易用性、定制、用户安全和隐私相关的多项关键功能。其中包括自动标点符号、自定义词汇、自动语言识别、说话人分类、单词级置信度评分和自定义词汇过滤器等功能。该系统对不同口音、噪声环境和声学条件的扩展支持使您能够产生更准确的输出，从而帮助您有效地将语音技术嵌入到您的应用程序中。

凭借 Amazon Transcribe 在不同口音和噪音条件下的高精度、对大量语言的支持以及广泛的增值功能集，数千家企业将能够从音频内容中释放丰富的见解，并提高音频和视频内容在各个领域的可访问性和可发现性。例如，联络中心转录和分析客户呼叫以识别见解，从而改善客户体验和座席工作效率。内容制作者和媒体发行商使用 Amazon Transcribe 自动生成字幕，以提高内容的可访问性。

开始使用 Amazon Transcribe

您可以使用 AWS命令行界面（AWS CLI）， AWS管理控制台，和各种 AWS开发工具包用于批量转录并继续使用相同的 StartTranscriptionJob API 可从增强的 ASR 模型中获得性能优势，而无需在您端进行任何代码或参数更改。有关使用 AWS CLI 和控制台的更多信息，请参阅使用 AWS CLI 转录和使用 AWS 管理控制台转录。

第一步是将您的媒体文件上传到亚马逊简单存储服务 (Amazon S3) 存储桶，一种对象存储服务，旨在从任何地方存储和检索任意数量的数据。 Amazon S3 以极低的成本提供业界领先的耐用性、可用性、性能、安全性和几乎无限的可扩展性。您可以选择将转录内容保存在您自己的 S3 存储桶中，或者让 Amazon Transcribe 使用安全的默认存储桶。要了解有关使用 S3 存储桶的更多信息，请参阅创建、配置和使用 Amazon S3 存储桶.

转录输出

Amazon Transcribe 使用 JSON 表示形式进行输出。它以两种不同的格式提供转录结果：文本格式和逐项格式。 API 端点或输入参数没有任何变化。

文本格式以文本块的形式提供转录本，而逐项格式以及时排序的转录项目以及每个项目的附加元数据的形式提供转录本。两种格式在输出文件中并行存在。

根据您在创建转录作业时选择的功能，Amazon Transcribe 会创建额外且丰富的转录结果视图。请参阅以下示例代码：

{ "jobName": "2x-speakers_2x-channels", "accountId": "************", "results": { "transcripts": [
{ "transcript": "Hi, welcome." } ], "speaker_labels": [ { "channel_label": "ch_0", "speakers": 2, "segments": [ ] }, { "channel_label": "ch_1", "speakers": 2, "segments": [ ] } ], "channel_labels": { "channels": [ ], "number_of_channels": 2 }, "items": [ ], "segments": [ ] }, "status": "COMPLETED"
}

意见如下：

成绩单 – 代表为 transcripts 元素，它只包含记录的文本格式。在多扬声器、多通道场景中，所有转录内容的串联作为单个块提供。
讲师讯息 – 代表为 speaker_labels 元素，它包含按说话者分组的文本和逐项格式的记录。仅当启用多扬声器功能时才可用。
通道 – 代表为 channel_labels 元素，它包含记录的文本和逐项格式，按通道分组。仅当启用多通道功能时才可用。
属性 – 代表为 items 元素，它仅包含记录的逐项格式。在多讲话者、多通道场景中，项目通过附加属性来丰富，指示讲话者和通道。
业务领域 – 代表为 segments 元素，它包含转录本的文本和逐项格式，按替代转录进行分组。仅当启用替代结果功能时才可用。

结论

在 AWS，我们不断代表客户进行创新。通过将 Amazon Transcribe 的语言支持扩展到 100 多种语言，我们使我们的客户能够为来自不同语言背景的用户提供服务。这不仅增强了可访问性，而且还为全球范围内的沟通和信息交换开辟了新的途径。要了解有关本文讨论的功能的更多信息，请查看功能页面和有什么新帖子.

关于作者

苏米特·库玛 是 AWS AI 语言服务团队的首席产品经理和技术人员。他在多个领域拥有 10 年的产品管理经验，并且对 AI/ML 充满热情。工作之余，Sumit 喜欢旅行，喜欢打板球和草地网球。

Amazon Transcribe 宣布推出一款新的语音基础模型驱动的 ASR 系统，该系统将支持范围扩展到 100 多种语言 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。 Vivek Singh 是 AWS AI 语言服务团队的产品管理高级经理。他领导 Amazon Transcribe 产品团队。在加入 AWS 之前，他曾在其他多个 Amazon 组织（例如消费者支付和零售）中担任产品管理职务。 Vivek 住在华盛顿州西雅图，喜欢跑步和徒步旅行。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/

时间戳记： 2023 年 11 月 26 日

时间戳记： 2022 年 9 月 14 日

由柏拉图重新发布

介绍 Fortuna：不确定性量化库

使用 Amazon SageMaker 服务端点的实时推理模型的 MLOps 部署最佳实践

为 Amazon Textract 引入自助服务配额管理和更高的默认服务配额

Amazon Search 如何在 AWS 上使用 NVIDIA Triton 实现低延迟、高吞吐量的 T5 推理

在 AWS 和 Amazon SageMaker 上使用 Kubeflow 构建灵活且可扩展的分布式训练架构

如何评估合成数据的质量——从保真度、效用和隐私的角度衡量

使用 Amazon SageMaker JumpStart 上的多模式数据预测肺癌生存状态

了解如何使用 AWS SageMaker JumpStart 基础模型构建和部署使用工具的 LLM 代理 | 亚马逊网络服务

宣布推出适用于 Amazon Lex 的可视化对话构建器

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理