Süddeutsche Zeitung 如何使用 Amazon Polly 优化他们的音频旁白流程

由柏拉图重新发布

关注： 0

这是 Süddeutsche Zeitung 的软件开发人员 Jakob Kohl 的客座文章。就付费订阅和独立用户而言，《南德意志报》是德国领先的优质日报之一。它的网站， SZ.de，截至 15 年 2021 月，每月独立用户已超过 XNUMX 万。

由于智能扬声器和播客，音频行业近年来经历了真正的繁荣。在 南德意志报，我们一直在寻找新的方法来使我们多样化的新闻更容易获得。作为数字新闻的先驱，我们希望为 南德意志报 读者消费文章。我们开始寻找可以为我们的文章提供高质量音频旁白的解决方案。我们的最终目标是推出“听文章”功能。

在这篇博文中，我们分享了我们如何使用 Amazon Polly 优化我们的音频旁白流程，Amazon Polly 文字变成栩栩如生的语音使用先进的深度学习技术。

为什么选择 Amazon Polly？

我们相信 Vicki，德国的神经 Amazon Polly 语音, 是目前市场上最好的德语语音。 Amazon Polly 提供了令人印象深刻的功能在语言之间切换，正确发音例如英语电影标题以及不同语言的个人姓名（例如，听文章沙尔和瓦恩在我们的网站上）。

我们基础设施的很大一部分已经在 AWS 上运行，所以使用 Amazon Polly 非常合适。我们可以将 Amazon Polly 与以下组件结合使用：

An 亚马逊简单通知服务（Amazon SNS）我们可以订阅文章的主题。每当编辑保存文章时，CMS 都会将文章发送到该主题。
An 亚马逊的CloudFront的分布与拉姆达@边缘付费专区高级文章，我们可以将其重复用于文章的音频版本。

亚马逊波利 API 易于使用且有据可查。我们用了不到一周的时间来让我们的概念证明发挥作用。

挑战

每天在 SZ.de 上发布数百篇新文章。在首次发布后，它们可能会因为各种原因而多次更新——在新闻驱动的文章中添加了新段落、修正了拼写错误、更改了预告片或针对搜索引擎优化了元数据。

为一篇文章的初始发布生成语音很简单，因为需要合成整个文本。但是，我们如何在不为相同内容支付两次费用的情况下快速生成文章更新版本的音频呢？我们最大的挑战是防止每次更新都将整个文本重复发送到 Amazon Polly。

我们的技术解决方案

每次编辑保存文章时，文章的新版本都会发布到 SNS 主题。一个 AWS Lambda 函数订阅了该主题并在文章的每个新版本中调用。此函数运行以下步骤：

检查新版本的文章是否已经完全合成。如果是这样，该功能会立即停止（这可能会在仅更改不影响音频的元数据时发生）。
将文章转换为多个 SSML 文档，每个文本段落大约一个。
对于每个 SSML 文档，该函数会检查它是否已使用计算的哈希值合成为音频。例如：
1. 如果是第一次保存文章，则必须合成所有 SSML 文档。
2. 如果已在单个段落中修复了错字，则必须重新合成该段落的 SSML 文档。
3. 如果在文章中添加了新段落，则只需合成该新段落的 SSML 文档。
将所有尚未合成的 SSML 文档分别发送到 Amazon Polly。

这些检查通过防止多次合成整篇文章来帮助优化性能并降低成本。我们避免因 SEO 原因而因标题编辑或元数据调整等细微更改而产生额外费用。

下图说明了解决方案的工作流程。

在 Amazon Polly 合成 SSML 文档后，音频文件将发送到亚马逊简单存储服务（亚马逊 S3）。第二个 Lambda 函数正在侦听该存储桶上的对象创建，等待文章的所有音频片段完成，然后使用将它们合并到最终音频文件中来自 Lambda 层的 FFmpeg. 此最终音频被发送到另一个 S3 存储桶，该存储桶用作我们 CloudFront 分配的源。在 CloudFront 中，我们为相应音频版本的高级文章重复使用现有的付费墙。

基于我们的免费增值模式，我们提供优质文章的缩短音频版本。非订阅者可以免费收听第一段，但需要购买订阅才能访问整篇文章。

结论

将 Amazon Polly 集成到我们现有的基础设施中非常简单。我们的内容需要最少的定制，因为我们只包含段落和一些额外的中断。最具挑战性的部分是性能和成本优化，我们通过将文章拆分为与段落对应的多个 SSML 文档，检查每个 SSML 文档中的更改，并通过合并片段来构建整个音频文件来实现。通过这些优化，我们能够实现以下目标：

仅合成真实变化，将合成字符的数量减少至少 50%。
减少文章文本更改出现在音频中所需的时间，因为要合成的音频较少。
在段落之间添加任意音频文件，无需重新合成整篇文章。例如，我们可以在高级文章的缩短音频版本中包含一个声音文件，以将第一段与随后的注释分开，即需要订阅才能收听完整版本。

在我们的 SZ.de 文章中推出“听文章”功能后的第一个月，我们收到了很多积极的用户反馈。在发布后的头两个月内，我们能够接触到近 30,000 名用户。在这些用户中，大约 2 人仅通过收听我们付费墙后面的文章的预告片就转换为付费订阅。 “收听文章”功能不在我们的付费墙后面，但用户只有订阅后才能完整收听优质文章。我们的网站还提供没有付费墙的免费文章。未来，我们会将该功能扩展到其他 SZ 平台，尤其是我们的移动新闻应用程序。

关于作者

雅各布·科尔 是 Süddeutsche Zeitung 的一名软件开发人员，他喜欢在敏捷网站团队中使用现代技术。他是“听 SZ 文章”功能的主要开发者之一。在业余时间，他喜欢制作木制家具，其中技术和视觉设计与 Web 开发一样重要。

时间戳记： 2022 年 2 月 11 日

时间戳记： 2023 年 10 月 23 日

由柏拉图重新发布

如何使用自定义运算符扩展 AWS Trainium 的功能

通过 AWS DeepRacer 利用 Parsons 的人工智能和机器学习

在 Amazon Personalize 中引入相似商品的流行度调整 | 亚马逊网络服务

使用 AWS Inferentia 大规模分割脑肿瘤

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理