使用此无代码工作流程通过 Amazon Transcribe 创建视频字幕

由柏拉图重新发布

关注： 0

无论组织大小，视频内容的字幕创建都会带来挑战。为了应对这些挑战，亚马逊转录有一个有用的功能，可以直接在服务中创建字幕。无需机器学习 (ML) 或代码编写即可开始使用。这篇文章将引导您设置一个无代码工作流程，以便在您的 Amazon Web Services 帐户中使用 Amazon Transcribe 创建视频字幕。

字幕与隐藏式字幕

该条款字幕和 隐藏式字幕 通常可以互换使用，两者都指屏幕上显示的语音文本。但是，字幕和隐藏式字幕之间的主要区别（基于行业和可访问性定义）是隐藏式字幕既包含口语的转录，也包含对背景音乐或音轨中出现的声音的描述，以提供更丰富的可访问性体验. 这篇文章只关注使用不包含说话者识别、声音效果或音乐描述的自动语音识别 (ASR) 技术创建转录的口语字幕文件。 Amazon Transcribe 支持行业标准的 SubRip Text (*.srt) 和 Web Video Text Tracks (*.vtt) 格式字幕制作.

下图显示了在网络视频播放器中打开的字幕示例。

字幕通过扩展视频内容的覆盖面和包容性来使视频创作者受益。通过在屏幕上显示视频的口述音频部分，字幕使更多观众可以访问音频/视频内容，包括非母语使用者和听不见声音的环境中的观众。

尽管字幕的好处是显而易见的，但视频创作者在字幕创作方面历来面临障碍。由于严重依赖人工的传统创建过程的耗时和资源密集型要求，出现了障碍。传统的字幕方法是手动的，可能需要数天到数周才能完成，因此可能无法与所有制作计划兼容。同样，许多公司使用手动转录服务，但这些过程通常无法扩展并且维护成本很高。 Amazon Transcribe 让您可以使用基于 ML 的技术轻松将语音转换为文本，并帮助视频创作者解决这些问题。

解决方案概述

这篇文章介绍了使用无代码生成字幕的工作流程亚马逊简单存储服务 (Amazon S3) 和 Amazon Transcribe。

Amazon S3 是一种对象存储，旨在从任何地方存储和检索任意数量的数据。这篇文章介绍了这个过程创建一个S3存储桶并上传音频文件。当用户在 Amazon S3 中存储数据时，他们使用称为存储桶和对象的资源。一种桶是对象的容器。一个对象是一个文件和描述该文件的任何元数据。

Amazon Transcribe 是一项 ASR 服务，它使用完全托管和持续训练的 ML 模型将音频/视频文件转换为文本。 Amazon Transcribe 输入和输出存储在 Amazon S3 中。 Amazon Transcribe 获取音频数据（Amazon S3 存储桶中的媒体文件或媒体流），并将其转换为文本数据。 Amazon Transcribe 允许您提取音频输入，生成易于阅读且准确度高的转录本，使用以下方法针对特定领域的词汇自定义输出自定义语言模型 (CLM) 和自定义词汇及过滤内容以确保客户隐私. 客户可以选择将 Amazon Transcribe 用于各种业务应用程序，包括基于语音的客户服务电话的转录, 在音频/视频内容上生成字幕及进行（基于文本的）内容分析关于音频/视频内容。在这篇文章中，我们演示了如何创建转录作业并查看作业输出。

如果您更喜欢视频演练，请参阅 Amazon Transcribe 视频小吃集无需编写任何代码即可创建视频字幕.

先决条件

要完成解决方案，您必须具备以下先决条件：

An AWS账户足够 AWS身份和访问管理 (IAM) 用户权限
带有口语单词的音频/视频文件 Amazon Transcribe 支持的语言并在一个支持的输入格式

如果您还没有示例音频/视频文件，您可以使用计算机或智能手机上的视频录制应用程序创建一个。确保您对着麦克风清晰地讲话，以确保在录制时达到最高水平的转录质量。另一种选择是找到一个免费的以口语为特色的下载，比如播客或这篇文章中提供的视频演练，可由 Amazon Transcribe 提取。录制或下载的文件需要可在您的桌面上访问以上传到您的 AWS 账户。

在开始之前，请查看亚马逊转录和 Amazon S3 服务定价的定价页面。

创建 S3 存储桶

在这篇文章中，我们创建了两个 S3 存储桶来保持输入和输出分离。

在Amazon S3控制台上，选择 创建存储桶.
为每个存储桶指定一个全局唯一名称。
使用默认设置以确保符合您组织的政策。
启用桶版本控制和默认服务器端加密（推荐的）。
创建存储桶.

以下屏幕截图显示了输入存储桶的配置。

用于输入的 S3 存储桶现在已准备好上传音频/视频文件。在本文发布时， Amazon Transcribe 的最大输入大小为 2 GB. 如果视频文件超过该数量或位于 Amazon Transcribe 本身不支持的格式，请考虑使用 AWS 元素 MediaConvert 至创建仅音频输出. 这是有益的，因为音频文件通常比视频文件小得多，并且 Amazon Transcribe 只需要音轨而不是视频轨道来生成转录和字幕。

将源文件上传到 S3 存储桶

要上传您的源文件，请完成以下步骤：

在 Amazon S3 控制台上，选择您的输入存储桶。
上传.
从您的桌面选择文件。
接受默认存储类和加密设置或根据您组织的策略对其进行修改。
上传.

创建转录作业

在 Amazon S3 中准备好输入文件后，我们现在在 Amazon Transcribe 中创建一个转录作业。

点击 Amazon Transcribe 控制台，选择 转录职位 在导航窗格中。
建立工作.

本演练主要使用默认选项；但是，您应该选择最适合您组织要求的配置。

针对名字，输入此作业的名称和生成的文件。
针对 语言设定，选择 特定语言.
针对语言, 选择输入文件的源语言。
针对 型号类型选择 通用型号.

我们在此演示中使用通用模型，但我们鼓励您探索训练和使用自定义语言模型以提高特定用例的准确性，例如行业特定术语或首字母缩略词。要深入了解自定义语言模型，请观看 Amazon Transcribe 视频点心使用自定义语言模型 (CLM) 提高转录准确性.

针对 S3 上的输入文件位置，选择 浏览S3.
选择要转录的输入存储桶和音频/视频文件。
针对 输出数据位置类型信息，选择 客户指定的 S3 存储桶.
针对 S3 上的输出文件目标，选择 浏览S3.
选择新创建的输出存储桶。

字幕文件格式 部分提供了整个帖子中两个最重要的选项。您可以选择 *.srt 和 *.vtt 格式的输出作为 Amazon Transcribe 转录作业的一部分。在撰写本文时，选择其中一项或两项不会为 Amazon Transcribe 作业增加任何额外成本。

对于这篇文章，同时选择 SRT 和 VTT.
针对 指定起始索引，选择 0 or 1.

该值指的是序列中第一个字幕的起始编号。如果您不确定选择哪个值， 1 是最常见的。

设置到位后，选择 下一页.
根据您的需要配置任何可选设置。

Amazon Transcribe 提供音频识别选项通道 or 音箱, 替代结果, PII 编辑, 词汇过滤及自定义词汇. 对于这篇特定的帖子，您可以跳过这些配置选项。要更深入地了解作业配置选项，请观看 Amazon Transcribe 视频小吃集自定义词汇, 自定义语言模型及词汇过滤.

建立工作.

查看作业输出

创建视频字幕的转录工作开始。作业状态，如以下屏幕截图所示，显示在作业详细信息面板中。作业完成后，选择输出数据位置，在 S3 存储桶中定位新创建的字幕。

字幕由 *.srt 或 *.vtt 扩展名标识。当您选择 S3 存储桶中的对象时，您可以选择下载文件。

因为这些字幕是纯文本格式，所以任何文本编辑器都可以查看和编辑生成的转录。比较 *.srt 和 *.vtt 文件可以发现许多相似之处，但也有细微差别。

以下是 *.srt 格式的示例：

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

以下是 *.vtt 格式的示例：

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

数字表示字幕的显示顺序。时间码指示何时显示字幕。文本是字幕文本本身。

现在可以直接在文本编辑器中进行任何更改或修订，并在使用 *.srt 或 *.vtt 扩展名保存时保持兼容。您还可以在视频平台本身、视频编辑应用程序或视频播放器中预览更改。

VLC 是一款流行的开源跨平台视频播放器，支持 *.srt 和 *.vtt 字幕。要在 VLC 中自动播放视频字幕，请将原始视频和字幕文件放在同一目录中，文件扩展名前的文件名完全相同。

现在，当您在 VLC 中打开视频文件时，字幕文件应该会自动检测并在视频播放器窗口中播放。

清理

为避免产生未来的费用，空的和删除用于输入和输出的 S3 存储桶。确保您存储了所有必要的文件，因为这将永久删除存储桶中包含的所有对象。在转录控制台，选择并删除不再需要的任何作业。

结论

您现在已经创建了一个完整的端到端字幕创建工作流程，以增强和加速您的视频字幕创建过程，并且无需编写任何代码。在几分钟内，您创建了 S3 存储桶，将文件上传到 Amazon S3，并使用 Amazon Transcribe 创建字幕。然后，您可以下载生成的 *.srt 和 *.vtt 字幕文件以供查看，并将它们上传到目标平台。

此工作流程侧重于使用 Amazon Transcribe 中的自动语音识别 (ASR) 技术创建的音频/视频字幕，专门用于视频工作流程。仅此工作流程并不能替代基于人工的隐藏式字幕流程，该流程能够满足更高的可访问性标准，包括说话者识别、声音效果、音乐描述和文案审查以确保准确性。在初始 Amazon Transcribe 作业完成后，您可以利用本文中描述的文本编辑方法添加这些元素。此外，对于更高级的基于浏览器的字幕创建、预览和复制编辑，您可以探索部署 AWS 上的内容本地化由 AWS 解决方案架构师审查的解决方案，包括实施指南. 该解决方案提供了附加功能，例如浏览器内预览和编辑字幕, 字幕翻译技术支持亚马逊翻译，以及由提供的计算机视觉功能亚马逊重新认识.

如果您喜欢 Amazon Transcribe 创建字幕功能的演示，请考虑更深入地了解其他特性和功能，以加快您的音频/视频工作流程。有关支持自动和缩放字幕创建的更多详细信息和代码示例，请参阅创建视频字幕. 祝您在探索和开发字幕创建工作流程时好运。

关于作者

杰森·奥马利 是 AWS 的高级合作伙伴解决方案架构师，支持合作伙伴构建媒体、通信和技术行业解决方案。在加入 AWS 之前，Jason 在媒体和娱乐行业工作了 13 年，任职于 Conan O'Brien 的 Team Coco、WarnerMedia 和 Media.Monks 等公司。 Jason 的职业生涯始于电视制作和后期制作，然后才在 AWS 上构建媒体工作负载。当 Jason 不为合作伙伴和客户创建解决方案时，他会与妻子和儿子一起冒险，或者阅读有关可持续发展的文章。