无论组织大小,视频内容的字幕创建都会带来挑战。 为了应对这些挑战, 亚马逊转录 有一个有用的功能,可以直接在服务中创建字幕。 无需机器学习 (ML) 或代码编写即可开始使用。 这篇文章将引导您设置一个无代码工作流程,以便在您的 Amazon Web Services 帐户中使用 Amazon Transcribe 创建视频字幕。
字幕与隐藏式字幕
该条款 字幕 和 隐藏式字幕 通常可以互换使用,两者都指屏幕上显示的语音文本。 但是,字幕和隐藏式字幕之间的主要区别(基于行业和可访问性定义)是隐藏式字幕既包含口语的转录,也包含对背景音乐或音轨中出现的声音的描述,以提供更丰富的可访问性体验. 这篇文章只关注使用不包含说话者识别、声音效果或音乐描述的自动语音识别 (ASR) 技术创建转录的口语字幕文件。 Amazon Transcribe 支持行业标准的 SubRip Text (*.srt) 和 Web Video Text Tracks (*.vtt) 格式 字幕制作.
下图显示了在网络视频播放器中打开的字幕示例。
字幕通过扩展视频内容的覆盖面和包容性来使视频创作者受益。 通过在屏幕上显示视频的口述音频部分,字幕使更多观众可以访问音频/视频内容,包括非母语使用者和听不见声音的环境中的观众。
尽管字幕的好处是显而易见的,但视频创作者在字幕创作方面历来面临障碍。 由于严重依赖人工的传统创建过程的耗时和资源密集型要求,出现了障碍。 传统的字幕方法是手动的,可能需要数天到数周才能完成,因此可能无法与所有制作计划兼容。 同样,许多公司使用手动转录服务,但这些过程通常无法扩展并且维护成本很高。 Amazon Transcribe 让您可以使用基于 ML 的技术轻松将语音转换为文本,并帮助视频创作者解决这些问题。
解决方案概述
这篇文章介绍了使用无代码生成字幕的工作流程 亚马逊简单存储服务 (Amazon S3) 和 Amazon Transcribe。
Amazon S3 是一种对象存储,旨在从任何地方存储和检索任意数量的数据。 这篇文章介绍了这个过程 创建一个S3存储桶 并上传音频文件。 当用户在 Amazon S3 中存储数据时,他们使用称为存储桶和对象的资源。 一种 桶 是对象的容器。 一个 对象 是一个文件和描述该文件的任何元数据。
Amazon Transcribe 是一项 ASR 服务,它使用完全托管和持续训练的 ML 模型将音频/视频文件转换为文本。 Amazon Transcribe 输入和输出存储在 Amazon S3 中。 Amazon Transcribe 获取音频数据(Amazon S3 存储桶中的媒体文件或媒体流),并将其转换为文本数据。 Amazon Transcribe 允许您提取音频输入,生成易于阅读且准确度高的转录本,使用以下方法针对特定领域的词汇自定义输出 自定义语言模型 (CLM) 和 自定义词汇及 过滤内容以确保客户隐私. 客户可以选择将 Amazon Transcribe 用于各种业务应用程序,包括 基于语音的客户服务电话的转录, 在音频/视频内容上生成字幕及 进行(基于文本的)内容分析 关于音频/视频内容。 在这篇文章中,我们演示了如何创建转录作业并查看作业输出。
如果您更喜欢视频演练,请参阅 Amazon Transcribe 视频小吃集 无需编写任何代码即可创建视频字幕.
先决条件
要完成解决方案,您必须具备以下先决条件:
- An AWS账户 足够 AWS身份和访问管理 (IAM) 用户权限
- 带有口语单词的音频/视频文件 Amazon Transcribe 支持的语言 并在一个 支持的输入格式
如果您还没有示例音频/视频文件,您可以使用计算机或智能手机上的视频录制应用程序创建一个。 确保您对着麦克风清晰地讲话,以确保在录制时达到最高水平的转录质量。 另一种选择是找到一个免费的以口语为特色的下载, 比如播客或 这篇文章中提供的视频演练,可由 Amazon Transcribe 提取。 录制或下载的文件需要可在您的桌面上访问以上传到您的 AWS 账户。
在开始之前,请查看 亚马逊转录 和 Amazon S3 服务定价的定价页面。
创建 S3 存储桶
在这篇文章中,我们创建了两个 S3 存储桶来保持输入和输出分离。
以下屏幕截图显示了输入存储桶的配置。
用于输入的 S3 存储桶现在已准备好上传音频/视频文件。 在本文发布时, Amazon Transcribe 的最大输入大小为 2 GB. 如果视频文件超过该数量或位于 Amazon Transcribe 本身不支持的格式,请考虑使用 AWS 元素 MediaConvert 至 创建仅音频输出. 这是有益的,因为音频文件通常比视频文件小得多,并且 Amazon Transcribe 只需要音轨而不是视频轨道来生成转录和字幕。
将源文件上传到 S3 存储桶
要上传您的源文件,请完成以下步骤:
创建转录作业
在 Amazon S3 中准备好输入文件后,我们现在在 Amazon Transcribe 中创建一个转录作业。
- 点击 Amazon Transcribe 控制台,选择 转录职位 在导航窗格中。
- 建立工作.
本演练主要使用默认选项; 但是,您应该选择最适合您组织要求的配置。
- 针对 名字,输入此作业的名称和生成的文件。
- 针对 语言设定, 选择 特定语言.
- 针对 语言, 选择输入文件的源语言。
- 针对 型号类型选择 通用型号.
我们在此演示中使用通用模型,但我们鼓励您探索训练和使用 自定义语言模型 以提高特定用例的准确性,例如行业特定术语或首字母缩略词。 要深入了解自定义语言模型,请观看 Amazon Transcribe 视频点心 使用自定义语言模型 (CLM) 提高转录准确性.
- 针对 S3 上的输入文件位置,选择 浏览S3.
- 选择要转录的输入存储桶和音频/视频文件。
- 针对 输出数据位置类型信息, 选择 客户指定的 S3 存储桶.
- 针对 S3 上的输出文件目标,选择 浏览S3.
- 选择新创建的输出存储桶。
字幕文件格式 部分提供了整个帖子中两个最重要的选项。 您可以选择 *.srt 和 *.vtt 格式的输出作为 Amazon Transcribe 转录作业的一部分。 在撰写本文时,选择其中一项或两项不会为 Amazon Transcribe 作业增加任何额外成本。
该值指的是序列中第一个字幕的起始编号。 如果您不确定选择哪个值, 1 是最常见的。
- 设置到位后,选择 下一页.
- 根据您的需要配置任何可选设置。
Amazon Transcribe 提供音频识别选项 通道 or 音箱, 替代结果, PII 编辑, 词汇过滤及 自定义词汇. 对于这篇特定的帖子,您可以跳过这些配置选项。 要更深入地了解作业配置选项,请观看 Amazon Transcribe 视频小吃集 自定义词汇, 自定义语言模型及 词汇过滤.
查看作业输出
创建视频字幕的转录工作开始。 作业状态,如以下屏幕截图所示,显示在作业详细信息面板中。 作业完成后,选择输出数据位置,在 S3 存储桶中定位新创建的字幕。
字幕由 *.srt 或 *.vtt 扩展名标识。 当您选择 S3 存储桶中的对象时,您可以选择下载文件。
因为这些字幕是纯文本格式,所以任何文本编辑器都可以查看和编辑生成的转录。 比较 *.srt 和 *.vtt 文件可以发现许多相似之处,但也有细微差别。
以下是 *.srt 格式的示例:
以下是 *.vtt 格式的示例:
数字表示字幕的显示顺序。 时间码指示何时显示字幕。 文本是字幕文本本身。
现在可以直接在文本编辑器中进行任何更改或修订,并在使用 *.srt 或 *.vtt 扩展名保存时保持兼容。 您还可以在视频平台本身、视频编辑应用程序或视频播放器中预览更改。
VLC 是一款流行的开源跨平台视频播放器,支持 *.srt 和 *.vtt 字幕。 要在 VLC 中自动播放视频字幕,请将原始视频和字幕文件放在同一目录中,文件扩展名前的文件名完全相同。
现在,当您在 VLC 中打开视频文件时,字幕文件应该会自动检测并在视频播放器窗口中播放。
清理
为避免产生未来的费用, 空的 和 删除 用于输入和输出的 S3 存储桶。 确保您存储了所有必要的文件,因为这将永久删除存储桶中包含的所有对象。 在 转录控制台,选择并删除不再需要的任何作业。
结论
您现在已经创建了一个完整的端到端字幕创建工作流程,以增强和加速您的视频字幕创建过程,并且无需编写任何代码。 在几分钟内,您创建了 S3 存储桶,将文件上传到 Amazon S3,并使用 Amazon Transcribe 创建字幕。 然后,您可以下载生成的 *.srt 和 *.vtt 字幕文件以供查看,并将它们上传到目标平台。
此工作流程侧重于使用 Amazon Transcribe 中的自动语音识别 (ASR) 技术创建的音频/视频字幕,专门用于视频工作流程。 仅此工作流程并不能替代基于人工的隐藏式字幕流程,该流程能够满足更高的可访问性标准,包括说话者识别、声音效果、音乐描述和文案审查以确保准确性。 在初始 Amazon Transcribe 作业完成后,您可以利用本文中描述的文本编辑方法添加这些元素。 此外,对于更高级的基于浏览器的字幕创建、预览和复制编辑,您可以探索部署 AWS 上的内容本地化 由 AWS 解决方案架构师审查的解决方案,包括 实施指南. 该解决方案提供了附加功能,例如 浏览器内预览和编辑字幕, 字幕翻译技术支持 亚马逊翻译,以及由提供的计算机视觉功能 亚马逊重新认识.
如果您喜欢 Amazon Transcribe 创建字幕功能的演示,请考虑更深入地了解其他特性和功能,以加快您的音频/视频工作流程。 有关支持自动和缩放字幕创建的更多详细信息和代码示例,请参阅 创建视频字幕. 祝您在探索和开发字幕创建工作流程时好运。
关于作者
杰森·奥马利 是 AWS 的高级合作伙伴解决方案架构师,支持合作伙伴构建媒体、通信和技术行业解决方案。 在加入 AWS 之前,Jason 在媒体和娱乐行业工作了 13 年,任职于 Conan O'Brien 的 Team Coco、WarnerMedia 和 Media.Monks 等公司。 Jason 的职业生涯始于电视制作和后期制作,然后才在 AWS 上构建媒体工作负载。 当 Jason 不为合作伙伴和客户创建解决方案时,他会与妻子和儿子一起冒险,或者阅读有关可持续发展的文章。
- "
- 10
- 100
- 7
- 关于
- 加快
- ACCESS
- 访问
- 账号管理
- 额外
- 地址
- 高级
- 所有类型
- 已经
- Amazon
- 亚马逊网络服务
- 量
- 另一个
- 分析数据
- 应用领域
- 应用领域
- 听众
- 音频
- 自动表
- 自动化
- 可使用
- AWS
- 背景
- 得益
- 好处
- 最佳
- 边界
- 建筑物
- 商业
- 商业应用
- 能力
- 字幕
- 寻找工作
- 例
- 挑战
- 收费
- 程
- 关闭
- 码
- 相当常见
- 通信
- 公司
- 复杂
- 符合
- 一台
- 配置
- 安慰
- 容器
- 内容
- 创建信息图
- 创建
- 创造
- 创建
- 创作者
- 习俗
- 顾客
- 客户服务
- 合作伙伴
- data
- 更深
- 演示
- 部署
- 描述
- 通过电脑捐款
- 详情
- 发展
- 难
- 直接
- 不会
- 域
- 下载
- 编辑
- 影响
- 努力
- 分子
- 鼓励
- 加密
- 输入
- 娱乐
- 环境
- 必要
- 例子
- 体验
- 勘探
- 探索
- 扩展
- 面临
- 专栏
- 特征
- 姓氏:
- 重点
- 重点
- 以下
- 格式
- 向前
- 发现
- 未来
- 其他咨询
- 生成
- 发电
- 在全球范围内
- 非常好
- 有帮助
- 帮助
- 高
- 更高
- 聘请
- 创新中心
- 但是
- HTTPS
- 巨大
- 鉴定
- 身分
- 图片
- 实施
- 改善
- 包括
- 包含
- 包容性
- 指数
- 行业中的应用:
- 输入
- 整合
- 问题
- IT
- 本身
- 工作
- 工作机会
- 已知
- 语言
- 大
- 学习
- Level
- 圖書分館的位置
- 运气
- 机
- 机器学习
- 保持
- 制作
- 管理
- 方式
- 手册
- 手动
- 问题
- 媒体
- 方法
- ML
- 模型
- 模型
- 更多
- 最先进的
- 音乐
- 旅游导航
- 必要
- 数
- 数字
- 最多线路
- 优惠精选
- 打开
- 附加选项
- 附加选项
- 秩序
- 组织
- 部分
- 特别
- 合伙人
- 伙伴
- 平台
- 播放
- 播放机
- 播放
- 政策
- 贫困
- 热门
- 可能
- 预览
- 价格
- 小学
- 过程
- 过程
- 生产
- 生产
- 提供
- 质量
- 达到
- 阅读
- 留
- 必须
- 岗位要求
- 资源
- 成果
- 检讨
- 鳞片
- 缩放
- 屏风
- 服务
- 特色服务
- 设置
- 如图
- 简易
- 尺寸
- 小
- 智能手机
- 固体
- 方案,
- 解决方案
- 有人
- 是
- 喇叭
- 音箱
- 特别是
- 标准
- 标准
- 开始
- 开始
- 启动
- Status
- 存储
- 商店
- 流
- SUPPORT
- 支持
- 支持
- 支持
- 永续发展
- 服用
- 团队
- 技术
- 专业技术
- 电视
- 因此
- 通过
- 次
- 耗时的
- 标题
- 跟踪时
- 传统
- 传统
- 产品培训
- 翻译
- 一般
- 独特
- 使用
- 用户
- 利用
- 折扣值
- 各种
- 经审查
- 视频
- 查看
- 愿景
- 了解
- 卷筒纸
- Web服务
- 而
- 中
- 也完全不需要
- 话
- 工作
- 写作
- 年
- 产量
- YouTube的