介绍耳语

我们已经训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。

阅读论文


查看代码


查看模型卡

耳语示例:

Whisper 是一个自动语音识别 (ASR) 系统,它使用从网络上收集的 680,000 小时多语言和多任务监督数据进行训练。 我们表明,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。 此外,它还支持多种语言的转录,以及将这些语言翻译成英语。 我们是开源模型和推理代码,可作为构建有用应用程序和进一步研究稳健语音处理的基础。

图片
图片

Whisper 架构是一种简单的端到端方法,实现为编码器-解码器 Transformer。 输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。 解码器被训练来预测相应的文本标题,并与特殊标记混合,这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。

图片
图片

其他现有方法经常使用更小、更紧密配对的音频文本训练数据集,或使用广泛但无监督的音频预训练. 因为 Whisper 是在一个庞大而多样的数据集上训练的,并且没有针对任何特定的数据集进行微调,所以它不会击败专门研究 LibriSpeech 性能的模型,这是一个著名的语音识别竞争基准。 然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更加稳健,并且错误率降低了 50%。

Whisper 的音频数据集大约有三分之一是非英语的,它交替执行以原始语言转录或翻译成英语的任务。 我们发现这种方法在学习语音到文本的翻译方面特别有效,并且优于 CoVoST2 到英语翻译零样本的监督 SOTA。

图片
图片

我们希望 Whisper 的高精度和易用性将允许开发人员将语音接口添加到更广泛的应用程序中。 查看 , 模型卡 了解更多详情并试用 Whisper。

时间戳记:

更多来自 OpenAI