Introduktion af Whisper

Genudgivet af Platon

Abonnenter: 0

Vi har trænet og åbner et neuralt net kaldet Whisper, der nærmer sig robusthed og nøjagtighed på menneskeligt niveau i engelsk talegenkendelse.

Læs papir

Vis kode

Se modelkort

Whisper er et automatisk talegenkendelsessystem (ASR) trænet på 680,000 timers flersprogede og multitask-overvågede data indsamlet fra nettet. Vi viser, at brugen af et så stort og mangfoldigt datasæt fører til forbedret robusthed over for accenter, baggrundsstøj og teknisk sprog. Desuden muliggør det transskription på flere sprog, samt oversættelse fra disse sprog til engelsk. Vi er open-sourcing-modeller og inferenskode, der skal tjene som grundlag for at bygge nyttige applikationer og for yderligere forskning i robust talebehandling.

Whisper-arkitekturen er en simpel ende-til-ende-tilgang, implementeret som en encoder-dekoder-transformer. Indgangslyd opdeles i 30 sekunders bidder, konverteres til et log-Mel-spektrogram og sendes derefter til en encoder. En dekoder er trænet til at forudsige den tilsvarende tekstoverskrift, blandet med specielle tokens, der leder den enkelte model til at udføre opgaver såsom sprogidentifikation, tidsstempler på sætningsniveau, flersproget taletransskription og til engelsk taleoversættelse.

Andre eksisterende tilgange bruger ofte mindre, tættere parrede audio-tekst træningsdatasæt, eller brug bred, men uovervåget lydfortræning. Fordi Whisper blev trænet på et stort og forskelligartet datasæt og ikke var finjusteret til nogen specifik, slår det ikke modeller, der specialiserer sig i LibriSpeech-ydeevne, en berømt konkurrencemæssig benchmark inden for talegenkendelse. Men når vi måler Whispers nul-skuds ydeevne på tværs af mange forskellige datasæt, finder vi, at den er meget mere robust og laver 50 % færre fejl end disse modeller.

Omkring en tredjedel af Whispers lyddatasæt er ikke-engelsk, og det får skiftevis til opgave at transskribere på originalsproget eller oversætte til engelsk. Vi finder, at denne tilgang er særlig effektiv til at lære tale til tekst oversættelse og overgår den overvågede SOTA på CoVoST2 til engelsk oversættelse zero-shot.

Vi håber, at Whispers høje nøjagtighed og brugervenlighed vil give udviklere mulighed for at tilføje stemmegrænseflader til et meget bredere sæt applikationer. Tjek ud papir, modelkortog kode for at lære flere detaljer og for at prøve Whisper.

Tidsstempel: September 21, 2022September 21, 2022

Tidsstempel: Juni 2, 2022

Introduktion af Whisper

Genudgivet af Platon

Eksempler på hviske:

Mere fra OpenAI

Sora: Første indtryk

Introduktion af ChatGPT Enterprise

DALL·E nu tilgængelig uden venteliste

20. marts ChatGPT-afbrydelse: Her er, hvad der skete

Nye GPT-3-funktioner: Rediger og indsæt

Teknikker til træning af store neurale netværk

Nye modeller og udviklerprodukter annonceret på DevDay

Evolution gennem store modeller

OpenAI og Elon Musk

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto