Introductie van Whisper

We hebben een neuraal netwerk met de naam Whisper getraind en open source gemaakt dat de robuustheid en nauwkeurigheid op menselijk niveau bij Engelse spraakherkenning benadert.

Lees Paper


Bekijk code


Bekijk modelkaart

Fluistervoorbeelden:

Whisper is een automatisch spraakherkenningssysteem (ASR) dat is getraind op 680,000 uur aan meertalige en multitask-gesuperviseerde gegevens verzameld van internet. We laten zien dat het gebruik van zo'n grote en diverse dataset leidt tot verbeterde robuustheid voor accenten, achtergrondgeluiden en technische taal. Bovendien maakt het transcriptie in meerdere talen mogelijk, evenals vertaling van die talen naar het Engels. We zijn open-sourcing-modellen en inferentiecode om als basis te dienen voor het bouwen van nuttige toepassingen en voor verder onderzoek naar robuuste spraakverwerking.

beeld
beeld

De Whisper-architectuur is een eenvoudige end-to-end-aanpak, geรฏmplementeerd als een encoder-decoder Transformer. Invoeraudio wordt opgesplitst in brokken van 30 seconden, omgezet in een log-Mel-spectrogram en vervolgens doorgegeven aan een encoder. Een decoder is getraind om het bijbehorende tekstbijschrift te voorspellen, vermengd met speciale tokens die het enkele model aansturen om taken uit te voeren zoals taalidentificatie, tijdstempels op zinsniveau, meertalige spraaktranscriptie en spraakvertaling naar het Engels.

beeld
beeld

Andere bestaande benaderingen gebruiken vaak kleinere, nauwer gekoppelde audio-tekst trainingsdatasets, of gebruik een brede maar niet-gecontroleerde audiovoortraining. Omdat Whisper is getraind op een grote en diverse dataset en niet is afgestemd op een specifieke dataset, overtreft het geen modellen die gespecialiseerd zijn in LibriSpeech-prestaties, een beroemde competitieve benchmark in spraakherkenning. Wanneer we echter de zero-shot-prestaties van Whisper in veel verschillende datasets meten, ontdekken we dat deze veel robuuster is en 50% minder fouten maakt dan die modellen.

Ongeveer een derde van Whisper's audiodataset is niet-Engels en krijgt afwisselend de taak om te transcriberen in de originele taal of te vertalen naar het Engels. We vinden dat deze aanpak bijzonder effectief is bij het leren van spraak-naar-tekstvertaling en beter presteert dan de begeleide SOTA op CoVoST2 naar Engelse vertaling zero-shot.

beeld
beeld

We hopen dat de hoge nauwkeurigheid en het gebruiksgemak van Whisper ontwikkelaars in staat zullen stellen spraakinterfaces toe te voegen aan een veel bredere reeks toepassingen. Bekijk de papier, model kaart en code voor meer details en om Whisper uit te proberen.

Tijdstempel:

Meer van OpenAI