Vi introduserer Whisper

Publisert av Platon

Følgere: 0

Vi har trent og åpner for et nevralt nett kalt Whisper som nærmer seg robusthet og nøyaktighet på menneskelig nivå på engelsk talegjenkjenning.

Les papir

Vis kode

Se modellkort

Whisper er et automatisk talegjenkjenning (ASR) system som er trent på 680,000 XNUMX timer med flerspråklig og multitask overvåket data samlet inn fra nettet. Vi viser at bruk av et så stort og mangfoldig datasett fører til forbedret robusthet overfor aksenter, bakgrunnsstøy og fagspråk. Dessuten muliggjør det transkripsjon på flere språk, samt oversettelse fra disse språkene til engelsk. Vi er åpne kildemodeller og inferenskode for å tjene som grunnlag for å bygge nyttige applikasjoner og for videre forskning på robust talebehandling.

Whisper-arkitekturen er en enkel ende-til-ende-tilnærming, implementert som en koder-dekoder-transformator. Inngangslyd deles opp i 30 sekunders biter, konverteres til et log-Mel-spektrogram og sendes deretter til en koder. En dekoder er opplært til å forutsi den korresponderende tekstteksten, blandet med spesielle symboler som leder den enkelte modellen til å utføre oppgaver som språkidentifikasjon, tidsstempler på frasenivå, flerspråklig taletranskripsjon og til engelsk taleoversettelse.

Andre eksisterende tilnærminger bruker ofte mindre, tettere sammenkoblede lyd-tekst-treningsdatasett, eller bruk bred, men uovervåket lydforopplæring. Fordi Whisper ble trent på et stort og mangfoldig datasett og ikke ble finjustert til noen spesifikke, slår det ikke modeller som spesialiserer seg på LibriSpeech-ytelse, en kjent konkurransedyktig målestokk innen talegjenkjenning. Men når vi måler Whispers nullskuddsytelse på tvers av mange forskjellige datasett, finner vi at den er mye mer robust og gjør 50 % færre feil enn disse modellene.

Omtrent en tredjedel av Whispers lyddatasett er ikke-engelsk, og det får vekselvis oppgaven med å transkribere på originalspråket eller oversette til engelsk. Vi finner at denne tilnærmingen er spesielt effektiv for å lære tale til tekst-oversettelse og overgår den overvåkede SOTA-en på CoVoST2 til engelsk oversettelse zero-shot.

Vi håper Whispers høye nøyaktighet og brukervennlighet vil tillate utviklere å legge til talegrensesnitt til et mye bredere sett med applikasjoner. Sjekk ut papir, modellkortog kode for å lære mer detaljer og prøve Whisper.

Tidstempel: September 21, 2022September 21, 2022

Tidstempel: Juni 2, 2022

Vi introduserer Whisper

Publisert av Platon

Eksempler på hviske:

Mer fra OpenAI

Sora: Førsteinntrykk

Vi introduserer ChatGPT Enterprise

DALL·E nå tilgjengelig uten venteliste

20. mars ChatGPT-brudd: Her er hva som skjedde

Nye GPT-3-funksjoner: Rediger og sett inn

Teknikker for trening av store nevrale nettverk

Nye modeller og utviklerprodukter annonsert på DevDay

Evolusjon gjennom store modeller

OpenAI og Elon Musk

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn