Esittelyssä Whisper

Olemme kouluttaneet ja avoimen lähdekoodin Whisper-nimisen hermoverkon, joka lähestyy ihmistason kestävyyttä ja tarkkuutta englannin puheentunnistuksessa.

Lue paperi


Katso koodi


Katso mallikortti

Kuiskausesimerkkejä:

Whisper on automaattinen puheentunnistusjärjestelmä (ASR), joka on koulutettu 680,000 XNUMX tunnin ajan verkosta kerättyyn monikieliseen ja monitehtävään valvottuun dataan. Osoitamme, että näin suuren ja monipuolisen tietojoukon käyttö parantaa aksenttien, taustamelun ja teknisen kielen kestävyyttä. Lisäksi se mahdollistaa transkription useilla kielillä sekä kääntämisen näistä kielistä englanniksi. Olemme avoimen lähdekoodin malleja ja päättelykoodia, jotka toimivat perustana hyödyllisten sovellusten rakentamiselle ja vankan puheenkäsittelyn jatkotutkimukselle.

kuva
kuva

Whisper-arkkitehtuuri on yksinkertainen päästä päähän -lähestymistapa, joka on toteutettu enkooderi-dekooderimuuntajana. Tuloääni jaetaan 30 sekunnin paloiksi, muunnetaan log-Mel-spektrogrammiksi ja siirretään sitten kooderiin. Dekooderi on koulutettu ennustamaan vastaava tekstiteksti yhdistettynä erityisiin tunnisteisiin, jotka ohjaavat yksittäisen mallin suorittamaan tehtäviä, kuten kielen tunnistamista, lausetason aikaleimat, monikielisen puheen transkriptiota ja puheen kääntämistä englanniksi.

kuva
kuva

Muut olemassa olevat lähestymistavat käyttävät usein pienempiä, läheisempiä äänitekstiharjoitustietojoukkojatai käytä laajaa, mutta valvomatonta äänen esikoulutusta. Koska Whisper koulutettiin suuren ja monipuolisen tietojoukon perusteella, eikä sitä ollut hienosäädetty mihinkään tiettyyn tietoaineistoon, se ei voita malleja, jotka ovat erikoistuneet LibriSpeech-suorituskykyyn, joka on tunnetusti kilpailukykyinen puheentunnistuksen vertailukohta. Kuitenkin, kun mittaamme Whisperin nolla-suorituskykyä monissa erilaisissa tietojoukoissa, huomaamme, että se on paljon vankempi ja tekee 50 % vähemmän virheitä kuin kyseiset mallit.

Noin kolmannes Whisperin ääniaineistosta ei ole englanninkielistä, ja sen tehtävänä on vuorotellen kopioida se alkuperäisellä kielellä tai kääntää englanniksi. Mielestämme tämä lähestymistapa on erityisen tehokas puheen tekstin käännöksen oppimisessa, ja se on parempi kuin valvottu SOTA CoVoST2-englanninkielisessä käännöksessä nolla-shot.

kuva
kuva

Toivomme, että Whisperin korkea tarkkuus ja helppokäyttöisyys antavat kehittäjille mahdollisuuden lisätä äänirajapintoja paljon laajempiin sovelluksiin. Tutustu paperi, mallikorttija koodi saadaksesi lisätietoja ja kokeillaksesi Whisperiä.

Aikaleima:

Lisää aiheesta OpenAI