Esittelyssä Whisper

Julkaissut Platon

seuraajia: 0

Olemme kouluttaneet ja avoimen lähdekoodin Whisper-nimisen hermoverkon, joka lähestyy ihmistason kestävyyttä ja tarkkuutta englannin puheentunnistuksessa.

Lue paperi

Katso koodi

Katso mallikortti

Whisper on automaattinen puheentunnistusjärjestelmä (ASR), joka on koulutettu 680,000 XNUMX tunnin ajan verkosta kerättyyn monikieliseen ja monitehtävään valvottuun dataan. Osoitamme, että näin suuren ja monipuolisen tietojoukon käyttö parantaa aksenttien, taustamelun ja teknisen kielen kestävyyttä. Lisäksi se mahdollistaa transkription useilla kielillä sekä kääntämisen näistä kielistä englanniksi. Olemme avoimen lähdekoodin malleja ja päättelykoodia, jotka toimivat perustana hyödyllisten sovellusten rakentamiselle ja vankan puheenkäsittelyn jatkotutkimukselle.

Whisper-arkkitehtuuri on yksinkertainen päästä päähän -lähestymistapa, joka on toteutettu enkooderi-dekooderimuuntajana. Tuloääni jaetaan 30 sekunnin paloiksi, muunnetaan log-Mel-spektrogrammiksi ja siirretään sitten kooderiin. Dekooderi on koulutettu ennustamaan vastaava tekstiteksti yhdistettynä erityisiin tunnisteisiin, jotka ohjaavat yksittäisen mallin suorittamaan tehtäviä, kuten kielen tunnistamista, lausetason aikaleimat, monikielisen puheen transkriptiota ja puheen kääntämistä englanniksi.

Muut olemassa olevat lähestymistavat käyttävät usein pienempiä, läheisempiä äänitekstiharjoitustietojoukkojatai käytä laajaa, mutta valvomatonta äänen esikoulutusta. Koska Whisper koulutettiin suuren ja monipuolisen tietojoukon perusteella, eikä sitä ollut hienosäädetty mihinkään tiettyyn tietoaineistoon, se ei voita malleja, jotka ovat erikoistuneet LibriSpeech-suorituskykyyn, joka on tunnetusti kilpailukykyinen puheentunnistuksen vertailukohta. Kuitenkin, kun mittaamme Whisperin nolla-suorituskykyä monissa erilaisissa tietojoukoissa, huomaamme, että se on paljon vankempi ja tekee 50 % vähemmän virheitä kuin kyseiset mallit.

Noin kolmannes Whisperin ääniaineistosta ei ole englanninkielistä, ja sen tehtävänä on vuorotellen kopioida se alkuperäisellä kielellä tai kääntää englanniksi. Mielestämme tämä lähestymistapa on erityisen tehokas puheen tekstin käännöksen oppimisessa, ja se on parempi kuin valvottu SOTA CoVoST2-englanninkielisessä käännöksessä nolla-shot.

Toivomme, että Whisperin korkea tarkkuus ja helppokäyttöisyys antavat kehittäjille mahdollisuuden lisätä äänirajapintoja paljon laajempiin sovelluksiin. Tutustu paperi, mallikorttija koodi saadaksesi lisätietoja ja kokeillaksesi Whisperiä.

Aikaleima: Syyskuu 21, 2022Syyskuu 21, 2022

Aikaleima: Kesäkuu 2, 2022

Esittelyssä Whisper

Julkaissut Platon

Kuiskausesimerkkejä:

Lisää aiheesta OpenAI

Sora: Ensivaikutelma

Esittelyssä ChatGPT Enterprise

DALL·E nyt saatavana ilman jonotuslistaa

20. maaliskuuta ChatGPT-katkos: Tässä on mitä tapahtui

Uudet GPT-3-ominaisuudet: Muokkaa ja lisää

Tekniikat suurten hermoverkkojen kouluttamiseen

Uusia malleja ja kehitystuotteita julkistettiin DevDayssa

Evoluutio suurten mallien kautta

OpenAI ja Elon Musk

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili