Olemme kouluttaneet ja avoimen lähdekoodin Whisper-nimisen hermoverkon, joka lähestyy ihmistason kestävyyttä ja tarkkuutta englannin puheentunnistuksessa.
Katso koodi
Katso mallikortti
Kuiskausesimerkkejä:
Whisper on automaattinen puheentunnistusjärjestelmä (ASR), joka on koulutettu 680,000 XNUMX tunnin ajan verkosta kerättyyn monikieliseen ja monitehtävään valvottuun dataan. Osoitamme, että näin suuren ja monipuolisen tietojoukon käyttö parantaa aksenttien, taustamelun ja teknisen kielen kestävyyttä. Lisäksi se mahdollistaa transkription useilla kielillä sekä kääntämisen näistä kielistä englanniksi. Olemme avoimen lähdekoodin malleja ja päättelykoodia, jotka toimivat perustana hyödyllisten sovellusten rakentamiselle ja vankan puheenkäsittelyn jatkotutkimukselle.
Whisper-arkkitehtuuri on yksinkertainen päästä päähän -lähestymistapa, joka on toteutettu enkooderi-dekooderimuuntajana. Tuloääni jaetaan 30 sekunnin paloiksi, muunnetaan log-Mel-spektrogrammiksi ja siirretään sitten kooderiin. Dekooderi on koulutettu ennustamaan vastaava tekstiteksti yhdistettynä erityisiin tunnisteisiin, jotka ohjaavat yksittäisen mallin suorittamaan tehtäviä, kuten kielen tunnistamista, lausetason aikaleimat, monikielisen puheen transkriptiota ja puheen kääntämistä englanniksi.
Muut olemassa olevat lähestymistavat käyttävät usein pienempiä, läheisempiä äänitekstiharjoitustietojoukkojatai käytä laajaa, mutta valvomatonta äänen esikoulutusta. Koska Whisper koulutettiin suuren ja monipuolisen tietojoukon perusteella, eikä sitä ollut hienosäädetty mihinkään tiettyyn tietoaineistoon, se ei voita malleja, jotka ovat erikoistuneet LibriSpeech-suorituskykyyn, joka on tunnetusti kilpailukykyinen puheentunnistuksen vertailukohta. Kuitenkin, kun mittaamme Whisperin nolla-suorituskykyä monissa erilaisissa tietojoukoissa, huomaamme, että se on paljon vankempi ja tekee 50 % vähemmän virheitä kuin kyseiset mallit.
Noin kolmannes Whisperin ääniaineistosta ei ole englanninkielistä, ja sen tehtävänä on vuorotellen kopioida se alkuperäisellä kielellä tai kääntää englanniksi. Mielestämme tämä lähestymistapa on erityisen tehokas puheen tekstin käännöksen oppimisessa, ja se on parempi kuin valvottu SOTA CoVoST2-englanninkielisessä käännöksessä nolla-shot.
Toivomme, että Whisperin korkea tarkkuus ja helppokäyttöisyys antavat kehittäjille mahdollisuuden lisätä äänirajapintoja paljon laajempiin sovelluksiin. Tutustu paperi, mallikorttija koodi saadaksesi lisätietoja ja kokeillaksesi Whisperiä.
- AI
- ai taide
- ai taiteen generaattori
- ai robotti
- tekoäly
- tekoälyn sertifiointi
- tekoäly pankkitoiminnassa
- tekoäly robotti
- tekoälyrobotit
- tekoälyohjelmisto
- blockchain
- blockchain-konferenssi ai
- coingenius
- keskustelullinen tekoäly
- kryptokonferenssi ai
- dall's
- syvä oppiminen
- google ai
- koneoppiminen
- OpenAI
- Platon
- plato ai
- Platonin tietotieto
- Platon peli
- PlatonData
- platopeliä
- tutkimus
- mittakaava ai
- syntaksi
- zephyrnet