Tutvustame Whisperit

Oleme välja õpetanud ja toome avatud lähtekoodiga närvivõrgu nimega Whisper, mis läheneb ingliskeelse kõnetuvastuse robustsusele ja täpsusele inimese tasemel.

Loe raamatut


Vaata koodi


Vaadake mudelikaarti

Sosistamise näited:

Whisper on automaatne kõnetuvastussüsteem (ASR), mis on koolitatud 680,000 XNUMX tunni jooksul veebist kogutud mitmekeelsete ja mitme ülesandega jälgitavate andmete põhjal. Näitame, et sellise suure ja mitmekesise andmestiku kasutamine suurendab rõhkude, taustmüra ja tehnilise keele vastupidavust. Lisaks võimaldab see transkriptsiooni mitmes keeles ja tõlkimist nendest keeltest inglise keelde. Oleme avatud lähtekoodiga mudelid ja järelduskood, mis on aluseks kasulike rakenduste loomisele ja jõulise kõnetöötluse edasiseks uurimiseks.

pilt
pilt

Whisperi arhitektuur on lihtne täielik lähenemine, mida rakendatakse kodeerija-dekooder-muundurina. Sisendheli jagatakse 30-sekundilisteks tükkideks, teisendatakse log-Mel spektrogrammiks ja edastatakse seejärel kodeerijasse. Dekooder on koolitatud ennustama vastavat tekstipealkirja, mis on segatud spetsiaalsete märkidega, mis suunavad ühe mudeli täitma selliseid ülesandeid nagu keele tuvastamine, fraasitaseme ajatemplid, mitmekeelne kõne transkriptsioon ja kõne inglise keelde tõlkimine.

pilt
pilt

Muud olemasolevad lähenemisviisid kasutavad sageli väiksemaid, tihedamalt seotud heliteksti koolituse andmekogumeidvõi kasutage laiaulatuslikku, kuid järelevalveta heli eeltreeningut. Kuna Whisperit koolitati suure ja mitmekesise andmestiku põhjal ning seda ei peenhäälestatud ühelegi konkreetsele, ei ületa see mudeleid, mis on spetsialiseerunud LibriSpeechi jõudlusele, mis on kõnetuvastuse konkurentsivõimeline etalon. Kui aga mõõta Whisperi nullkaadri jõudlust paljudes erinevates andmekogumites, leiame, et see on palju tugevam ja teeb 50% vähem vigu kui need mudelid.

Umbes kolmandik Whisperi heliandmestikust ei ole ingliskeelne ja vaheldumisi antakse sellele ülesanne originaalkeeles transkribeerida või inglise keelde tõlkida. Leiame, et see lähenemisviis on kõnest tekstiks tõlkimise õppimisel eriti tõhus ja ületab CoVoST2 ingliskeelse tõlke järelvalvega SOTA-d.

pilt
pilt

Loodame, et Whisperi suur täpsus ja kasutuslihtsus võimaldavad arendajatel lisada häälliideseid palju laiemale rakenduste komplektile. Tutvuge paber, mudeli kaartja kood lisateabe saamiseks ja Whisperi proovimiseks.

Ajatempel:

Veel alates OpenAI