Przedstawiamy Szept

Przeszkoliliśmy i udostępniamy sieć neuronową o nazwie Whisper, która zbliża się do ludzkiej solidności i dokładności rozpoznawania mowy w języku angielskim.

Przeczytaj artykuł


Wyświetl kod


Zobacz kartę modelu

Przykłady szeptane:

Whisper to system automatycznego rozpoznawania mowy (ASR) przeszkolony w zakresie 680,000 XNUMX godzin wielojęzycznych i wielozadaniowych nadzorowanych danych zebranych z sieci. Pokazujemy, że wykorzystanie tak dużego i zróżnicowanego zbioru danych prowadzi do poprawy odporności na akcenty, hałas w tle i język techniczny. Ponadto umożliwia transkrypcję w wielu językach, a także tłumaczenie z tych języków na angielski. Jesteśmy modelami open-source i kodem wnioskowania, które służą jako podstawa do tworzenia przydatnych aplikacji i dalszych badań nad solidnym przetwarzaniem mowy.

obraz
obraz

Architektura Whisper jest prostym, kompleksowym podejściem, zaimplementowanym jako transformator z koderem i dekoderem. Dźwięk wejściowy jest dzielony na 30-sekundowe fragmenty, konwertowany na spektrogram log-Mel, a następnie przekazywany do kodera. Dekoder jest wyszkolony do przewidywania odpowiedniego podpisu tekstowego, przemieszanego ze specjalnymi tokenami, które kierują pojedynczy model do wykonywania zadań, takich jak identyfikacja języka, znaczniki czasu na poziomie fraz, wielojęzyczna transkrypcja mowy i tłumaczenie mowy na język angielski.

obraz
obraz

Inne istniejące podejścia często wykorzystują mniejsze, ściślej sparowane zestawy danych szkoleniowych audio-tekstlub skorzystaj z szerokiego, ale nienadzorowanego wstępnego szkolenia audio. Ponieważ Szept został przeszkolony na dużym i zróżnicowanym zbiorze danych i nie został dostrojony do żadnego konkretnego, nie pokonuje modeli specjalizujących się w wydajności LibriSpeech, słynnym konkurencyjnym benchmarku w rozpoznawaniu mowy. Jednak gdy mierzymy zerową wydajność Whispera w wielu różnych zestawach danych, okazuje się, że jest on znacznie bardziej niezawodny i popełnia o 50% mniej błędów niż te modele.

Około jedna trzecia zbioru danych dźwiękowych Whisper nie jest w języku angielskim i na przemian otrzymuje zadanie transkrypcji w języku oryginalnym lub przetłumaczenia na angielski. Uważamy, że to podejście jest szczególnie skuteczne w nauce tłumaczenia mowy na tekst i przewyższa nadzorowaną SOTA na CoVoST2 na tłumaczenie angielskie zero-shot.

obraz
obraz

Mamy nadzieję, że wysoka dokładność i łatwość użycia Whisper pozwoli programistom dodawać interfejsy głosowe do znacznie szerszego zestawu aplikacji. Sprawdź papier, karta modelu, kod aby dowiedzieć się więcej i wypróbować Whisper.

Znak czasu:

Więcej z OpenAI