Przedstawiamy Szept

Opublikowane ponownie przez Plato

Obserwuje: 0

Przeszkoliliśmy i udostępniamy sieć neuronową o nazwie Whisper, która zbliża się do ludzkiej solidności i dokładności rozpoznawania mowy w języku angielskim.

Przeczytaj artykuł

Wyświetl kod

Zobacz kartę modelu

Whisper to system automatycznego rozpoznawania mowy (ASR) przeszkolony w zakresie 680,000 XNUMX godzin wielojęzycznych i wielozadaniowych nadzorowanych danych zebranych z sieci. Pokazujemy, że wykorzystanie tak dużego i zróżnicowanego zbioru danych prowadzi do poprawy odporności na akcenty, hałas w tle i język techniczny. Ponadto umożliwia transkrypcję w wielu językach, a także tłumaczenie z tych języków na angielski. Jesteśmy modelami open-source i kodem wnioskowania, które służą jako podstawa do tworzenia przydatnych aplikacji i dalszych badań nad solidnym przetwarzaniem mowy.

Architektura Whisper jest prostym, kompleksowym podejściem, zaimplementowanym jako transformator z koderem i dekoderem. Dźwięk wejściowy jest dzielony na 30-sekundowe fragmenty, konwertowany na spektrogram log-Mel, a następnie przekazywany do kodera. Dekoder jest wyszkolony do przewidywania odpowiedniego podpisu tekstowego, przemieszanego ze specjalnymi tokenami, które kierują pojedynczy model do wykonywania zadań, takich jak identyfikacja języka, znaczniki czasu na poziomie fraz, wielojęzyczna transkrypcja mowy i tłumaczenie mowy na język angielski.

Inne istniejące podejścia często wykorzystują mniejsze, ściślej sparowane zestawy danych szkoleniowych audio-tekstlub skorzystaj z szerokiego, ale nienadzorowanego wstępnego szkolenia audio. Ponieważ Szept został przeszkolony na dużym i zróżnicowanym zbiorze danych i nie został dostrojony do żadnego konkretnego, nie pokonuje modeli specjalizujących się w wydajności LibriSpeech, słynnym konkurencyjnym benchmarku w rozpoznawaniu mowy. Jednak gdy mierzymy zerową wydajność Whispera w wielu różnych zestawach danych, okazuje się, że jest on znacznie bardziej niezawodny i popełnia o 50% mniej błędów niż te modele.

Około jedna trzecia zbioru danych dźwiękowych Whisper nie jest w języku angielskim i na przemian otrzymuje zadanie transkrypcji w języku oryginalnym lub przetłumaczenia na angielski. Uważamy, że to podejście jest szczególnie skuteczne w nauce tłumaczenia mowy na tekst i przewyższa nadzorowaną SOTA na CoVoST2 na tłumaczenie angielskie zero-shot.

Mamy nadzieję, że wysoka dokładność i łatwość użycia Whisper pozwoli programistom dodawać interfejsy głosowe do znacznie szerszego zestawu aplikacji. Sprawdź papier, karta modelu, kod aby dowiedzieć się więcej i wypróbować Whisper.

Znak czasu: 21 września 2022 r.21 września 2022 r.

Znak czasu: Czerwiec 2, 2022

Przedstawiamy Szept

Opublikowane ponownie przez Plato

Przykłady szeptane:

Więcej z OpenAI

Sora: Pierwsze wrażenia

Przedstawiamy ChatGPT Enterprise

DALL·E jest teraz dostępny bez listy oczekujących

20 marca Awaria ChatGPT: Oto, co się stało

Nowe możliwości GPT-3: Edycja i wstawianie

Techniki uczenia dużych sieci neuronowych

Nowe modele i produkty deweloperskie ogłoszone na DevDay

Ewolucja poprzez duże modele

OpenAI i Elon Musk

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto