Amazon Transcribe to w pełni zarządzana usługa automatycznego rozpoznawania mowy (ASR), która ułatwia dodanie do aplikacji funkcji zamiany mowy na tekst. Dziś z przyjemnością ogłaszamy system nowej generacji, oparty na modelach mowy, obejmujący wiele miliardów parametrów, który rozszerza automatyczne rozpoznawanie mowy do ponad Języki 100. W tym poście omawiamy niektóre zalety tego systemu, sposób, w jaki firmy z niego korzystają i jak zacząć. Poniżej podajemy również przykładowy wynik transkrypcji.
Podstawowy model mowy Transcribe jest szkolony przy użyciu najlepszych w swojej klasie, samonadzorowanych algorytmów, aby poznać nieodłączne, uniwersalne wzorce ludzkiej mowy w różnych językach i akcentach. Jest szkolony na milionach godzin nieoznakowanych danych audio z ponad 100 języków. Receptury szkoleniowe są optymalizowane poprzez inteligentne próbkowanie danych w celu zrównoważenia danych szkoleniowych między językami, dzięki czemu tradycyjnie niedostatecznie reprezentowane języki również osiągną wysoki poziom dokładności.
Carbyne to firma zajmująca się oprogramowaniem, która opracowuje oparte na chmurze rozwiązania do centrów kontaktowych o znaczeniu krytycznym dla służb ratowniczych. Misją Carbyne jest pomaganie ratownikom w ratowaniu życia, a język nie może stanąć na drodze do ich celów. Oto, jak wykorzystują Amazon Transcribe do realizacji swojej misji:
„Oparte na sztucznej inteligencji tłumaczenie audio na żywo Carbyne ma bezpośrednio na celu usprawnienie reagowania w sytuacjach kryzysowych dla 68 milionów Amerykanów, którzy w domu posługują się językiem innym niż angielski, a także do 79 milionów zagranicznych gości odwiedzających ten kraj rocznie. Wykorzystując nowy, wielojęzyczny model podstawowy oparty na ASR Amazon Transcribe, Carbyne będzie jeszcze lepiej przygotowany do demokratyzacji służb ratunkowych ratujących życie, ponieważ Every. Osoba. Liczy się."
– Alex Dizengof, współzałożyciel i dyrektor techniczny Carbyne.
Wykorzystując model podstawy mowy, Amazon Transcribe zapewnia znaczną poprawę dokładności od 20% do 50% w większości języków. W przypadku rozmów telefonicznych, które są dziedziną wymagającą i wymagającą niewielkiej ilości danych, poprawa dokładności wynosi od 30% do 70%. Oprócz znacznej poprawy dokładności, ten duży model ASR zapewnia również poprawę czytelności dzięki dokładniejszej interpunkcji i wielkimi literami. Wraz z pojawieniem się generatywnej sztucznej inteligencji tysiące przedsiębiorstw korzysta z Amazon Transcribe, aby uzyskać bogaty wgląd w swoje treści audio. Dzięki znacznie zwiększonej dokładności i obsłudze ponad 100 języków usługa Amazon Transcribe będzie miała pozytywny wpływ na wszystkie tego typu przypadki użycia. Wszyscy obecni i nowi klienci korzystający z Amazon Transcribe w trybie wsadowym mogą uzyskać dostęp do rozpoznawania mowy opartego na modelu mowy bez konieczności wprowadzania jakichkolwiek zmian w punkcie końcowym API lub parametrach wejściowych.
Nowy system ASR zapewnia kilka kluczowych funkcji we wszystkich ponad 100 językach, związanych z łatwością obsługi, dostosowywaniem, bezpieczeństwem użytkownika i prywatnością. Obejmują one takie funkcje, jak automatyczna interpunkcja, niestandardowe słownictwo, automatyczna identyfikacja języka, diaryzacja mówiącego, wskaźniki pewności na poziomie słów i niestandardowy filtr słownictwa. Rozszerzona obsługa systemu dla różnych akcentów, środowisk hałaśliwych i warunków akustycznych umożliwia generowanie dokładniejszych wyników, a tym samym pomaga skutecznie osadzać technologie głosowe w aplikacjach.
Dzięki wysokiej dokładności usługi Amazon Transcribe w przypadku różnych akcentów i warunków hałasu, obsłudze dużej liczby języków oraz bogactwu zestawów funkcji o wartości dodanej, tysiące przedsiębiorstw będzie mogło odblokowują szczegółowe informacje na temat swoich treści audio, a także zwiększają dostępność i możliwość odkrywania swoich treści audio i wideo w różnych domenach. Na przykład centra kontaktowe transkrybują i analizują rozmowy z klientami, aby zidentyfikować spostrzeżenia, a następnie poprawić jakość obsługi klienta i produktywność agentów. Producenci treści i dystrybutorzy mediów automatycznie generują napisy za pomocą Amazon Transcribe, aby poprawić dostępność treści.
Zacznij korzystać z Transkrypcji Amazon
Możesz użyć Interfejs wiersza poleceń AWS (interfejs wiersza poleceń AWS), Konsola zarządzania AWSi różne Pakiety SDK AWS do transkrypcji wsadowych i nadal używaj tego samego StartTranscriptionJob
API umożliwiające uzyskanie korzyści w zakresie wydajności z ulepszonego modelu ASR bez konieczności wprowadzania jakichkolwiek zmian w kodzie lub parametrach po Twojej stronie. Aby uzyskać więcej informacji na temat korzystania z interfejsu wiersza polecenia AWS i konsoli, zobacz Transkrypcja za pomocą interfejsu CLI AWS i Transkrypcja za pomocą konsoli zarządzania AWS, Odpowiednio.
Pierwszym krokiem jest przesłanie plików multimedialnych do pliku Usługa Amazon Simple Storage (Amazon S3), usługa przechowywania obiektów stworzona do przechowywania i pobierania dowolnej ilości danych z dowolnego miejsca. Amazon S3 oferuje wiodącą w branży trwałość, dostępność, wydajność, bezpieczeństwo i praktycznie nieograniczoną skalowalność przy bardzo niskich kosztach. Możesz zapisać transkrypcję we własnym zasobniku S3 lub pozwolić Amazon Transcribe używać bezpiecznego zasobnika domyślnego. Aby dowiedzieć się więcej o korzystaniu z segmentów S3, zobacz Tworzenie, konfigurowanie i praca z segmentami Amazon S3.
Dane wyjściowe transkrypcji
Amazon Transcribe wykorzystuje reprezentację JSON w swoich wynikach. Zapewnia wynik transkrypcji w dwóch różnych formatach: formacie tekstowym i formacie szczegółowym. Nic się nie zmienia w odniesieniu do punktu końcowego API ani parametrów wejściowych.
Format tekstowy zapewnia transkrypcję w postaci bloku tekstu, natomiast format szczegółowy zapewnia transkrypcję w postaci terminowo uporządkowanych transkrybowanych pozycji wraz z dodatkowymi metadanymi dla każdej pozycji. Obydwa formaty istnieją równolegle w pliku wyjściowym.
W zależności od funkcji wybranych podczas tworzenia zadania transkrypcji Amazon Transcribe tworzy dodatkowe i wzbogacone widoki wyniku transkrypcji. Zobacz następujący przykładowy kod:
Widoki są następujące:
- Świadectwo – Reprezentowany przez
transcripts
element, zawiera jedynie tekstowy format transkrypcji. W scenariuszach wielogłośnikowych i wielokanałowych połączenie wszystkich transkrypcji jest zapewniane w postaci pojedynczego bloku. - Głośniki – Reprezentowany przez
speaker_labels
element, zawiera tekst i szczegółowe formaty transkrypcji pogrupowane według mówcy. Jest dostępna tylko wtedy, gdy włączona jest funkcja wielu głośników. - Kanały – Reprezentowany przez
channel_labels
zawiera tekst i szczegółowe formaty transkrypcji, pogrupowane według kanałów. Jest dostępna tylko wtedy, gdy włączona jest funkcja wielu kanałów. - szt – Reprezentowany przez
items
element, zawiera jedynie szczegółowy format transkrypcji. W scenariuszach wielogłośnikowych i wielokanałowych elementy są wzbogacane o dodatkowe właściwości wskazujące mówcę i kanał. - Segmenty – Reprezentowany przez
segments
element, zawiera tekst i szczegółowe formaty transkrypcji, pogrupowane według alternatywnej transkrypcji. Jest dostępna tylko wtedy, gdy włączona jest funkcja wyników alternatywnych.
Wnioski
W AWS stale wprowadzamy innowacje w imieniu naszych klientów. Rozszerzając obsługę językową w Amazon Transcribe na ponad 100 języków, umożliwiamy naszym klientom obsługę użytkowników z różnych środowisk językowych. Nie tylko zwiększa to dostępność, ale także otwiera nowe możliwości komunikacji i wymiany informacji w skali globalnej. Aby dowiedzieć się więcej o funkcjach omówionych w tym poście, zajrzyj na stronę strona funkcji i jaki jest nowy post.
O autorach
Sumit Kumar jest głównym menedżerem produktu i działem technicznym w zespole usług językowych AWS AI. Ma 10-letnie doświadczenie w zarządzaniu produktami w różnych dziedzinach i jest pasjonatem AI/ML. Poza pracą Sumit uwielbia podróżować i grać w krykieta oraz tenisa ziemnego.
Vivek Singh jest starszym menedżerem ds. zarządzania produktami w zespole usług językowych AWS AI. Kieruje zespołem produktowym Amazon Transcribe. Przed dołączeniem do AWS zajmował stanowiska związane z zarządzaniem produktami w różnych innych organizacjach Amazon, takich jak płatności konsumenckie i sprzedaż detaliczna. Vivek mieszka w Seattle w stanie Waszyngton i lubi biegać oraz wędrować.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/
- :ma
- :Jest
- :nie
- $W GÓRĘ
- 10
- 100
- 14
- 24
- 7
- a
- O nas
- dostęp
- dostępność
- precyzja
- dokładny
- w poprzek
- Dodaj
- dodatek
- Dodatkowy
- nadejście
- Agent
- AI
- AI / ML
- wymierzony
- alex
- Algorytmy
- Wszystkie kategorie
- wzdłuż
- również
- alternatywny
- Amazonka
- Amazon Transcribe
- Amazon Web Services
- Amerykanie
- ilość
- an
- w czasie rzeczywistym sprawiają,
- i
- Ogłosić
- Ogłasza
- Rocznie
- każdy
- nigdzie
- api
- aplikacje
- SĄ
- AS
- At
- audio
- automatycznie
- automatycznie
- dostępność
- dostępny
- aleje
- AWS
- tła
- Bilans
- BE
- bo
- w imieniu
- poniżej
- Korzyści
- Ulepsz Swój
- pomiędzy
- Blokować
- obie
- szerokość
- wybudowany
- ale
- by
- wezwanie
- Połączenia
- CAN
- możliwości
- kapitalizacja
- Etui
- Centrum
- Centra
- wyzwanie
- zmiana
- Zmiany
- Kanał
- kanały
- ZOBACZ
- Dodaj
- Współzałożyciel
- kod
- Komunikacja
- Firmy
- sukcesy firma
- Zakończony
- Warunki
- pewność siebie
- konfigurowanie
- Konsola
- stale
- konsument
- skontaktuj się
- contact center
- zawiera
- zawartość
- kontynuować
- Koszty:
- kraj
- tworzy
- Tworzenie
- krykiet
- CTO
- zwyczaj
- klient
- doświadczenie klienta
- Klientów
- dostosowywanie
- dane
- Domyślnie
- dostarcza
- zdemokratyzować
- rozwija się
- różne
- bezpośrednio
- dyskutować
- omówione
- dystrybutorzy
- inny
- domena
- domeny
- trwałość
- łatwość
- łatwość użycia
- faktycznie
- bądź
- element
- osadzać
- nagły wypadek
- upoważniony
- umożliwiać
- włączony
- Umożliwia
- zakończenia
- Punkt końcowy
- Angielski
- wzmocnione
- Poprawia
- Wzbogacony
- zapewnienie
- przedsiębiorstwa
- środowiska
- wyposażony
- Parzyste
- Każdy
- przykład
- wymiana
- istnieć
- Przede wszystkim system został opracowany
- rozszerzony
- rozszerza się
- doświadczenie
- rozsuwalny
- Cecha
- Korzyści
- filet
- Akta
- filtrować
- i terminów, a
- następujący
- następujący sposób
- W razie zamówieenia projektu
- obcy
- Nasz formularz
- format
- Fundacja
- od
- w pełni
- Generować
- generatywny
- generatywna sztuczna inteligencja
- otrzymać
- Globalne
- skala globalna
- Gole
- Zaoszczędzić
- Have
- he
- Trzymany
- pomoc
- pomoc
- pomaga
- tutaj
- hi
- Wysoki
- Strona główna
- GODZINY
- W jaki sposób
- How To
- HTML
- http
- HTTPS
- człowiek
- Identyfikacja
- zidentyfikować
- Rezultat
- podnieść
- ulepszony
- poprawa
- ulepszenia
- in
- zawierać
- Zwiększać
- wiodący w branży
- Informacja
- nieodłączny
- innowacyjne
- wkład
- spostrzeżenia
- przykład
- najnowszych
- IT
- szt
- JEGO
- Praca
- łączący
- jpg
- json
- Klawisz
- język
- Języki
- duży
- Wyprowadzenia
- UCZYĆ SIĘ
- poziomy
- lewarowanie
- Linia
- relacja na żywo
- Zyje
- kocha
- niski
- robić
- WYKONUJE
- zarządzane
- i konserwacjami
- kierownik
- Media
- Metadane
- milion
- miliony
- Misja
- Moda
- model
- jeszcze
- większość
- potrzeba
- Nowości
- następna generacja
- Hałas
- nic
- numer
- przedmiot
- of
- Oferty
- on
- tylko
- otwiera
- zoptymalizowane
- or
- organizacji
- Inne
- ludzkiej,
- na zewnątrz
- wydajność
- Wyjścia
- zewnętrzne
- koniec
- własny
- Parallel
- parametr
- parametry
- namiętny
- wzory
- płatności
- dla
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- osoba
- plato
- Analiza danych Platona
- PlatoDane
- gra
- pozytywnie
- Post
- powered
- Główny
- Wcześniejszy
- prywatność
- produkować
- Producenci
- Produkt
- zarządzanie produktem
- product manager
- wydajność
- niska zabudowa
- zapewniać
- pod warunkiem,
- zapewnia
- kontynuować
- dosięgnąć
- uznanie
- odnosić się
- związane z
- reprezentacja
- reprezentowane
- poszanowanie
- odpowiednio
- odpowiedź
- dalsze
- Efekt
- detaliczny
- Bogaty
- role
- bieganie
- Bezpieczeństwo
- taki sam
- Zapisz
- Skalowalność
- Skala
- scenariusze
- Seattle
- bezpieczne
- bezpieczeństwo
- widzieć
- Segmenty
- wybierać
- senior
- służyć
- usługa
- Usługi
- Zestawy
- kilka
- znaczący
- znacznie
- Prosty
- pojedynczy
- mądry
- Tworzenie
- Rozwiązania
- kilka
- mówić
- Głośnik
- Głośniki
- przemówienie
- Rozpoznawanie mowy
- zamiana mowy na tekst
- rozpoczęty
- Rynek
- Ewolucja krok po kroku
- przechowywanie
- sklep
- bezpośredni
- Następnie
- znaczny
- napisy na filmie obcojęzycznym
- taki
- wsparcie
- system
- zespół
- Techniczny
- Technologies
- XNUMX
- niż
- że
- Połączenia
- ich
- a tym samym
- Te
- one
- to
- tysiące
- Przez
- aktualny
- do
- już dziś
- tradycyjnie
- przeszkolony
- Trening
- Transkrypcja
- Tłumaczenie
- podróżować
- drugiej
- uniwersalny
- nieograniczone
- odblokować
- posługiwać się
- Użytkownik
- Użytkownicy
- zastosowania
- za pomocą
- różnorodność
- różnorodny
- początku.
- Wideo
- widoki
- prawie
- odwiedzający
- Głos
- Droga..
- we
- sieć
- usługi internetowe
- powitanie
- DOBRZE
- jeśli chodzi o komunikację i motywację
- natomiast
- który
- KIM
- będzie
- w
- bez
- Praca
- pracujący
- lat
- You
- Twój
- zefirnet