Twórz napisy do filmów za pomocą transkrypcji Amazon za pomocą tego przepływu pracy bez kodu

Opublikowane ponownie przez Plato

Obserwuje: 0

Tworzenie napisów w treści wideo stanowi wyzwanie bez względu na to, jak duża lub mała jest organizacja. Aby sprostać tym wyzwaniom, Amazon Transcribe posiada przydatną funkcję, która umożliwia tworzenie napisów bezpośrednio w serwisie. Aby rozpocząć, nie jest wymagane uczenie maszynowe (ML) ani pisanie kodu. Ten post przeprowadzi Cię przez proces konfigurowania przepływu pracy bez kodu do tworzenia napisów wideo za pomocą Amazon Transscribe na koncie Amazon Web Services.

Napisy a napisy kodowane

Warunki napisy na filmie obcojęzycznym i Zamknięte napisy są powszechnie używane zamiennie i oba odnoszą się do tekstu mówionego wyświetlanego na ekranie. Jednak podstawowa różnica między napisami a napisami (na podstawie definicji branżowych i ułatwień dostępu) polega na tym, że napisy zawierają zarówno transkrypcję słowa mówionego, jak i opis muzyki w tle lub dźwięków występujących na ścieżce dźwiękowej, co zapewnia bogatsze wrażenia z dostępności. . Ten post koncentruje się tylko na tworzeniu transkrybowanych plików z napisami mówionymi przy użyciu technologii automatycznego rozpoznawania mowy (ASR), które nie zawierają identyfikacji mówcy, efektów dźwiękowych ani opisów muzyki. Amazon Transscribe obsługuje standardowe w branży formaty SubRip Text (*.srt) i Web Video Text Tracks (*.vtt) dla tworzenie napisów.

Poniższy obraz przedstawia przykład napisów włączonych w internetowym odtwarzaczu wideo.

Napisy przynoszą korzyści twórcom wideo, zwiększając zarówno zasięg, jak i inkluzywność ich treści wideo. Wyświetlając wypowiadaną część audio wideo na ekranie, napisy sprawiają, że zawartość audio/wideo jest dostępna dla większej liczby odbiorców, w tym osób nie mówiących w języku ojczystym oraz tych, które znajdują się w środowisku, w którym dźwięk jest niesłyszalny.

Chociaż zalety napisów są oczywiste, twórcy filmów tradycyjnie napotykali przeszkody w tworzeniu napisów. Przeszkody pojawiają się z powodu czasochłonnych i zasobożernych wymagań tradycyjnego procesu tworzenia, który w dużej mierze opiera się na wysiłku ręcznym. Tradycyjne metody tworzenia napisów są ręczne i mogą trwać od kilku dni do kilku tygodni, przez co mogą nie być kompatybilne ze wszystkimi harmonogramami produkcji. Podobnie wiele firm korzysta z usług ręcznej transkrypcji, ale te procesy często nie są skalowalne i są drogie w utrzymaniu. Amazon Transcribe ułatwia konwersję mowy na tekst za pomocą technologii opartych na ML i pomaga twórcom wideo rozwiązać te problemy.

Omówienie rozwiązania

Ten post przechodzi przez przepływ pracy bez kodu do generowania napisów za pomocą Usługa Amazon Simple Storage (Amazon S3) i Transkrypcja Amazon.

Amazon S3 to obiektowa pamięć masowa stworzona do przechowywania i pobierania dowolnej ilości danych z dowolnego miejsca. Ten post przedstawia proces, aby utwórz wiadro S3 i prześlij plik audio. Gdy użytkownicy przechowują dane w Amazon S3, pracują z zasobami znanymi jako zasobniki i obiekty. A wiadro to pojemnik na przedmioty. jakiś przedmiot to plik i wszelkie metadane opisujące ten plik.

Amazon Transscribe to usługa ASR, która wykorzystuje w pełni zarządzane i stale trenowane modele ML do konwersji plików audio/wideo na tekst. Wejścia i wyjścia Amazon Transscribe są przechowywane w Amazon S3. Amazon Transcribe pobiera dane audio, plik multimedialny w zasobniku Amazon S3 lub strumień multimediów, i konwertuje je na dane tekstowe. Amazon Transcribe umożliwia przetwarzanie danych wejściowych audio, tworzenie łatwych do odczytania transkrypcji z wysokim stopniem dokładności, dostosowywanie danych wyjściowych do słownictwa specyficznego dla domeny za pomocą niestandardowe modele językowe (CLM) i słowniki niestandardowe, filtruj zawartość, aby zapewnić prywatność klienta. Klienci mogą korzystać z usługi Amazon Transscribe w różnych aplikacjach biznesowych, w tym: transkrypcja głosowych rozmów z obsługą klienta, generowanie napisów do treści audio/wideo, przeprowadzić (tekstową) analizę treści na treści audio/wideo. W tym poście demonstrujemy tworzenie zadania transkrypcji i przeglądanie wyników zadania.

Jeśli wolisz instruktaż wideo, zapoznaj się z odcinkiem przekąsek wideo Amazon Transscribe Tworzenie napisów do filmów bez pisania kodu.

Wymagania wstępne

Aby przejść przez rozwiązanie, musisz mieć następujące wymagania wstępne:

An Konto AWS z wystarczającym AWS Zarządzanie tożsamością i dostępem (IAM) uprawnienia użytkownika
Plik audio/wideo z wypowiadanymi słowami w Obsługiwany język Amazon Transscribe i w a obsługiwany format wejściowy

Jeśli nie masz jeszcze przykładowego pliku audio/wideo, możesz go utworzyć za pomocą aplikacji do nagrywania wideo na komputerze lub smartfonie. Upewnij się, że mówisz wyraźnie do mikrofonu, aby zapewnić najwyższą jakość transkrypcji podczas nagrywania. Inną opcją jest znalezienie ogólnodostępnego pliku do pobrania zawierającego słowo mówione, takich jak podcastlub film instruktażowy zamieszczony w tym poście, który może zostać przetworzony przez Amazon Transscribe. Nagrany lub pobrany plik musi być dostępny na pulpicie, aby można go było przesłać na konto AWS.

Zanim zaczniesz, przejrzyj Amazon Transcribe i Amazon S3 strony cenowe do wyceny usług.

Utwórz zasobniki S3

W tym poście tworzymy dwa wiadra S3, aby oddzielić dane wejściowe i wyjściowe.

Na konsoli Amazon S3 wybierz Utwórz wiadro.
Nadaj każdemu zasobnikowi globalnie unikalną nazwę.
Użyj ustawień domyślnych, aby zapewnić zgodność z zasadami organizacji.
umożliwiać wersjonowanie wiadra i domyślne szyfrowanie po stronie serwera (Zalecana).
Dodaj Utwórz wiadro.

Poniższy zrzut ekranu przedstawia konfigurację zasobnika wejściowego.

Zasobnik S3 do wprowadzania danych jest teraz gotowy do przesłania pliku audio/wideo. W czasie tej publikacji maksymalny rozmiar danych wejściowych dla Amazon Transscribe to 2 GB. Jeśli plik wideo przekracza tę kwotę lub jest w format, który nie jest natywnie obsługiwany przez Amazon Transscribe, rozważ użycie Podstawowa konwersja mediów AWS do utwórz wyjście tylko audio. Jest to korzystne, ponieważ pliki audio są zazwyczaj znacznie mniejsze niż pliki wideo, a Amazon Transscribe wymaga tylko ścieżki audio, a nie ścieżki wideo, do generowania transkrypcji i napisów.

Prześlij plik źródłowy do zasobnika S3

Aby przesłać plik źródłowy, wykonaj następujące czynności:

W konsoli Amazon S3 wybierz zasobnik wejściowy.
Dodaj Prześlij.
Wybierz plik z pulpitu.
Zaakceptuj domyślną klasę pamięci i ustawienia szyfrowania lub zmodyfikuj je na podstawie zasad swojej organizacji.
Dodaj Prześlij.

Utwórz zadanie transkrypcji

Gdy plik wejściowy jest gotowy w Amazon S3, tworzymy teraz zadanie transkrypcji w Amazon Transscribe.

Na Konsola transkrypcji Amazonwybierz Zadania transkrypcyjne w okienku nawigacji.
Dodaj Utwórz pracę.

Ten przewodnik w dużej mierze wykorzystuje opcje domyślne; należy jednak wybrać konfigurację najlepiej odpowiadającą wymaganiom Twojej organizacji.

W razie zamówieenia projektu Imię, wprowadź nazwę tego zadania i wynikowego pliku.
W razie zamówieenia projektu Ustawienia języka, Wybierz Określony język.
W razie zamówieenia projektu Wybierz język, wybierz język źródłowy pliku wejściowego.
W razie zamówieenia projektu Typ modeluWybierz Ogólny model.

W tym demo używamy ogólnego modelu, ale zachęcamy do zapoznania się ze szkoleniem i korzystaniem niestandardowe modele językowe w celu zwiększenia dokładności w określonych przypadkach użycia, takich jak terminy branżowe lub akronimy. Aby głębiej zagłębić się w niestandardowe modele językowe, obejrzyj przekąskę wideo Amazon Transscribe Korzystanie z niestandardowych modeli językowych (CLM) w celu zwiększenia dokładności transkrypcji.

W razie zamówieenia projektu Wejściowa lokalizacja pliku na S3wybierz Przeglądaj S3.
Wybierz zasobnik wejściowy i plik audio/wideo do transkrypcji.
W razie zamówieenia projektu Informacje o typie lokalizacji danych wyjściowych, Wybierz Określony przez klienta wiadro S3.
W razie zamówieenia projektu Miejsce docelowe pliku wyjściowego na S3wybierz Przeglądaj S3.
Wybierz nowo utworzony zasobnik wyjściowy.

Połączenia Format pliku napisów sekcja zawiera dwie najważniejsze opcje tego całego postu. Możesz wybrać dane wyjściowe w formacie *.srt i *.vtt jako część zadania transkrypcji Amazon Transscribe. W chwili pisania tego tekstu wybranie jednego lub obu nie powoduje dodatkowych kosztów zadania transkrypcji Amazon.

W przypadku tego posta wybierz oba SRT i ATV.
W razie zamówieenia projektu Określ indeks początkowywybierz 0 or 1.

Ta wartość odnosi się do numeru początkowego pierwszego napisu w kolejności. Jeśli nie masz pewności, którą wartość wybrać, 1 jest najczęstszy.

Po wprowadzeniu ustawień wybierz Następna.
Skonfiguruj dowolne ustawienia opcjonalne zgodnie ze swoimi potrzebami.

Amazon Transscribe przedstawia opcje identyfikacji dźwięku dla kanały or Głośniki, alternatywne wyniki, Redakcja PII, filtrowanie słownictwa, niestandardowe słownictwo. W tym konkretnym poście możesz pominąć te opcje konfiguracji. Aby dokładniej zapoznać się z opcjami konfiguracji zadań, obejrzyj odcinki przekąsek wideo Amazon Transscribe dla niestandardowe słownictwo, niestandardowe modele językowe, filtrowanie słownictwa.

Dodaj Utwórz pracę.

Przejrzyj wyniki pracy

Rozpoczyna się praca nad transkrypcją w celu utworzenia napisów do filmów. Stan zadania, jak pokazano na poniższym zrzucie ekranu, jest wyświetlany w panelu szczegółów zadania. Po zakończeniu zadania wybierz lokalizację danych wyjściowych, aby zlokalizować nowo utworzone napisy w wiadrze S3.

Napisy są identyfikowane przez rozszerzenia *.srt lub *.vtt. Po wybraniu obiektu w zasobniku S3 masz możliwość pobrania pliku.

Ponieważ te napisy są w formacie zwykłego tekstu, każdy edytor tekstu może wyświetlać i edytować powstałą transkrypcję. Porównanie plików *.srt i *.vtt ujawnia wiele podobieństw, z subtelnymi różnicami.

Oto przykład formatu *.srt:

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

Oto przykład formatu *.vtt:

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

Liczby wskazują kolejność wyświetlania napisów. Kod czasowy wskazuje, kiedy wyświetlane są napisy. Tekst jest samym tekstem napisów.

Wszelkie zmiany lub poprawki są teraz możliwe bezpośrednio w edytorze tekstu i pozostają kompatybilne po zapisaniu z rozszerzeniem *.srt lub *.vtt. Możesz także wyświetlić podgląd zmian na samej platformie wideo, w aplikacji do edycji wideo lub w odtwarzaczu wideo.

VLC to popularny odtwarzacz wideo typu open source i wieloplatformowy, który obsługuje napisy *.srt i *.vtt. Aby automatycznie odtwarzać napisy na filmie w VLC, umieść zarówno oryginalny film, jak i plik z napisami w tym samym katalogu z dokładnie taką samą nazwą pliku przed rozszerzeniem pliku.

Teraz, gdy otworzysz plik wideo w VLC, plik napisów powinien automatycznie wykryć i odtworzyć w oknie odtwarzacza wideo.

Sprzątać

Aby uniknąć przyszłych opłat, pusty i usunąć kubełków S3 używanych do wprowadzania i wyprowadzania. Upewnij się, że masz zapisane wszystkie niezbędne pliki, ponieważ spowoduje to trwałe usunięcie wszystkich obiektów zawartych w zasobnikach. Na Konsola transkrypcji, wybierz i usuń wszystkie zadania, które nie są już potrzebne.

Wnioski

Utworzyłeś teraz kompletny, kompleksowy przepływ pracy tworzenia napisów, aby rozszerzyć i przyspieszyć proces tworzenia napisów do filmów, a wszystko to bez pisania kodu. W ciągu kilku minut utworzyłeś zasobniki pamięci S3, przesłałeś plik do Amazon S3 i użyłeś Amazon Transcribe do tworzenia napisów. Następnie możesz pobrać powstałe pliki napisów *.srt i *.vtt do sprawdzenia i przesłać je na platformę docelową.

Ten przepływ pracy koncentrował się na napisach audio/wideo utworzonych przy użyciu technologii automatycznego rozpoznawania mowy (ASR) w Amazon Transscribe specjalnie dla przepływów pracy wideo. Sam ten przepływ pracy nie zastępuje procesu tworzenia napisów opartego na ludziach, który jest w stanie sprostać wyższym standardom dostępności, w tym identyfikacji mówcy, efektów dźwiękowych, opisu muzyki i sprawdzania edycji tekstu pod kątem dokładności. Możesz użyć metody edycji tekstu opisanej w tym poście, aby dodać te elementy po zakończeniu początkowego zadania transkrypcji Amazon. Ponadto, aby uzyskać bardziej zaawansowane tworzenie napisów, podgląd i edycję kopiowania w przeglądarce, możesz zapoznać się z wdrażaniem Lokalizacja treści w AWS rozwiązanie, które zostało sprawdzone przez architektów rozwiązań AWS i zawiera przewodnik wdrażania. To rozwiązanie oferuje dodatkowe funkcje, takie jak podgląd w przeglądarce i edycja napisów, tłumaczenie napisów obsługiwane przez Tłumacz Amazonoraz możliwości widzenia komputerowego oferowane przez Amazon Rekognition.

Jeśli podobał Ci się ten pokaz możliwości tworzenia napisów przez Amazon Transcribe, rozważ głębsze zagłębienie się w dodatkowe funkcje i możliwości, aby przyspieszyć przepływ pracy audio/wideo. Aby uzyskać dodatkowe informacje i przykłady kodu wspierające automatyzację i skalowanie tworzenia napisów, zobacz Tworzenie napisów do filmów. Powodzenia w eksploracji i rozwijaniu przepływu pracy przy tworzeniu napisów.

O autorze

Jason O'Malley jest starszym architektem rozwiązań partnerskich w AWS wspierającym partnerów projektujących rozwiązania dla branży medialnej, komunikacyjnej i technologicznej. Przed dołączeniem do AWS Jason spędził 13 lat w branży medialnej i rozrywkowej w takich firmach, jak Conan O'Brien's Team Coco, WarnerMedia i Media.Monks. Jason rozpoczął swoją karierę w produkcji telewizyjnej i postprodukcji przed budowaniem obciążeń medialnych w AWS. Kiedy Jason nie tworzy rozwiązań dla partnerów i klientów, można go spotkać w towarzystwie żony i syna lub czytać o zrównoważonym rozwoju.

Znak czasu: 10 maja 2022 r.

Znak czasu: Jan 10, 2023

Twórz napisy do filmów za pomocą Amazon Transscribe, korzystając z tego przepływu pracy bez kodu

Opublikowane ponownie przez Plato

Napisy a napisy kodowane

Omówienie rozwiązania

Wymagania wstępne

Utwórz zasobniki S3

Prześlij plik źródłowy do zasobnika S3

Utwórz zadanie transkrypcji

Przejrzyj wyniki pracy

Sprzątać

Wnioski

O autorze

Więcej z Uczenie maszynowe AWS

Popraw dokładność transkrypcji połączeń klienta z agentem dzięki niestandardowemu słownictwu w Amazon Transscribe

Ogłaszamy zaktualizowane złącze ServiceNow (V2) dla Amazon Kendra

W jaki sposób usługodawcy mogą wykorzystywać przetwarzanie języka naturalnego do uzyskiwania wglądu w zgłoszenia klientów za pomocą Amazon Comprehend

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto