このノーコードワークフローを使用してAmazonトランスクリプトでビデオ字幕を作成する

プラトン再発行

フォロワー： 0

ビデオコンテンツでの字幕の作成は、組織の規模に関係なく課題をもたらします。これらの課題に対処するために、 Amazon Transcribe サービス内で直接字幕を作成できる便利な機能があります。開始するのに機械学習（ML）やコードの記述は必要ありません。この投稿では、AmazonWebServicesアカウント内でAmazonTranscribeを使用してビデオ字幕を作成するためのノーコードワークフローを設定する方法について説明します。

字幕とクローズドキャプション

用語 サブタイトル および クローズドキャプション 一般的に同じ意味で使用され、どちらも画面に表示される音声テキストを指します。ただし、字幕とクローズドキャプション（業界およびアクセシビリティの定義に基づく）の主な違いは、クローズドキャプションには、話し言葉の文字起こしと、オーディオトラック内で発生するバックグラウンドミュージックまたはサウンドの説明の両方が含まれているため、より豊かなアクセシビリティエクスペリエンスを実現できることです。。この投稿では、話者識別、サウンドエフェクト、または音楽の説明を含まない自動音声認識（ASR）テクノロジを使用した、書き写された話し言葉の字幕ファイルの作成にのみ焦点を当てています。 Amazon Transcribeは、業界標準のSubRip Text（* .srt）およびWeb Video Text Tracks（* .vtt）形式をサポートしています。字幕作成.

次の画像は、Webビデオプレーヤー内でオンに切り替えられた字幕の例を示しています。

字幕は、動画コンテンツのリーチと包括性の両方を拡張することで、動画クリエイターにメリットをもたらします。字幕は、ビデオの音声部分を画面に表示することで、母国語を話さない人や音声が聞こえない環境にいる人など、より多くの視聴者が音声/ビデオコンテンツにアクセスできるようにします。

字幕の利点は明らかですが、ビデオクリエーターは、従来、字幕の作成において障害に直面してきました。手作業に大きく依存する従来の作成プロセスには、時間とリソースを大量に消費する要件があるため、障害が発生します。従来の字幕作成方法は手動で行われ、完了するまでに数日から数週間かかる場合があるため、すべての制作スケジュールと互換性があるとは限りません。同様に、多くの企業は手動の文字起こしサービスを利用していますが、これらのプロセスは拡張性がなく、維持に費用がかかることがよくあります。 Amazon Transcribeを使用すると、MLベースのテクノロジーを使用して音声をテキストに簡単に変換でき、ビデオ作成者がこれらの問題に対処するのに役立ちます。

ソリューションの概要

この投稿では、を使用して字幕を生成するためのノーコードワークフローについて説明します。 Amazon シンプルストレージサービス（Amazon S3）およびAmazonTranscribe。

Amazon S3は、どこからでも任意の量のデータを保存および取得するために構築されたオブジェクトストレージです。この投稿では、 S3バケットを作成するオーディオファイルをアップロードします。ユーザーがAmazonS3にデータを保存するとき、ユーザーはバケットおよびオブジェクトと呼ばれるリソースを操作します。 A バケット オブジェクトのコンテナです。アン オブジェクト はファイルであり、そのファイルを説明するメタデータです。

Amazon Transcribeは、完全に管理され、継続的にトレーニングされたMLモデルを使用して、オーディオ/ビデオファイルをテキストに変換するASRサービスです。 AmazonTranscribeの入力と出力はAmazonS3に保存されます。 Amazon Transcribeは、Amazon S3バケット内のメディアファイルまたはメディアストリームのいずれかのオーディオデータを取得し、それをテキストデータに変換します。 Amazon Transcribeを使用すると、音声入力を取り込み、高精度で読みやすいトランスクリプトを作成し、ドメイン固有の語彙に合わせて出力をカスタマイズできます。カスタム言語モデル（CLM）とカスタム語彙, コンテンツをフィルタリングして顧客のプライバシーを確保する。お客様は、AmazonTranscribeを次のようなさまざまなビジネスアプリケーションに使用することを選択できます。音声ベースのカスタマーサービスコールの文字起こし, オーディオ/ビデオコンテンツの字幕の生成, （テキストベースの）コンテンツ分析を実施するオーディオ/ビデオコンテンツ。この投稿では、転記ジョブの作成とジョブ出力の確認について説明します。

ビデオウォークスルーをご希望の場合は、AmazonTranscribeビデオスナックエピソードを参照してくださいコードを記述せずにビデオ字幕を作成する.

前提条件

ソリューションをウォークスルーするには、次の前提条件が必要です。

An AWSアカウント十分に AWS IDおよびアクセス管理 (IAM) ユーザー権限
話し言葉を含むオーディオ/ビデオファイル Amazon Transcribe でサポートされている言語とサポートされている入力形式

サンプルのオーディオ/ビデオファイルがまだない場合は、コンピューターまたはスマートフォンのビデオ録画アプリケーションを使用して作成できます。録音時に最高レベルの音声文字変換品質を確保するために、マイクに向かってはっきりと話していることを確認してください。別のオプションは、話し言葉をフィーチャーした無料で入手可能なダウンロードを見つけることです。ポッドキャストなどまたはこの投稿で提供されるビデオウォークスルー、AmazonTranscribeが取り込むことができます。記録またはダウンロードされたファイルは、AWSアカウントにアップロードするためにデスクトップからアクセスできる必要があります。

始める前に、 Amazon Transcribe およびアマゾンS3 サービス価格の価格ページ。

S3バケットを作成します

この投稿では、入力と出力を分離しておくために3つのSXNUMXバケットを作成します。

Amazon S3コンソールで、 バケットを作成する.
各バケットにグローバルに一意の名前を付けます。
デフォルト設定を使用して、組織のポリシーに確実に準拠します。
有効にしますバケットバージョニングおよびデフォルトのサーバー側暗号化（推奨）。
選択する バケットを作成する.

次のスクリーンショットは、入力バケットの構成を示しています。

これで、入力用のS3バケットでオーディオ/ビデオファイルをアップロードする準備が整いました。この出版の時点で、 AmazonTranscribeの最大入力サイズは2GBです。ビデオファイルがその量を超えているか、 AmazonTranscribeでネイティブにサポートされていないフォーマット、使用を検討してください AWS Elemental MediaConvert 〜へ音声のみの出力を作成する。オーディオファイルは通常ビデオファイルよりもはるかに小さく、Amazon Transcribeはビデオトラックではなくオーディオトラックのみを必要とし、文字起こしと字幕を生成するため、これは有益です。

ソースファイルをS3バケットにアップロードします

ソースファイルをアップロードするには、次の手順を実行します。

Amazon S3コンソールで、入力バケットを選択します。
選択する アップロード.
デスクトップからファイルを選択します。
デフォルトのストレージクラスと暗号化設定を受け入れるか、組織のポリシーに基づいてそれらを変更します。
選択する アップロード.

転記ジョブを作成する

Amazon S3で入力ファイルの準備ができたら、AmazonTranscribeで文字起こしジョブを作成します。

ソフトウェア設定ページで、下図のように AmazonTranscribeコンソール、選択する 文字起こしの仕事 ナビゲーションペインに表示されます。
選択する ジョブを作成.

このウォークスルーでは、主にデフォルトのオプションを使用します。ただし、組織の要件に最も適した構成を選択する必要があります。

名前、このジョブと結果のファイルの名前を入力します。
言語設定選択 特定の言語.
言語設定、入力ファイルのソース言語を選択します。
モデルタイプ選択する 一般モデル.

このデモでは一般的なモデルを使用しますが、トレーニングと使用方法を検討することをお勧めしますカスタム言語モデル業界固有の用語や頭字語などの特定のユースケースの精度を向上させるため。カスタム言語モデルの詳細については、AmazonTranscribeのビデオスナックをご覧ください。カスタム言語モデル（CLM）を使用して文字起こしの精度を向上させる.

S3の入力ファイルの場所、選択する S3を参照.
音声文字変換する入力バケットとオーディオ/ビデオファイルを選択します。
出力データロケーションタイプ情報選択 お客様が指定したS3バケット.
S3の出力ファイルの宛先、選択する S3を参照.
新しく作成された出力バケットを選択します。

　 字幕ファイル形式 セクションでは、この投稿全体のXNUMXつの最も重要なオプションを提供します。 Amazon Transcribe転記ジョブの一部として、*。srtおよび*.vtt形式の出力を選択できます。この記事の執筆時点では、一方または両方を選択しても、AmazonTranscribeジョブに追加のコストは追加されません。

この投稿では、両方を選択してください SRT および VTT.
開始インデックスを指定します、選択する 0 or 1.

この値は、シーケンスの最初のサブタイトルの開始番号を参照します。選択する値がわからない場合は、 1 最も一般的です。

設定が完了したら、次を選択します Next.
必要に応じて、オプションの設定を構成します。

Amazon Transcribeは、音声識別のオプションを提供しますチャンネル or スピーカー, 代替結果, PII編集, 語彙フィルタリング, カスタム語彙。この特定の投稿では、これらの構成オプションをスキップできます。ジョブ構成オプションの詳細については、AmazonTranscribeのビデオスナックエピソードをご覧ください。カスタム語彙, カスタム言語モデル, 語彙フィルタリング.

選択する ジョブを作成.

ジョブ出力を確認する

ビデオ字幕を作成するための文字起こしジョブが開始されます。次のスクリーンショットに示すように、ジョブのステータスがジョブの詳細パネルに表示されます。ジョブが完了したら、出力データの場所を選択して、S3バケットに新しく作成された字幕を見つけます。

字幕は*.srtまたは*.vtt拡張子で識別されます。 S3バケットでオブジェクトを選択すると、ファイルをダウンロードするオプションがあります。

これらの字幕はプレーンテキスト形式であるため、どのテキストエディタでも結果の文字起こしを表示および編集できます。 *.srtファイルと*.vttファイルを比較すると、微妙な違いはあるものの、多くの類似点が明らかになります。

以下は、*。srt形式の例です。

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

以下は、*。vtt形式の例です。

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

数字は字幕が表示される順番を示しています。タイムコードは、字幕が表示されるタイミングを示します。テキストは字幕テキストそのものです。

変更や改訂はテキストエディタ内で直接可能になり、*。srtまたは*.vtt拡張子で保存しても互換性があります。ビデオプラットフォーム自体、ビデオ編集アプリケーション内、またはビデオプレーヤー内で変更をプレビューすることもできます。

VLC は、*。srtおよび*.vtt字幕をサポートする人気のあるオープンソースおよびクロスプラットフォームのビデオプレーヤーです。 VLC内のビデオで字幕を自動的に再生するには、元のビデオと字幕ファイルの両方を、ファイル拡張子の前にまったく同じファイル名で同じディレクトリに配置します。

これで、VLC内でビデオファイルを開くと、字幕ファイルがビデオプレーヤーウィンドウ内で自動的に検出されて再生されます。

クリーンアップ

将来の請求を回避するために、空のおよび削除入力と出力に使用されるS3バケット。バケット内に含まれるすべてのオブジェクトが完全に削除されるため、必要なすべてのファイルが保存されていることを確認してください。に転写コンソール、不要になったジョブを選択して削除します。

まとめ

これで、完全なエンドツーエンドの字幕作成ワークフローが作成され、コードを記述せずに、ビデオ字幕作成プロセスを強化および高速化できます。数分で、S3ストレージバケットを作成し、ファイルをAmazon S3にアップロードし、字幕の作成にAmazonTranscribeを使用しました。次に、結果の*.srtおよび*.vtt字幕ファイルをダウンロードして確認し、宛先プラットフォームにアップロードできます。

このワークフローは、特にビデオワークフロー用にAmazon Transcribeの自動音声認識（ASR）テクノロジーを使用して作成されたオーディオ/ビデオ字幕に焦点を当てています。このワークフローだけでは、話者識別、効果音、音楽の説明、正確性のコピー編集レビューなど、アクセシビリティのより高い基準を満たすことができる、人間ベースのクローズドキャプションプロセスに代わるものではありません。この投稿で説明されているテキスト編集方法を利用して、最初のAmazonTranscribeジョブが完了した後にこれらの要素を追加できます。さらに、より高度なブラウザベースの字幕作成、プレビュー、およびコピーエディティングについては、 AWSでのコンテンツのローカリゼーション AWS Solution Architectsによって精査され、実装ガイド。このソリューションは、次のような追加機能を提供しますブラウザ内でのプレビューと字幕の編集、字幕翻訳によって供給 Amazon翻訳、およびによって提供されるコンピュータビジョン機能 Amazonの再認識.

字幕を作成するAmazonTranscribeの機能のこのデモンストレーションを楽しんだ場合は、オーディオ/ビデオワークフローを加速するための追加の機能をさらに深く掘り下げることを検討してください。字幕作成の自動化とスケーリングをサポートするための追加の詳細とコードサンプルについては、を参照してください。ビデオ字幕の作成。字幕作成ワークフローの調査と開発に頑張ってください。

著者について

ジェイソン・オマリー は、AWSのシニアパートナーソリューションアーキテクトであり、メディア、通信、テクノロジー業界のソリューションを設計するパートナーをサポートしています。 AWSに参加する前、ジェイソンはコナンオブライエンのチームココ、ワーナーメディア、Media.Monksなどの企業でメディアおよびエンターテインメント業界に13年間勤務していました。 Jasonは、AWSでメディアワークロードを構築する前に、テレビ制作とポストプロダクションでキャリアをスタートさせました。ジェイソンがパートナーや顧客向けのソリューションを作成していないときは、妻と息子と一緒に冒険したり、持続可能性について読んだりしています。

タイムスタンプ： 2022 年 5 月 10 日

タイムスタンプ： 2023 年 1 月 10 日

このコードなしのワークフローを使用して、AmazonTranscribeでビデオ字幕を作成します

プラトン再発行

字幕とクローズドキャプション

ソリューションの概要

前提条件

S3バケットを作成します

ソースファイルをS3バケットにアップロードします

転記ジョブを作成する

ジョブ出力を確認する

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

Amazon Transcribe のカスタム語彙を使用して、顧客エージェントの通話の文字起こしの精度を向上させる

Amazon Kendra 用の更新された ServiceNow コネクタ (V2) の発表

サービスプロバイダーが自然言語処理を使用して、AmazonComprehendで顧客チケットから洞察を得る方法

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー