ビデオコンテンツでの字幕の作成は、組織の規模に関係なく課題をもたらします。 これらの課題に対処するために、 Amazon Transcribe サービス内で直接字幕を作成できる便利な機能があります。 開始するのに機械学習(ML)やコードの記述は必要ありません。 この投稿では、AmazonWebServicesアカウント内でAmazonTranscribeを使用してビデオ字幕を作成するためのノーコードワークフローを設定する方法について説明します。
字幕とクローズドキャプション
用語 サブタイトル および クローズドキャプション 一般的に同じ意味で使用され、どちらも画面に表示される音声テキストを指します。 ただし、字幕とクローズドキャプション(業界およびアクセシビリティの定義に基づく)の主な違いは、クローズドキャプションには、話し言葉の文字起こしと、オーディオトラック内で発生するバックグラウンドミュージックまたはサウンドの説明の両方が含まれているため、より豊かなアクセシビリティエクスペリエンスを実現できることです。 。 この投稿では、話者識別、サウンドエフェクト、または音楽の説明を含まない自動音声認識(ASR)テクノロジを使用した、書き写された話し言葉の字幕ファイルの作成にのみ焦点を当てています。 Amazon Transcribeは、業界標準のSubRip Text(* .srt)およびWeb Video Text Tracks(* .vtt)形式をサポートしています。 字幕作成.
次の画像は、Webビデオプレーヤー内でオンに切り替えられた字幕の例を示しています。
字幕は、動画コンテンツのリーチと包括性の両方を拡張することで、動画クリエイターにメリットをもたらします。 字幕は、ビデオの音声部分を画面に表示することで、母国語を話さない人や音声が聞こえない環境にいる人など、より多くの視聴者が音声/ビデオコンテンツにアクセスできるようにします。
字幕の利点は明らかですが、ビデオクリエーターは、従来、字幕の作成において障害に直面してきました。 手作業に大きく依存する従来の作成プロセスには、時間とリソースを大量に消費する要件があるため、障害が発生します。 従来の字幕作成方法は手動で行われ、完了するまでに数日から数週間かかる場合があるため、すべての制作スケジュールと互換性があるとは限りません。 同様に、多くの企業は手動の文字起こしサービスを利用していますが、これらのプロセスは拡張性がなく、維持に費用がかかることがよくあります。 Amazon Transcribeを使用すると、MLベースのテクノロジーを使用して音声をテキストに簡単に変換でき、ビデオ作成者がこれらの問題に対処するのに役立ちます。
ソリューションの概要
この投稿では、を使用して字幕を生成するためのノーコードワークフローについて説明します。 Amazon シンプル ストレージ サービス (Amazon S3)およびAmazonTranscribe。
Amazon S3は、どこからでも任意の量のデータを保存および取得するために構築されたオブジェクトストレージです。 この投稿では、 S3バケットを作成する オーディオファイルをアップロードします。 ユーザーがAmazonS3にデータを保存するとき、ユーザーはバケットおよびオブジェクトと呼ばれるリソースを操作します。 A バケット オブジェクトのコンテナです。 アン オブジェクト はファイルであり、そのファイルを説明するメタデータです。
Amazon Transcribeは、完全に管理され、継続的にトレーニングされたMLモデルを使用して、オーディオ/ビデオファイルをテキストに変換するASRサービスです。 AmazonTranscribeの入力と出力はAmazonS3に保存されます。 Amazon Transcribeは、Amazon S3バケット内のメディアファイルまたはメディアストリームのいずれかのオーディオデータを取得し、それをテキストデータに変換します。 Amazon Transcribeを使用すると、音声入力を取り込み、高精度で読みやすいトランスクリプトを作成し、ドメイン固有の語彙に合わせて出力をカスタマイズできます。 カスタム言語モデル (CLM)と カスタム語彙, コンテンツをフィルタリングして顧客のプライバシーを確保する。 お客様は、AmazonTranscribeを次のようなさまざまなビジネスアプリケーションに使用することを選択できます。 音声ベースのカスタマーサービスコールの文字起こし, オーディオ/ビデオコンテンツの字幕の生成, (テキストベースの)コンテンツ分析を実施する オーディオ/ビデオコンテンツ。 この投稿では、転記ジョブの作成とジョブ出力の確認について説明します。
ビデオウォークスルーをご希望の場合は、AmazonTranscribeビデオスナックエピソードを参照してください コードを記述せずにビデオ字幕を作成する.
前提条件
ソリューションをウォークスルーするには、次の前提条件が必要です。
- An AWSアカウント 十分に AWS IDおよびアクセス管理 (IAM) ユーザー権限
- 話し言葉を含むオーディオ/ビデオ ファイル Amazon Transcribe でサポートされている言語 と サポートされている入力形式
サンプルのオーディオ/ビデオファイルがまだない場合は、コンピューターまたはスマートフォンのビデオ録画アプリケーションを使用して作成できます。 録音時に最高レベルの音声文字変換品質を確保するために、マイクに向かってはっきりと話していることを確認してください。 別のオプションは、話し言葉をフィーチャーした無料で入手可能なダウンロードを見つけることです。 ポッドキャストなどまたは この投稿で提供されるビデオウォークスルー、AmazonTranscribeが取り込むことができます。 記録またはダウンロードされたファイルは、AWSアカウントにアップロードするためにデスクトップからアクセスできる必要があります。
始める前に、 Amazon Transcribe および アマゾンS3 サービス価格の価格ページ。
S3バケットを作成します
この投稿では、入力と出力を分離しておくために3つのSXNUMXバケットを作成します。
- Amazon S3コンソールで、 バケットを作成する.
- 各バケットにグローバルに一意の名前を付けます。
- デフォルト設定を使用して、組織のポリシーに確実に準拠します。
- 有効にします バケットバージョニング および デフォルトのサーバー側暗号化 (推奨)。
- 選択する バケットを作成する.
次のスクリーンショットは、入力バケットの構成を示しています。
これで、入力用のS3バケットでオーディオ/ビデオファイルをアップロードする準備が整いました。 この出版の時点で、 AmazonTranscribeの最大入力サイズは2GBです。 ビデオファイルがその量を超えているか、 AmazonTranscribeでネイティブにサポートされていないフォーマット、使用を検討してください AWS Elemental MediaConvert 〜へ 音声のみの出力を作成する。 オーディオファイルは通常ビデオファイルよりもはるかに小さく、Amazon Transcribeはビデオトラックではなくオーディオトラックのみを必要とし、文字起こしと字幕を生成するため、これは有益です。
ソースファイルをS3バケットにアップロードします
ソースファイルをアップロードするには、次の手順を実行します。
- Amazon S3コンソールで、入力バケットを選択します。
- 選択する アップロード.
- デスクトップからファイルを選択します。
- デフォルトのストレージクラスと暗号化設定を受け入れるか、組織のポリシーに基づいてそれらを変更します。
- 選択する アップロード.
転記ジョブを作成する
Amazon S3で入力ファイルの準備ができたら、AmazonTranscribeで文字起こしジョブを作成します。
- ソフトウェア設定ページで、下図のように AmazonTranscribeコンソール、選択する 文字起こしの仕事 ナビゲーションペインに表示されます。
- 選択する ジョブを作成.
このウォークスルーでは、主にデフォルトのオプションを使用します。 ただし、組織の要件に最も適した構成を選択する必要があります。
- 名前 、このジョブと結果のファイルの名前を入力します。
- 言語設定選択 特定の言語.
- 言語設定、入力ファイルのソース言語を選択します。
- モデルタイプ選択する 一般モデル.
このデモでは一般的なモデルを使用しますが、トレーニングと使用方法を検討することをお勧めします カスタム言語モデル 業界固有の用語や頭字語などの特定のユースケースの精度を向上させるため。 カスタム言語モデルの詳細については、AmazonTranscribeのビデオスナックをご覧ください。 カスタム言語モデル(CLM)を使用して文字起こしの精度を向上させる.
- S3の入力ファイルの場所、選択する S3を参照.
- 音声文字変換する入力バケットとオーディオ/ビデオファイルを選択します。
- 出力データロケーションタイプ情報選択 お客様が指定したS3バケット.
- S3の出力ファイルの宛先、選択する S3を参照.
- 新しく作成された出力バケットを選択します。
字幕ファイル形式 セクションでは、この投稿全体のXNUMXつの最も重要なオプションを提供します。 Amazon Transcribe転記ジョブの一部として、*。srtおよび*.vtt形式の出力を選択できます。 この記事の執筆時点では、一方または両方を選択しても、AmazonTranscribeジョブに追加のコストは追加されません。
この値は、シーケンスの最初のサブタイトルの開始番号を参照します。 選択する値がわからない場合は、 1 最も一般的です。
- 設定が完了したら、次を選択します Next.
- 必要に応じて、オプションの設定を構成します。
Amazon Transcribeは、音声識別のオプションを提供します チャンネル or スピーカー, 代替結果, PII編集, 語彙フィルタリング, カスタム語彙。 この特定の投稿では、これらの構成オプションをスキップできます。 ジョブ構成オプションの詳細については、AmazonTranscribeのビデオスナックエピソードをご覧ください。 カスタム語彙, カスタム言語モデル, 語彙フィルタリング.
ジョブ出力を確認する
ビデオ字幕を作成するための文字起こしジョブが開始されます。 次のスクリーンショットに示すように、ジョブのステータスがジョブの詳細パネルに表示されます。 ジョブが完了したら、出力データの場所を選択して、S3バケットに新しく作成された字幕を見つけます。
字幕は*.srtまたは*.vtt拡張子で識別されます。 S3バケットでオブジェクトを選択すると、ファイルをダウンロードするオプションがあります。
これらの字幕はプレーンテキスト形式であるため、どのテキストエディタでも結果の文字起こしを表示および編集できます。 *.srtファイルと*.vttファイルを比較すると、微妙な違いはあるものの、多くの類似点が明らかになります。
以下は、*。srt形式の例です。
以下は、*。vtt形式の例です。
数字は字幕が表示される順番を示しています。 タイムコードは、字幕が表示されるタイミングを示します。 テキストは字幕テキストそのものです。
変更や改訂はテキストエディタ内で直接可能になり、*。srtまたは*.vtt拡張子で保存しても互換性があります。 ビデオプラットフォーム自体、ビデオ編集アプリケーション内、またはビデオプレーヤー内で変更をプレビューすることもできます。
VLC は、*。srtおよび*.vtt字幕をサポートする人気のあるオープンソースおよびクロスプラットフォームのビデオプレーヤーです。 VLC内のビデオで字幕を自動的に再生するには、元のビデオと字幕ファイルの両方を、ファイル拡張子の前にまったく同じファイル名で同じディレクトリに配置します。
これで、VLC内でビデオファイルを開くと、字幕ファイルがビデオプレーヤーウィンドウ内で自動的に検出されて再生されます。
クリーンアップ
将来の請求を回避するために、 空の および 削除 入力と出力に使用されるS3バケット。 バケット内に含まれるすべてのオブジェクトが完全に削除されるため、必要なすべてのファイルが保存されていることを確認してください。 に 転写コンソール、不要になったジョブを選択して削除します。
まとめ
これで、完全なエンドツーエンドの字幕作成ワークフローが作成され、コードを記述せずに、ビデオ字幕作成プロセスを強化および高速化できます。 数分で、S3ストレージバケットを作成し、ファイルをAmazon S3にアップロードし、字幕の作成にAmazonTranscribeを使用しました。 次に、結果の*.srtおよび*.vtt字幕ファイルをダウンロードして確認し、宛先プラットフォームにアップロードできます。
このワークフローは、特にビデオワークフロー用にAmazon Transcribeの自動音声認識(ASR)テクノロジーを使用して作成されたオーディオ/ビデオ字幕に焦点を当てています。 このワークフローだけでは、話者識別、効果音、音楽の説明、正確性のコピー編集レビューなど、アクセシビリティのより高い基準を満たすことができる、人間ベースのクローズドキャプションプロセスに代わるものではありません。 この投稿で説明されているテキスト編集方法を利用して、最初のAmazonTranscribeジョブが完了した後にこれらの要素を追加できます。 さらに、より高度なブラウザベースの字幕作成、プレビュー、およびコピーエディティングについては、 AWSでのコンテンツのローカリゼーション AWS Solution Architectsによって精査され、 実装ガイド。 このソリューションは、次のような追加機能を提供します ブラウザ内でのプレビューと字幕の編集、字幕翻訳によって供給 Amazon翻訳、およびによって提供されるコンピュータビジョン機能 Amazonの再認識.
字幕を作成するAmazonTranscribeの機能のこのデモンストレーションを楽しんだ場合は、オーディオ/ビデオワークフローを加速するための追加の機能をさらに深く掘り下げることを検討してください。 字幕作成の自動化とスケーリングをサポートするための追加の詳細とコードサンプルについては、を参照してください。 ビデオ字幕の作成。 字幕作成ワークフローの調査と開発に頑張ってください。
著者について
ジェイソン・オマリー は、AWSのシニアパートナーソリューションアーキテクトであり、メディア、通信、テクノロジー業界のソリューションを設計するパートナーをサポートしています。 AWSに参加する前、ジェイソンはコナンオブライエンのチームココ、ワーナーメディア、Media.Monksなどの企業でメディアおよびエンターテインメント業界に13年間勤務していました。 Jasonは、AWSでメディアワークロードを構築する前に、テレビ制作とポストプロダクションでキャリアをスタートさせました。 ジェイソンがパートナーや顧客向けのソリューションを作成していないときは、妻と息子と一緒に冒険したり、持続可能性について読んだりしています。
- "
- 10
- 100
- 7
- 私たちについて
- 加速する
- アクセス
- 接近性
- NEW
- 住所
- 高度な
- すべて
- 既に
- Amazon
- Amazon Webサービス
- 量
- 別の
- どこにでも
- 申し込み
- 聴衆
- オーディオ
- オートマチック
- 自動化する
- 利用できます
- AWS
- 背景
- 恩恵
- 利点
- BEST
- 国境
- 建物
- ビジネス
- ビジネスアプリケーション
- 機能
- キャプションが
- キャリア
- 例
- 課題
- 課金
- 選択する
- class
- 閉まっている
- コード
- コマンドと
- 通信部
- 企業
- 複雑な
- コンプライアンス
- コンピュータ
- 領事
- コンテナ
- コンテンツ
- 作ります
- 作成した
- 作成
- 創造
- クリエイター
- カスタム
- 顧客
- 顧客サービス
- Customers
- データ
- より深い
- 実証します
- 展開する
- 記載された
- デスクトップ
- 細部
- 開発
- 難しい
- 直接に
- そうではありません
- ドメイン
- ダウンロード
- エディタ
- 効果
- 努力
- 要素は
- 奨励する
- 暗号化
- 入力します
- エンターテインメント
- 環境
- 本質的な
- 例
- 体験
- 探査
- 探る
- エクステンション
- 直面して
- 特徴
- 特徴
- 名
- 焦点を当て
- 焦点を当てて
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- フォワード
- 発見
- 未来
- 生成する
- 生成
- グローバルに
- 良い
- 役立つ
- ことができます
- ハイ
- より高い
- 雇う
- 認定条件
- しかしながら
- HTTPS
- 巨大な
- 識別
- アイデンティティ
- 画像
- 実装する
- 改善されました
- 含ま
- 含めて
- 包括性
- index
- 産業を変えます
- 統合する
- 問題
- IT
- 自体
- ジョブ
- Jobs > Create New Job
- 既知の
- 言語
- より大きい
- 学習
- レベル
- 場所
- 運
- 機械
- 機械学習
- 維持する
- 作る
- マネージド
- 方法
- マニュアル
- 手動で
- 問題
- メディア
- メソッド
- ML
- モデル
- 他には?
- 最も
- 音楽を聴く際のスピーカーとして
- ナビゲーション
- 必要
- 数
- 番号
- 提供
- オファー
- 開いた
- オプション
- オプション
- 注文
- 組織
- 部
- 特定の
- パートナー
- パートナー
- プラットフォーム
- プレイ
- プレイヤー
- 再生
- ポリシー
- 貧しいです
- 人気
- 可能
- プレビュー
- 価格設定
- 主要な
- プロセス
- ラボレーション
- 作り出す
- 生産
- は、大阪で
- 品質
- リーチ
- リーディング
- 残る
- の提出が必要です
- 要件
- リソース
- 結果
- レビュー
- 規模
- スケーリング
- 画面
- サービス
- サービス
- 設定
- 示す
- 簡単な拡張で
- サイズ
- 小さい
- スマートフォン
- 固体
- 溶液
- ソリューション
- 誰か
- 息子
- スピーカー
- スピーカー
- 特に
- 標準
- 規格
- start
- 開始
- 開始
- Status:
- ストレージ利用料
- 店舗
- 流れ
- サポート
- サポート
- 支援する
- サポート
- 3つの柱
- 取得
- チーム
- テクノロジー
- テクノロジー
- テレビ
- ソース
- したがって、
- 介して
- 時間
- 時間がかかる
- 役職
- 追跡する
- 伝統的な
- 伝統的に
- トレーニング
- インタビュー
- 一般的に
- ユニーク
- つかいます
- users
- 活用する
- 値
- 多様
- 精査
- ビデオ
- 詳しく見る
- ビジョン
- よく見る
- ウェブ
- Webサービス
- while
- 以内
- 無し
- 言葉
- 仕事
- 書き込み
- 年
- 産出
- ユーチューブ