ビデオモデレート用の Amazon Rekognition Image API と Video API のどちらを使用するかを決定する方法

プラトン再発行

フォロワー： 0

今日の Web コンテンツのほぼ 80% はユーザーが作成したものであり、組織が人間のみのプロセスで分析するのに苦労しているコンテンツの洪水を生み出しています。新しいジーンズの購入から住宅ローンの確保まで、消費者の情報を利用できることは意思決定に役立ちます。最近の調査では、消費者の 79% が、これまで以上にユーザーの動画、コメント、レビューに依存していると述べており、そのうちの 78% は、ブランドがそのようなコンテンツをモデレートする責任があると述べています。 40% は、有毒なコンテンツに XNUMX 回さらされると、そのブランドから離れると答えました。

Amazonの再認識には、画像や動画をモデレートしてデジタルコミュニティの安全と関与を維持するのに役立つ XNUMX セットの API があります。

ビデオをモデレートする XNUMX つの方法は、ビデオデータを画像フレームのサンプルとしてモデル化し、画像コンテンツモデレートモデルを使用してフレームを個別に処理することです。このアプローチにより、画像ベースのモデルを再利用できます。一部のお客様から、画像フレームをサンプリングして Amazon Rekognition 画像管理 API に送信することで、このアプローチを使用してビデオを管理できないかという質問を受けました。彼らは、このソリューションが Amazon Rekognition ビデオモデレーション API とどのように比較されるかについて興味があります。

動画コンテンツを管理するには、Amazon Rekognition ビデオ管理 API を使用することをお勧めします。ビデオのモデレーション用に設計および最適化されており、パフォーマンスが向上し、コストが削減されます。ただし、画像 API ソリューションが最適な特定のユースケースがあります。

この投稿では、精度、コスト、パフォーマンス、アーキテクチャの複雑さの観点から XNUMX つのビデオモデレーションソリューションを比較し、ユースケースに最適なソリューションを選択できるようにします。

ビデオモデレート API を使用してビデオをモデレートする

Amazon Rekognition ビデオコンテンツモデレート API ビデオ内の不適切または不要なコンテンツを検出するために使用される標準的なソリューションです。に保存されているビデオコンテンツに対して非同期操作として実行されます。 Amazon シンプルストレージサービス (Amazon S3) バケット。解析結果は配列として返されます。モデレートラベルラベルがいつ検出されたかを示す信頼スコアとタイムスタンプとともに。

ビデオコンテンツモデレーション API は、画像のモデレートに同じ機械学習 (ML) モデルを使用します。出力は、ノイズの多い偽陽性の結果に対してフィルター処理されます。ワークフローは、デコード、フレーム抽出、推論などの操作を並列化することで、レイテンシーに対して最適化されています。

次の図は、Amazon Rekognition ビデオモデレーション API を使用してビデオをモデレートする論理的な手順を示しています。

Rekognition Content Moderation Video API ダイアグラム

手順は以下の通りです。

動画を S3 バケットにアップロードします。
動画モデレーション API を呼び出す AWSラムダビデオファイルの場所をパラメーターとして関数 (またはオンプレミスでカスタマイズされたスクリプト) を実行します。この API は、ビデオのデコード、サンプリング、および推論の重労働を管理します。ハートビートロジックを実装して、完了するまでモデレーションジョブのステータスを確認するか、次のいずれかを使用できます。 Amazon シンプル通知サービス (Amazon SNS) を使用して、イベント駆動型のパターンを実装します。動画モデレーション API の詳細については、以下を参照してください。 Jupyter Notebook 詳細な例については。
モデレート結果をファイルとして S3 バケットまたはデータベースに保存します。

画像モデレート API を使用してビデオをモデレートする

一部のお客様は、動画コンテンツ管理 API を使用する代わりに、動画からフレームを個別にサンプリングし、Amazon Rekognition に画像を送信して不適切なコンテンツを検出することを選択しています。検出モデレーションラベル API。画像の結果は、不適切なコンテンツまたは不快なコンテンツのラベルと信頼スコアとともにリアルタイムで返されます。

次の図は、イメージ API ソリューションの論理的な手順を示しています。

Rekognition Content Moderation ビデオ画像のサンプリング図
手順は以下の通りです。

1. カスタマイズされたアプリケーションまたはスクリプトをオーケストレータとして使用し、ビデオをローカルファイルシステムにロードします。
2. ビデオをデコードします。
3. XNUMX 秒あたり XNUMX フレームなど、選択した間隔でビデオから画像フレームをサンプリングします。次に、すべての画像を繰り返し処理します。

3.a. 各画像フレームを画像管理 API に送信します。
3.b. モデレート結果をファイルまたはデータベースに保存します。

これを、API 呼び出しを調整するために軽量の Lambda 関数を必要とするビデオ API ソリューションと比較してください。画像サンプリングソリューションは CPU を集中的に使用し、より多くのコンピューティングリソースを必要とします。 Lambda などの AWS サービスを使用してアプリケーションをホストできます。 Amazon エラスティックコンテナサービス (Amazon ECS)、 Amazon Elastic Kubernetesサービス（Amazon EKS）、 AWSファーゲートまたはアマゾンエラスティックコンピューティングクラウド（Amazon EC2）。

評価データセット

両方のソリューションを評価するために、200 本の短編動画で構成されるサンプルデータセットを使用します。動画の長さは 10 秒から 45 分です。動画の 60% は 2 分未満の長さです。このサンプルデータセットは、両方のソリューションのパフォーマンス、コスト、および精度の指標をテストするために使用されます。結果は、Amazon Rekognition 画像 API サンプリングソリューションとビデオ API ソリューションを比較します。

画像 API ソリューションをテストするために、オープンソースライブラリ (ffmpeg および OpenCV) を使用して、500 秒あたり XNUMX フレーム (XNUMX ミリ秒ごとに XNUMX フレーム) の速度で画像をサンプリングします。このレートは、ビデオコンテンツモデレーション API で使用されるサンプリング周波数を模倣しています。各画像は画像コンテンツ管理 API に送信され、ラベルが生成されます。

ビデオサンプリングソリューションをテストするために、ビデオをビデオコンテンツモデレーション API に直接送信して、ラベルを生成します。

結果の概要

次の主要な結果に焦点を当てます。

正確さ – どちらのソリューションも、XNUMX 秒あたり XNUMX フレームという同じサンプリング周波数を使用して、同様の精度 (偽陽性と偽陰性のパーセンテージ) を提供します。
費用 – 画像 API サンプリングソリューションは、XNUMX 秒あたり XNUMX フレームの同じサンプリング周波数を使用するビデオ API ソリューションよりも高価です
- XNUMX 秒あたりのサンプリングフレーム数を減らすことで、画像 API サンプリングソリューションのコストを削減できます。
性能 – 平均して、ビデオ API は、サンプルデータセットの画像 API ソリューションよりも処理時間が 425% 高速です
- 画像 API ソリューションは、フレームのサンプル間隔が長く、動画が 90 秒未満の場合にパフォーマンスが向上します。
アーキテクチャの複雑さ – ビデオ API ソリューションのアーキテクチャの複雑さは低く、画像 API サンプリングソリューションのアーキテクチャの複雑さは中程度です

正確さ

サンプルセットと XNUMX フレーム/秒の同じサンプリング周波数を使用して、両方のソリューションをテストしました。結果は、両方のソリューションが同様の偽陽性と真陽性の比率を提供することを示しました。内部的には、Amazon Rekognition はビデオと画像のモデレーション API の両方に同じ ML モデルを使用しているため、この結果は予期されたものです。

コンテンツモデレートを評価するための指標の詳細については、次を参照してください。 Amazon Rekognition およびその他のコンテンツ管理サービスでコンテンツ管理を評価するためのメトリクス.

費用

コスト分析は、毎秒 XNUMX フレームの同じサンプリング周波数を使用する場合、画像 API ソリューションがビデオ API ソリューションよりも高価であることを示しています。 XNUMX 秒あたりにサンプリングされるフレーム数を減らすと、画像 API ソリューションの費用対効果が高くなる可能性があります。

コンテンツ管理ソリューションのコストに影響を与える 0.10 つの主な要因は、Amazon Rekognition API のコストとコンピューティングコストです。ビデオコンテンツモデレーション API のデフォルトの料金は、0.001 分あたり 60 USD、画像コンテンツモデレーション API の画像あたり 120 USD です。 0.10 秒のビデオは、60 秒あたり 0.120 フレームのレートを使用して XNUMX フレームを生成します。ビデオ API は XNUMX 秒のビデオをモデレートするのに XNUMX ドルかかりますが、画像 API は XNUMX ドルです。

価格の計算は、この投稿の執筆時点でのリージョン us-east-1 の公式価格に基づいています。詳細については、次を参照してください。 Amazon Rekognition の料金.

コスト分析では、サンプルセット内の 200 本のビデオのコンテンツモデレーションラベルを生成するための総コストを調べます。計算は us-east-1 の料金に基づいています。別のリージョンを使用している場合は、そのリージョンの価格でパラメーターを変更します。 200 本のビデオには 4271.39 分のコンテンツが含まれ、毎秒 512,567 フレームのサンプリングレートで XNUMX の画像フレームが生成されます。

この比較では、Amazon S3 ストレージなどの他のコストは考慮されていません。例として Lambda を使用して、AWS のコンピューティングコストを計算します。計算コストは、Lambda へのリクエスト数と AWSステップ関数分析を実行します。 Lambda メモリ/CPU 設定は、Amazon EC2 仕様に基づいて推定されます。このコスト見積もりでは、画像 API 呼び出しごとに 2 GB、15 秒の Lambda リクエストを使用します。 Lambda 関数の最大呼び出しタイムアウト制限は XNUMX 分です。長いビデオの場合、ユーザーは Step Functions を使用して反復ロジックを実装し、Lambda 呼び出しごとに処理されるフレーム数を減らす必要がある場合があります。実際の Lambda 設定とコストパターンは、要件によって異なる場合があります。より正確なコスト見積もりを得るために、ソリューションをエンドツーエンドでテストすることをお勧めします。

次の表は、コストをまとめたものです。

タイプ	Amazon Rekognition のコスト	コストの計算	総費用
ビデオ API ソリューション	$427.14	$0 (無料利用枠)	$427.14
Image API ソリューション: XNUMX フレーム/秒	$512.57	$164.23	$676.80
Image API ソリューション: XNUMX フレーム/秒	$256.28	$82.12	$338.40

性能

平均して、ビデオ API ソリューションの処理時間は、画像 API ソリューションの 90 倍高速です。画像 API ソリューションは、フレームのサンプル間隔が長く、ビデオが XNUMX 秒未満の場合にパフォーマンスが向上します。

この分析では、ビデオあたりの平均処理時間 (秒単位) としてパフォーマンスを測定します。サンプルセット内の 200 本のビデオのコンテンツモデレーションラベルを生成するための合計時間と平均時間を調べます。処理時間は、ビデオのアップロードから結果の出力までで測定され、画像のサンプリングとビデオ API プロセスの各ステップが含まれます。

動画 API ソリューションのサンプルセットの動画あたりの平均処理時間は 35.2 秒です。これは、サンプルセットのビデオあたりの平均処理時間が 156.24 秒の画像 API ソリューションと比較されます。平均して、ビデオ API は画像 API ソリューションよりも XNUMX 倍高速に実行されます。次の表は、これらの調査結果をまとめたものです。

タイプ	平均処理時間 (すべてのビデオ)	平均処理時間 (1.5 分未満の動画)
ビデオ API ソリューション	35.2 seconds	24.05 seconds
Image API ソリューション: XNUMX フレーム/秒	156.24 seconds	8.45 seconds
差異	視聴者の３８%が	-185％

動画が 90 秒未満の場合、画像 API は動画 API よりもパフォーマンスが高くなります。これは、ビデオ API には、リードタイムのあるタスクを管理するキューがあるためです。サンプリング周波数が低い場合、画像 API のパフォーマンスも向上します。フレーム間隔を 5 秒以上に増やすと、処理時間を 6 ～ 10 分の XNUMX に短縮できます。間隔を長くすると、フレームサンプル間の不適切なコンテンツの識別を見逃すリスクが生じることに注意することが重要です。

アーキテクチャの複雑さ

ビデオ API ソリューションのアーキテクチャの複雑性は低くなります。サーバーレスパイプラインを設定するか、スクリプトを実行して、コンテンツモデレーションの結果を取得できます。 Amazon Rekognition は、負荷の高いコンピューティングと推論を管理します。 Amazon Rekognition API を編成するアプリケーションは、軽量のマシンでホストできます。

画像 API ソリューションのアーキテクチャの複雑さは中程度です。アプリケーションロジックは、ビデオをローカルドライブに保存し、画像処理を実行してフレームをキャプチャし、画像 API を呼び出すための追加の手順を調整する必要があります。アプリケーションをホストするサーバーは、ローカルの画像処理をサポートするために、より高いコンピューティング能力を必要とします。評価のために、2 つの vCPU と 4 G RAM を備えた EC8 インスタンスを起動して、XNUMX つの並列スレッドをサポートしました。コンピューティング要件が高くなると、操作のオーバーヘッドが増える可能性があります。

画像 API ソリューションの最適な使用例

画像 API ソリューションは、動画を処理する際の XNUMX つの特定のユースケースに最適です。

XNUMX つ目は、リアルタイムのビデオストリーミングです。ライブビデオストリームから画像フレームをキャプチャし、その画像を画像モデレート API に送信できます。

XNUMX 番目のユースケースは、フレームサンプリングレート要件が低いコンテンツモデレーションです。低い頻度でフレームをサンプリングする場合、イメージ API ソリューションはより費用対効果が高く、パフォーマンスが高くなります。コストと精度の間にはトレードオフがあることに注意することが重要です。低いレートでフレームをサンプリングすると、不適切なコンテンツを含むフレームが欠落するリスクが高くなる可能性があります。

XNUMX つ目の使用例は、ビデオ内の不適切なコンテンツを早期に検出することです。画像 API ソリューションは柔軟性が高く、早い段階で処理を停止してビデオにフラグを立てることができるため、コストと時間を節約できます。

まとめ

ビデオモデレーション API は、ほとんどのビデオモデレーションのユースケースに最適です。 XNUMX 秒あたり XNUMX フレームなどの頻度でフレームをサンプリングする場合、画像 API ソリューションよりも費用対効果が高く、パフォーマンスが高くなります。さらに、アーキテクチャの複雑さが軽減され、運用上のオーバーヘッド要件が軽減されます。

次の表は、特定の動画モデレーションのユースケースで Amazon Rekognition の画像および動画 API を最大限に活用するのに役立つ調査結果をまとめたものです。これらの結果は、テスト中および一部のお客様によって達成された平均値ですが、各 API の使用のバランスを取るためのアイデアが得られるはずです。

.	ビデオ API ソリューション	画像 API ソリューション
正確さ	同じ精度	.
費用	デフォルトの画像サンプリング間隔を使用してコストを削減	XNUMX 秒あたりにサンプリングされるフレーム数を減らすと、コストが削減されます (精度が犠牲になります)。
性能	90 秒を超える動画の方が高速	90 秒未満の動画の方が高速
アーキテクチャの複雑さ	複雑さが低い	中程度の複雑さ

Amazon Rekognition コンテンツモデレーションは、ビジネスを保護し、顧客の安全と関与を維持するのに役立つだけでなく、コンテンツモデレーションへの投資に対する収益を最大化するための継続的な取り組みにも貢献します。詳しくはこちら AWS でのコンテンツモデレーションとコンテンツモデレーション ML の使用例.

著者について

著者 - ラナ・チャン ラナ・チャン AWS WWSO AI サービスチームのシニアソリューションアーキテクトであり、コンテンツモデレーションとコンピュータービジョンのための AI と ML の専門知識を持っています。彼女は、AWS AI サービスを宣伝し、顧客がビジネスソリューションを変革するのを支援することに情熱を注いでいます。

著者 - ブリジット・ブラウン ブリジット・ブラウン アマゾンウェブサービスのソリューションアーキテクトです。 Brigit は、機械学習と人工知能を使用して、顧客が複雑なビジネス上の課題に対する革新的なソリューションを見つけるのを支援することに情熱を注いでいます。彼女の中心的な深さの分野は、自然言語処理とコンテンツモデレートです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/how-to-decide-between-amazon-rekognition-image-and-video-api-for-video-moderation/

タイムスタンプ： 2023 年 2 月 1 日

タイムスタンプ： 2023 年 9 月 6 日

プラトン再発行

Renate を使用してニューラルネットワークを自動的に再トレーニングする

Amazon Comprehend と Amazon Kinesis Data Firehose を使用して、ストリーミングデータから機密データをほぼリアルタイムで編集する

Amazon SageMaker 非同期エンドポイントを使用して Amazon SageMaker JumpStart 基盤モデルのデプロイメントコストを最適化する | アマゾンウェブサービス

Bundesliga Match Fact Win Probability: AWS の機械学習を使用して、ゲーム内イベントが勝利のチャンスに与える影響を定量化する

Amazon EKS と Torch Distributed Elastic を使用した分散トレーニング

IMDb ナレッジグラフを使用した電力の推奨と検索 – パート 1

GrabDefence デバイスインテリジェンスと Amazon Fraud Detector を使用して、モバイル指向のビジネスで不正を検出します

Haystack パイプラインと LLM を備えた Amazon SageMaker JumpStart を使用して、エンタープライズ検索向けに本番環境に対応した生成 AI アプリケーションを構築する | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

ビデオ モデレート API を使用してビデオをモデレートする