今日の Web コンテンツのほぼ 80% はユーザーが作成したものであり、組織が人間のみのプロセスで分析するのに苦労しているコンテンツの洪水を生み出しています。 新しいジーンズの購入から住宅ローンの確保まで、消費者の情報を利用できることは意思決定に役立ちます。 最近の調査では、消費者の 79% が、これまで以上にユーザーの動画、コメント、レビューに依存していると述べており、そのうちの 78% は、ブランドがそのようなコンテンツをモデレートする責任があると述べています。 40% は、有毒なコンテンツに XNUMX 回さらされると、そのブランドから離れると答えました。
Amazonの再認識 には、画像や動画をモデレートしてデジタル コミュニティの安全と関与を維持するのに役立つ XNUMX セットの API があります。
ビデオをモデレートする XNUMX つの方法は、ビデオ データを画像フレームのサンプルとしてモデル化し、画像コンテンツ モデレート モデルを使用してフレームを個別に処理することです。 このアプローチにより、画像ベースのモデルを再利用できます。 一部のお客様から、画像フレームをサンプリングして Amazon Rekognition 画像管理 API に送信することで、このアプローチを使用してビデオを管理できないかという質問を受けました。 彼らは、このソリューションが Amazon Rekognition ビデオ モデレーション API とどのように比較されるかについて興味があります。
動画コンテンツを管理するには、Amazon Rekognition ビデオ管理 API を使用することをお勧めします。 ビデオのモデレーション用に設計および最適化されており、パフォーマンスが向上し、コストが削減されます。 ただし、画像 API ソリューションが最適な特定のユース ケースがあります。
この投稿では、精度、コスト、パフォーマンス、アーキテクチャの複雑さの観点から XNUMX つのビデオ モデレーション ソリューションを比較し、ユース ケースに最適なソリューションを選択できるようにします。
ビデオ モデレート API を使用してビデオをモデレートする
Amazon Rekognition ビデオ コンテンツ モデレート API ビデオ内の不適切または不要なコンテンツを検出するために使用される標準的なソリューションです。 に保存されているビデオ コンテンツに対して非同期操作として実行されます。 Amazon シンプル ストレージ サービス (Amazon S3) バケット。 解析結果は配列として返されます。 モデレート ラベル ラベルがいつ検出されたかを示す信頼スコアとタイムスタンプとともに。
ビデオ コンテンツ モデレーション API は、画像のモデレートに同じ機械学習 (ML) モデルを使用します。 出力は、ノイズの多い偽陽性の結果に対してフィルター処理されます。 ワークフローは、デコード、フレーム抽出、推論などの操作を並列化することで、レイテンシーに対して最適化されています。
次の図は、Amazon Rekognition ビデオ モデレーション API を使用してビデオをモデレートする論理的な手順を示しています。
手順は以下の通りです。
- 動画を S3 バケットにアップロードします。
- 動画モデレーション API を呼び出す AWSラムダ ビデオ ファイルの場所をパラメーターとして関数 (またはオンプレミスでカスタマイズされたスクリプト) を実行します。 この API は、ビデオのデコード、サンプリング、および推論の重労働を管理します。 ハートビート ロジックを実装して、完了するまでモデレーション ジョブのステータスを確認するか、次のいずれかを使用できます。 Amazon シンプル通知サービス (Amazon SNS) を使用して、イベント駆動型のパターンを実装します。 動画モデレーション API の詳細については、以下を参照してください。 Jupyter Notebook 詳細な例については。
- モデレート結果をファイルとして S3 バケットまたはデータベースに保存します。
画像モデレート API を使用してビデオをモデレートする
一部のお客様は、動画コンテンツ管理 API を使用する代わりに、動画からフレームを個別にサンプリングし、Amazon Rekognition に画像を送信して不適切なコンテンツを検出することを選択しています。 検出モデレーションラベル API。 画像の結果は、不適切なコンテンツまたは不快なコンテンツのラベルと信頼スコアとともにリアルタイムで返されます。
次の図は、イメージ API ソリューションの論理的な手順を示しています。
手順は以下の通りです。
1. カスタマイズされたアプリケーションまたはスクリプトをオーケストレータとして使用し、ビデオをローカル ファイル システムにロードします。
2. ビデオをデコードします。
3. XNUMX 秒あたり XNUMX フレームなど、選択した間隔でビデオから画像フレームをサンプリングします。 次に、すべての画像を繰り返し処理します。
3.a. 各画像フレームを画像管理 API に送信します。
3.b. モデレート結果をファイルまたはデータベースに保存します。
これを、API 呼び出しを調整するために軽量の Lambda 関数を必要とするビデオ API ソリューションと比較してください。 画像サンプリング ソリューションは CPU を集中的に使用し、より多くのコンピューティング リソースを必要とします。 Lambda などの AWS サービスを使用してアプリケーションをホストできます。 Amazon エラスティック コンテナ サービス (Amazon ECS)、 Amazon Elastic Kubernetesサービス (Amazon EKS)、 AWSファーゲートまたは アマゾン エラスティック コンピューティング クラウド (Amazon EC2)。
評価データセット
両方のソリューションを評価するために、200 本の短編動画で構成されるサンプル データセットを使用します。 動画の長さは 10 秒から 45 分です。 動画の 60% は 2 分未満の長さです。 このサンプル データセットは、両方のソリューションのパフォーマンス、コスト、および精度の指標をテストするために使用されます。 結果は、Amazon Rekognition 画像 API サンプリング ソリューションとビデオ API ソリューションを比較します。
画像 API ソリューションをテストするために、オープンソース ライブラリ (ffmpeg および OpenCV) を使用して、500 秒あたり XNUMX フレーム (XNUMX ミリ秒ごとに XNUMX フレーム) の速度で画像をサンプリングします。 このレートは、ビデオ コンテンツ モデレーション API で使用されるサンプリング周波数を模倣しています。 各画像は画像コンテンツ管理 API に送信され、ラベルが生成されます。
ビデオ サンプリング ソリューションをテストするために、ビデオをビデオ コンテンツ モデレーション API に直接送信して、ラベルを生成します。
結果の概要
次の主要な結果に焦点を当てます。
- 正確さ – どちらのソリューションも、XNUMX 秒あたり XNUMX フレームという同じサンプリング周波数を使用して、同様の精度 (偽陽性と偽陰性のパーセンテージ) を提供します。
- 費用 – 画像 API サンプリング ソリューションは、XNUMX 秒あたり XNUMX フレームの同じサンプリング周波数を使用するビデオ API ソリューションよりも高価です
- XNUMX 秒あたりのサンプリング フレーム数を減らすことで、画像 API サンプリング ソリューションのコストを削減できます。
- 性能 – 平均して、ビデオ API は、サンプル データセットの画像 API ソリューションよりも処理時間が 425% 高速です
- 画像 API ソリューションは、フレームのサンプル間隔が長く、動画が 90 秒未満の場合にパフォーマンスが向上します。
- アーキテクチャの複雑さ – ビデオ API ソリューションのアーキテクチャの複雑さは低く、画像 API サンプリング ソリューションのアーキテクチャの複雑さは中程度です
正確さ
サンプル セットと XNUMX フレーム/秒の同じサンプリング周波数を使用して、両方のソリューションをテストしました。 結果は、両方のソリューションが同様の偽陽性と真陽性の比率を提供することを示しました。 内部的には、Amazon Rekognition はビデオと画像のモデレーション API の両方に同じ ML モデルを使用しているため、この結果は予期されたものです。
コンテンツ モデレートを評価するための指標の詳細については、次を参照してください。 Amazon Rekognition およびその他のコンテンツ管理サービスでコンテンツ管理を評価するためのメトリクス.
費用
コスト分析は、毎秒 XNUMX フレームの同じサンプリング周波数を使用する場合、画像 API ソリューションがビデオ API ソリューションよりも高価であることを示しています。 XNUMX 秒あたりにサンプリングされるフレーム数を減らすと、画像 API ソリューションの費用対効果が高くなる可能性があります。
コンテンツ管理ソリューションのコストに影響を与える 0.10 つの主な要因は、Amazon Rekognition API のコストとコンピューティング コストです。 ビデオ コンテンツ モデレーション API のデフォルトの料金は、0.001 分あたり 60 USD、画像コンテンツ モデレーション API の画像あたり 120 USD です。 0.10 秒のビデオは、60 秒あたり 0.120 フレームのレートを使用して XNUMX フレームを生成します。 ビデオ API は XNUMX 秒のビデオをモデレートするのに XNUMX ドルかかりますが、画像 API は XNUMX ドルです。
価格の計算は、この投稿の執筆時点でのリージョン us-east-1 の公式価格に基づいています。 詳細については、次を参照してください。 Amazon Rekognition の料金.
コスト分析では、サンプル セット内の 200 本のビデオのコンテンツ モデレーション ラベルを生成するための総コストを調べます。 計算は us-east-1 の料金に基づいています。 別のリージョンを使用している場合は、そのリージョンの価格でパラメーターを変更します。 200 本のビデオには 4271.39 分のコンテンツが含まれ、毎秒 512,567 フレームのサンプリング レートで XNUMX の画像フレームが生成されます。
この比較では、Amazon S3 ストレージなどの他のコストは考慮されていません。 例として Lambda を使用して、AWS のコンピューティング コストを計算します。 計算コストは、Lambda へのリクエスト数と AWSステップ関数 分析を実行します。 Lambda メモリ/CPU 設定は、Amazon EC2 仕様に基づいて推定されます。 このコスト見積もりでは、画像 API 呼び出しごとに 2 GB、15 秒の Lambda リクエストを使用します。 Lambda 関数の最大呼び出しタイムアウト制限は XNUMX 分です。 長いビデオの場合、ユーザーは Step Functions を使用して反復ロジックを実装し、Lambda 呼び出しごとに処理されるフレーム数を減らす必要がある場合があります。 実際の Lambda 設定とコスト パターンは、要件によって異なる場合があります。 より正確なコスト見積もりを得るために、ソリューションをエンド ツー エンドでテストすることをお勧めします。
次の表は、コストをまとめたものです。
タイプ | Amazon Rekognition のコスト | コストの計算 | 総費用 |
ビデオ API ソリューション | $427.14 | $0 (無料利用枠) |
$427.14 |
Image API ソリューション: XNUMX フレーム/秒 | $512.57 | $164.23 | $676.80 |
Image API ソリューション: XNUMX フレーム/秒 | $256.28 | $82.12 | $338.40 |
性能
平均して、ビデオ API ソリューションの処理時間は、画像 API ソリューションの 90 倍高速です。 画像 API ソリューションは、フレームのサンプル間隔が長く、ビデオが XNUMX 秒未満の場合にパフォーマンスが向上します。
この分析では、ビデオあたりの平均処理時間 (秒単位) としてパフォーマンスを測定します。 サンプル セット内の 200 本のビデオのコンテンツ モデレーション ラベルを生成するための合計時間と平均時間を調べます。 処理時間は、ビデオのアップロードから結果の出力までで測定され、画像のサンプリングとビデオ API プロセスの各ステップが含まれます。
動画 API ソリューションのサンプル セットの動画あたりの平均処理時間は 35.2 秒です。 これは、サンプル セットのビデオあたりの平均処理時間が 156.24 秒の画像 API ソリューションと比較されます。 平均して、ビデオ API は画像 API ソリューションよりも XNUMX 倍高速に実行されます。 次の表は、これらの調査結果をまとめたものです。
タイプ | 平均処理時間 (すべてのビデオ) | 平均処理時間 (1.5 分未満の動画) |
ビデオ API ソリューション | 35.2 seconds | 24.05 seconds |
Image API ソリューション: XNUMX フレーム/秒 | 156.24 seconds | 8.45 seconds |
差異 | 視聴者の38%が | -185% |
動画が 90 秒未満の場合、画像 API は動画 API よりもパフォーマンスが高くなります。 これは、ビデオ API には、リード タイムのあるタスクを管理するキューがあるためです。 サンプリング周波数が低い場合、画像 API のパフォーマンスも向上します。 フレーム間隔を 5 秒以上に増やすと、処理時間を 6 ~ 10 分の XNUMX に短縮できます。 間隔を長くすると、フレーム サンプル間の不適切なコンテンツの識別を見逃すリスクが生じることに注意することが重要です。
アーキテクチャの複雑さ
ビデオ API ソリューションのアーキテクチャの複雑性は低くなります。 サーバーレス パイプラインを設定するか、スクリプトを実行して、コンテンツ モデレーションの結果を取得できます。 Amazon Rekognition は、負荷の高いコンピューティングと推論を管理します。 Amazon Rekognition API を編成するアプリケーションは、軽量のマシンでホストできます。
画像 API ソリューションのアーキテクチャの複雑さは中程度です。 アプリケーション ロジックは、ビデオをローカル ドライブに保存し、画像処理を実行してフレームをキャプチャし、画像 API を呼び出すための追加の手順を調整する必要があります。 アプリケーションをホストするサーバーは、ローカルの画像処理をサポートするために、より高いコンピューティング能力を必要とします。 評価のために、2 つの vCPU と 4 G RAM を備えた EC8 インスタンスを起動して、XNUMX つの並列スレッドをサポートしました。 コンピューティング要件が高くなると、操作のオーバーヘッドが増える可能性があります。
画像 API ソリューションの最適な使用例
画像 API ソリューションは、動画を処理する際の XNUMX つの特定のユース ケースに最適です。
XNUMX つ目は、リアルタイムのビデオ ストリーミングです。 ライブ ビデオ ストリームから画像フレームをキャプチャし、その画像を画像モデレート API に送信できます。
XNUMX 番目のユース ケースは、フレーム サンプリング レート要件が低いコンテンツ モデレーションです。 低い頻度でフレームをサンプリングする場合、イメージ API ソリューションはより費用対効果が高く、パフォーマンスが高くなります。 コストと精度の間にはトレードオフがあることに注意することが重要です。 低いレートでフレームをサンプリングすると、不適切なコンテンツを含むフレームが欠落するリスクが高くなる可能性があります。
XNUMX つ目の使用例は、ビデオ内の不適切なコンテンツを早期に検出することです。 画像 API ソリューションは柔軟性が高く、早い段階で処理を停止してビデオにフラグを立てることができるため、コストと時間を節約できます。
まとめ
ビデオ モデレーション API は、ほとんどのビデオ モデレーションのユースケースに最適です。 XNUMX 秒あたり XNUMX フレームなどの頻度でフレームをサンプリングする場合、画像 API ソリューションよりも費用対効果が高く、パフォーマンスが高くなります。 さらに、アーキテクチャの複雑さが軽減され、運用上のオーバーヘッド要件が軽減されます。
次の表は、特定の動画モデレーションのユースケースで Amazon Rekognition の画像および動画 API を最大限に活用するのに役立つ調査結果をまとめたものです。 これらの結果は、テスト中および一部のお客様によって達成された平均値ですが、各 API の使用のバランスを取るためのアイデアが得られるはずです。
. | ビデオ API ソリューション | 画像 API ソリューション |
正確さ | 同じ精度 | . |
費用 | デフォルトの画像サンプリング間隔を使用してコストを削減 | XNUMX 秒あたりにサンプリングされるフレーム数を減らすと、コストが削減されます (精度が犠牲になります)。 |
性能 | 90 秒を超える動画の方が高速 | 90 秒未満の動画の方が高速 |
アーキテクチャの複雑さ | 複雑さが低い | 中程度の複雑さ |
Amazon Rekognition コンテンツ モデレーションは、ビジネスを保護し、顧客の安全と関与を維持するのに役立つだけでなく、コンテンツ モデレーションへの投資に対する収益を最大化するための継続的な取り組みにも貢献します。 詳しくはこちら AWS でのコンテンツ モデレーション と コンテンツ モデレーション ML の使用例.
著者について
ラナ・チャン AWS WWSO AI サービスチームのシニアソリューションアーキテクトであり、コンテンツモデレーションとコンピュータービジョンのための AI と ML の専門知識を持っています。 彼女は、AWS AI サービスを宣伝し、顧客がビジネス ソリューションを変革するのを支援することに情熱を注いでいます。
ブリジット・ブラウン アマゾン ウェブ サービスのソリューション アーキテクトです。 Brigit は、機械学習と人工知能を使用して、顧客が複雑なビジネス上の課題に対する革新的なソリューションを見つけるのを支援することに情熱を注いでいます。 彼女の中心的な深さの分野は、自然言語処理とコンテンツ モデレートです。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/how-to-decide-between-amazon-rekognition-image-and-video-api-for-video-moderation/
- 1
- 10
- 100
- 39
- 7
- a
- 私たちについて
- 精度
- 正確な
- 達成
- NEW
- さらに
- 後
- AI
- AIサービス
- すべて
- ことができます
- しかし
- Amazon
- Amazon EC2
- Amazonの再認識
- Amazon Webサービス
- 分析
- 分析します
- および
- 別の
- API
- API
- 申し込み
- アプローチ
- 建築の
- 建築
- エリア
- 配列
- 人工の
- 人工知能
- 著者
- 賃貸条件の詳細・契約費用のお見積り等について
- 平均
- AWS
- ベース
- なぜなら
- BEST
- より良いです
- の間に
- ブランド
- ブランド
- ビジネス
- 買収
- 計算
- コール
- コール
- 容量
- キャプチャー
- 場合
- 例
- 課題
- チェック
- 選択する
- 選ばれた
- 注釈
- コミュニティ
- 比較します
- 比べ
- 比較
- 完了
- 複雑な
- 複雑さ
- 計算
- コンピュータ
- Computer Vision
- コンピューティング
- 信頼
- 検討
- からなる
- consumer
- 消費者
- コンテナ
- コンテンツ
- 貢献する
- 基本
- 費用
- コスト効率の良い
- コスト
- 可能性
- 作成
- 興味深い
- Customers
- カスタマイズ
- データ
- データベース
- 決定
- デコード
- 減少
- デフォルト
- 実証
- によっては
- 深さ
- 設計
- 詳細な
- 細部
- 検出された
- 検出
- 異なる
- デジタル
- 直接に
- そうではありません
- ドライブ
- 間に
- 各
- 早い
- 効果的な
- 努力
- どちら
- 従事して
- 推定
- 推定
- 評価する
- 評価します
- 評価
- EVER
- あらゆる
- 例
- 例
- 予想される
- 高価な
- 専門知識
- 暴露
- 要因
- 速いです
- File
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- フレキシブル
- フォーカス
- フォロー中
- 次
- FRAME
- 無料版
- 周波数
- から
- function
- 機能
- 生成する
- 与える
- 助けます
- 助け
- ことができます
- ハイ
- より高い
- ホーム
- フード
- host
- 主催
- ホスティング
- 認定条件
- How To
- しかしながら
- HTML
- HTTPS
- 理想
- 考え
- 識別
- 画像
- 画像
- 影響
- 実装する
- 重要
- in
- 含ま
- 増える
- の増加
- 単独で
- 個別に
- 情報
- 革新的な
- インテリジェンス
- 紹介します
- 投資
- IT
- 繰り返し
- ジョブ
- キープ
- キー
- ラベル
- ラベル
- 言語
- レイテンシ
- 打ち上げ
- つながる
- LEARN
- 学習
- ライブラリ
- フェイスリフト
- 光
- LIMIT
- ライブ
- ローディング
- ローン
- ローカル
- 場所
- 長い
- より長いです
- LOOKS
- ロー
- 機械
- 機械学習
- make
- 管理する
- 管理する
- 最大化します
- 措置
- ミディアム
- メトリック
- 分
- 分
- 行方不明
- ML
- モデル
- 節度
- 修正する
- 他には?
- 最も
- ナチュラル
- 自然言語処理
- 必要
- 負
- 新作
- 通知
- 数
- 攻撃
- 提供
- 提供すること
- 公式
- ONE
- 継続
- オープンソース
- 操作
- オペレーショナル
- 業務執行統括
- 最適な
- 最適化
- 組織
- その他
- 並列シミュレーションの設定
- パラメーター
- パラメータ
- 情熱的な
- パターン
- パターン
- 実行する
- パフォーマンス
- 実行する
- パイプライン
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 正の
- ポスト
- ブランド
- 価格計算
- 価格設定
- 主要な
- プロセス
- 処理済み
- ラボレーション
- 処理
- 推進
- 守る
- 提供します
- RAM
- 範囲
- レート
- 比
- リアル
- への
- 最近
- 推奨する
- 推奨される
- 減らします
- 電話代などの費用を削減
- 地域
- 要求
- リクエスト
- 要件
- 要件
- 必要
- リソース
- 責任
- 結果
- 結果
- return
- レビュー
- リスク
- ラン
- 犠牲
- 安全な
- 前記
- 同じ
- サンプル データセット
- 節約
- 二番
- 秒
- 確保する
- 送信
- サーバレス
- サービス
- セッションに
- セット
- 設定
- 設定
- すべき
- 作品
- 同様の
- 簡単な拡張で
- 状況
- 溶液
- ソリューション
- 一部
- 特定の
- 仕様
- 標準
- 明記
- Status:
- 手順
- ステップ
- Force Stop
- ストレージ利用料
- 店舗
- 保存され
- 流れ
- ストリーミング
- 奮闘
- そのような
- サポート
- Survey
- テーブル
- 取る
- タスク
- チーム
- 条件
- test
- テスト
- アプリ環境に合わせて
- 三番
- 三
- 介して
- 層
- 時間
- <font style="vertical-align: inherit;">回数</font>
- タイムスタンプ
- 〜へ
- 今日の
- トータル
- 最適化の適用
- true
- 下
- 不要な
- つかいます
- 使用事例
- ユーザー
- ビデオ
- 動画
- ビジョン
- ウェブ
- Webサービス
- which
- 意志
- でしょう
- 書き込み
- You
- あなたの
- ゼファーネット