AWS マネージド AI サービスを使用したコンテンツモデレーション設計パターン

プラトン再発行

フォロワー： 0

ユーザー生成コンテンツ (UGC) は急激に増加しており、コンテンツとオンラインコミュニティの安全性とコンプライアンスを維持するための要件とコストも増加しています。最新の Web およびモバイルプラットフォームはビジネスを活性化し、スタートアップから大規模組織に至るまで、ソーシャル機能を通じてユーザーエンゲージメントを促進します。オンラインコミュニティのメンバーは、画像、ビデオ、テキスト、オーディオを自由に使用および投稿できる、安全で包括的なエクスペリエンスを期待しています。 UGC の量、種類、複雑さはますます増大しており、従来の人間によるモデレーションワークフローでは、ユーザーを保護するために拡張することが困難になっています。これらの制限により、顧客は、ユーザーとビジネスに不必要なリスクをもたらす、非効率的で費用がかかる事後対応的な軽減プロセスを強いられます。その結果、コミュニティエクスペリエンスは貧弱で有害で包括的ではなく、ユーザーの関与を失い、コミュニティとビジネスの目標に悪影響を及ぼします。

このソリューションは、人工知能 (AI)、機械学習 (ML)、深層学習 (DL)、および自然言語処理 (NLP) テクノロジーに依存する、スケーラブルなコンテンツモデレーションワークフローです。これらの構造は、翻訳、転写、認識、検出、マスク、編集し、人間の才能を戦略的にモデレーションワークフローに取り込み、精度とプロセス効率を向上させ、運用コストを削減しながら、ユーザーの安全と関与を維持するために必要なアクションを実行します。

この投稿では、AWS AI サービスを使用してコンテンツモデレーションワークフローを構築する方法をレビューします。コンテンツの自動モデレーションがソーシャルメディア、ゲーム、電子商取引、広告業界にもたらすビジネスニーズ、影響、コスト削減の詳細については、以下を参照してください。 AWS AIサービスを利用して、コンテンツのモデレーションとコンプライアンスを自動化します.

ソリューションの概要

これらのワークフローを実装するのに ML の専門知識は必要なく、これらのパターンを特定のビジネスニーズに合わせて調整できます。 AWS は、データサイエンスチームを必要とせず、運用の複雑さや未分化な重労働を取り除くフルマネージドサービスを通じてこれらの機能を提供します。

この投稿では、テキスト、音声、画像、ビデオ、さらには PDF ファイルを使用して、顧客が製品について議論およびレビューするスペースを効率的に管理する方法を示します。次の図は、ソリューションアーキテクチャを示しています。

前提条件

デフォルトでは、これらのパターンはサーバーレスの方法論を示しており、使用した分だけ料金を支払います。次のようなコンピューティングリソースに対して料金を支払い続けることになります。 AWSファーゲートコンテナや保管場所など Amazon シンプルストレージサービス (Amazon S3)、それらのリソースを削除するまで。ここで説明する AWS AI サービスも、オペレーションごとの消費価格モデルに従います。

非運用環境では、アカウントの資格を前提として、無料利用枠内でこれらの各パターンをテストできます。

適度なプレーンテキスト

まず、プレーンテキストのコンテンツモデレーションを実装する必要があります。この手順は、より高度なメディアタイプの基礎として機能し、次の XNUMX つの高レベルの手順が必要です。

テキストを翻訳します。
テキストを分析します。

世界中の顧客は、母国語でソーシャルプラットフォームとコラボレーションしたいと考えています。設計チームは言語ごとにワークフローやステップを構築する必要があるため、この期待に応えると複雑さが増す可能性があります。代わりに、次を使用できます。 Amazon翻訳テキストを 70 以上の地域の 15 以上の言語およびバリアントに変換します。この機能を使用すると、単一言語の分析ルールを作成し、それらのルールをグローバルなオンラインコミュニティ全体に適用できます。

Amazon Translate は、高速、高品質、手頃な価格のカスタマイズ可能な言語翻訳を提供するニューラル機械翻訳サービスです。これをワークフローに統合して、主要な言語を検出し、テキストを翻訳する。次の図は、ワークフローを示しています。

テキストを正規化するためのステートマシン

API は次のように動作します。

　主要言語の検出 API は入力テキストの主な言語を決定します。 Amazon Comprehend が検出できる言語のリストについては、を参照してください。主要言語.
　翻訳テキスト API は、オプションで入力テキストをソース言語からターゲット言語に翻訳します。冒とく的なマスキング。利用可能な言語と言語コードのリストについては、を参照してください。サポートされている言語と言語コード.
　実行の開始 & StartSyncExecution API は AWSステップ関数ステートマシン。

次に、NLP を使用して、キーフレーズの検出、センチメントの分析、個人を特定できる情報 (PII) の検出など、テキスト内のつながりを明らかにできます。 Amazon Comprehend API はこれらの貴重な洞察を抽出し、カスタム関数ハンドラーに渡します。

内部でそれらのハンドラーを実行する AWSラムダ関数は、サーバーやクラスターについて考えることなく、コードを柔軟に拡張します。あるいは、Amazon Comprehend からの洞察を次のように処理することもできます。マイクロサービスアーキテクチャパターン。ランタイムに関係なく、コードはテキストの解析ではなく、結果の使用に重点を置きます。

次の図は、ワークフローを示しています。

テキストをモデレートするためのステートマシン

Lambda 関数は次の API と対話します。

　エンティティの検出 API は、テキスト内の人物や場所など、現実世界のオブジェクトの名前を検出してグループ化します。カスタム語彙を使用して、不適切なビジネス固有のエンティティタイプを編集できます。
　センチメントの検出 API は、テキストの全体的な感情を肯定的、否定的、または中立として識別します。カスタム分類子をトレーニングして、業界固有の関心のある状況を認識し、テキストの概念的な意味を抽出することができます。
　 PIIエンティティの検出 API は、住所、銀行口座番号、電話番号など、テキスト内の PII を識別します。出力には、PII エンティティのタイプとそれに対応する場所が含まれます。

中程度のオーディオファイル

オーディオファイルをモデレートするには、ファイルをテキストに変換してから分析する必要があります。このプロセスには、個々のファイル (同期) を処理するか、ライブオーディオストリーム (非同期) を処理するかに応じて XNUMX つのバリエーションがあります。同期ワークフローは、呼び出し元が XNUMX つの完全な応答を受け取るバッチ処理に最適です。対照的に、オーディオストリームでは、複数の文字起こし結果を含む定期的なサンプリングが必要です。

Amazon Transcribe は、ML モデルを使用して音声をテキストに変換する自動音声認識サービスです。これを同期ワークフローに統合するには、次のようにします。文字起こしジョブを開始するそして定期的にジョブのステータスを問い合わせる。ジョブが完了したら、前のステップのプレーンテキストモデレーションワークフローを使用して出力を分析できます。

次の図は、ワークフローを示しています。

オーディオファイルを転写するためのステートマシン

API は次のように動作します。

　文字起こしジョブの開始 API は、音声をテキストに書き起こすための非同期ジョブを開始します。
　文字起こしジョブの取得 API は文字起こしジョブに関する情報を返します。ジョブのステータスを確認するには、 TranscriptionJobStatus 分野。 status プロパティが COMPLETEDで指定された場所で結果を見つけることができます。 TranscriptFileUri 分野。コンテンツの編集を有効にすると、編集されたトランスクリプトが RedactedTranscriptFileUri.

ライブオーディオストリームには、リアルタイム配信モデルをサポートする別のパターンが必要です。ストリーミングには、映画、音楽、ポッドキャストなどの事前に録音されたメディアや、ライブニュース放送などのリアルタイムメディアが含まれます。を使用してオーディオチャンクを瞬時に転写できます。 Amazon Transcribe ストリーミング HTTP/2 および WebSocket プロトコル経由。チャンクをサービスに投稿すると、XNUMX つ以上のチャンクを受け取ります転写結果オブジェクト部分的および完全な転写セグメントを説明します。モデレーションが必要なセグメントでは、前のセクションのプレーンテキストワークフローを再利用できます。次の図は、このプロセスを示しています。

リアルタイムオーディオストリームをモデレートするためのフロー図

　ストリーミング文字起こしの開始 API は双方向 HTTP/2 ストリームを開始し、音声が Amazon Transcribe にストリーミングされ、文字起こし結果がアプリケーションにストリーミングされます。

適度な画像や写真

画像をモデレートするには、画像や写真のコンテンツから、ヌード、暗示、暴力、その他のカテゴリを含む不適切なコンテンツ、望ましくないコンテンツ、または不快なコンテンツを検出する必要があります。

Amazonの再認識 ML の専門知識を必要とせずに、画像とビデオのモデレーションワークフローを合理化または自動化できます。 Amazon Rekognition は、モデレーション関連のラベルの階層分類を返します。この情報により、標準と慣行、ユーザーの安全性、およびコンプライアンスのガイドラインに基づいた詳細なビジネスルールを簡単に定義できます。これらの機能を使用するのに ML の経験は必要ありません。 Amazon Rekognition は、画像内のテキストを検出して読み取り、見つかった各単語の境界ボックスを返すことができます。 Amazon Rekognition は、英語、アラビア語、ロシア語、ドイツ語、フランス語、イタリア語、ポルトガル語、スペイン語で書かれたテキスト検出をサポートしています。

機械予測を使用して、特定のモデレーションタスクを完全に自動化できます。この機能により、人間のモデレーターはより高次の作業に集中できるようになります。さらに、Amazon Rekognition は、ML を使用して数百万の画像または数千のビデオを迅速にレビューし、さらなるアクションが必要なアセットのサブセットにフラグを立てることができます。プレフィルタリングは、人間のチームがモデレートするコンテンツの量を削減しながら、包括的でありながらコスト効率の高いモデレーション範囲を提供するのに役立ちます。

次の図は、ワークフローを示しています。

画像をモデレートするためのステートマシン

API は次のように動作します。

　検出モデレーションラベル API は、指定された JPEG または PNG 形式の画像内の安全でないコンテンツを検出します。要件に応じて DetectModerationLabels を使用して画像を管理します。たとえば、ヌードを含む画像はフィルタリングしたいが、挑発的なコンテンツを含む画像はフィルタリングしたくない場合があります。
　テキストの検出 API は入力画像内のテキストを検出し、機械可読テキストに変換します。

適度なリッチテキストドキュメント

次に、あなたは使用することができますアマゾンテキストラックスキャンした文書から手書きのテキストとデータを抽出します。このプロセスは、ドキュメント分析の開始 Microsoft Word および Adobe PDF ファイルを解析するアクション。ジョブの進行状況を監視できます。ドキュメント分析の取得をご利用ください。

分析結果により、文書内の未検出の各ページ、段落、表、およびキーと値のペアが特定されます。たとえば、医療提供者が請求の説明フィールドのみで患者名をマスクする必要があるとします。その場合、分析レポートは次のような力を発揮します。インテリジェントな文書処理パイプライン特定のデータフィールドを管理および編集します。次の図はパイプラインを示しています。

リッチテキストドキュメントをモデレートするためのステートマシン

API は次のように動作します。

　ドキュメント分析の開始 API は、キーと値のペア、テーブル、選択要素などの検出された項目間の関係について、入力ドキュメントの非同期分析を開始します
　ドキュメント分析の取得 API は、ドキュメント内のテキストを分析する Amazon Textract 非同期オペレーションの結果を取得します

動画を適度に管理する

ビデオコンテンツのモデレーションへの標準的なアプローチは、フレームサンプリング手順によるものです。多くのユースケースでは、すべてのフレームをチェックする必要はなく、15 ～ 30 秒ごとに XNUMX つを選択するだけで十分です。サンプリングされたビデオフレームは、前のセクションの画像を調整するためにステートマシンを再利用できます。同様に、オーディオを調整する既存のプロセスは、ファイルの可聴コンテンツをサポートできます。次の図は、このワークフローを示しています。

ビデオファイルをモデレートするためのステートマシン

　呼び出します API は Lambda 関数を実行し、同期的に応答を待ちます。

メディアファイルが複数のシーンを含む映画全体であると仮定します。その場合は、 Amazon Rekognition セグメント API、テクニカルキューやショット検出を検出するための複合 API。次に、次の図に示すように、これらの時間オフセットを使用して、前のビデオモデレーションパターンで各セグメントを並列処理できます。

リッチテキストドキュメントをモデレートするためのステートマシン

API は次のように動作します。

　セグメンテーション検出の開始 API は保存されたビデオ内のセグメント検出の非同期検出を開始します
　 GetSegmentationDetection API は、StartSegmentDetection API によって開始された Amazon Rekognition Video 分析のセグメント検出結果を取得します

ムービーから個々のフレームを抽出するには、Amazon S3 からオブジェクトを複数回フェッチする必要はありません。単純な解決策には、ビデオをメモリに読み込んで最後までページ分割することが含まれます。このパターンは、短いクリップや評価が時間に左右されない場合に最適です。

別の戦略では、ファイルを一度移動します。 AmazonElasticファイルシステム (Amazon EFS) は、Lambda などの他の AWS サービス用のフルマネージドでスケーラブルな共有ファイルシステムです。と Lambda 用 Amazon EFSを使用すると、関数呼び出し間でデータを効率的に分散できます。各呼び出しは小さなチャンクを効率的に処理し、大規模な並列処理とより高速な処理時間の可能性を解き放ちます。

クリーンアップ

この投稿の方法を試した後は、将来のコストを避けるために、S3 バケット内のコンテンツをすべて削除する必要があります。次のようなプロビジョニングされたコンピューティングリソースを使用してこれらのパターンを実装した場合、アマゾンエラスティックコンピューティングクラウド（Amazon EC2）または Amazon エラスティックコンテナサービス (Amazon ECS)、さらなる料金の発生を避けるために、それらのインスタンスを停止する必要があります。

まとめ

ユーザー生成コンテンツと、ゲーム、ソーシャルメディア、電子商取引、金融および医療サービス組織にとってのその価値は今後も成長し続けるでしょう。それでも、新興企業や大規模組織は、運用コストを削減しながら、ユーザー、情報、ビジネスを保護するための効率的なモデレーションプロセスを作成する必要があります。このソリューションは、AI、ML、NLP テクノロジーが大規模なコンテンツのモデレートにどのように効率的に役立つかを示します。 AWS AI サービスをカスタマイズして、特定のモデレーションのニーズに対応できます。これらのフルマネージド機能により、運用の複雑さが解消されます。この柔軟性により、状況に応じた洞察と人間の才能がモデレーションプロセスに戦略的に統合されます。

追加情報やリソースについて、また今すぐ無料で使い始めるには、次のサイトにアクセスしてください。 AWS コンテンツモデレーションのホームページ.

著者について

ネイト・バッハマイヤー は、一度にXNUMXつのクラウド統合でニューヨークを遊牧的に探索するAWSシニアソリューションアーキテクトです。彼はアプリケーションの移行と最新化を専門としています。これに加えて、ネイトはフルタイムの学生であり、XNUMX人の子供がいます。

ラム・パタンギ は、サンフランシスコベイエリアのアマゾンウェブサービスのソリューションアーキテクトです。彼は、農業、保険、銀行、小売、ヘルスケアとライフサイエンス、ホスピタリティ、ハイテク業界の顧客が AWS クラウド上でビジネスを成功裏に運営できるよう支援してきました。彼はデータベース、分析、機械学習を専門としています。

ループ・ベインズ AI/ML を専門とする AWS のソリューションアーキテクトです。彼は、人工知能と機械学習を使用して顧客の革新とビジネス目標の達成を支援することに情熱を注いでいます。余暇には、ループは読書とハイキングを楽しんでいます。

タイムスタンプ： 2022 年 5 月 9 日

タイムスタンプ： 2023 年 7 月 25 日

プラトン再発行

Amazon SageMaker Canvas と Amazon QuickSight でインテリジェントな意思決定を可能にします

チケット処理のためにServiceNowをAmazonLexチャットボットと統合する

人間の豊富なフィードバックから学習することで、LLM のマルチホップ推論を改善する

BLOOM-176B と OPT-30B を Amazon SageMaker にデプロイし、大規模なモデルの推論を行う Deep Learning Containers と DeepSpeed

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

ソリューションの概要

前提条件

適度なプレーンテキスト

中程度のオーディオ ファイル

適度な画像や写真

適度なリッチ テキスト ドキュメント

動画を適度に管理する

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

中程度のオーディオファイル

適度なリッチテキストドキュメント