AWS AI サービスと LLM を使用して音声チャットとテキストチャットを管理する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

オンラインゲームおよびソーシャルコミュニティは、ユーザーが通信するための音声およびテキストチャット機能を提供します。音声チャットやテキストチャットは友好的な冗談をサポートすることがよくありますが、ヘイトスピーチ、ネットいじめ、嫌がらせ、詐欺などの問題を引き起こす可能性もあります。現在、多くの企業は有害なコンテンツのレビューを人間のモデレータのみに依存しています。ただし、チャットでの違反の確認は時間がかかり、エラーが発生しやすく、規模を拡大するのが困難です。

この投稿では、以下を含むさまざまな AWS サービスを使用して音声およびテキストチャットのモデレートを可能にするソリューションを紹介します。 Amazon Transcribe, Amazon Comprehend, アマゾンの岩盤, AmazonOpenSearchサービス.

ソーシャルプラットフォームは、簡単に開始できる既製のモデレーションソリューションを求めていますが、多様なポリシーを管理するためのカスタマイズも必要です。レイテンシーとコストも考慮する必要がある重要な要素です。生成 AI を使用して大規模言語モデル (LLM) で毒性分類を調整することで、さまざまな要件を満たすシンプルさ、遅延、コスト、柔軟性のバランスがとれたソリューションを提供します。

この投稿のサンプルコードは、次の場所にあります。 GitHubリポジトリ.

音声チャットのモデレーションワークフロー

オーディオチャットモデレーションワークフローは、ユーザーがゲームプラットフォーム上の他のユーザーに対して、冒涜、ヘイトスピーチ、ハラスメントなどのポリシー違反を報告することによって開始される可能性があります。これは、音声モデレーションに対する受動的なアプローチを表します。システムは、即座に分析することなく、すべての音声会話を記録します。レポートを受信すると、ワークフローは関連する音声ファイルを取得し、分析プロセスを開始します。次に、人間のモデレータが報告された会話をレビューし、その内容を調査してプラットフォームポリシーに違反していないかどうかを判断します。

あるいは、ワークフローをプロアクティブにトリガーすることもできます。たとえば、ソーシャルオーディオチャットルームでは、システムがすべての会話を記録し、分析を適用できます。

パッシブなアプローチとプロアクティブなアプローチの両方で、オーディオ分析のための次のパイプラインをトリガーできます。

オーディオモデレーションのワークフローには次の手順が含まれます。

ワークフローは、オーディオファイルを受信し、それをファイルに保存することから始まります。 Amazon シンプルストレージサービス Amazon Transcribe がアクセスする (Amazon S3) バケット。
アマゾンの文字起こし StartTranscriptionJob APIは次のように呼び出されます毒性の検出有効になりました。 Amazon Transcribe は音声をテキストに変換し、毒性分析に関する追加情報を提供します。毒性分析の詳細については、以下を参照してください。 Amazon Transcribe Toxicity Detection を使用して、会話中の有害な言語にフラグを立てます.
毒性分析で特定のしきい値 (たとえば、50%) を超える毒性スコアが返された場合は、次のように使用できます。 Amazon Bedrock のナレッジベース LLM を使用して、カスタマイズされたポリシーに対してメッセージを評価します。
人間のモデレーターは、有害でポリシーに違反していると考えられる会話セグメントを強調表示する詳細な音声モデレーションレポートを受け取り、情報に基づいた意思決定を行うことができます。

次のスクリーンショットは、オーディオセグメントの毒性分析を表示するサンプルアプリケーションを示しています。これには、元の転写、Amazon Transcribe 毒性分析の結果、Amazon Bedrock Anthropic Claude V2 モデルを通じて Amazon Bedrock ナレッジベースを使用して実行された分析が含まれます。

LLM 分析では、違反結果 (Y または N) が提供され、ポリシー違反に関するモデルの決定の背後にある理論的根拠が説明されます。さらに、知識ベースには評価で使用される参照ポリシー文書が含まれており、モデレーターに追加のコンテキストを提供します。

Amazon Transcribe の毒性検出

Amazon Transcribe は、開発者が音声をテキストに変換する機能をアプリケーションに簡単に追加できるようにする自動音声認識 (ASR) サービスです。オーディオモデレーションワークフローでは、Amazon Transcribe Toxicity Detection を使用します。これは、セクハラ、ヘイトスピーチ、脅迫を含む 7 つのカテゴリにわたる音声ベースの有害なコンテンツを識別し、分類するために音声およびテキストベースの合図を使用する機械学習 (ML) を活用した機能です。、虐待、冒涜、侮辱、生々しい言葉。毒性検出は、テキストの分析に加えて、トーンやピッチなどの音声キューを使用して、音声内の有害な意図を特定します。

オーディオモデレーションワークフローは、毒性分析が設定されたしきい値を超えた場合にのみ、LLM のポリシー評価をアクティブにします。このアプローチでは、LLM を選択的に適用し、トラフィックのかなりの部分をフィルタリングして除外することで、レイテンシを短縮し、コストを最適化します。

LLM プロンプトエンジニアリングを使用してカスタマイズされたポリシーに対応する

Amazon Transcribe と Amazon Comprehend の事前トレーニングされた毒性検出モデルは、オーディオおよびテキスト形式でユーザーが作成したコンテンツをモデレートするためにソーシャルプラットフォームで一般的に使用される、広範な毒性分類を提供します。これらの事前トレーニングされたモデルは、低遅延で問題を効率的に検出しますが、事前トレーニングされたモデルだけでは達成できない、特定の企業またはビジネスドメインのポリシーに対する違反を検出するソリューションが必要になる場合があります。

さらに、状況に応じた会話における違反の検出（特定など）子供の性的グルーミング会話には、チャットメッセージと、ユーザーの年齢、性別、会話履歴などのチャットメッセージ以外のコンテキストを考慮したカスタマイズ可能なソリューションが必要です。ここで、LLM はこれらの要件を拡張するために必要な柔軟性を提供できます。

Amazon Bedrock は、大手 AI 企業の高性能基盤モデル (FM) の選択肢を提供するフルマネージドサービスです。これらのソリューションは、Amazon Bedrock の Anthropic Claude v2 を使用し、次のコードに示すように、柔軟なプロンプトテンプレートを使用して音声転写とテキストチャットメッセージを管理します。

Human: You are a Trust & Safety expert. Your job is to review user chat message and decide if it violate the policy.
You will find the chat message in <message> tag, and find the policy in the <policy> tag. You can find additional rules in the <rule> tag to assist your decision. 

<policy>{policy}</policy>
<message>{message}</message>
<rule>{rule}</rule>

Does the chat message violate the policy? Please consider and provide your analysis in the <analysis> tag, breaking down each rule in the rule section, and keep and analysis within 100 words. Respond in the <answer> tag with either 'Y' or 'N'. 'Y' indicates that the message violates the policy, while 'N' means the content is safe and does not violate the policy. 

Assistant:

テンプレートには、ポリシーの説明、チャットメッセージ、およびモデレーションを必要とする追加ルールのプレースホルダーが含まれています。 Anthropic Claude V2 モデルは、メッセージがポリシーに違反していると考えられる理由を説明する分析とともに、指示された形式 (Y または N) で応答を配信します。このアプローチにより、柔軟なモデレーションカテゴリを定義し、人間の言語でポリシーを明確に表現できるようになります。

社内分類モデルをトレーニングする従来の方法には、データアノテーション、トレーニング、テスト、モデルのデプロイメントなどの面倒なプロセスが含まれており、データサイエンティストや ML エンジニアの専門知識が必要です。対照的に、LLM は高度な柔軟性を提供します。ビジネスユーザーは人間の言語でプロンプトを変更できるため、ML モデルのトレーニングの効率が向上し、反復サイクルが短縮されます。

Amazon Bedrock ナレッジベース

プロンプトエンジニアリングはポリシーのカスタマイズには効率的ですが、長いポリシーやルールをメッセージごとに LLM プロンプトに直接挿入すると、遅延が発生し、コストが増加する可能性があります。これに対処するために、Amazon Bedrock ナレッジベースをマネージド検索拡張生成 (RAG) システムとして使用します。これにより、ポリシードキュメントを柔軟に管理できるようになり、ワークフローで各入力メッセージに関連するポリシーセグメントのみを取得できるようになります。これにより、分析のために LLM に送信されるトークンの数が最小限に抑えられます。

あなたが使用することができます AWSマネジメントコンソールポリシー文書を S3 バケットにアップロードし、効率的に取得できるように文書をベクターデータベースにインデックス付けします。以下は、Amazon Bedrock ナレッジベースによって管理される概念的なワークフローです。Amazon S3 からドキュメントを取得し、テキストをチャンクに分割し、 Amazon Bedrock Titan テキスト埋め込みモデルテキストチャンクをベクトルに変換し、ベクトルデータベースに保存します。

このソリューションでは、 AmazonOpenSearchサービスベクトルストアとして。 Opensearch は、Apache 2.0 ライセンスに基づいてライセンス供与されている、検索、分析、セキュリティ監視、可観測性アプリケーション向けのスケーラブルで柔軟かつ拡張可能なオープンソースソフトウェアスイートです。 OpenSearch Service は、AWS クラウドで OpenSearch を簡単にデプロイ、拡張、運用できるようにするフルマネージドサービスです。

OpenSearch Service でドキュメントのインデックスが作成されると、音声およびテキストのモデレーションワークフローによってチャットメッセージが送信され、カスタマイズされたポリシー評価のための次のクエリフローがトリガーされます。

このプロセスは開始ワークフローと似ています。まず、テキストメッセージは、Amazon Bedrock Titan Text Embedding API を使用してテキスト埋め込みに変換されます。これらの埋め込みは、次の処理を実行するために使用されます。ベクトル検索すでにドキュメントの埋め込みが設定されている OpenSearch Service データベースに対して。データベースは、入力テキストメッセージに関連する、一致スコアが最も高いポリシーチャンクを返します。次に、入力チャットメッセージとポリシーセグメントの両方を含むプロンプトを作成し、評価のために Anthropic Claude V2 に送信します。 LLM モデルは、プロンプトの指示に基づいて分析結果を返します。

Amazon Bedrock ナレッジベースでポリシー文書を使用して新しいインスタンスを作成する方法の詳細な手順については、以下を参照してください。ナレッジベースは、Amazon Bedrock でフルマネージドの RAG エクスペリエンスを提供するようになりました.

テキストチャットモデレーションワークフロー

テキストチャットモデレーションワークフローは音声モデレーションと同様のパターンに従いますが、テキストモデレーション用に調整された Amazon Comprehend 毒性分析が使用されます。サンプルアプリは、CSV または TXT 形式で一括テキストファイルをアップロードするためのインターフェイスをサポートし、迅速なテスト用の単一メッセージインターフェイスを提供します。次の図はワークフローを示しています。

テキスト管理ワークフローには次の手順が含まれます。

ユーザーはテキストファイルを S3 バケットにアップロードします。
Amazon Comprehend の毒性分析がテキストメッセージに適用されます。
毒性分析で特定のしきい値 (たとえば、50%) を超える毒性スコアが返された場合、Amazon Bedrock ナレッジベースを使用して、Anthropic Claude V2 LLM を使用してカスタマイズされたポリシーに対してメッセージを評価します。
ポリシー評価レポートは人間のモデレーターに送信されます。

Amazon Comprehend の毒性分析

テキストモデレーションワークフローでは、Amazon Comprehend 毒性分析を使用してテキストメッセージの毒性レベルを評価します。 Amazon Comprehend は、ML を使用してテキスト内の貴重な洞察とつながりを明らかにする自然言語処理 (NLP) サービスです。 Amazon Comprehend 毒性検出 API は、テキストコンテンツに 0 ～ 1 の範囲の全体的な毒性スコアを割り当て、有害である可能性を示します。また、テキストを次のカテゴリに分類し、それぞれの信頼スコアを提供します。 hate_speech、グラフィック、 harrassement_or_abuse、性的、 violence_or_threat、侮辱、冒涜。

このテキストモデレーションワークフローでは、Amazon Comprehend の有害性分析が、受信テキストメッセージに有害なコンテンツが含まれているかどうかを特定する上で重要な役割を果たします。オーディオモデレーションワークフローと同様に、毒性分析で事前定義されたしきい値を超えるスコアが返された場合にのみ、ダウンストリーム LLM ポリシー評価をアクティブにする条件が含まれています。この最適化は、LLM 分析に関連する全体的な遅延とコストを削減するのに役立ちます。

まとめ

この投稿では、Amazon Transcribe、Amazon Comprehend、Amazon Bedrock、OpenSearch Service などの AWS のサービスを使用した音声およびテキストチャットのモデレーションのソリューションを紹介しました。これらのソリューションは、毒性分析に事前トレーニングされたモデルを使用し、生成 AI LLM と連携して、精度、遅延、コストの最適なバランスを実現します。また、独自のポリシーを柔軟に定義できるようになります。

の指示に従ってサンプルアプリを体験できます。 GitHubレポ.

著者,

ラナ・チャン AWS WWSO AI サービスチームのシニアソリューションアーキテクトで、コンテンツモデレーション、コンピュータービジョン、自然言語処理、生成 AI の AI と ML を専門としています。彼女はその専門知識を活かして、AWS AI/ML ソリューションを推進し、ソーシャルメディア、ゲーム、電子商取引、メディア、広告、マーケティングなどのさまざまな業界にわたって顧客がビジネスソリューションを変革できるよう支援することに専念しています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/moderate-audio-and-text-chats-using-aws-ai-services-and-llms/

タイムスタンプ： 2024 年 3 月 13 日

タイムスタンプ： 2022 年 11 月 10 日

プラトン再発行

AmazonSageMakerを使用してImmoScout24で住宅の不動産価格を予測する

Amazon SageMaker にデプロイされた生成 AI を使用してクリエイティブな広告を生成する | アマゾンウェブサービス

Amazon SageMaker で Amazon EMR と RStudio を接続する

2 つの新しい NVIDIA GPU ベースの Amazon ECXNUMX インスタンスの紹介 | アマゾンウェブサービス

Amazon SageMaker 組み込みの表形式アルゴリズムを使用したチャーン予測 LightGBM、CatBoost、TabTransformer、および AutoGluon-Tabular

Amazon SageMaker 自動モデルチューニングでグリッド検索がサポートされるようになりました

Prodege がローコードコンピュータービジョン AI を使用して人間による年間レビュー費用を 1.5 万ドル節約した方法

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー