IMDb ナレッジグラフを使用した推奨電力と検索

プラトン再発行

フォロワー： 0

この XNUMX 部構成のシリーズでは、グラフニューラルネットワーク (GNN) とアマゾン海王星を使用して映画のおすすめを生成する IMDb とボックスオフィス Mojo 映画/TV/OTT ライセンス可能なデータパッケージ。1 億を超えるユーザー評価を含む幅広いエンターテイメントメタデータを提供します。 11 万人を超えるキャストとスタッフのクレジット。 9 万の映画、テレビ、エンターテイメントタイトル。および 60 か国以上からのグローバル興行レポートデータ。多くの AWS メディアおよびエンターテイメントのお客様は、IMDb データのライセンスを AWSデータ交換コンテンツの発見を改善し、顧客の関与と維持を向上させます。

次の図は、このシリーズの一部として実装された完全なアーキテクチャを示しています。

In 第1部では、GNN のアプリケーションと、IMDb データをナレッジグラフ (KG) に変換して準備する方法について説明しました。 AWS Data Exchange からデータをダウンロードし、 AWSグルー KG ファイルを生成します。 KGファイルは次の場所に保存されました Amazon シンプルストレージサービス (Amazon S3) に読み込まれ、アマゾン海王星.

In 第2部、使用方法をデモンストレーションしましたアマゾンネプチューンML （中アマゾンセージメーカー) KG をトレーニングし、KG 埋め込みを作成します。

この投稿では、Amazon S3 でトレーニング済みの KG 埋め込みをカタログ外検索のユースケースに適用する方法について説明します。 AmazonOpenSearchサービスおよび AWSラムダ. また、インタラクティブな検索エクスペリエンスのためにローカル Web アプリをデプロイします。この投稿で使用されるすべてのリソースは、XNUMX つのツールを使用して作成できます。 AWSクラウド開発キット (AWS CDK) コマンドは、この記事の後半で説明されています。

経歴

ビデオストリーミングプラットフォームで利用できないコンテンツタイトルをうっかり検索してしまったことはありませんか? はいの場合、空白の検索結果ページに直面する代わりに、同じジャンルの映画のリストがキャストまたはクルーメンバーと共に表示されることがわかります。それは、カタログ外の検索エクスペリエンスです。

カタログ外検索 (OOC) は、カタログに直接一致しない検索クエリを入力した場合です。このイベントは、期間限定で複数のベンダーや制作会社から常にさまざまなコンテンツを購入している動画ストリーミングプラットフォームで頻繁に発生します。ストリーミング会社のカタログから映画や番組の大規模なナレッジベースへの関連性やマッピングが存在しないと、OOC コンテンツをクエリする顧客の検索エクスペリエンスが平均以下になり、プラットフォームとの対話時間が短縮される可能性があります。このマッピングは、頻繁な OOC クエリをカタログコンテンツに手動でマッピングするか、機械学習 (ML) を使用して自動化できます。

この投稿では、IMDb データセット (グローバルエンターテイメントメタデータの主要なソース) とナレッジグラフの力を利用して、OOC を処理する方法を説明します。

OpenSearch サービスは、インタラクティブなログ分析、リアルタイムのアプリケーション監視、Web サイト検索などを簡単に実行できるフルマネージドサービスです。 OpenSearch は、Elasticsearch から派生したオープンソースの分散検索および分析スイートです。 OpenSearch サービスは、OpenSearch の最新バージョン、Elasticsearch の 19 バージョン (1.5 から 7.10 バージョン) のサポート、および OpenSearch ダッシュボードと Kibana (1.5 から 7.10 バージョン) による可視化機能を提供します。 OpenSearch Service には現在、数万のアクティブな顧客がおり、数十万のクラスターが管理されており、毎月数兆のリクエストを処理しています。 OpenSearch Service は kNN 検索を提供します。これにより、製品の推奨、不正行為の検出、画像、動画、およびドキュメントとクエリの類似性などの特定のセマンティックシナリオなどのユースケースで検索を強化できます。 OpenSearch Service の自然言語理解を利用した検索機能の詳細については、次を参照してください。 Amazon SageMaker と Amazon OpenSearch Service KNN 機能を使用して、NLU を利用した検索アプリケーションを構築する.

ソリューションの概要

この投稿では、OpenSearch Service の k 最近傍 (kNN) 検索機能を使用したナレッジグラフベースの埋め込み検索により、OOC 状況を処理するソリューションを紹介します。このソリューションの実装に使用される主要な AWS サービスは、OpenSearch Service、SageMaker、Lambda、および Amazon S3 です。

チェックアウト第1部および第2部 Amazon Neptune ML を使用したナレッジグラフの作成と GNN 埋め込みの詳細については、このシリーズのをご覧ください。

私たちの OOC ソリューションは、ストリーミング会社の KG と IMDb KG を合併して得られた結合 KG があることを前提としています。これは、タイトルをタイトルの種類 (映画、シリーズ、ドキュメンタリー)、キャスト、スタッフと照合する単純なテキスト処理技術によって行うことができます。さらに、この共同ナレッジグラフは、で説明されているパイプラインを介してナレッジグラフの埋め込みを生成するようにトレーニングする必要があります。第1部および第2部. 次の図は、結合された KG の簡略図を示しています。

OOC 検索機能を簡単な例で説明するために、IMDb ナレッジグラフを顧客カタログと顧客カタログ外に分割します。「トイ・ストーリー」を含むタイトルをアウトオブカスタマーカタログリソースとしてマークし、残りの IMDb ナレッジグラフをカスタマーカタログとしてマークします。顧客カタログが拡張されていないか、外部データベースと結合されていないシナリオでは、「トイストーリー」を検索すると、メタデータに「おもちゃ」または「ストーリー」という単語が含まれるタイトルが OpenSearch テキスト検索で返されます。顧客カタログが IMDb にマッピングされている場合、「トイストーリー」というクエリがカタログに存在せず、IMDb での上位の一致が「トイストーリー」、「トイストーリー 2」、「トイストーリー」であることを簡単に収集できます。ストーリー 3」、「トイストーリー 4」、および「チャーリー: トイストーリー」は、テキストマッチとの関連性が高い順に並べられています。これらの一致ごとにカタログ内の結果を取得するために、OpenSearch Service を介して、顧客のカタログベースの kNN 埋め込み (共同 KG の) 類似性で最も近い XNUMX つの映画を生成できます。

一般的な OOC エクスペリエンスは、次の図に示すフローに従います。

次のビデオは、クエリ「トイストーリー」の OOC 結果の上位 XNUMX つ (ヒット数) と、顧客カタログ内の関連する一致 (推奨数) を示しています。

ここでは、OpenSearch Service のテキスト検索を使用して、クエリをナレッジグラフと照合します。次に、OpenSearch Service kNN インデックスを使用して、テキスト一致の埋め込みを顧客カタログタイトルにマッピングします。ユーザークエリをナレッジグラフエンティティに直接マッピングすることはできないため、XNUMX 段階のアプローチを使用して、最初にタイトルベースのクエリの類似性を見つけ、次にナレッジグラフの埋め込みを使用してタイトルに類似したアイテムを見つけます。以下のセクションでは、OpenSearch Service クラスターをセットアップし、ナレッジグラフインデックスを作成してアップロードし、ソリューションを Web アプリケーションとしてデプロイするプロセスについて説明します。

前提条件

このソリューションを実装するには、 AWSアカウント、OpenSearch Service、SageMaker、Lambda、および AWS CloudFormation、およびの手順を完了している第1部および第2部このシリーズの。

起動ソリューションリソース

次のアーキテクチャ図は、カタログ外のワークフローを示しています。

AWS Cloud Development Kit (CDK) を使用して、OOC 検索アプリケーションに必要なリソースをプロビジョニングします。これらのリソースを起動するコードは、次の操作を実行します。

リソースの VPC を作成します。
検索アプリケーション用の OpenSearch Service ドメインを作成します。
映画のメタデータと埋め込みを処理して OpenSearch Service インデックスに読み込む Lambda 関数を作成します (**-ReadFromOpenSearchLambda-**).
Web アプリからのユーザークエリを入力として受け取り、OpenSearch から関連するタイトルを返す Lambda 関数を作成します (**-LoadDataIntoOpenSearchLambda-**).
Web アプリのユーザーインターフェイスと Lambda の間に追加のセキュリティレイヤーを追加する API ゲートウェイを作成します。

開始するには、次の手順を実行します。

からコードとノートブックを実行します。第1部および第2部.
に移動します part3-out-of-catalog コードリポジトリのフォルダー。

コマンドを使用して、ターミナルから AWS CDK を起動します。 bash launch_stack.sh.
パート 3 で作成した 2 つの SXNUMX ファイルパスを入力として提供します。
1. ムービー埋め込み CSV ファイルへの S3 パス。
2. ムービーノードファイルへの S3 パス。

スクリプトが必要なすべてのリソースをプロビジョニングし、実行が完了するまで待ちます。
AWS CDK スクリプトが出力する API Gateway URL をコピーして保存します。 (これは後で Streamlit アプリに使用します)。

OpenSearch サービスドメインの作成

説明のために、安全な VPC とサブネット内の r6g.large.search インスタンスの XNUMX つのアベイラビリティーゾーンに検索ドメインを作成します。ベストプラクティスは、XNUMX つのプライマリインスタンスと XNUMX つのレプリカインスタンスを使用して XNUMX つのアベイラビリティーゾーンを設定することです。

OpenSearch Service インデックスを作成してデータをアップロードする

Lambda 関数 (AWS CDK 起動スタックコマンドを使用して作成) を使用して、OpenSearch Service インデックスを作成します。インデックスの作成を開始するには、次の手順を実行します。

Lambda コンソールで、 LoadDataIntoOpenSearchLambda ラムダ関数。
ソフトウェア設定ページで、下図のように ホイール試乗 タブを選択 ホイール試乗 データを作成して OpenSearch Service インデックスに取り込みます。

この Lambda 関数の次のコードは、次の場所にあります。 part3-out-of-catalog/cdk/ooc/lambdas/LoadDataIntoOpenSearchLambda/lambda_handler.py:

embedding_file = os.environ.get("embeddings_file")
movie_node_file = os.environ.get("movie_node_file")
print("Merging files")
merged_df = merge_data(embedding_file, movie_node_file)
print("Embeddings and metadata files merged") print("Initializing OpenSearch client")
ops = initialize_ops()
indices = ops.indices.get_alias().keys()
print("Current indices are :", indices) # This will take 5 minutes
print("Creating knn index")
# Create the index using knn settings. Creating OOC text is not needed
create_index('ooc_knn',ops)
print("knn index created!") print("Uploading the data for knn index")
response = ingest_data_into_ops(merged_df, ops, ops_index='ooc_knn', post_method=post_request_emb)
print(response)
print("Upload complete for knn index") print("Uploading the data for fuzzy word search index")
response = ingest_data_into_ops(merged_df, ops, ops_index='ooc_text', post_method=post_request)
print("Upload complete for fuzzy word search index")
# Create the response and add some extra content to support CORS
response = { "statusCode": 200, "headers": { "Access-Control-Allow-Origin": '*' }, "isBase64Encoded": False
}

この関数は、次のタスクを実行します。

スタック作成ファイルに渡された S3 ファイルパスから、ムービーメタデータとそれに関連付けられた埋め込みを含む IMDB KG ムービーノードファイルをロードします。 launch_stack.sh.
XNUMX つの入力ファイルをマージして、インデックス作成用の XNUMX つのデータフレームを作成します。
Boto3 Python ライブラリを使用して OpenSearch Service クライアントを初期化します。
テキストの XNUMX つのインデックスを作成します (ooc_text) および kNN 埋め込み検索 (ooc_knn) を介して結合されたデータフレームからデータを一括アップロードします。 ingest_data_into_ops 機能。

このデータ取り込みプロセスには 5 ～ 10 分かかり、アマゾンクラウドウォッチにログオンします監視 Lambda 関数のタブ。

XNUMX つのインデックスを作成して、テキストベースの検索と kNN 埋め込みベースの検索を有効にします。テキスト検索は、ユーザーが入力する自由形式のクエリを映画のタイトルにマップします。 kNN 埋め込み検索は、KG 潜在空間から最適なテキストマッチに最も近い k 個のムービーを見つけて、出力として返します。

ソリューションをローカル Web アプリケーションとしてデプロイする

OpenSearch Service でテキスト検索と kNN インデックスが機能するようになったので、ML を利用した Web アプリを作成する準備が整いました。

私たちは、使用 streamlit このアプリケーションのフロントエンドのイラストを作成するための Python パッケージ。の IMDb-Knowledge-Graph-Blog/part3-out-of-catalog/run_imdb_demo.py 私たちのPythonファイル GitHubレポには、ローカル Web アプリを起動してこの機能を調べるために必要なコードがあります。

コードを実行するには、次の手順を実行します。

インストール streamlit および aws_requests_auth ターミナルで次のコマンドを使用して、ローカル仮想 Python 環境の Python パッケージ:

pip install streamlit pip install aws-requests-auth

次のように、コード内の API Gateway URL のプレースホルダーを、AWS CDK によって作成されたものに置き換えます。

api = '<ENTER URL OF THE API GATEWAY HERE>/opensearch-lambda?q={query_text}&numMovies={num_movies}&numRecs={num_recs}'

コマンドで Web アプリを起動します streamlit run run_imdb_demo.py ターミナルから。

このスクリプトは、Web ブラウザーでアクセスできる Streamlit Web アプリを起動します。次のスクリーンショットに示すように、Web アプリの URL はスクリプト出力から取得できます。

アプリは、新しい検索文字列、ヒット数、推奨数を受け入れます。ヒット数は、外部 (IMDb) カタログから取得する一致する OOC タイトルの数に対応します。推奨の数は、kNN 埋め込み検索に基づいて顧客カタログから取得する最近傍の数に対応します。次のコードを参照してください。

search_text=st.sidebar.text_input("Please enter search text to find movies and recommendations")
num_movies= st.sidebar.slider('Number of search hits', min_value=0, max_value=5, value=1)
recs_per_movie= st.sidebar.slider('Number of recommendations per hit', min_value=0, max_value=10, value=5)
if st.sidebar.button('Find'): resp= get_movies()

この入力 (クエリ、ヒット数、推奨事項) は、 **-ReadFromOpenSearchLambda-** API Gateway リクエストを通じて AWS CDK によって作成された Lambda 関数。これは、次の関数で行われます。

def get_movies(): result = requests.get(api.format(query_text=search_text, num_movies=num_movies, num_recs=recs_per_movie)).json()

OpenSearch Service からの Lambda 関数の出力結果は API Gateway に渡され、Streamlit アプリに表示されます。

クリーンアップ

コマンドを使用して、AWS CDK によって作成されたすべてのリソースを削除できます。 npx cdk destroy –app “python3 appy.py” --all 同じインスタンスで ( cdk フォルダー) はスタックの起動に使用されました (次のスクリーンショットを参照)。

まとめ

この投稿では、テキストを使用した OOC 検索と、SageMaker と OpenSearch Service を使用した kNN ベースの検索のソリューションを作成する方法を紹介しました。カスタムナレッジグラフモデルの埋め込みを使用して、カタログ内で IMDb タイトルのカタログに最も近いものを見つけました。たとえば、Amazon Prime Video が開発したファンタジーシリーズ「The Rings of Power」を他のストリーミングプラットフォームで検索し、検索結果を最適化する方法を推論できるようになりました。

この投稿のコードサンプルの詳細については、 GitHubレポ. Amazon ML Solutions Lab と協力して同様の最先端の ML アプリケーションを構築する方法の詳細については、以下を参照してください。 Amazon 機械学習ソリューションラボ. IMDb データセットのライセンスの詳細については、次の Web サイトをご覧ください。 development.imdb.com.

著者について

ディヴィヤ・バルガヴィ Amazon ML Solutions Lab のデータサイエンティストであり、メディアとエンターテイメントの垂直リーダーであり、機械学習を使用して AWS のお客様の価値の高いビジネス上の問題を解決しています。彼女は、画像/ビデオの理解、ナレッジグラフ推奨システム、予測広告のユースケースに取り組んでいます。

ガウラヴ・レレ はAmazonML Solution Labのデータサイエンティストであり、さまざまな業種のAWSのお客様と協力して、機械学習とAWSクラウドサービスの使用を加速し、ビジネス上の課題を解決しています。

マシューローズ 私は Amazon ML Solutions Lab で働いているデータサイエンティストです。彼は、自然言語処理やコンピュータービジョンなどの概念を含む機械学習パイプラインの構築を専門としています。

カランシンドワニ Amazon ML Solutions Lab のデータサイエンティストであり、深層学習モデルの構築とデプロイを行っています。彼はコンピュータビジョンの分野を専門としています。余暇には、ハイキングを楽しんでいます。

アデシナ宗司 AWS の応用科学者であり、グラフタスクで機械学習を行うためのグラフニューラルネットワークベースのモデルを開発し、詐欺や悪用、ナレッジグラフ、レコメンダーシステム、ライフサイエンスへの応用を行っています。余暇には、読書と料理を楽しんでいます。

ヴィディヤ・サーガル・ラヴィパティ Amazon ML Solutions Lab のマネージャーであり、大規模な分散システムでの豊富な経験と機械学習への情熱を活用して、さまざまな業種の AWS のお客様が AI とクラウドの採用を加速できるよう支援しています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/power-recommendations-and-search-using-an-imdb-knowledge-graph-part-3/

タイムスタンプ： 2023 年 1 月 6 日

タイムスタンプ： 2022 年 2 月 7 日

IMDb ナレッジグラフを使用した電力の推奨事項と検索 – パート 3

プラトン再発行

経歴

ソリューションの概要

前提条件

起動ソリューションリソース

OpenSearch サービスドメインの作成

OpenSearch Service インデックスを作成してデータをアップロードする

ソリューションをローカル Web アプリケーションとしてデプロイする

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

Amazon Kendra の新しい Web クローラーを使用して、Web クロールされたコンテンツにインデックスを付けます | アマゾンウェブサービス

Amazon SageMaker を使用してカスタムアンサンブルを効率的にトレーニング、調整、デプロイする | アマゾンウェブサービス

Amazon SageMaker、HashiCorp Terraform、GitLab CI/CD を使用したモデルのモニタリングと再トレーニングによるバッチ推論のための MLOps | アマゾンウェブサービス

IMDb ナレッジグラフを使用した電力の推奨事項と検索 – パート 2

Amazon Bedrock を使用して、AWS Landing Zone 用にカスタマイズされた準拠アプリケーション IaC スクリプトを生成する |アマゾンウェブサービス

HuggingFaceとAmazonSageMakerの非同期推論エンドポイントで価値の高い研究を改善する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

経歴

ソリューションの概要

前提条件

起動ソリューション リソース

OpenSearch サービス ドメインの作成

OpenSearch Service インデックスを作成してデータをアップロードする

ソリューションをローカル Web アプリケーションとしてデプロイする

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

起動ソリューションリソース

OpenSearch サービスドメインの作成