Amazon Rekognition、Amazon SageMaker Foundation モデル、Amazon OpenSearch Service を使用した記事のセマンティック画像検索

プラトン再発行

フォロワー： 0

デジタルパブリッシャーは、可能な限り迅速に新しいコンテンツを生成して公開するために、メディアワークフローを合理化および自動化する方法を常に模索しています。

出版社は何百万もの画像を含むリポジトリを持つことができますが、コストを節約するには、記事全体でこれらの画像を再利用できる必要があります。この規模のリポジトリで記事に最も一致する画像を見つけるのは、時間のかかる繰り返しの手動タスクになる可能性がありますが、自動化できます。また、リポジトリ内の画像が正しくタグ付けされていることにも依存しますが、これは自動化することもできます (お客様の成功事例については、「 Aller Media は KeyCore と AWS で成功を収める).

この投稿では、使用方法を示します Amazonの再認識, Amazon SageMaker ジャンプスタート, AmazonOpenSearchサービスこのビジネス上の問題を解決するために。 Amazon Rekognition を使用すると、機械学習 (ML) の専門知識がなくても画像分析機能をアプリケーションに簡単に追加でき、オブジェクト検出、コンテンツモデレーション、顔検出と分析、テキストと有名人の認識などのユースケースを実現するさまざまな API が付属しています。この例ではを使用します。 SageMaker JumpStart は、事前に構築されたソリューション、サンプルノートブック、公的に入手可能なソースからの多くの最先端の事前トレーニング済みモデルを備えたローコードサービスで、ワンクリックで AWS アカウントに簡単にデプロイできます。。これらのモデルは、次の方法で安全かつ簡単に導入できるようにパッケージ化されています。アマゾンセージメーカー API。新しい SageMaker JumpStart Foundation Hub を使用すると、大規模言語モデル (LLM) を簡単にデプロイし、アプリケーションと統合できます。 OpenSearch Service は、OpenSearch の展開、拡張、運用を簡単にするフルマネージドサービスです。 OpenSearch サービスを使用すると、ベクトルやその他のデータ型をインデックスに保存でき、ベクトルを使用してドキュメントを検索したり、この投稿で使用する意味的な関連性を測定したりできる豊富な機能が提供されます。

この投稿の最終目標は、記事やテレビの概要など、何らかのテキストに意味的に類似した一連の画像を表示する方法を示すことです。

次のスクリーンショットは、キーワードを使用するのではなくミニ記事を検索入力として使用し、意味的に類似した画像を表示できる例を示しています。

ソリューションの概要

このソリューションは XNUMX つの主要なセクションに分かれています。まず、Amazon Rekognition を使用して、画像からラベルと有名人のメタデータを抽出します。次に、LLM を使用してメタデータの埋め込みを生成します。有名人の名前とメタデータの埋め込みを OpenSearch Service に保存します。 XNUMX 番目のメインセクションには、OpenSearch のインテリジェントな検索機能を使用して、OpenSearch Service インデックスに画像のクエリを実行し、テキストに意味的に類似した画像を見つけるための API があります。

このソリューションはイベント駆動型サービスを使用しますアマゾンイベントブリッジ, AWSステップ関数, AWSラムダ Amazon Rekognition を使用して画像からメタデータを抽出するプロセスを調整します。 Amazon Rekognition は XNUMX つの API 呼び出しを実行して、画像からラベルと既知の有名人を抽出します。

Amazon Rekognition 有名人検出 API、応答で多数の要素を返します。この投稿では、次のものを使用します。

名前、ID、および URL – 有名人の名前、一意の Amazon Rekognition ID、および有名人の IMDb や Wikipedia リンクなどの URL のリストで、詳細情報を入手できます。
マッチコンフィデンス – API の動作を制御するために使用できる一致信頼スコア。アプリケーションでこのスコアに適切なしきい値を適用して、好みの動作点を選択することをお勧めします。たとえば、しきい値を 99% に設定すると、より多くの誤検知を排除できますが、一部の潜在的な一致を見逃す可能性があります。

XNUMX 番目の API 呼び出しでは、 Amazon Rekognition ラベル検出 API、応答で多数の要素を返します。次のものを使用します。

名前 – 検出されたラベルの名前
確実性 – 検出されたオブジェクトに割り当てられたラベルの信頼レベル

セマンティック検索の重要な概念は埋め込みです。単語の埋め込みは、単語または単語のグループをベクトル形式で数値表現したものです。多数のベクトルがある場合、それらの間の距離を測定でき、距離が近いベクトルは意味的に類似しています。したがって、すべての画像のメタデータの埋め込みを生成してから、同じモデルを使用して、記事やテレビの概要などのテキストの埋め込みを生成すると、意味的に類似した画像を見つけることができます。与えられたテキスト。

SageMaker JumpStart 内には、埋め込みを生成するために利用できるモデルが多数あります。このソリューションでは、GPT-J 6B Embedding を使用します。ハグ顔。高品質の埋め込みを生成し、Hugging Face によると最高のパフォーマンス指標の XNUMX つを備えています。評価結果. アマゾンの岩盤これはまだプレビュー段階の別のオプションで、Amazon Titan Text Embeddings モデルを選択して埋め込みを生成できます。

SageMaker JumpStart の GPT-J 事前トレーニング済みモデルを使用して、画像メタデータの埋め込みを作成し、これを k-NN ベクトル OpenSearch サービスのインデックスに登録され、別のフィールドに有名人の名前が表示されます。

解決策の 10 番目の部分は、記事やテレビのあらすじなど、テキストに意味的に似ている上位 XNUMX 個の画像をユーザーに返します。有名人がいる場合はその画像も含まれます。記事に付随する画像を選択するときは、その画像が記事の関連ポイントと共鳴するようにする必要があります。 SageMaker JumpStart は、長いテキスト本文を元のテキストから要点に減らすことができる多くの要約モデルをホストします。要約モデルには、 AI21ラボモデルをまとめます。このモデルは、ニュース記事の高品質な要約を提供し、ソーステキストには約 10,000 語を含めることができるため、ユーザーは記事全体を一度に要約することができます。

テキストに名前、潜在的に知られている有名人が含まれているかどうかを検出するには、次を使用します。 Amazon Comprehend 抽出できるのは主要なエンティティテキスト文字列から。次に、入力検索パラメーターとして使用する Person エンティティでフィルター処理します。

次に、要約された記事を取得し、別の入力検索パラメーターとして使用する埋め込みを生成します。画像の場合と同じように、同じインフラストラクチャにデプロイされた同じモデルを使用して記事の埋め込みを生成することに注意することが重要です。次に使用しますスコアリングスクリプトを使用した正確な k-NN これにより、有名人の名前と記事の意味情報をキャプチャしたベクトルという XNUMX つのフィールドで検索できるようになります。この投稿を参照してください、 Amazon OpenSearch Service のベクトルデータベース機能の説明、Score スクリプトのスケーラビリティと、大規模なインデックスに対するこのアプローチがどのように高いレイテンシを引き起こす可能性があるかについて説明します。

チュートリアル

次の図は、ソリューションのアーキテクチャを示しています。

番号付きラベルに続いて、次のようにします。

画像をアップロードすると、 アマゾンS3 バケット
アマゾンイベントブリッジ このイベントをリッスンして、 AWSステップ関数 実行
Step Function は画像入力を受け取り、ラベルと有名人のメタデータを抽出します。
　 AWSラムダ 関数は画像メタデータを取得し、埋め込みを生成します
　 ラムダ 次に、関数は有名人の名前 (存在する場合) と埋め込みを k-NN ベクトルとして OpenSearch サービスのインデックスに挿入します。
アマゾンS3 によって提供される単純な静的 Web サイトをホストします。 アマゾンCloudFrontの 分布。フロントエンドユーザーインターフェイス (UI) を使用すると、アプリケーションで認証を行うことができます。 アマゾンコグニート 画像を検索するには
UI 経由で記事またはテキストを送信します。
別の ラムダ 関数呼び出し Amazon Comprehend テキスト内の名前を検出するには
次に、この関数はテキストを要約して、記事から関連するポイントを取得します。
この関数は要約記事の埋め込みを生成します
次に、関数は検索します OpenSearch サービス 有名人の名前に一致する画像の画像インデックスと、コサイン類似度を使用したベクトルの k 最近傍
アマゾンクラウドウォッチ および AWS X 線 エンドツーエンドのワークフローを監視できるようになり、問題があれば警告します。

主要な画像メタデータを抽出して保存する

Amazon Rekognition DetectLabels および RecognizeCelebrities API は、画像からメタデータ、つまり埋め込みを生成するための文を形成するために使用できるテキストラベルを提供します。この記事では、埋め込みを生成するために使用できるテキスト入力を提供します。

単語埋め込みを生成して保存する

次の図は、画像のベクトルを 2 次元空間にプロットする方法を示しています。ここでは、視覚的にわかりやすくするために、埋め込みを主なカテゴリごとに分類しています。

また、この新しく書かれた記事の埋め込みも生成して、OpenSearch サービスでこのベクトル空間内の記事に最も近い画像を検索できるようにします。 k 最近傍 (k-NN) アルゴリズムを使用して、結果で返す画像の数を定義します。

上の図を拡大すると、ベクトルは記事からの距離に基づいてランク付けされ、K に最も近い画像が返されます。この例では K は 10 です。

OpenSearch サービスは、大きなベクトルをインデックスに格納する機能を提供します。また、k-NN を使用してインデックスに対してクエリを実行する機能も提供します。これにより、ベクトルを使用してクエリを実行し、近い距離にベクトルを持つ k に最も近いドキュメントを返すことができます。さまざまな測定を使用して。この例では、コサイン類似性.

記事内の名前を検出する

AI 自然言語処理 (NLP) サービスである Amazon Comprehend を使用して、記事から主要なエンティティを抽出します。この例では、Amazon Comprehend を使用してエンティティを抽出し、エンティティ person でフィルタリングします。これにより、Amazon Comprehend がジャーナリストの記事内で見つけられる名前が返されます。わずか数行のコードです。

def get_celebrities(payload): response = comprehend_client.detect_entities( Text=' '.join(payload["text_inputs"]), LanguageCode="en", ) celebrities = "" for entity in response["Entities"]: if entity["Type"] == "PERSON": celebrities += entity["Text"] + " " return celebrities

この例では、画像をアップロードします Amazon シンプルストレージサービス (Amazon S3)、ラベルや有名人などのメタデータを画像から抽出するワークフローをトリガーします。次に、抽出されたメタデータを埋め込みに変換し、このデータすべてを OpenSearch サービスに保存します。

記事を要約して埋め込みを生成する

記事の要約は、単語の埋め込みが記事の関連ポイントを確実に捉え、記事のテーマに共鳴する画像を返すための重要なステップです。

AI21 Labs Summarize モデルは、プロンプトなしで数行のコードを記述するだけで非常に簡単に使用できます。

def summarise_article(payload): sagemaker_endpoint_summarise = os.environ["SAGEMAKER_ENDPOINT_SUMMARIZE"] response = ai21.Summarize.execute( source=payload, sourceType="TEXT", destination=ai21.SageMakerDestination(sagemaker_endpoint_summarise) ) response_summary = response.summary return response_summary

次に、GPT-J モデルを使用して埋め込みを生成します。

def get_vector(payload_summary): sagemaker_endpoint = os.environ["SAGEMAKER_ENDPOINT_VECTOR"] response = sm_runtime_client.invoke_endpoint( EndpointName=sagemaker_endpoint, ContentType="application/json", Body=json.dumps(payload_summary).encode("utf-8"), ) response_body = json.loads((response["Body"].read())) return response_body["embedding"][0]

次に、OpenSearch Service で画像を検索します。

以下はそのクエリのスニペットの例です。

def search_document_celeb_context(person_names, vector): results = wr.opensearch.search( client=os_client, index="images", search_body={ "size": 10, "query": { "script_score": { "query": { "match": {"celebrities": person_names } }, "script": { "lang": "knn", "source": "knn_score", "params": { "field": "image_vector", "query_value": vector, "space_type": "cosinesimil" } } } } }, ) return results.drop(columns=["image_vector"]).to_dict()

このアーキテクチャには、コンテンツ管理システム (CMS) を表す単純な Web アプリが含まれています。

記事の例では、次の入力を使用しました。

「ヴェルナー・フォーゲルスは、トヨタで世界中を旅するのが大好きでした。私たちは、彼が運転して地元のさまざまな顧客に会いに行くときに、彼のトヨタが多くのシーンで登場するのを目にします。」

どの画像にも「トヨタ」という単語のメタデータはありませんが、「トヨタ」という単語の意味は車や運転と同義です。したがって、この例では、キーワード検索を超えて、意味的に類似した画像を返す方法を実証できます。上の UI のスクリーンショットでは、画像の下のキャプションに Amazon Rekognition が抽出したメタデータが示されています。

このソリューションをより大きなワークフローここでは、画像から既に抽出したメタデータを使用して、有名人の名前などの他のキーワードとともにベクトル検索を開始し、検索クエリに対して最も共感を呼ぶ画像とドキュメントを返します。

まとめ

この投稿では、Amazon Rekognition、Amazon Comprehend、SageMaker、OpenSearch Service を使用して画像からメタデータを抽出し、ML 技術を使用して有名人検索とセマンティック検索を使用して画像を自動的に検出する方法を説明しました。これは、新鮮なコンテンツを迅速に複数のプラットフォームに配信するためにスピードが重要となる出版業界では特に重要です。

メディアアセットの操作の詳細については、次を参照してください。 Media2Cloud 3.0 でメディアインテリジェンスがさらにスマートに.

著者について

マークワトキンス は、メディアおよびエンターテイメントチームのソリューションアーキテクトとして、顧客が多くのデータと ML の問題を解決できるようサポートしています。プロとしての生活から離れて、彼は家族と時間を過ごし、XNUMX 人の幼い子供の成長を見るのが大好きです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。自動車/EV、カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
チャートプライム。 ChartPrime でトレーディングゲームをレベルアップしましょう。こちらからアクセスしてください。
ブロックオフセット。環境オフセット所有権の近代化。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/semantic-image-search-for-articles-using-amazon-rekognition-amazon-sagemaker-foundation-models-and-amazon-opensearch-service/

タイムスタンプ： 2023 年 9 月 8 日

タイムスタンプ： 2023 年 12 月 18 日

プラトン再発行

AWS を使用する Amazon サードパーティ販売者向けの AI/ML 主導の実用的な洞察とテーマ

Amazon SageMaker と Amazon Augmented AI を使用して衛星画像のコンピュータビジョンで災害対応を加速する

Amazon Bedrock、Amazon DynamoDB、Amazon Kendra、Amazon Lex、LangChain を使用して生成 AI エージェントを構築する |アマゾンウェブサービス

NLP および CV PyTorch モデル用の Amazon EC2 G5 インスタンスを使用して、推論あたりのコストを XNUMX 分の XNUMX に抑えて XNUMX 倍の ML 推論スループットを実現

NFL の Next Gen Stats でディフェンスカバレッジスキームを特定する

Amazon SageMaker Canvas を使用して ML モデルのトレーニングを高速化することで、短期間で価値を生み出すビジネス成果を達成する

MongoDB 時系列コレクションと Amazon SageMaker Canvas で洞察までの時間を短縮 |アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー