Amazon Titan を使用してセマンティック画像検索を簡単に構築する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

デジタルパブリッシャーは、メディアワークフローを合理化および自動化し、品質を損なうことなく、新しいコンテンツをできるだけ早く生成して公開する方法を継続的に模索しています。

画像を追加してテキストの本質を捉えると、読書体験が向上します。機械学習技術は、そのような画像を発見するのに役立ちます。「印象的な画像は、視聴者の注意を引き、ストーリーへの関心を生み出す最も効果的な方法の XNUMX つですが、それは意味のあるものでもなければなりませんに設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」

　以前の投稿 Amazon 機械学習 (ML) サービスを使用して、キーワードを入力せずに、記事やテレビの概要に沿って配置する最適な画像を見つける方法について説明しました。前回の投稿では、 Amazonの再認識画像からメタデータを抽出します。次に、テキスト埋め込みモデルを使用して、後で最適な画像を見つけるために使用できるメタデータの単語埋め込みを生成しました。

この投稿では、Amazon Titan 基礎モデルを使用して記事をすばやく理解し、それに付随する最適な画像を見つける方法を説明します。今回は、画像から直接埋め込みを生成します。

セマンティック検索の重要な概念は埋め込みです。埋め込みとは、何らかの入力 (画像、テキスト、またはその両方) をベクトルの形式で数値表現したものです。多数のベクトルがある場合、それらの間の距離を測定でき、距離が近いベクトルは意味的に類似しているか関連しています。

アマゾンの岩盤は、AI21 Labs、Anthropic、Cohere、Meta、Stability AI、Amazon などの大手 AI 企業の高性能基盤モデル (FM) を XNUMX つの API で選択できるフルマネージドサービスであり、幅広い機能セットを提供します。生成 AI アプリケーションの構築を支援し、プライバシーとセキュリティを維持しながら開発を簡素化します。

アマゾンタイタンは最近、新しい埋め込みモデル、Titan Multimodal Embeddings をコレクションに追加しました。この新しいモデルは、マルチモーダル検索、推奨システム、その他の下流アプリケーションに使用できます。

マルチモーダルモデルは、テキスト、画像、ビデオ、オーディオなどの複数のモダリティのデータを理解して分析できます。この最新の Amazon Titan モデルは、テキスト、画像、またはその両方を受け入れることができます。これは、同じモデルを使用して画像とテキストの埋め込みを生成し、それらの埋め込みを使用して 2 つがどの程度類似しているかを計算することを意味します。

ソリューションの概要

次のスクリーンショットでは、ミニ記事を取得し、検索を実行し、記事に共感する画像を見つける方法を示しています。この例では、インドを旅行中に白いスカーフを着用したヴェルナーフォーゲルスを説明する文を取り上げます。この文のベクトルは、スカーフを巻いたヴェルナーの画像のベクトルに意味的に関連しているため、この検索のトップ画像として返されます。

大まかに言うと、画像は次の場所にアップロードされます。 Amazon Simple Storage Service（Amazon S3）画像の埋め込みを含むメタデータが抽出されます。

画像からテキストのメタデータを抽出するには、有名人認識機能とラベル検出機能 in Amazonの再認識。 Amazon Rekognition は、ML を使用して、画像やビデオ内の何万もの有名な人物を自動的に認識します。この機能を使用して、画像内の有名人を認識し、このメタデータを次の場所に保存します。 AmazonOpenSearchサービス。ラベル検出は、画像の下にラベルメタデータがある前述のスクリーンショットなど、画像からオブジェクトと概念を検出します。

Titan Multimodal Embeddings モデルを使用して、検索可能なメタデータでもある画像の埋め込みを生成します。

すべてのメタデータは次の場所に保存されます。 OpenSearch サービス後で画像を検索する必要がある場合の検索クエリに使用します。

アーキテクチャの XNUMX 番目の部分は、これらの新しく取り込まれた画像を見つけるために記事を送信することです。

記事が送信されたら、記事を抽出して OpenSearch サービスの検索入力に変換する必要があります。あなたが使う Amazon Comprehend テキスト内の潜在的な有名人である可能性のある名前を検出します。記事の本質を捉えるために画像を XNUMX つまたは XNUMX つだけ選択する可能性が高いため、記事を要約します。テキストの要約を生成することは、埋め込みがストーリーの関連ポイントを確実に捉えていることを確認するための良い方法です。このためには、 Amazon Titan Text G1 – Express モデルに「次のテキストの概要を入力してください。」などのプロンプトが表示されます。以下の本文に記載されていない情報は追加しないでください。」要約記事では、Amazon Titan マルチモーダル埋め込みモデルを使用して、要約記事の埋め込みを生成します。埋め込みモデルには最大トークン入力数もあるため、埋め込みでできるだけ多くの情報を取得できるようにするには、記事を要約することがさらに重要です。簡単に言えば、トークンは単一の単語、サブワード、または文字です。

次に、名前と記事の埋め込みを使用して OpenSearch サービスに対して検索を実行し、指定された有名人の存在に意味的に類似する画像を取得します (存在する場合)。

ユーザーは、記事を入力として使用して画像を検索しているだけです。

チュートリアル

次の図は、このユースケースを実現するためのアーキテクチャを示しています。

次の手順では、セマンティック画像と有名人の検索を可能にする一連のアクション (図に示されている) について説明します。

画像をアップロードすると、 アマゾンS3 バケツ。
アマゾンイベントブリッジこのイベントをリッスンし、AWS Step Functions ステップを開始します。
Step Functions ステップは、 アマゾンS3 画像の詳細を確認し、XNUMX つの並行アクションを実行します。
1. API 呼び出し Amazonの再認識 検出ラベルオブジェクトのメタデータを抽出するには
2. API 呼び出し Amazonの再認識 認識有名人既知の有名人を抽出するための API
3. A AWSラムダ関数は、ML 埋め込みモデルで許容される最大寸法に画像のサイズを変更し、画像入力から直接埋め込みを生成します。
　 ラムダ 次に、この関数は、画像オブジェクトのメタデータと有名人名 (存在する場合) を挿入し、k-NN ベクトルとして埋め込みを OpenSearch Service インデックスに挿入します。
アマゾンS3 によって配布される単純な静的 Web サイトをホストします。アマゾンCloudFrontの。フロントエンドユーザーインターフェイス (UI) を使用すると、アプリケーションで認証を行うことができます。アマゾンコグニート画像を検索します。
UI を使用して記事またはテキストを送信します。
別の ラムダ 関数呼び出し Amazon Comprehend テキスト内の名前を潜在的な有名人として検出します。
次に、この関数は Titan Text G1 – Express を使用してテキストを要約し、記事から関連するポイントを取得します。
この関数は、Amazon Titan マルチモーダル埋め込みモデルを使用して、要約記事の埋め込みを生成します。
次に、関数は OpenSearch サービス 有名人の名前と一致する画像の画像インデックス k最近傍ベクトルの場合は、コサイン類似性スコアリングスクリプトを使用した正確な k-NN.
アマゾンクラウドウォッチおよび AWS X 線エンドツーエンドのワークフローを監視して、問題があれば警告します。

次の図は、Step Functions ワークフローのビジュアルワークフローデザイナーを示しています。

埋め込みの例を次に示します。

{"Embedding_Results": [-0.40342346, 0.073382884, 0.22957325, -0.014249567, 0.042733602, -0.102064356, 0.21086141, -0.4672587, 0.17779616, 0.08438544, -0.58220416, -0.010788828, -0.28306714, 0.4242958, -0.01655291,....

前述の数値の配列は、計算や関数を実行できる形式でテキストまたは画像オブジェクトから意味を取得するものです。

埋め込みは数百次元から数千次元までの高次元性を持っています。このモデルの次元は 1,024 です。つまり、前述の配列には、指定されたオブジェクトのセマンティクスをキャプチャする 1,024 個の要素が含まれます。

マルチモーダル埋め込みとテキスト埋め込み

セマンティック画像検索を提供する際の XNUMX つのオプションについて説明します。主な違いは、画像の埋め込みを生成する方法です。私たちの中で以前の投稿では、Amazon Rekognition を使用して抽出されたテキストのメタデータから埋め込みを生成します。この投稿では、Titan マルチモーダルエンベディングモデルを使用し、画像の埋め込みを直接生成できます。

簡単なテストを実行し、XNUMX つのアプローチに対して UI でクエリを実行すると、結果が著しく異なることがわかります。クエリ記事の例は、「ヴェルナーフォーゲルスはインドを旅行するときに白いスカーフを着るのが大好きです。」です。

マルチモーダルモデルの結果では、スカーフが存在する画像のスコアが高くなります。言葉 スカーフ 送信された記事にが存在し、埋め込みがそれを認識しました。

UI では、Amazon Rekognition によって抽出されたメタデータが表示されます。メタデータにはスカーフという単語が含まれていないため、画像から一部の情報が欠落しています。画像埋め込みモデルには欠落していると想定でき、したがってマルチモーダルモデルは欠落していると考えられます。ユースケースによっては利点があるかもしれません。 Amazon Rekognition を使用すると、埋め込みを作成する前に画像内で検出されたオブジェクトをフィルタリングできるため、目的の結果に応じてより適切に機能する可能性のある他の適用可能なユースケースが得られます。

次の図は、Amazon Titan マルチモーダル埋め込みモデルの結果を示しています。

次の図は、Amazon Rekognition で抽出されたメタデータを使用して埋め込みを生成した、Amazon Titan テキスト埋め込みモデルの結果を示しています。

前提条件

このウォークスルーでは、次の前提条件が必要です。

An AWSアカウント
AWS サーバーレスアプリケーションモデルコマンドラインインターフェイス (AWS SAM CLI))
- このソリューションは、デプロイメントに AWS SAM CLI を使用します。
- 最新バージョンの AWS SAM CLI を使用していることを確認してください.
デッカー
- このソリューションでは、AWS SAM CLI オプションを使用してコンテナ内に構築し、ローカル依存関係の必要性を回避します。これには Docker が必要です。
Node
- このソリューションのフロントエンドは、Node.js を使用してローカルで実行できる React Web アプリケーションです。
npm
- Web アプリケーションをローカルで実行するか、リモート展開用にビルドするために必要なパッケージのインストールには、npm が必要です。

フルスタックアプリケーションを構築してデプロイする

リポジトリをクローンする

git clone https://github.com/aws-samples/semantic-image-search-for-articles.git

新しく複製されたプロジェクトにディレクトリを変更します。
```
cd semantic-image-search-for-articles
```
npm install を実行して、アプリケーションの実行に必要なすべてのパッケージをダウンロードします。
```
npm install
```
一連のスクリプトを順番に実行するデプロイスクリプトを実行します。 サムビルド, サムデプロイ、設定ファイルを更新し、Amazon CloudFront を通じて提供できるように Amazon S3 でウェブアプリケーションファイルをホストします。
```
npm run deploy
```
スクリプトからの最終出力の XNUMX つは Amazon CloudFront URL であり、これがアプリケーションへのアクセス方法です。 AWS マネジメントコンソールでサインインに使用する新しいユーザーを作成する必要があります。後で使用するために URL をメモしておきます。

次のスクリーンショットは、スクリプトが AWS SAM を使用してスタックをデプロイし、アプリケーションへのアクセスに使用できる Amazon CloudFront URL を出力した様子を示しています。

アプリケーションにサインインするための新しいユーザーを作成します

に行きます アマゾンコグニート コンソールを開き、新しいものを選択します ユーザープール.
新しいパスワードで新しいユーザーを作成します。

Web アプリケーションにサインインしてテストする

見つける アマゾンCloudFrontの サインインページにアクセスするための URL。前のスクリーンショットに示すように、これは最終行に出力されます。
新しいユーザー名とパスワードの組み合わせを入力してサインインします。
UI を使用してサンプル画像をアップロードします。
1. 選択する ファイルを選ぶ それから、 アップロード.
  注：ファイルを /アップロード フォルダにコピーします。
2. 記事を書くかコピー＆ペーストして選択します送信画像が期待どおりの順序で返されるかどうかを確認します。

清掃

今後料金が発生しないようにするには、リソースを削除してください。

このソリューションでデプロイされた S3 バケットを見つけて、バケットを空にします。
CloudFormation コンソールに移動し、前述のデプロイスクリプトを通じてデプロイしたスタックを選択し、スタックを削除します。

まとめ

この投稿では、Amazon Rekognition、Amazon Comprehend、Amazon Bedrock、OpenSearch Service を使用して画像からメタデータを抽出し、ML 技術を使用して有名人検索とセマンティック検索を使用して密接に関連するコンテンツを自動的に検出する方法を説明しました。これは、新鮮なコンテンツを迅速に複数のプラットフォームに配信するためにスピードが重要となる出版業界では特に重要です。

次のステップとして、AWS アカウントにソリューションをデプロイし、セマンティック検索がどのように機能するかをテストするために独自のイメージをいくつかアップロードします。以下のコメント欄でフィードバックをお聞かせください。

著者について

マークワトキンス は、メディアおよびエンターテイメントチームのソリューションアーキテクトとして、顧客が多くのデータと ML の問題を解決できるようサポートしています。プロとしての生活から離れて、彼は家族と時間を過ごし、XNUMX 人の幼い子供の成長を見るのが大好きです。

ダン・ジョンズ は、ソリューションアーキテクトエンジニアであり、顧客が AWS 上に構築し、ビジネス要件を満たせるようにサポートしています。仕事から離れて、彼は読書、家族との時間を過ごすこと、そして家庭内のタスクを自動化することが大好きです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/easily-build-semantic-image-search-using-amazon-titan/

タイムスタンプ： 2023 年 11 月 30 日

タイムスタンプ： 2023 年 12 月 22 日

プラトン再発行

DeepSpeed で PyTorch を高速化し、Intel Habana Gaudi ベースの DL1 EC2 インスタンスで大規模な言語モデルをトレーニングする | アマゾンウェブサービス

AWS IoT GreengrassV2を使用したAmazonSageMaker EdgeManagerによる異常検出

Exafunction は AWS Inferentia をサポートし、機械学習推論の最高の価格パフォーマンスを実現します

Amazon SageMaker を使用してカスタムアンサンブルを効率的にトレーニング、調整、デプロイする | アマゾンウェブサービス

Amazon SageMaker で基盤モデルをデプロイし、TruEra で反復および監視する |アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー