Amazon SageMaker と Amazon OpenSearch Service を使用して、CLIP モデルでテキストと画像の統合検索を実装する

プラトン再発行

フォロワー： 0

テキストの台頭とセマンティック検索エンジンは、e コマースおよび小売企業が消費者にとってより簡単に検索できるようにしました。テキストと画像が統合された検索エンジンは、検索ソリューションの柔軟性をさらに高めることができます。テキストと画像の両方をクエリとして使用できます。たとえば、ラップトップに何百もの家族の写真のフォルダーがあるとします。あなたは、親友と一緒に古い家のプールの前で撮った写真をすばやく見つけたいと考えています。「プールの前に立つ二人」などの会話文をクエリとして、テキストと画像の一体型検索エンジンで検索できます。クエリを実行するために、画像のタイトルに適切なキーワードを含める必要はありません。

AmazonOpenSearchサービス今サポートしますコサイン類似性 k-NN インデックスのメトリック。コサイン類似度は、XNUMX つのベクトル間の角度のコサインを測定します。ここで、コサイン角度が小さいほど、ベクトル間の類似度が高いことを示します。コサイン類似度を使用すると、XNUMX つのベクトル間の向きを測定できるため、特定のセマンティック検索アプリケーションに適しています。

対照的な言語イメージ事前トレーニング (CLIP) さまざまな画像とテキストのペアでトレーニングされたニューラルネットワークです。 CLIP ニューラルネットワークは、画像とテキストの両方を同じものに投影できます。潜在空間つまり、コサイン類似度などの類似度を使用して比較できます。 CLIP を使用して、エンコード商品の画像または説明を埋め込みし、それらを OpenSearch サービスの k-NN インデックスに保存します。次に、顧客はインデックスをクエリして、関心のある製品を取得できます。

CLIPを使用できますアマゾンセージメーカーエンコードを実行します。 AmazonSageMakerサーバーレス推論は、機械学習 (ML) モデルのデプロイとスケーリングを容易にする専用の推論サービスです。 SageMaker を使用すると、開発とテスト用にサーバーレスをデプロイしてから、リアルタイム推論あなたが生産に行くとき。 SageMaker サーバーレスは、アイドル時間中にインフラストラクチャを 0 にスケールダウンすることで、コストを節約するのに役立ちます。これは、開発サイクル間のアイドル時間が長い POC の構築に最適です。使用することもできます Amazon SageMakerバッチ変換大規模なデータセットから推論を取得します。

この投稿では、SageMaker と OpenSearch Service で CLIP を使用して検索アプリケーションを構築する方法を示します。コードはオープンソースであり、ホストされています。 GitHubの.

ソリューションの概要

OpenSearch Service は、テキストマッチングと埋め込み k-NN 検索を提供します。このソリューションでは、埋め込み k-NN 検索を使用します。画像とテキストの両方をクエリとして使用して、インベントリからアイテムを検索できます。この画像とテキストの統合検索アプリケーションの実装は、次の XNUMX つのフェーズで構成されます。

k-NN 参照インデックス – このフェーズでは、一連のコーパスドキュメントまたは製品画像を CLIP モデルに渡して、それらを埋め込みにエンコードします。テキストと画像の埋め込みは、それぞれコーパスまたは画像の数値表現です。これらの埋め込みを OpenSearch Service の k-NN インデックスに保存します。 k-NN の根底にある概念は、同様のデータポイントが埋め込み空間に近接して存在するということです。例として、「赤い花」というテキストと「バラ」というテキスト、および赤いバラの画像は類似しているため、これらのテキストと画像の埋め込みは埋め込み空間内で互いに近接しています。
k-NN インデックスクエリ – これは、アプリケーションの推論フェーズです。このフェーズでは、深層学習モデル (CLIP) を介してテキスト検索クエリまたは画像検索クエリを送信し、埋め込みとしてエンコードします。次に、これらの埋め込みを使用して、OpenSearch Service に格納されている参照 k-NN インデックスをクエリします。 k-NN インデックスは、埋め込み空間から同様の埋め込みを返します。たとえば、「赤い花」というテキストを渡すと、赤いバラの画像の埋め込みが類似アイテムとして返されます。

次の図は、ソリューションのアーキテクチャを示しています。

ワークフローの手順は次のとおりです。

作る SageMakerモデルバッチおよびリアルタイム推論用の事前トレーニング済み CLIP モデルから。
SageMaker バッチ変換ジョブを使用して、製品画像の埋め込みを生成します。
SageMaker Serverless Inference を使用して、リアルタイムでクエリ画像とテキストを埋め込みにエンコードします。
　 Amazon シンプルストレージサービス (Amazon S3) は、SageMaker バッチ変換ジョブによって生成された生のテキスト (製品説明) と画像 (製品画像) および画像埋め込みを保存します。
OpenSearch Service を検索エンジンとして使用して、埋め込みを保存し、同様の埋め込みを見つけます。
クエリ関数を使用してクエリのエンコードを調整し、k-NN 検索を実行します。

を使用しております Amazon SageMakerスタジオノートPC (図には示されていません) を、ソリューションを開発するための統合開発環境 (IDE) として使用します。

ソリューションリソースを設定する

ソリューションを設定するには、次の手順を実行します。

SageMaker ドメインとユーザープロファイルを作成します。手順については、の手順 5 を参照してください。クイックセットアップを使用して Amazon SageMaker ドメインにオンボード.
OpenSearch Service ドメインを作成します。手順については、を参照してください。 AmazonOpenSearchServiceドメインの作成と管理.

また、使用することができます AWS CloudFormation 以下のテンプレート GitHub の指示ドメインを作成します。

から Amazon S3 に Studio を接続できます。アマゾンバーチャルプライベートクラウド (Amazon VPC) を使用してインターフェイスエンドポイントインターネット経由で接続する代わりに、VPC で。インターフェイス VPC エンドポイント (インターフェイスエンドポイント) を使用することで、VPC と Studio 間の通信はすべて AWS ネットワーク内で安全に行われます。 Studio ノートブックは、プライベート VPC 経由で OpenSearch Service に接続して、安全な通信を確保できます。

OpenSearch Service ドメインは、保存データの暗号化を提供します。これは、データへの不正アクセスを防止するのに役立つセキュリティ機能です。ノード間の暗号化は、OpenSearch Service のデフォルト機能に加えて、追加のセキュリティレイヤーを提供します。 Amazon S3 は、別の暗号化オプションを指定しない限り、新しいオブジェクトごとにサーバー側の暗号化 (SSE-S3) を自動的に適用します。

OpenSearch Service ドメインでは、ID ベースのポリシーをアタッチして、サービスにアクセスできるユーザー、実行できるアクション、および該当する場合はそれらのアクションを実行できるリソースを定義できます。

画像とテキストのペアを埋め込みにエンコードする

このセクションでは、画像とテキストを埋め込みにエンコードする方法について説明します。これには、データの準備、SageMaker モデルの作成、モデルを使用したバッチ変換の実行が含まれます。

データの概要と準備

Python 3 (データサイエンス) カーネルを備えた SageMaker Studio ノートブックを使用して、サンプルコードを実行できます。

この投稿では、 Amazon Berkeley オブジェクトデータセット. このデータセットは、多言語のメタデータと 147,702 の固有のカタログ画像を含む 398,212 の製品リストのコレクションです。商品の画像と商品名は米国英語のみを使用しています。デモの目的で、約 1,600 の製品を使用します。このデータセットの詳細については、 README. データセットはパブリック S3 バケットでホストされています。 Amazon製品の製品説明とメタデータを次の形式で含む16個のファイルがあります。 listings/metadata/listings_<i>.json.gz. このデモでは最初のメタデータファイルを使用します。

あなたが使うパンダメタデータを読み込み、米国英語のタイトルを持つ製品をデータフレームから選択します。 Pandas は、Python プログラミング言語の上に構築されたオープンソースのデータ分析および操作ツールです。という属性を使用します。 main_image_id イメージを識別します。次のコードを参照してください。

meta = pd.read_json("s3://amazon-berkeley-objects/listings/metadata/listings_0.json.gz", lines=True)
def func_(x): us_texts = [item["value"] for item in x if item["language_tag"] == "en_US"] return us_texts[0] if us_texts else None meta = meta.assign(item_name_in_en_us=meta.item_name.apply(func_))
meta = meta[~meta.item_name_in_en_us.isna()][["item_id", "item_name_in_en_us", "main_image_id"]]
print(f"#products with US English title: {len(meta)}")
meta.head()

データフレームには 1,639 個の製品があります。次に、アイテム名を対応するアイテム画像にリンクします。 images/metadata/images.csv.gz 画像メタデータが含まれています。このファイルは、次の列を含む gzip 圧縮された CSV ファイルです。 image_id, height, width, path. メタデータファイルを読み取って、アイテムメタデータとマージできます。次のコードを参照してください。

image_meta = pd.read_csv("s3://amazon-berkeley-objects/images/metadata/images.csv.gz")
dataset = meta.merge(image_meta, left_on="main_image_id", right_on="image_id")
dataset.head()

SageMaker Studio ノートブック Python 3 カーネル組み込みを使用できます PILライブラリデータセットからサンプル画像を表示するには:

from sagemaker.s3 import S3Downloader as s3down
from pathlib import Path
from PIL import Image def get_image_from_item_id(item_id = "B0896LJNLH", return_image=True): s3_data_root = "s3://amazon-berkeley-objects/images/small/" item_idx = dataset.query(f"item_id == '{item_id}'").index[0] s3_path = dataset.iloc[item_idx].path local_data_root = f'./data/images' local_file_name = Path(s3_path).name s3down.download(f'{s3_data_root}{s3_path}', local_data_root) local_image_path = f"{local_data_root}/{local_file_name}" if return_image: img = Image.open(local_image_path) return img, dataset.iloc[item_idx].item_name_in_en_us else: return local_image_path, dataset.iloc[item_idx].item_name_in_en_us
image, item_name = get_image_from_item_id()
print(item_name)
image

モデルの準備

次に、作成します SageMakerモデル事前トレーニング済みの CLIP モデルから。最初のステップは、事前トレーニング済みのモデルの重み付けファイルをダウンロードし、それを model.tar.gz ファイルを作成し、S3 バケットにアップロードします。事前トレーニング済みモデルのパスは、 CLIPレポ. 事前訓練されたレスネット-50 このデモでは (RN50) モデル。次のコードを参照してください。

%%writefile build_model_tar.sh
#!/bin/bash MODEL_NAME=RN50.pt
MODEL_NAME_URL=https://openaipublic.azureedge.net/clip/models/afeb0e10f9e5a86da6080e35cf09123aca3b358a0c3e3b6c78a7b63bc04b6762/RN50.pt BUILD_ROOT=/tmp/model_path
S3_PATH=s3://<your-bucket>/<your-prefix-for-model>/model.tar.gz rm -rf $BUILD_ROOT
mkdir $BUILD_ROOT
cd $BUILD_ROOT && curl -o $BUILD_ROOT/$MODEL_NAME $MODEL_NAME_URL
cd $BUILD_ROOT && tar -czvf model.tar.gz .
aws s3 cp $BUILD_ROOT/model.tar.gz $S3_PATH
!bash build_model_tar.sh

次に、CLIP モデルの推論エントリポイントスクリプトを提供する必要があります。 CLIP は次を使用して実装されますパイトーチ、だからあなたは SageMaker PyTorch フレームワーク。 PyTorch は、研究のプロトタイピングから本番環境へのデプロイまでを加速するオープンソースの ML フレームワークです。 SageMaker を使用して PyTorch モデルをデプロイする方法については、次を参照してください。 PyTorch モデルをデプロイする. 推論コードは、次の XNUMX つの環境変数を受け入れます。 MODEL_NAME および ENCODE_TYPE. これにより、異なる CLIP モデルを簡単に切り替えることができます。を使用しております ENCODE_TYPE 画像またはテキストをエンコードするかどうかを指定します。ここでは、 model_fn, input_fn, predict_fn, output_fn オーバーライドする関数デフォルトの PyTorch 推論ハンドラー。次のコードを参照してください。

!mkdir -p code
%%writefile code/clip_inference.py import io
import torch
import clip
from PIL import Image
import json
import logging
import sys
import os import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision.transforms import ToTensor logger = logging.getLogger(__name__)
logger.setLevel(logging.DEBUG)
logger.addHandler(logging.StreamHandler(sys.stdout)) MODEL_NAME = os.environ.get("MODEL_NAME", "RN50.pt")
# ENCODE_TYPE could be IMAGE or TEXT
ENCODE_TYPE = os.environ.get("ENCODE_TYPE", "TEXT") device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # defining model and loading weights to it.
def model_fn(model_dir): model, preprocess = clip.load(os.path.join(model_dir, MODEL_NAME), device=device) return {"model_obj": model, "preprocess_fn": preprocess} def load_from_bytearray(request_body): return image # data loading
def input_fn(request_body, request_content_type): assert request_content_type in ( "application/json", "application/x-image", ), f"{request_content_type} is an unknown type." if request_content_type == "application/json": data = json.loads(request_body)["inputs"] elif request_content_type == "application/x-image": image_as_bytes = io.BytesIO(request_body) data = Image.open(image_as_bytes) return data # inference
def predict_fn(input_object, model): model_obj = model["model_obj"] # for image preprocessing preprocess_fn = model["preprocess_fn"] assert ENCODE_TYPE in ("TEXT", "IMAGE"), f"{ENCODE_TYPE} is an unknown encode type." # preprocessing if ENCODE_TYPE == "TEXT": input_ = clip.tokenize(input_object).to(device) elif ENCODE_TYPE == "IMAGE": input_ = preprocess_fn(input_object).unsqueeze(0).to(device) # inference with torch.no_grad(): if ENCODE_TYPE == "TEXT": prediction = model_obj.encode_text(input_) elif ENCODE_TYPE == "IMAGE": prediction = model_obj.encode_image(input_) return prediction # Serialize the prediction result into the desired response content type
def output_fn(predictions, content_type): assert content_type == "application/json" res = predictions.cpu().numpy().tolist()
return json.dumps(res)

このソリューションでは、モデルの推論中に追加の Python パッケージが必要になるため、 requirements.txt モデルをホストするときに SageMaker が追加のパッケージをインストールできるようにするためのファイル:

%%writefile code/requirements.txt
ftfy
regex
tqdm
git+https://github.com/openai/CLIP.git

あなたが使用 PyTorchModel クラスモデルアーティファクトの Amazon S3 の場所と推論エントリポイントの詳細の情報を含むオブジェクトを作成します。このオブジェクトを使用して、バッチ変換ジョブを作成したり、モデルをオンライン推論用のエンドポイントにデプロイしたりできます。次のコードを参照してください。

from sagemaker.pytorch import PyTorchModel
from sagemaker import get_execution_role, Session role = get_execution_role()
shared_params = dict( entry_point="clip_inference.py", source_dir="code", role=role, model_data="s3://<your-bucket>/<your-prefix-for-model>/model.tar.gz", framework_version="1.9.0", py_version="py38",
) clip_image_model = PyTorchModel( env={'MODEL_NAME': 'RN50.pt', "ENCODE_TYPE": "IMAGE"}, name="clip-image-model", **shared_params
) clip_text_model = PyTorchModel( env={'MODEL_NAME': 'RN50.pt', "ENCODE_TYPE": "TEXT"}, name="clip-text-model", **shared_params
)

アイテム画像を埋め込みにエンコードするためのバッチ変換

次に、CLIP モデルを使用してアイテム画像を埋め込みにエンコードし、SageMaker バッチ変換を使用してバッチ推論を実行します。

ジョブを作成する前に、次のコードスニペットを使用して、アイテムの画像を Amazon Berkeley オブジェクトデータセットのパブリック S3 バケットから独自のバケットにコピーします。操作にかかる時間は 10 分未満です。

from multiprocessing.pool import ThreadPool
import boto3
from tqdm import tqdm
from urllib.parse import urlparse s3_sample_image_root = "s3://<your-bucket>/<your-prefix-for-sample-images>"
s3_data_root = "s3://amazon-berkeley-objects/images/small/" client = boto3.client('s3') def upload_(args): client.copy_object(CopySource=args["source"], Bucket=args["target_bucket"], Key=args["target_key"]) arugments = []
for idx, record in dataset.iterrows(): argument = {} argument["source"] = (s3_data_root + record.path)[5:] argument["target_bucket"] = urlparse(s3_sample_image_root).netloc argument["target_key"] = urlparse(s3_sample_image_root).path[1:] + record.path arugments.append(argument) with ThreadPool(4) as p: r = list(tqdm(p.imap(upload_, arugments), total=len(dataset)))

次に、アイテムの画像に対してバッチ方式で推論を実行します。 SageMaker バッチ変換ジョブは、CLIP モデルを使用して、入力 Amazon S3 の場所に保存されているすべての画像をエンコードし、出力埋め込みを出力 S3 フォルダーにアップロードします。作業時間は約10分。

batch_input = s3_sample_image_root + "/"
output_path = f"s3://<your-bucket>/inference/output" clip_image_transformer = clip_image_model.transformer( instance_count=1, instance_type="ml.c5.xlarge", strategy="SingleRecord", output_path=output_path,
) clip_image_transformer.transform( batch_input, data_type="S3Prefix", content_type="application/x-image", wait=True,
)

Amazon S3 から変数に埋め込みをロードして、後でデータを OpenSearch Service に取り込むことができるようにします。

embedding_root_path = "./data/embedding"
s3down.download(output_path, embedding_root_path) embeddings = []
for idx, record in dataset.iterrows(): embedding_file = f"{embedding_root_path}/{record.path}.out" embeddings.append(json.load(open(embedding_file))[0])

ML を活用した統合検索エンジンを作成する

このセクションでは、埋め込みのある k-NN 検索を使用する検索エンジンを作成する方法について説明します。これには、OpenSearch Service クラスターの構成、アイテムの埋め込みの取り込み、フリーテキストおよび画像検索クエリの実行が含まれます。

k-NN 設定を使用して OpenSearch Service ドメインをセットアップする

前に、OpenSearch クラスターを作成しました。次に、カタログデータと埋め込みを格納するためのインデックスを作成します。次の構成を使用して、インデックス設定を構成し、k-NN 機能を有効にすることができます。

index_settings = { "settings": { "index.knn": True, "index.knn.space_type": "cosinesimil" }, "mappings": { "properties": { "embeddings": { "type": "knn_vector", "dimension": 1024 #Make sure this is the size of the embeddings you generated, for RN50, it is 1024 } } }
}

この例では、 Python Elasticsearch クライアント OpenSearch クラスターと通信し、データをホストするためのインデックスを作成します。実行できます %pip install elasticsearch ノートブックでライブラリをインストールします。次のコードを参照してください。

import boto3
import json
from requests_aws4auth import AWS4Auth
from elasticsearch import Elasticsearch, RequestsHttpConnection def get_es_client(host = "<your-opensearch-service-domain-url>", port = 443, region = "<your-region>", index_name = "clip-index"): credentials = boto3.Session().get_credentials() awsauth = AWS4Auth(credentials.access_key, credentials.secret_key, region, 'es', session_token=credentials.token) headers = {"Content-Type": "application/json"} es = Elasticsearch(hosts=[{'host': host, 'port': port}], http_auth=awsauth, use_ssl=True, verify_certs=True, connection_class=RequestsHttpConnection, timeout=60 # for connection timeout errors ) return es
es = get_es_client()
es.indices.create(index=index_name, body=json.dumps(index_settings))

画像埋め込みデータを OpenSearch Service に取り込む

ここで、データセットをループして、項目データをクラスターに取り込みます。このプラクティスのデータ取り込みは 60 秒以内に完了する必要があります。また、単純なクエリを実行して、データがインデックスに正常に取り込まれたかどうかを確認します。次のコードを参照してください。

# ingest_data_into_es for idx, record in tqdm(dataset.iterrows(), total=len(dataset)): body = record[['item_name_in_en_us']].to_dict() body['embeddings'] = embeddings[idx] es.index(index=index_name, id=record.item_id, doc_type='_doc', body=body) # Check that data is indeed in ES
res = es.search( index=index_name, body={ "query": { "match_all": {} }}, size=2)
assert len(res["hits"]["hits"]) > 0

リアルタイムクエリを実行する

商品画像の埋め込みをインベントリとして含む OpenSearch Service インデックスが機能するようになったので、クエリの埋め込みを生成する方法を見てみましょう。テキストと画像の埋め込みをそれぞれ処理するには、XNUMX つの SageMaker エンドポイントを作成する必要があります。

また、エンドポイントを使用して画像とテキストをエンコードする XNUMX つの関数も作成します。のために encode_text 関数、追加 this is アイテム名をアイテム説明の文に変換するには、アイテム名の前にを付けます。 memory_size_in_mb 下線を提供するために6 GBに設定されていますトランスフォーマーおよびレスネットモデル。次のコードを参照してください。

text_predictor = clip_text_model.deploy( instance_type='ml.c5.xlarge', initial_instance_count=1, serverless_inference_config=ServerlessInferenceConfig(memory_size_in_mb=6144), serializer=JSONSerializer(), deserializer=JSONDeserializer(), wait=True
) image_predictor = clip_image_model.deploy( instance_type='ml.c5.xlarge', initial_instance_count=1, serverless_inference_config=ServerlessInferenceConfig(memory_size_in_mb=6144), serializer=IdentitySerializer(content_type="application/x-image"), deserializer=JSONDeserializer(), wait=True
) def encode_image(file_name="./data/images/0e9420c6.jpg"): with open(file_name, "rb") as f: payload = f.read() payload = bytearray(payload) res = image_predictor.predict(payload) return res[0] def encode_name(item_name): res = text_predictor.predict({"inputs": [f"this is a {item_name}"]}) return res[0]

最初に、使用する画像をプロットできます。

item_image_path, item_name = get_image_from_item_id(item_id = "B0896LJNLH", return_image=False)
feature_vector = encode_image(file_name=item_image_path)
print(feature_vector.shape)
Image.open(item_image_path)

簡単なクエリの結果を見てみましょう。 OpenSearch Service から結果を取得した後、アイテム名と画像のリストを取得します。 dataset:

def search_products(embedding, k = 3): body = { "size": k, "_source": { "exclude": ["embeddings"], }, "query": { "knn": { "embeddings": { "vector": embedding, "k": k, } } }, } res = es.search(index=index_name, body=body) images = [] for hit in res["hits"]["hits"]: id_ = hit["_id"] image, item_name = get_image_from_item_id(id_) image.name_and_score = f'{hit["_score"]}:{item_name}' images.append(image) return images def display_images( images: [PilImage], columns=2, width=20, height=8, max_images=15, label_wrap_length=50, label_font_size=8): if not images: print("No images to display.") return if len(images) > max_images: print(f"Showing {max_images} images of {len(images)}:") images=images[0:max_images] height = max(height, int(len(images)/columns) * height) plt.figure(figsize=(width, height)) for i, image in enumerate(images): plt.subplot(int(len(images) / columns + 1), columns, i + 1) plt.imshow(image) if hasattr(image, 'name_and_score'): plt.title(image.name_and_score, fontsize=label_font_size); images = search_products(feature_vector)

1.0 つの画像が同じであるため、最初のアイテムのスコアは XNUMX です。その他の項目は、OpenSearch Service インデックスにあるさまざまな種類のメガネです。

テキストを使用してインデックスをクエリすることもできます。

feature_vector = encode_name("drinkware glass")
images = search_products(feature_vector)
display_images(images)

これで、インデックスから XNUMX つのウォーターグラスの写真を取得できます。 CLIPエンコーダーを使用すると、同じ潜在空間内で画像とテキストを見つけることができます。もう XNUMX つの例は、インデックスで「pizza」という単語を検索することです。

feature_vector = encode_name("pizza")
images = search_products(feature_vector)
display_images(images)

クリーンアップ

従量制モデルのサーバーレス推論は、頻度の低い、または予測不可能なトラフィックパターンに対する費用対効果の高いオプションです。厳格な場合サービスレベルアグリーメント（SLA）、またはコールドスタートに耐えられない場合は、リアルタイムエンドポイントの方が適しています。使用するマルチモデル or マルチコンテナエンドポイントは、多数のモデルを展開するためのスケーラブルで費用対効果の高いソリューションを提供します。詳細については、次を参照してください。 Amazon SageMakerの価格.

サーバーレスエンドポイントが不要になったら削除することをお勧めします。この演習を終了したら、次の手順でリソースを削除できます (これらのリソースは AWSマネジメントコンソール、または AWS SDK または SageMaker SDK を使用):

作成したエンドポイントを削除します。
必要に応じて、登録済みのモデルを削除します。
オプションで、SageMaker 実行ロールを削除します。
オプションで、S3 バケットを空にして削除します。

まとめ

この投稿では、SageMaker と OpenSearch サービスの k-NN インデックス機能を使用して k-NN 検索アプリケーションを作成する方法を示しました。から事前にトレーニングされた CLIP モデルを使用しました。 OpenAI インプリメンテーション。

投稿の OpenSearch Service インジェスト実装は、プロトタイピングにのみ使用されます。 Amazon S3 から OpenSearch Service に大規模にデータを取り込みたい場合は、 Amazon SageMaker処理ジョブ適切なインスタンスタイプとインスタンス数で。別のスケーラブルな埋め込み取り込みソリューションについては、次を参照してください。 Novartis AG は、Amazon OpenSearch Service K-Nearest Neighbor (KNN) と Amazon SageMaker を使用して、検索とレコメンデーションを強化しています (パート 3/4).

CLIPが提供するゼロショットこれにより、事前にトレーニングされたモデルを使用せずに直接採用することができます転移学習モデルを微調整します。これにより、CLIP モデルの適用が簡素化されます。製品画像と説明テキストのペアがある場合、転移学習を使用して独自のデータでモデルを微調整し、モデルのパフォーマンスをさらに向上させることができます。詳細については、次を参照してください。自然言語教師からの伝達可能な視覚モデルの学習と CLIP GitHub リポジトリシトリー。

著者について

ケビン・デュ AWS のシニアデータラボアーキテクトであり、顧客が機械学習 (ML) 製品と MLOps プラットフォームの開発を促進するのを支援することに専念しています。新興企業と企業向けの ML 対応製品の構築に XNUMX 年以上の経験を持つ彼は、顧客が ML ソリューションの製品化を合理化するのを支援することに重点を置いています。余暇には、料理とバスケットボール観戦を楽しんでいます。

アナーニャ・ロイ は、オーストラリアのシドニーを拠点とする AI と機械学習を専門とするシニアデータラボアーキテクトです。彼女はさまざまな顧客と協力して、アーキテクチャのガイダンスを提供し、データラボの関与を通じて効果的な AI/ML ソリューションを提供できるよう支援してきました。 AWS の前は、シニアデータサイエンティストとして働き、通信会社、銀行、フィンテックなどのさまざまな業界で大規模な ML モデルを扱っていました。 AI / ML の経験により、複雑なビジネス上の問題に対して効果的なソリューションを提供することができ、最先端のテクノロジーを活用してチームの目標達成を支援することに情熱を注いでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/implement-unified-text-and-image-search-with-a-clip-model-using-amazon-sagemaker-and-amazon-opensearch-service/

タイムスタンプ： 2023 年 4 月 5 日

タイムスタンプ： 2023 年 9 月 22 日

Amazon SageMaker と Amazon OpenSearch Service を使用して、CLIP モデルでテキストと画像の統合検索を実装する

プラトン再発行

ソリューションの概要

ソリューションリソースを設定する

画像とテキストのペアを埋め込みにエンコードする

データの概要と準備

モデルの準備

アイテム画像を埋め込みにエンコードするためのバッチ変換

ML を活用した統合検索エンジンを作成する

k-NN 設定を使用して OpenSearch Service ドメインをセットアップする

画像埋め込みデータを OpenSearch Service に取り込む

リアルタイムクエリを実行する

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

Fortuna のご紹介: 不確実性の定量化のためのライブラリ

コンピュータビジョンを使用して、Amazon Rekognition カスタムラベルで農業生産量を測定する

サーバーレス AWS Glue インタラクティブセッションを使用して、Amazon SageMaker Studio で大規模なデータを準備します

Amazon SageMaker を使用して ESM-2 タンパク質言語モデルを効率的に微調整する |アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

ソリューションの概要

ソリューション リソースを設定する

画像とテキストのペアを埋め込みにエンコードする

データの概要と準備

モデルの準備

アイテム画像を埋め込みにエンコードするためのバッチ変換

ML を活用した統合検索エンジンを作成する

k-NN 設定を使用して OpenSearch Service ドメインをセットアップする

画像埋め込みデータを OpenSearch Service に取り込む

リアルタイム クエリを実行する

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

ソリューションリソースを設定する

リアルタイムクエリを実行する