Implementera enhetlig text- och bildsökning med en CLIP-modell med Amazon SageMaker och Amazon OpenSearch Service

Återutgiven av Platon

anhängare: 0

Framväxten av text och semantisk sökning motorer har gjort e-handel och detaljhandelsföretag att söka lättare för sina konsumenter. Sökmotorer som drivs av enhetlig text och bild kan ge extra flexibilitet i söklösningar. Du kan använda både text och bilder som frågor. Till exempel har du en mapp med hundratals familjebilder i din bärbara dator. Du vill snabbt hitta en bild som togs när du och din bästa vän var framför ditt gamla huss simbassäng. Du kan använda samtalsspråk som "två personer står framför en pool" som en fråga för att söka i en enhetlig text- och bildsökmotor. Du behöver inte ha rätt sökord i bildtitlar för att utföra frågan.

Amazon OpenSearch Service stöder nu cosinuslikhet mått för k-NN-index. Cosinuslikhet mäter cosinus för vinkeln mellan två vektorer, där en mindre cosinusvinkel anger en högre likhet mellan vektorerna. Med cosinuslikhet kan du mäta orienteringen mellan två vektorer, vilket gör det till ett bra val för vissa specifika semantiska sökapplikationer.

Contrastive Language-Image Pre-Training (CLIP) är ett neuralt nätverk som tränas på en mängd olika bild- och textpar. Det neurala nätverket CLIP kan projicera både bilder och text i samma latent utrymme, vilket innebär att de kan jämföras med ett likhetsmått, till exempel cosinuslikhet. Du kan använda CLIP för att koda dina produkters bilder eller beskrivning till inbäddningar, och lagra dem sedan i ett OpenSearch Service k-NN-index. Sedan kan dina kunder fråga indexet för att hämta produkter som de är intresserade av.

Du kan använda CLIP med Amazon SageMaker för att utföra kodning. Amazon SageMaker Serverless Inference är en specialbyggd inferenstjänst som gör det enkelt att distribuera och skala modeller för maskininlärning (ML). Med SageMaker kan du distribuera serverlöst för dev och testa och sedan flytta till slutledning i realtid när du går till produktion. SageMaker serverless hjälper dig att spara kostnader genom att skala ner infrastrukturen till 0 under inaktiva tider. Detta är perfekt för att bygga en POC, där du kommer att ha långa vilotider mellan utvecklingscyklerna. Du kan också använda Amazon SageMaker batch-transformation för att få slutsatser från stora datamängder.

I det här inlägget visar vi hur man bygger en sökapplikation med CLIP med SageMaker och OpenSearch Service. Koden är öppen källkod och den finns på GitHub.

Lösningsöversikt

OpenSearch Service tillhandahåller textmatchning och inbäddning av k-NN-sökning. Vi använder inbäddning av k-NN-sökning i denna lösning. Du kan använda både bild och text som en fråga för att söka efter föremål från inventeringen. Implementeringen av denna enhetliga bild- och textsökningsapplikation består av två faser:

k-NN referensindex – I den här fasen skickar du en uppsättning korpusdokument eller produktbilder genom en CLIP-modell för att koda dem till inbäddningar. Text- och bildinbäddningar är numeriska representationer av korpusen eller bilderna. Du sparar dessa inbäddningar i ett k-NN-index i OpenSearch Service. Konceptet som ligger till grund för k-NN är att liknande datapunkter finns i omedelbar närhet i inbäddningsutrymmet. Som ett exempel är texten "en röd blomma", texten "ros" och en bild av röd ros lika, så dessa text- och bildinbäddningar ligger nära varandra i inbäddningsutrymmet.
k-NN indexfråga – Det här är slutledningsfasen för ansökan. I den här fasen skickar du en textsökfråga eller bildsökningsfråga genom djupinlärningsmodellen (CLIP) för att koda som inbäddningar. Sedan använder du dessa inbäddningar för att fråga referensen k-NN-index lagrat i OpenSearch Service. k-NN-indexet returnerar liknande inbäddningar från inbäddningsutrymmet. Om du till exempel skickar texten "en röd blomma" skulle det returnera inbäddningarna av en röd rosbild som ett liknande föremål.

Följande figur illustrerar lösningsarkitekturen.

Arbetsflödesstegen är följande:

Skapa en SageMaker modell från en förtränad CLIP-modell för batch- och realtidsinferens.
Generera inbäddningar av produktbilder med hjälp av ett SageMaker batch-omvandlingsjobb.
Använd SageMaker Serverless Inference för att koda frågebild och text till inbäddningar i realtid.
Använda Amazon enkel lagringstjänst (Amazon S3) för att lagra den råa texten (produktbeskrivning) och bilder (produktbilder) och bildinbäddning som genereras av SageMaker batch-omvandlingsjobb.
Använd OpenSearch Service som sökmotor för att lagra inbäddningar och hitta liknande inbäddningar.
Använd en frågefunktion för att orkestrera kodningen av frågan och utför en k-NN-sökning.

Vi använder Amazon SageMaker Studio bärbara datorer (visas inte i diagrammet) som den integrerade utvecklingsmiljön (IDE) för att utveckla lösningen.

Konfigurera lösningsresurser

Utför följande steg för att ställa in lösningen:

Skapa en SageMaker-domän och en användarprofil. För instruktioner, se steg 5 av Ombord på Amazon SageMaker Domain med snabbinställning.
Skapa en OpenSearch Service-domän. För instruktioner, se Skapa och hantera Amazon OpenSearch Service-domäner.

Du kan också använda en AWS molnformation mall genom att följa GitHub-instruktionerna för att skapa en domän.

Du kan ansluta Studio till Amazon S3 från Amazon Virtual Private Cloud (Amazon VPC) med en gränssnittsändpunkt i din VPC, istället för att ansluta över internet. Genom att använda en gränssnitts-VPC-ändpunkt (gränssnittsändpunkt), sker kommunikationen mellan din VPC och Studio helt och säkert inom AWS-nätverket. Din Studio-anteckningsbok kan ansluta till OpenSearch Service över en privat VPC för att säkerställa säker kommunikation.

OpenSearch Service-domäner erbjuder kryptering av data i vila, vilket är en säkerhetsfunktion som hjälper till att förhindra obehörig åtkomst till dina data. Nod-till-nod-kryptering ger ett extra lager av säkerhet utöver standardfunktionerna i OpenSearch Service. Amazon S3 tillämpar automatiskt serversideskryptering (SSE-S3) för varje nytt objekt om du inte anger ett annat krypteringsalternativ.

I OpenSearch Service-domänen kan du bifoga identitetsbaserade policyer som definierar vem som kan komma åt en tjänst, vilka åtgärder de kan utföra, och om tillämpligt, på vilka resurser de kan utföra dessa åtgärder.

Koda bilder och textpar till inbäddningar

Det här avsnittet diskuterar hur man kodar bilder och text till inbäddningar. Detta inkluderar att förbereda data, skapa en SageMaker-modell och utföra batchtransformation med modellen.

Dataöversikt och förberedelse

Du kan använda en SageMaker Studio-anteckningsbok med en Python 3 (Data Science) kärna för att köra exempelkoden.

För det här inlägget använder vi Amazon Berkeley Objects Dataset. Datauppsättningen är en samling av 147,702 398,212 produktlistor med flerspråkig metadata och 1,600 XNUMX unika katalogbilder. Vi använder endast objektbilderna och objektnamnen på amerikansk engelska. För demoändamål använder vi cirka XNUMX XNUMX produkter. För mer information om denna datauppsättning, se README. Datauppsättningen är värd i en offentlig S3-bucket. Det finns 16 filer som inkluderar produktbeskrivning och metadata för Amazon-produkter i formatet listings/metadata/listings_<i>.json.gz. Vi använder den första metadatafilen i denna demo.

Du använder pandor för att ladda metadata, välj sedan produkter som har amerikanska engelska titlar från dataramen. Pandas är ett dataanalys- och manipuleringsverktyg med öppen källkod byggt ovanpå programmeringsspråket Python. Du använder ett attribut som kallas main_image_id för att identifiera en bild. Se följande kod:

meta = pd.read_json("s3://amazon-berkeley-objects/listings/metadata/listings_0.json.gz", lines=True)
def func_(x): us_texts = [item["value"] for item in x if item["language_tag"] == "en_US"] return us_texts[0] if us_texts else None meta = meta.assign(item_name_in_en_us=meta.item_name.apply(func_))
meta = meta[~meta.item_name_in_en_us.isna()][["item_id", "item_name_in_en_us", "main_image_id"]]
print(f"#products with US English title: {len(meta)}")
meta.head()

Det finns 1,639 XNUMX produkter i dataramen. Därefter länkar du objektnamnen med motsvarande objektbilder. images/metadata/images.csv.gz innehåller bildmetadata. Den här filen är en gzip-komprimerad CSV-fil med följande kolumner: image_id, height, widthoch path. Du kan läsa metadatafilen och sedan slå samman den med objektmetadata. Se följande kod:

image_meta = pd.read_csv("s3://amazon-berkeley-objects/images/metadata/images.csv.gz")
dataset = meta.merge(image_meta, left_on="main_image_id", right_on="image_id")
dataset.head()

Du kan använda den inbyggda SageMaker Studio-anteckningsboken Python 3-kärnan PIL-bibliotek för att visa en exempelbild från datamängden:

from sagemaker.s3 import S3Downloader as s3down
from pathlib import Path
from PIL import Image def get_image_from_item_id(item_id = "B0896LJNLH", return_image=True): s3_data_root = "s3://amazon-berkeley-objects/images/small/" item_idx = dataset.query(f"item_id == '{item_id}'").index[0] s3_path = dataset.iloc[item_idx].path local_data_root = f'./data/images' local_file_name = Path(s3_path).name s3down.download(f'{s3_data_root}{s3_path}', local_data_root) local_image_path = f"{local_data_root}/{local_file_name}" if return_image: img = Image.open(local_image_path) return img, dataset.iloc[item_idx].item_name_in_en_us else: return local_image_path, dataset.iloc[item_idx].item_name_in_en_us
image, item_name = get_image_from_item_id()
print(item_name)
image

Modellberedning

Skapa sedan en SageMaker modell från en förtränad CLIP-modell. Det första steget är att ladda ner den förtränade modellviktningsfilen, lägga den i en model.tar.gz fil och ladda upp den till en S3-hink. Den förtränade modellens väg kan hittas i CLIP repo. Vi använder en förutbildad ResNet-50 (RN50) modell i denna demo. Se följande kod:

%%writefile build_model_tar.sh
#!/bin/bash MODEL_NAME=RN50.pt
MODEL_NAME_URL=https://openaipublic.azureedge.net/clip/models/afeb0e10f9e5a86da6080e35cf09123aca3b358a0c3e3b6c78a7b63bc04b6762/RN50.pt BUILD_ROOT=/tmp/model_path
S3_PATH=s3://<your-bucket>/<your-prefix-for-model>/model.tar.gz rm -rf $BUILD_ROOT
mkdir $BUILD_ROOT
cd $BUILD_ROOT && curl -o $BUILD_ROOT/$MODEL_NAME $MODEL_NAME_URL
cd $BUILD_ROOT && tar -czvf model.tar.gz .
aws s3 cp $BUILD_ROOT/model.tar.gz $S3_PATH
!bash build_model_tar.sh

Du måste sedan tillhandahålla ett inferens-ingångsskript för CLIP-modellen. CLIP implementeras med hjälp av PyTorch, så du använder SageMaker PyTorch ramverk. PyTorch är ett ML-ramverk med öppen källkod som påskyndar vägen från forskningsprototyper till produktionsinstallation. För information om hur du distribuerar en PyTorch-modell med SageMaker, se Distribuera PyTorch-modeller. Slutledningskoden accepterar två miljövariabler: MODEL_NAME och ENCODE_TYPE. Detta hjälper oss att enkelt växla mellan olika CLIP-modeller. Vi använder ENCODE_TYPE för att ange om vi vill koda en bild eller ett stycke text. Här implementerar du model_fn, input_fn, predict_fnoch output_fn funktioner för att åsidosätta standard PyTorch slutledningshanterare. Se följande kod:

!mkdir -p code
%%writefile code/clip_inference.py import io
import torch
import clip
from PIL import Image
import json
import logging
import sys
import os import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision.transforms import ToTensor logger = logging.getLogger(__name__)
logger.setLevel(logging.DEBUG)
logger.addHandler(logging.StreamHandler(sys.stdout)) MODEL_NAME = os.environ.get("MODEL_NAME", "RN50.pt")
# ENCODE_TYPE could be IMAGE or TEXT
ENCODE_TYPE = os.environ.get("ENCODE_TYPE", "TEXT") device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # defining model and loading weights to it.
def model_fn(model_dir): model, preprocess = clip.load(os.path.join(model_dir, MODEL_NAME), device=device) return {"model_obj": model, "preprocess_fn": preprocess} def load_from_bytearray(request_body): return image # data loading
def input_fn(request_body, request_content_type): assert request_content_type in ( "application/json", "application/x-image", ), f"{request_content_type} is an unknown type." if request_content_type == "application/json": data = json.loads(request_body)["inputs"] elif request_content_type == "application/x-image": image_as_bytes = io.BytesIO(request_body) data = Image.open(image_as_bytes) return data # inference
def predict_fn(input_object, model): model_obj = model["model_obj"] # for image preprocessing preprocess_fn = model["preprocess_fn"] assert ENCODE_TYPE in ("TEXT", "IMAGE"), f"{ENCODE_TYPE} is an unknown encode type." # preprocessing if ENCODE_TYPE == "TEXT": input_ = clip.tokenize(input_object).to(device) elif ENCODE_TYPE == "IMAGE": input_ = preprocess_fn(input_object).unsqueeze(0).to(device) # inference with torch.no_grad(): if ENCODE_TYPE == "TEXT": prediction = model_obj.encode_text(input_) elif ENCODE_TYPE == "IMAGE": prediction = model_obj.encode_image(input_) return prediction # Serialize the prediction result into the desired response content type
def output_fn(predictions, content_type): assert content_type == "application/json" res = predictions.cpu().numpy().tolist()
return json.dumps(res)

Lösningen kräver ytterligare Python-paket under modellinferens, så att du kan tillhandahålla en requirements.txt fil för att låta SageMaker installera ytterligare paket när du är värd för modeller:

%%writefile code/requirements.txt
ftfy
regex
tqdm
git+https://github.com/openai/CLIP.git

Du använder PyTorchModel klass att skapa ett objekt för att innehålla informationen om modellartefakternas Amazon S3-plats och detaljerna för slutledningsingångspunkten. Du kan använda objektet för att skapa batchomvandlingsjobb eller distribuera modellen till en slutpunkt för online-inferens. Se följande kod:

from sagemaker.pytorch import PyTorchModel
from sagemaker import get_execution_role, Session role = get_execution_role()
shared_params = dict( entry_point="clip_inference.py", source_dir="code", role=role, model_data="s3://<your-bucket>/<your-prefix-for-model>/model.tar.gz", framework_version="1.9.0", py_version="py38",
) clip_image_model = PyTorchModel( env={'MODEL_NAME': 'RN50.pt', "ENCODE_TYPE": "IMAGE"}, name="clip-image-model", **shared_params
) clip_text_model = PyTorchModel( env={'MODEL_NAME': 'RN50.pt', "ENCODE_TYPE": "TEXT"}, name="clip-text-model", **shared_params
)

Batchomvandling för att koda objektbilder till inbäddningar

Därefter använder vi CLIP-modellen för att koda objektbilder till inbäddningar och använder SageMaker batchtransformering för att köra batch-inferens.

Innan du skapar jobbet, använd följande kodavsnitt för att kopiera objektbilder från Amazon Berkeley Objects Dataset public S3-bucket till din egen hink. Operationen tar mindre än 10 minuter.

from multiprocessing.pool import ThreadPool
import boto3
from tqdm import tqdm
from urllib.parse import urlparse s3_sample_image_root = "s3://<your-bucket>/<your-prefix-for-sample-images>"
s3_data_root = "s3://amazon-berkeley-objects/images/small/" client = boto3.client('s3') def upload_(args): client.copy_object(CopySource=args["source"], Bucket=args["target_bucket"], Key=args["target_key"]) arugments = []
for idx, record in dataset.iterrows(): argument = {} argument["source"] = (s3_data_root + record.path)[5:] argument["target_bucket"] = urlparse(s3_sample_image_root).netloc argument["target_key"] = urlparse(s3_sample_image_root).path[1:] + record.path arugments.append(argument) with ThreadPool(4) as p: r = list(tqdm(p.imap(upload_, arugments), total=len(dataset)))

Därefter utför du slutledning om objektbilderna på ett batchsätt. SageMaker batch-omvandlingsjobb använder CLIP-modellen för att koda alla bilder som är lagrade i Amazon S3-inmatningsplatsen och laddar upp utdatainbäddningar till en utdata S3-mapp. Jobbet tar cirka 10 minuter.

batch_input = s3_sample_image_root + "/"
output_path = f"s3://<your-bucket>/inference/output" clip_image_transformer = clip_image_model.transformer( instance_count=1, instance_type="ml.c5.xlarge", strategy="SingleRecord", output_path=output_path,
) clip_image_transformer.transform( batch_input, data_type="S3Prefix", content_type="application/x-image", wait=True,
)

Ladda inbäddningar från Amazon S3 till en variabel, så att du kan mata in data i OpenSearch Service senare:

embedding_root_path = "./data/embedding"
s3down.download(output_path, embedding_root_path) embeddings = []
for idx, record in dataset.iterrows(): embedding_file = f"{embedding_root_path}/{record.path}.out" embeddings.append(json.load(open(embedding_file))[0])

Skapa en ML-driven enhetlig sökmotor

Det här avsnittet diskuterar hur man skapar en sökmotor som använder k-NN-sökning med inbäddningar. Detta inkluderar att konfigurera ett OpenSearch Service-kluster, ta in objektinbäddning och utföra fritext- och bildsökningsfrågor.

Konfigurera OpenSearch Service-domänen med k-NN-inställningar

Tidigare skapade du ett OpenSearch-kluster. Nu ska du skapa ett index för att lagra katalogdata och inbäddningar. Du kan konfigurera indexinställningarna för att aktivera k-NN-funktionaliteten med följande konfiguration:

index_settings = { "settings": { "index.knn": True, "index.knn.space_type": "cosinesimil" }, "mappings": { "properties": { "embeddings": { "type": "knn_vector", "dimension": 1024 #Make sure this is the size of the embeddings you generated, for RN50, it is 1024 } } }
}

I detta exempel används Python Elasticsearch-klient för att kommunicera med OpenSearch-klustret och skapa ett index för dina data. Du kan springa %pip install elasticsearch i anteckningsboken för att installera biblioteket. Se följande kod:

import boto3
import json
from requests_aws4auth import AWS4Auth
from elasticsearch import Elasticsearch, RequestsHttpConnection def get_es_client(host = "<your-opensearch-service-domain-url>", port = 443, region = "<your-region>", index_name = "clip-index"): credentials = boto3.Session().get_credentials() awsauth = AWS4Auth(credentials.access_key, credentials.secret_key, region, 'es', session_token=credentials.token) headers = {"Content-Type": "application/json"} es = Elasticsearch(hosts=[{'host': host, 'port': port}], http_auth=awsauth, use_ssl=True, verify_certs=True, connection_class=RequestsHttpConnection, timeout=60 # for connection timeout errors ) return es
es = get_es_client()
es.indices.create(index=index_name, body=json.dumps(index_settings))

Ta in bildinbäddningsdata i OpenSearch Service

Du går nu igenom din datauppsättning och matar in objektdata i klustret. Dataintaget för denna praxis bör slutföras inom 60 sekunder. Den kör också en enkel fråga för att verifiera om data har matats in i indexet framgångsrikt. Se följande kod:

# ingest_data_into_es for idx, record in tqdm(dataset.iterrows(), total=len(dataset)): body = record[['item_name_in_en_us']].to_dict() body['embeddings'] = embeddings[idx] es.index(index=index_name, id=record.item_id, doc_type='_doc', body=body) # Check that data is indeed in ES
res = es.search( index=index_name, body={ "query": { "match_all": {} }}, size=2)
assert len(res["hits"]["hits"]) > 0

Utför en fråga i realtid

Nu när du har ett fungerande OpenSearch Service-index som innehåller inbäddningar av objektbilder som vårt lager, låt oss titta på hur du kan generera inbäddning för frågor. Du måste skapa två SageMaker-slutpunkter för att hantera text- respektive bildinbäddningar.

Du skapar också två funktioner för att använda ändpunkterna för att koda bilder och texter. För encode_text funktion, lägger du till this is före ett objektnamn för att översätta ett objekts namn till en mening för objektbeskrivning. memory_size_in_mb är satt till 6 GB för att tjäna understrykningen Transformator och ResNet modeller. Se följande kod:

text_predictor = clip_text_model.deploy( instance_type='ml.c5.xlarge', initial_instance_count=1, serverless_inference_config=ServerlessInferenceConfig(memory_size_in_mb=6144), serializer=JSONSerializer(), deserializer=JSONDeserializer(), wait=True
) image_predictor = clip_image_model.deploy( instance_type='ml.c5.xlarge', initial_instance_count=1, serverless_inference_config=ServerlessInferenceConfig(memory_size_in_mb=6144), serializer=IdentitySerializer(content_type="application/x-image"), deserializer=JSONDeserializer(), wait=True
) def encode_image(file_name="./data/images/0e9420c6.jpg"): with open(file_name, "rb") as f: payload = f.read() payload = bytearray(payload) res = image_predictor.predict(payload) return res[0] def encode_name(item_name): res = text_predictor.predict({"inputs": [f"this is a {item_name}"]}) return res[0]

Du kan först plotta bilden som ska användas.

item_image_path, item_name = get_image_from_item_id(item_id = "B0896LJNLH", return_image=False)
feature_vector = encode_image(file_name=item_image_path)
print(feature_vector.shape)
Image.open(item_image_path)

Låt oss titta på resultaten av en enkel fråga. Efter att ha hämtat resultat från OpenSearch Service får du listan med objektnamn och bilder från dataset:

def search_products(embedding, k = 3): body = { "size": k, "_source": { "exclude": ["embeddings"], }, "query": { "knn": { "embeddings": { "vector": embedding, "k": k, } } }, } res = es.search(index=index_name, body=body) images = [] for hit in res["hits"]["hits"]: id_ = hit["_id"] image, item_name = get_image_from_item_id(id_) image.name_and_score = f'{hit["_score"]}:{item_name}' images.append(image) return images def display_images( images: [PilImage], columns=2, width=20, height=8, max_images=15, label_wrap_length=50, label_font_size=8): if not images: print("No images to display.") return if len(images) > max_images: print(f"Showing {max_images} images of {len(images)}:") images=images[0:max_images] height = max(height, int(len(images)/columns) * height) plt.figure(figsize=(width, height)) for i, image in enumerate(images): plt.subplot(int(len(images) / columns + 1), columns, i + 1) plt.imshow(image) if hasattr(image, 'name_and_score'): plt.title(image.name_and_score, fontsize=label_font_size); images = search_products(feature_vector)

Det första objektet har poängen 1.0, eftersom de två bilderna är desamma. Andra föremål är olika typer av glasögon i OpenSearch Service index.

Du kan också använda text för att fråga indexet:

feature_vector = encode_name("drinkware glass")
images = search_products(feature_vector)
display_images(images)

Du kan nu få tre bilder av vattenglasögon från indexet. Du kan hitta bilderna och texten inom samma latenta utrymme med CLIP-kodaren. Ett annat exempel på detta är att söka efter ordet "pizza" i indexet:

feature_vector = encode_name("pizza")
images = search_products(feature_vector)
display_images(images)

Städa upp

Med en pay-per-use-modell är Serverless Inference ett kostnadseffektivt alternativ för ett sällsynt eller oförutsägbart trafikmönster. Om du har en strikt servicenivåavtal (SLA), eller inte kan tolerera kallstarter, är realtidsslutpunkter ett bättre val. Använder sig av multimodell or multicontainer endpoints tillhandahåller skalbara och kostnadseffektiva lösningar för att distribuera ett stort antal modeller. För mer information, se Amazon SageMaker Prissättning.

Vi föreslår att du tar bort de serverlösa slutpunkterna när de inte längre behövs. När du är klar med den här övningen kan du ta bort resurserna med följande steg (du kan ta bort dessa resurser från AWS Management Console, eller använder AWS SDK eller SageMaker SDK):

Ta bort slutpunkten du skapade.
Om du vill kan du radera de registrerade modellerna.
Om du vill kan du ta bort exekveringsrollen SageMaker.
Om du vill kan du tömma och ta bort S3-hinken.

Sammanfattning

I det här inlägget demonstrerade vi hur man skapar en k-NN-sökapplikation med SageMaker och OpenSearch Service k-NN-indexfunktioner. Vi använde en förtränad CLIP-modell från dess OpenAI genomförande.

OpenSearch Service-implementeringen av inlägget används endast för prototypframställning. Om du vill mata in data från Amazon S3 till OpenSearch Service i stor skala kan du starta en Amazon SageMaker-bearbetningsjobb med lämplig instanstyp och instansantal. För en annan skalbar inbäddningslösning, se Novartis AG använder Amazon OpenSearch Service K-Nearest Neighbor (KNN) och Amazon SageMaker för att driva sökning och rekommendationer (del 3/4).

CLIP ger nollskott kapacitet, vilket gör det möjligt att använda en förtränad modell direkt utan att använda överför lärande att finjustera en modell. Detta förenklar tillämpningen av CLIP-modellen. Om du har ett par produktbilder och beskrivande text kan du finjustera modellen med dina egna data med hjälp av överföringsinlärning för att ytterligare förbättra modellens prestanda. För mer information, se Lär dig överförbara visuella modeller från övervakning av naturligt språk och CLIP GitHub repositorium.

Om författarna

Kevin Du är en Senior Data Lab Architect på AWS, dedikerad till att hjälpa kunder att påskynda utvecklingen av deras Machine Learning (ML)-produkter och MLOps-plattformar. Med mer än ett decenniums erfarenhet av att bygga ML-aktiverade produkter för både nystartade företag och företag, är hans fokus på att hjälpa kunder att effektivisera produktionsaliseringen av sina ML-lösningar. På fritiden tycker Kevin om att laga mat och titta på basket.

Ananya Roy är en Senior Data Lab-arkitekt specialiserad på AI och maskininlärning baserad från Sydney Australien. Hon har arbetat med en mängd olika kunder för att ge arkitektonisk vägledning och hjälpa dem att leverera effektiv AI/ML-lösning via datalabbets engagemang. Före AWS arbetade hon som senior dataforskare och arbetade med storskaliga ML-modeller inom olika branscher som telekom, banker och fintech. Hennes erfarenhet av AI/ML har gjort det möjligt för henne att leverera effektiva lösningar för komplexa affärsproblem, och hon brinner för att utnyttja banbrytande teknik för att hjälpa team att nå sina mål.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/implement-unified-text-and-image-search-with-a-clip-model-using-amazon-sagemaker-and-amazon-opensearch-service/

Tidsstämpel: 5 april 2023

Tidsstämpel: Maj 26, 2023

Överför inlärning för TensorFlow-objektdetekteringsmodeller i Amazon SageMaker

Källkluster:

AWS maskininlärning

Källnod: 1736165

Tidsstämpel: November 4, 2022

Implementera enhetlig text- och bildsökning med en CLIP-modell med Amazon SageMaker och Amazon OpenSearch Service

Återutgiven av Platon

Lösningsöversikt

Konfigurera lösningsresurser

Koda bilder och textpar till inbäddningar

Dataöversikt och förberedelse

Modellberedning

Batchomvandling för att koda objektbilder till inbäddningar

Skapa en ML-driven enhetlig sökmotor

Konfigurera OpenSearch Service-domänen med k-NN-inställningar

Ta in bildinbäddningsdata i OpenSearch Service

Utför en fråga i realtid

Städa upp

Sammanfattning

Om författarna

Mer från AWS maskininlärning

Använd Amazon Lex för att fånga gatuadresser

Whitepaper: Best Practices för maskininlärning inom hälsovård och biovetenskap

AWS Localization använder Amazon Translate för att skala lokalisering

Skapa, träna och distribuera en språkmodell med miljarder parametrar på terabyte data med TensorFlow och Amazon SageMaker

Överför inlärning för TensorFlow-objektdetekteringsmodeller i Amazon SageMaker

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto