Implementer Unified Tekst- og Billedsøgning med en CLIP-model ved hjælp af Amazon SageMaker og Amazon OpenSearch Service

Genudgivet af Platon

Abonnenter: 0

Fremkomsten af tekst og semantisk søgning motorer har gjort e-handel og detailvirksomheder nemmere at søge for sine forbrugere. Søgemaskiner drevet af samlet tekst og billede kan give ekstra fleksibilitet i søgeløsninger. Du kan bruge både tekst og billeder som forespørgsler. For eksempel har du en mappe med hundredvis af familiebilleder på din bærbare computer. Du vil hurtigt finde et billede, der blev taget, da du og din bedste ven var foran dit gamle huss swimmingpool. Du kan bruge samtalesprog som "to personer står foran en swimmingpool" som en forespørgsel for at søge i en samlet tekst- og billedsøgemaskine. Du behøver ikke at have de rigtige søgeord i billedtitler for at udføre forespørgslen.

Amazon OpenSearch Service støtter nu cosinus lighed metrisk for k-NN-indekser. Cosinus lighed måler cosinus af vinklen mellem to vektorer, hvor en mindre cosinus vinkel angiver en højere lighed mellem vektorerne. Med cosinus-lighed kan du måle orienteringen mellem to vektorer, hvilket gør det til et godt valg til nogle specifikke semantiske søgeapplikationer.

Contrastive Language-Image Pre-Training (CLIP) er et neuralt netværk trænet på en række forskellige billed- og tekstpar. CLIP neurale netværk er i stand til at projicere både billeder og tekst ind i det samme latent rum, hvilket betyder, at de kan sammenlignes ved hjælp af et lighedsmål, såsom cosinus-lighed. Du kan bruge CLIP til encode dine produkters billeder eller beskrivelse ind indlejringer, og gem dem derefter i et OpenSearch Service k-NN-indeks. Så kan dine kunder forespørge i indekset for at hente produkter, som de er interesserede i.

Du kan bruge CLIP med Amazon SageMaker at udføre kodning. Amazon SageMaker Serverless Inference er en specialbygget inferenstjeneste, der gør det nemt at implementere og skalere maskinlæringsmodeller (ML). Med SageMaker kan du implementere serverløs til dev og test og derefter flytte til inferens i realtid når du går til produktion. SageMaker serverless hjælper dig med at spare omkostninger ved at nedskalere infrastrukturen til 0 i inaktive tider. Dette er perfekt til at bygge en POC, hvor du vil have lange tomgangstider mellem udviklingscyklusser. Du kan også bruge Amazon SageMaker batch transformation at få slutninger fra store datasæt.

I dette indlæg demonstrerer vi, hvordan man bygger en søgeapplikation ved hjælp af CLIP med SageMaker og OpenSearch Service. Koden er open source, og den hostes på GitHub.

Løsningsoversigt

OpenSearch Service giver tekstmatchning og indlejring af k-NN-søgning. Vi bruger indlejring af k-NN-søgning i denne løsning. Du kan bruge både billede og tekst som en forespørgsel til at søge efter varer fra beholdningen. Implementering af denne forenede billed- og tekstsøgningsapplikation består af to faser:

k-NN referenceindeks – I denne fase sender du et sæt korpusdokumenter eller produktbilleder gennem en CLIP-model for at kode dem til indlejringer. Tekst- og billedindlejringer er numeriske repræsentationer af henholdsvis korpus eller billeder. Du gemmer disse indlejringer i et k-NN-indeks i OpenSearch Service. Konceptet bag k-NN er, at lignende datapunkter findes i umiddelbar nærhed i indlejringsrummet. Som et eksempel er teksten "en rød blomst", teksten "rose" og et billede af rød rose ens, så disse tekst- og billedindlejringer er tæt på hinanden i indlejringsrummet.
k-NN indeksforespørgsel – Dette er slutningsfasen af ansøgningen. I denne fase indsender du en tekstsøgeforespørgsel eller billedsøgning gennem deep learning-modellen (CLIP) for at kode som indlejringer. Derefter bruger du disse indlejringer til at forespørge på reference-k-NN-indekset, der er gemt i OpenSearch Service. k-NN-indekset returnerer lignende indlejringer fra indlejringsområdet. Hvis du f.eks. sender teksten "en rød blomst", vil det returnere indlejringerne af et billede af en rød rose som et lignende element.

Følgende figur illustrerer løsningsarkitekturen.

Workflow-trinene er som følger:

Opret en SageMaker model fra en fortrænet CLIP-model til batch- og realtidsslutning.
Generer indlejringer af produktbilleder ved hjælp af et SageMaker batch-transformationsjob.
Brug SageMaker Serverless Inference til at indkode forespørgselsbilleder og tekst til indlejringer i realtid.
Brug Amazon Simple Storage Service (Amazon S3) til at gemme den rå tekst (produktbeskrivelse) og billeder (produktbilleder) og billedindlejring genereret af SageMaker batch-transformationsjob.
Brug OpenSearch Service som søgemaskine til at gemme indlejringer og finde lignende indlejringer.
Brug en forespørgselsfunktion til at orkestrere indkodning af forespørgslen og udfør en k-NN-søgning.

Vi anvender Amazon SageMaker Studio notesbøger (ikke vist i diagrammet) som det integrerede udviklingsmiljø (IDE) til at udvikle løsningen.

Opsæt løsningsressourcer

For at konfigurere løsningen skal du udføre følgende trin:

Opret et SageMaker-domæne og en brugerprofil. For instruktioner henvises til trin 5 af Ombord på Amazon SageMaker Domain ved hjælp af hurtig opsætning.
Opret et OpenSearch Service-domæne. For instruktioner, se Oprettelse og administration af Amazon OpenSearch Service-domæner.

Du kan også bruge en AWS CloudFormation skabelon ved at følge GitHub instruktionerne at oprette et domæne.

Du kan forbinde Studio til Amazon S3 fra Amazon Virtual Private Cloud (Amazon VPC) ved hjælp af en grænsefladeslutpunkt i din VPC, i stedet for at oprette forbindelse over internettet. Ved at bruge et interface-VPC-endepunkt (interface-endepunkt), foregår kommunikationen mellem din VPC og Studio fuldstændigt og sikkert inden for AWS-netværket. Din Studio notesbog kan oprette forbindelse til OpenSearch Service over en privat VPC for at sikre sikker kommunikation.

OpenSearch Service-domæner tilbyder kryptering af data i hvile, som er en sikkerhedsfunktion, der hjælper med at forhindre uautoriseret adgang til dine data. Node-til-node-kryptering giver et ekstra lag af sikkerhed oven i standardfunktionerne i OpenSearch Service. Amazon S3 anvender automatisk serverside-kryptering (SSE-S3) for hvert nyt objekt, medmindre du angiver en anden krypteringsindstilling.

I OpenSearch Service-domænet kan du vedhæfte identitetsbaserede politikker, der definerer, hvem der kan få adgang til en tjeneste, hvilke handlinger de kan udføre, og hvis det er relevant, hvilke ressourcer de kan udføre disse handlinger på.

Indkod billeder og tekstpar til indlejringer

Dette afsnit diskuterer, hvordan man koder billeder og tekst til indlejringer. Dette omfatter forberedelse af data, oprettelse af en SageMaker-model og udførelse af batchtransformation ved hjælp af modellen.

Dataoverblik og forberedelse

Du kan bruge en SageMaker Studio notesbog med en Python 3 (Data Science) kerne til at køre eksempelkoden.

Til dette indlæg bruger vi Amazon Berkeley Objects Dataset. Datasættet er en samling af 147,702 produktlister med flersprogede metadata og 398,212 unikke katalogbilleder. Vi bruger kun varebillederne og varenavnene på amerikansk engelsk. Til demoformål bruger vi cirka 1,600 produkter. For flere detaljer om dette datasæt, se README. Datasættet er hostet i en offentlig S3-bøtte. Der er 16 filer, der inkluderer produktbeskrivelse og metadata for Amazon-produkter i formatet listings/metadata/listings_<i>.json.gz. Vi bruger den første metadatafil i denne demo.

Du bruger pandaer for at indlæse metadataene, vælg derefter produkter, der har amerikansk engelske titler fra datarammen. Pandas er et open source-dataanalyse- og manipulationsværktøj bygget oven på Python-programmeringssproget. Du bruger en attribut kaldet main_image_id at identificere et billede. Se følgende kode:

meta = pd.read_json("s3://amazon-berkeley-objects/listings/metadata/listings_0.json.gz", lines=True)
def func_(x): us_texts = [item["value"] for item in x if item["language_tag"] == "en_US"] return us_texts[0] if us_texts else None meta = meta.assign(item_name_in_en_us=meta.item_name.apply(func_))
meta = meta[~meta.item_name_in_en_us.isna()][["item_id", "item_name_in_en_us", "main_image_id"]]
print(f"#products with US English title: {len(meta)}")
meta.head()

Der er 1,639 produkter i datarammen. Forbind derefter varenavnene med de tilsvarende varebilleder. images/metadata/images.csv.gz indeholder billedmetadata. Denne fil er en gzip-komprimeret CSV-fil med følgende kolonner: image_id, height, widthog path. Du kan læse metadatafilen og derefter flette den med elementmetadata. Se følgende kode:

image_meta = pd.read_csv("s3://amazon-berkeley-objects/images/metadata/images.csv.gz")
dataset = meta.merge(image_meta, left_on="main_image_id", right_on="image_id")
dataset.head()

Du kan bruge den indbyggede SageMaker Studio-notebook Python 3-kerne PIL bibliotek for at se et eksempelbillede fra datasættet:

from sagemaker.s3 import S3Downloader as s3down
from pathlib import Path
from PIL import Image def get_image_from_item_id(item_id = "B0896LJNLH", return_image=True): s3_data_root = "s3://amazon-berkeley-objects/images/small/" item_idx = dataset.query(f"item_id == '{item_id}'").index[0] s3_path = dataset.iloc[item_idx].path local_data_root = f'./data/images' local_file_name = Path(s3_path).name s3down.download(f'{s3_data_root}{s3_path}', local_data_root) local_image_path = f"{local_data_root}/{local_file_name}" if return_image: img = Image.open(local_image_path) return img, dataset.iloc[item_idx].item_name_in_en_us else: return local_image_path, dataset.iloc[item_idx].item_name_in_en_us
image, item_name = get_image_from_item_id()
print(item_name)
image

Udarbejdelse af model

Opret derefter en SageMaker model fra en fortrænet CLIP-model. Det første trin er at downloade den forudtrænede modelvægtningsfil, lægge den ind i en model.tar.gz fil, og upload den til en S3-bøtte. Stien til den fortrænede model kan findes i CLIP repo. Vi bruger en fortrænet ResNet-50 (RN50) model i denne demo. Se følgende kode:

%%writefile build_model_tar.sh
#!/bin/bash MODEL_NAME=RN50.pt
MODEL_NAME_URL=https://openaipublic.azureedge.net/clip/models/afeb0e10f9e5a86da6080e35cf09123aca3b358a0c3e3b6c78a7b63bc04b6762/RN50.pt BUILD_ROOT=/tmp/model_path
S3_PATH=s3://<your-bucket>/<your-prefix-for-model>/model.tar.gz rm -rf $BUILD_ROOT
mkdir $BUILD_ROOT
cd $BUILD_ROOT && curl -o $BUILD_ROOT/$MODEL_NAME $MODEL_NAME_URL
cd $BUILD_ROOT && tar -czvf model.tar.gz .
aws s3 cp $BUILD_ROOT/model.tar.gz $S3_PATH
!bash build_model_tar.sh

Du skal derefter angive et script for inferensindgangspunkt for CLIP-modellen. CLIP implementeres vha PyTorch, så du bruger SageMaker PyTorch rammer. PyTorch er en open source ML-ramme, der accelererer vejen fra forskningsprototyping til produktionsimplementering. For information om implementering af en PyTorch-model med SageMaker, se Implementer PyTorch-modeller. Inferenskoden accepterer to miljøvariabler: MODEL_NAME , ENCODE_TYPE. Dette hjælper os med at skifte mellem forskellige CLIP-modeller nemt. Vi bruger ENCODE_TYPE for at angive, om vi ønsker at kode et billede eller et stykke tekst. Her implementerer du model_fn, input_fn, predict_fnog output_fn funktioner til at tilsidesætte standard PyTorch-inferenshåndtering. Se følgende kode:

!mkdir -p code
%%writefile code/clip_inference.py import io
import torch
import clip
from PIL import Image
import json
import logging
import sys
import os import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision.transforms import ToTensor logger = logging.getLogger(__name__)
logger.setLevel(logging.DEBUG)
logger.addHandler(logging.StreamHandler(sys.stdout)) MODEL_NAME = os.environ.get("MODEL_NAME", "RN50.pt")
# ENCODE_TYPE could be IMAGE or TEXT
ENCODE_TYPE = os.environ.get("ENCODE_TYPE", "TEXT") device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # defining model and loading weights to it.
def model_fn(model_dir): model, preprocess = clip.load(os.path.join(model_dir, MODEL_NAME), device=device) return {"model_obj": model, "preprocess_fn": preprocess} def load_from_bytearray(request_body): return image # data loading
def input_fn(request_body, request_content_type): assert request_content_type in ( "application/json", "application/x-image", ), f"{request_content_type} is an unknown type." if request_content_type == "application/json": data = json.loads(request_body)["inputs"] elif request_content_type == "application/x-image": image_as_bytes = io.BytesIO(request_body) data = Image.open(image_as_bytes) return data # inference
def predict_fn(input_object, model): model_obj = model["model_obj"] # for image preprocessing preprocess_fn = model["preprocess_fn"] assert ENCODE_TYPE in ("TEXT", "IMAGE"), f"{ENCODE_TYPE} is an unknown encode type." # preprocessing if ENCODE_TYPE == "TEXT": input_ = clip.tokenize(input_object).to(device) elif ENCODE_TYPE == "IMAGE": input_ = preprocess_fn(input_object).unsqueeze(0).to(device) # inference with torch.no_grad(): if ENCODE_TYPE == "TEXT": prediction = model_obj.encode_text(input_) elif ENCODE_TYPE == "IMAGE": prediction = model_obj.encode_image(input_) return prediction # Serialize the prediction result into the desired response content type
def output_fn(predictions, content_type): assert content_type == "application/json" res = predictions.cpu().numpy().tolist()
return json.dumps(res)

Løsningen kræver yderligere Python-pakker under modelslutning, så du kan levere en requirements.txt fil for at tillade SageMaker at installere yderligere pakker, når de hoster modeller:

%%writefile code/requirements.txt
ftfy
regex
tqdm
git+https://github.com/openai/CLIP.git

Du bruger PyTorchModel klasse at oprette et objekt, der indeholder oplysningerne om modelartefakternes Amazon S3-placering og detaljerne om inferensindgangspunktet. Du kan bruge objektet til at oprette batch-transformationsjob eller implementere modellen til et slutpunkt til onlineslutning. Se følgende kode:

from sagemaker.pytorch import PyTorchModel
from sagemaker import get_execution_role, Session role = get_execution_role()
shared_params = dict( entry_point="clip_inference.py", source_dir="code", role=role, model_data="s3://<your-bucket>/<your-prefix-for-model>/model.tar.gz", framework_version="1.9.0", py_version="py38",
) clip_image_model = PyTorchModel( env={'MODEL_NAME': 'RN50.pt', "ENCODE_TYPE": "IMAGE"}, name="clip-image-model", **shared_params
) clip_text_model = PyTorchModel( env={'MODEL_NAME': 'RN50.pt', "ENCODE_TYPE": "TEXT"}, name="clip-text-model", **shared_params
)

Batchtransformation for at kode varebilleder til indlejringer

Dernæst bruger vi CLIP-modellen til at kode varebilleder til indlejringer og bruger SageMaker batchtransformation til at køre batch-inferens.

Før du opretter jobbet, skal du bruge følgende kodestykke til at kopiere varebilleder fra Amazon Berkeley Objects Dataset offentlige S3-bøtte til din egen bøtte. Operationen tager mindre end 10 minutter.

from multiprocessing.pool import ThreadPool
import boto3
from tqdm import tqdm
from urllib.parse import urlparse s3_sample_image_root = "s3://<your-bucket>/<your-prefix-for-sample-images>"
s3_data_root = "s3://amazon-berkeley-objects/images/small/" client = boto3.client('s3') def upload_(args): client.copy_object(CopySource=args["source"], Bucket=args["target_bucket"], Key=args["target_key"]) arugments = []
for idx, record in dataset.iterrows(): argument = {} argument["source"] = (s3_data_root + record.path)[5:] argument["target_bucket"] = urlparse(s3_sample_image_root).netloc argument["target_key"] = urlparse(s3_sample_image_root).path[1:] + record.path arugments.append(argument) with ThreadPool(4) as p: r = list(tqdm(p.imap(upload_, arugments), total=len(dataset)))

Dernæst udfører du inferens på varebillederne på en batch-måde. SageMaker batch-transformationsjobbet bruger CLIP-modellen til at kode alle billeder, der er gemt i Amazon S3-indgangen, og uploader output-indlejringer til en output-S3-mappe. Jobbet tager omkring 10 minutter.

batch_input = s3_sample_image_root + "/"
output_path = f"s3://<your-bucket>/inference/output" clip_image_transformer = clip_image_model.transformer( instance_count=1, instance_type="ml.c5.xlarge", strategy="SingleRecord", output_path=output_path,
) clip_image_transformer.transform( batch_input, data_type="S3Prefix", content_type="application/x-image", wait=True,
)

Indlæs indlejringer fra Amazon S3 til en variabel, så du kan indlæse dataene i OpenSearch Service senere:

embedding_root_path = "./data/embedding"
s3down.download(output_path, embedding_root_path) embeddings = []
for idx, record in dataset.iterrows(): embedding_file = f"{embedding_root_path}/{record.path}.out" embeddings.append(json.load(open(embedding_file))[0])

Opret en ML-drevet samlet søgemaskine

Dette afsnit diskuterer, hvordan man opretter en søgemaskine, der bruger k-NN-søgning med indlejringer. Dette omfatter konfiguration af en OpenSearch Service-klynge, indlæsning af elementindlejring og udførelse af fritekst- og billedsøgningsforespørgsler.

Konfigurer OpenSearch Service-domænet ved hjælp af k-NN-indstillinger

Tidligere oprettede du en OpenSearch-klynge. Nu skal du oprette et indeks til at gemme katalogdata og indlejringer. Du kan konfigurere indeksindstillingerne for at aktivere k-NN-funktionaliteten ved hjælp af følgende konfiguration:

index_settings = { "settings": { "index.knn": True, "index.knn.space_type": "cosinesimil" }, "mappings": { "properties": { "embeddings": { "type": "knn_vector", "dimension": 1024 #Make sure this is the size of the embeddings you generated, for RN50, it is 1024 } } }
}

Dette eksempel bruger Python Elasticsearch-klient at kommunikere med OpenSearch-klyngen og oprette et indeks til at hoste dine data. Du kan løbe %pip install elasticsearch i notesbogen for at installere biblioteket. Se følgende kode:

import boto3
import json
from requests_aws4auth import AWS4Auth
from elasticsearch import Elasticsearch, RequestsHttpConnection def get_es_client(host = "<your-opensearch-service-domain-url>", port = 443, region = "<your-region>", index_name = "clip-index"): credentials = boto3.Session().get_credentials() awsauth = AWS4Auth(credentials.access_key, credentials.secret_key, region, 'es', session_token=credentials.token) headers = {"Content-Type": "application/json"} es = Elasticsearch(hosts=[{'host': host, 'port': port}], http_auth=awsauth, use_ssl=True, verify_certs=True, connection_class=RequestsHttpConnection, timeout=60 # for connection timeout errors ) return es
es = get_es_client()
es.indices.create(index=index_name, body=json.dumps(index_settings))

Indtag billedindlejringsdata i OpenSearch Service

Du går nu gennem dit datasæt og indtager elementdata i klyngen. Dataindtagelsen for denne praksis bør afsluttes inden for 60 sekunder. Den kører også en simpel forespørgsel for at kontrollere, om dataene er blevet indlæst i indekset. Se følgende kode:

# ingest_data_into_es for idx, record in tqdm(dataset.iterrows(), total=len(dataset)): body = record[['item_name_in_en_us']].to_dict() body['embeddings'] = embeddings[idx] es.index(index=index_name, id=record.item_id, doc_type='_doc', body=body) # Check that data is indeed in ES
res = es.search( index=index_name, body={ "query": { "match_all": {} }}, size=2)
assert len(res["hits"]["hits"]) > 0

Udfør en forespørgsel i realtid

Nu hvor du har et fungerende OpenSearch Service-indeks, der indeholder indlejringer af varebilleder som vores beholdning, lad os se på, hvordan du kan generere indlejring til forespørgsler. Du skal oprette to SageMaker-slutpunkter for at håndtere henholdsvis tekst- og billedindlejringer.

Du opretter også to funktioner til at bruge slutpunkterne til at kode billeder og tekster. For encode_text funktion, tilføjer du this is før et varenavn for at oversætte et varenavn til en sætning til varebeskrivelse. memory_size_in_mb er indstillet til 6 GB for at tjene understregningen Transformer , ResNet modeller. Se følgende kode:

text_predictor = clip_text_model.deploy( instance_type='ml.c5.xlarge', initial_instance_count=1, serverless_inference_config=ServerlessInferenceConfig(memory_size_in_mb=6144), serializer=JSONSerializer(), deserializer=JSONDeserializer(), wait=True
) image_predictor = clip_image_model.deploy( instance_type='ml.c5.xlarge', initial_instance_count=1, serverless_inference_config=ServerlessInferenceConfig(memory_size_in_mb=6144), serializer=IdentitySerializer(content_type="application/x-image"), deserializer=JSONDeserializer(), wait=True
) def encode_image(file_name="./data/images/0e9420c6.jpg"): with open(file_name, "rb") as f: payload = f.read() payload = bytearray(payload) res = image_predictor.predict(payload) return res[0] def encode_name(item_name): res = text_predictor.predict({"inputs": [f"this is a {item_name}"]}) return res[0]

Du kan først plotte det billede, der skal bruges.

item_image_path, item_name = get_image_from_item_id(item_id = "B0896LJNLH", return_image=False)
feature_vector = encode_image(file_name=item_image_path)
print(feature_vector.shape)
Image.open(item_image_path)

Lad os se på resultaterne af en simpel forespørgsel. Efter at have hentet resultater fra OpenSearch Service, får du listen over emnenavne og billeder fra dataset:

def search_products(embedding, k = 3): body = { "size": k, "_source": { "exclude": ["embeddings"], }, "query": { "knn": { "embeddings": { "vector": embedding, "k": k, } } }, } res = es.search(index=index_name, body=body) images = [] for hit in res["hits"]["hits"]: id_ = hit["_id"] image, item_name = get_image_from_item_id(id_) image.name_and_score = f'{hit["_score"]}:{item_name}' images.append(image) return images def display_images( images: [PilImage], columns=2, width=20, height=8, max_images=15, label_wrap_length=50, label_font_size=8): if not images: print("No images to display.") return if len(images) > max_images: print(f"Showing {max_images} images of {len(images)}:") images=images[0:max_images] height = max(height, int(len(images)/columns) * height) plt.figure(figsize=(width, height)) for i, image in enumerate(images): plt.subplot(int(len(images) / columns + 1), columns, i + 1) plt.imshow(image) if hasattr(image, 'name_and_score'): plt.title(image.name_and_score, fontsize=label_font_size); images = search_products(feature_vector)

Det første punkt har en score på 1.0, fordi de to billeder er ens. Andre elementer er forskellige typer briller i OpenSearch Service-indekset.

Du kan også bruge tekst til at forespørge på indekset:

feature_vector = encode_name("drinkware glass")
images = search_products(feature_vector)
display_images(images)

Du kan nu få tre billeder af vandglas fra indekset. Du kan finde billederne og teksten inden for det samme latente rum med CLIP-koderen. Et andet eksempel på dette er at søge efter ordet "pizza" i indekset:

feature_vector = encode_name("pizza")
images = search_products(feature_vector)
display_images(images)

Ryd op

Med en betal-per-brug-model er Serverless Inference en omkostningseffektiv mulighed for et sjældent eller uforudsigeligt trafikmønster. Hvis du har en streng serviceniveauaftale (SLA), eller ikke kan tolerere koldstart, er realtidsslutpunkter et bedre valg. Ved brug af multi-model or multicontainer endepunkter giver skalerbare og omkostningseffektive løsninger til implementering af et stort antal modeller. For mere information, se Amazon SageMaker-priser.

Vi foreslår at slette de serverløse endepunkter, når de ikke længere er nødvendige. Når du har afsluttet denne øvelse, kan du fjerne ressourcerne med følgende trin (du kan slette disse ressourcer fra AWS Management Console, eller ved at bruge AWS SDK eller SageMaker SDK):

Slet det endepunkt, du oprettede.
Slet eventuelt de registrerede modeller.
Slet eventuelt SageMaker-udførelsesrollen.
Tøm og slet eventuelt S3-spanden.

Resumé

I dette indlæg demonstrerede vi, hvordan man opretter en k-NN søgeapplikation ved hjælp af SageMaker og OpenSearch Service k-NN indeksfunktioner. Vi brugte en fortrænet CLIP-model fra dens OpenAI implementering.

OpenSearch Service-implementeringen af indlægget bruges kun til prototyping. Hvis du vil indtage data fra Amazon S3 til OpenSearch Service i stor skala, kan du starte en Amazon SageMaker Processing job med den relevante instanstype og instansantal. For en anden skalerbar indlejringsopløsning, se Novartis AG bruger Amazon OpenSearch Service K-Nearest Neighbor (KNN) og Amazon SageMaker til at drive søgning og anbefaling (del 3/4).

CLIP giver nul-skud kapaciteter, som gør det muligt at adoptere en præ-trænet model direkte uden brug overføre læring at finjustere en model. Dette forenkler anvendelsen af CLIP-modellen. Hvis du har par produktbilleder og beskrivende tekst, kan du finjustere modellen med dine egne data ved hjælp af transfer learning for yderligere at forbedre modellens ydeevne. For mere information, se Lære overførbare visuelle modeller fra naturligt sprogovervågning og CLIP GitHub repositorium.

Om forfatterne

Kevin Du er en Senior Data Lab Architect hos AWS, dedikeret til at hjælpe kunder med at fremskynde udviklingen af deres Machine Learning (ML) produkter og MLOps platforme. Med mere end ti års erfaring med at bygge ML-aktiverede produkter til både startups og virksomheder, er hans fokus på at hjælpe kunder med at strømline produktionsaliseringen af deres ML-løsninger. I sin fritid nyder Kevin at lave mad og se basketball.

Ananya Roy er en Senior Data Lab-arkitekt med speciale i kunstig intelligens og maskinlæring baseret fra Sydney Australien. Hun har arbejdet med forskellige kunder for at give arkitektonisk vejledning og hjælpe dem med at levere en effektiv AI/ML-løsning via datalab-engagement. Før AWS arbejdede hun som senior dataforsker og beskæftigede sig med ML-modeller i stor skala på tværs af forskellige industrier som teleselskaber, banker og fintech. Hendes erfaring inden for AI/ML har gjort det muligt for hende at levere effektive løsninger til komplekse forretningsproblemer, og hun brænder for at udnytte banebrydende teknologier til at hjælpe teams med at nå deres mål.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/implement-unified-text-and-image-search-with-a-clip-model-using-amazon-sagemaker-and-amazon-opensearch-service/

Tidsstempel: April 5, 2023

Tidsstempel: Maj 26, 2023

Overfør læring til TensorFlow objektdetektionsmodeller i Amazon SageMaker

Kildeklynge:

AWS maskinindlæring

Kildeknude: 1736165

Tidsstempel: November 4, 2022

Implementer samlet tekst- og billedsøgning med en CLIP-model ved hjælp af Amazon SageMaker og Amazon OpenSearch Service

Genudgivet af Platon

Løsningsoversigt

Opsæt løsningsressourcer

Indkod billeder og tekstpar til indlejringer

Dataoverblik og forberedelse

Udarbejdelse af model

Batchtransformation for at kode varebilleder til indlejringer

Opret en ML-drevet samlet søgemaskine

Konfigurer OpenSearch Service-domænet ved hjælp af k-NN-indstillinger

Indtag billedindlejringsdata i OpenSearch Service

Udfør en forespørgsel i realtid

Ryd op

Resumé

Om forfatterne

Mere fra AWS maskinindlæring

Brug Amazon Lex til at fange vejadresser

Whitepaper: Best Practices for Machine Learning i sundhedspleje og biovidenskab

AWS Localization bruger Amazon Translate til at skalere lokalisering

Opret, træne og implementer en milliard-parameter sprogmodel på terabyte data med TensorFlow og Amazon SageMaker

Overfør læring til TensorFlow objektdetektionsmodeller i Amazon SageMaker

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto