Zgradite kontekstni iskalnik besedil in slik za priporočila izdelkov z uporabo Amazon Bedrock in Amazon OpenSearch Serverless

Ponovno objavil Platon

Spremljevalci: 0

Vzpon kontekstualnega in semantičnega iskanja je e-trgovini in maloprodajnim podjetjem omogočil preprosto iskanje za svoje potrošnike. Iskalniki in sistemi priporočil, ki jih poganja generativni AI, lahko eksponentno izboljšajo izkušnjo iskanja izdelkov z razumevanjem poizvedb v naravnem jeziku in vračanjem natančnejših rezultatov. To izboljša splošno uporabniško izkušnjo in strankam pomaga najti točno tisto, kar iščejo.

Storitev Amazon OpenSearch zdaj podpira kosinusna podobnost metrika za k-NN indekse. Kosinusna podobnost meri kosinus kota med dvema vektorjema, pri čemer manjši kosinusni kot pomeni večjo podobnost med vektorjema. S kosinusno podobnostjo lahko merite orientacijo med dvema vektorjema, zaradi česar je dobra izbira za nekatere posebne semantične iskalne aplikacije.

V tej objavi pokažemo, kako zgraditi kontekstualni iskalnik besedila in slik za priporočila izdelkov z uporabo Model Amazon Titan Multimodal Embeddings, na voljo v Amazon Bedrocks Amazon OpenSearch brez strežnika.

Model večmodalnih vdelav je zasnovan za učenje skupnih predstavitev različnih modalitet, kot so besedilo, slike in zvok. Z usposabljanjem na obsežnih zbirkah podatkov, ki vsebujejo slike in njihove ustrezne napise, se model multimodalnih vdelav nauči vdelati slike in besedila v skupni latentni prostor. Sledi pregled na visoki ravni, kako konceptualno deluje:

Ločeni kodirniki – Ti modeli imajo ločene kodirnike za vsako modalnost – kodirnik besedila za besedilo (na primer BERT ali RoBERTa), kodirnik slik za slike (na primer CNN za slike) in kodirniki zvoka za zvok (na primer modeli, kot je Wav2Vec) . Vsak kodirnik generira vdelave, ki zajemajo semantične značilnosti svojih ustreznih modalitet
Fuzija modalnosti – Vdelave iz uni-modalnih kodirnikov so združene z uporabo dodatnih slojev nevronske mreže. Cilj je spoznati interakcije in korelacije med modalitetami. Pogosti fuzijski pristopi vključujejo veriženje, operacije po elementih, združevanje in mehanizme pozornosti.
Skupni reprezentančni prostor – Fuzijske plasti pomagajo projicirati posamezne modalitete v skupen prostor za predstavitev. Z usposabljanjem na multimodalnih nizih podatkov se model nauči skupnega prostora za vdelavo, kjer so vdelave iz vsake modalnosti, ki predstavljajo isto osnovno semantično vsebino, bližje skupaj.
Naslednje naloge – Ustvarjene skupne večmodalne vdelave je mogoče nato uporabiti za različne naloge na koncu toka, kot je večmodalno iskanje, klasifikacija ali prevajanje. Model uporablja korelacije med modalitetami za izboljšanje učinkovitosti teh nalog v primerjavi s posameznimi modalnimi vdelavami. Ključna prednost je zmožnost razumevanja interakcij in semantike med modalitetami, kot so besedilo, slike in zvok, prek skupnega modeliranja.

Pregled rešitev

Rešitev zagotavlja izvedbo za izgradnjo prototipa iskalnika, ki temelji na velikem jezikovnem modelu (LLM), za pridobivanje in priporočanje izdelkov na podlagi besedilnih ali slikovnih poizvedb. Podrobno opisujemo korake za uporabo an Multimodalne vgradnje Amazon Titan model za kodiranje slik in besedila v vdelave, vnos vdelav v indeks storitve OpenSearch in poizvedovanje po indeksu z uporabo storitve OpenSearch funkcionalnost k-najbližjih sosedov (k-NN)..

Ta rešitev vključuje naslednje komponente:

Model Amazon Titan Multimodal Embeddings – Ta osnovni model (FM) ustvarja vdelave slik izdelkov, uporabljenih v tej objavi. Z Amazon Titan Multimodal Embeddings lahko ustvarite vdelave za svojo vsebino in jih shranite v vektorsko bazo podatkov. Ko končni uporabnik odda katero koli kombinacijo besedila in slike kot iskalno poizvedbo, model ustvari vdelave za iskalno poizvedbo in jih poveže s shranjenimi vdelavami, da končnim uporabnikom zagotovi ustrezne rezultate iskanja in priporočil. Model lahko dodatno prilagodite, da izboljšate njegovo razumevanje vaše edinstvene vsebine in zagotovite bolj smiselne rezultate z uporabo parov slika-besedilo za natančno nastavitev. Model privzeto generira vektorje (vdelave) 1,024 dimenzij in je dostopen prek Amazon Bedrock. Ustvarite lahko tudi manjše dimenzije za optimizacijo hitrosti in zmogljivosti
Amazon OpenSearch brez strežnika – Je konfiguracija brez strežnika na zahtevo za storitev OpenSearch. Amazon OpenSearch Serverless uporabljamo kot vektorsko bazo podatkov za shranjevanje vdelav, ustvarjenih z modelom Amazon Titan Multimodal Embeddings. Indeks, ustvarjen v zbirki Amazon OpenSearch Serverless, služi kot vektorska shramba za našo rešitev RAG (Retrieval Augmented Generation).
Amazon SageMaker Studio – Je integrirano razvojno okolje (IDE) za strojno učenje (ML). Strokovnjaki ML lahko izvajajo vse razvojne korake ML – od priprave vaših podatkov do gradnje, usposabljanja in uvajanja modelov ML.

Zasnova rešitve je sestavljena iz dveh delov: indeksiranja podatkov in kontekstualnega iskanja. Med indeksiranjem podatkov obdelujete slike izdelka, da ustvarite vdelave za te slike in nato napolnite shrambo vektorskih podatkov. Ti koraki so dokončani pred koraki interakcije uporabnika.

V fazi kontekstualnega iskanja se iskalna poizvedba (besedilo ali slika) uporabnika pretvori v vdelave in izvede se iskanje podobnosti v vektorski bazi podatkov, da se na podlagi iskanja podobnosti najdejo podobne slike izdelka. Nato prikažete najvišje podobne rezultate. Vsa koda za to objavo je na voljo v GitHub repo.

Naslednji diagram prikazuje arhitekturo rešitev.

Sledijo koraki delovnega toka rešitve:

Prenesite besedilo in slike opisa izdelka iz javnosti Preprosta storitev shranjevanja Amazon (Amazon S3) vedro.
Preglejte in pripravite nabor podatkov.
Ustvarite vdelave za slike izdelkov z uporabo modela Amazon Titan Multimodal Embeddings (amazon.titan-embed-image-v1). Če imate ogromno slik in opisov, lahko po želji uporabite Paketno sklepanje za Amazon Bedrock.
Shranite vdelave v Amazon OpenSearch brez strežnika kot iskalnik.
Nazadnje pridobite uporabniško poizvedbo v naravnem jeziku, jo pretvorite v vdelave z uporabo modela Amazon Titan Multimodal Embeddings in izvedite iskanje k-NN, da dobite ustrezne rezultate iskanja.

Kot IDE za razvoj rešitve uporabljamo SageMaker Studio (ni prikazan na diagramu).

Ti koraki so podrobno obravnavani v naslednjih razdelkih. Vključujemo tudi posnetke zaslona in podrobnosti izhoda.

Predpogoji

Za implementacijo rešitve, ki je na voljo v tej objavi, morate imeti naslednje:

An AWS račun in poznavanje FM, Amazon Bedrock, Amazon SageMakerin storitev OpenSearch.
Model Amazon Titan Multimodal Embeddings omogočen v Amazon Bedrock. Lahko potrdite, da je omogočeno na Dostop do modela stran konzole Amazon Bedrock. Če so Amazon Titan Multimodal Embeddings omogočene, bo status dostopa prikazan kot Dostop odobren, kot je prikazano na naslednjem posnetku zaslona.

Če model ni na voljo, omogočite dostop do modela z izbiro Upravljanje dostopa do modela, izbiro Amazon Titan Multimodal Embeddings G1, in izbiro Zahtevajte dostop do modela. Model je takoj pripravljen za uporabo.

Nastavite rešitev

Ko so predpogojni koraki končani, ste pripravljeni za nastavitev rešitve:

V svojem računu AWS odprite konzolo SageMaker in izberite študija v podoknu za krmarjenje.
Izberite svojo domeno in uporabniški profil ter nato izberite Odprti studio.

Vaša domena in ime uporabniškega profila sta lahko drugačna.

Izberite Sistemski terminal pod Pripomočki in datoteke.
Zaženite naslednji ukaz, da klonirate GitHub repo na instanco SageMaker Studio:

git clone https://github.com/aws-samples/amazon-bedrock-samples.git

Pomaknite se na multimodal/Titan/titan-multimodal-embeddings/amazon-bedrock-multimodal-oss-searchengine-e2e mapa.
odprite titan_mm_embed_search_blog.ipynb zvezek.

Zaženite raztopino

Odprite datoteko titan_mm_embed_search_blog.ipynb in uporabljajte jedro Data Science Python 3. Na Run izberite meni Zaženi vse celice za zagon kode v tem zvezku.

Ta prenosni računalnik izvaja naslednje korake:

Namestite pakete in knjižnice, potrebne za to rešitev.
Naloži javno dostopno Amazon Berkeley Objects Dataset in metapodatki v podatkovnem okviru pande.

Nabor podatkov je zbirka 147,702 seznamov izdelkov z večjezičnimi metapodatki in 398,212 edinstvenimi kataloškimi slikami. Za to objavo uporabite samo slike artiklov in imena artiklov v ameriški angleščini. Uporabljate približno 1,600 izdelkov.

Ustvarite vdelave za slike elementov z uporabo modela Amazon Titan Multimodal Embeddings z uporabo get_titan_multomodal_embedding() funkcijo. Zaradi abstrakcije smo vse pomembne funkcije, ki se uporabljajo v tem zvezku, definirali v utils.py Datoteka.

Nato ustvarite in nastavite Amazon OpenSearch Serverless vektorsko trgovino (zbirka in indeks).

Preden ustvarite novo zbirko vektorskega iskanja in indeks, morate najprej ustvariti tri povezane pravilnike storitve OpenSearch Service: pravilnik šifriranja, pravilnik o omrežni varnosti in pravilnik o dostopu do podatkov.

Na koncu vstavite vdelano sliko v vektorski indeks.

Zdaj lahko izvedete multimodalno iskanje v realnem času.

Zaženite kontekstualno iskanje

V tem razdelku prikazujemo rezultate kontekstualnega iskanja na podlagi besedilne ali slikovne poizvedbe.

Najprej izvedimo iskanje slik na podlagi vnosa besedila. V naslednjem primeru uporabimo vnos besedila "drinkware glass" in ga pošljemo iskalniku, da poišče podobne artikle.

Naslednja slika zaslona prikazuje rezultate.

Zdaj pa si poglejmo rezultate na podlagi preproste slike. Vhodna slika se pretvori v vektorske vdelave in na podlagi iskanja podobnosti model vrne rezultat.

Uporabite lahko katero koli sliko, vendar za naslednji primer uporabimo naključno sliko iz nabora podatkov na podlagi ID-ja predmeta (na primer item_id = “B07JCDQWM6”), nato pa to sliko pošljite iskalniku, da poišče podobne predmete.

Naslednja slika zaslona prikazuje rezultate.

Čiščenje

Da se izognete prihodnjim stroškom, izbrišite vire, uporabljene v tej rešitvi. To lahko storite tako, da zaženete razdelek za čiščenje zvezka.

zaključek

Ta objava je predstavila potek uporabe modela Amazon Titan Multimodal Embeddings v Amazon Bedrock za izdelavo zmogljivih aplikacij za kontekstualno iskanje. Zlasti smo prikazali primer aplikacije za iskanje seznama izdelkov. Videli smo, kako model vdelav omogoča učinkovito in natančno odkrivanje informacij iz slik in besedilnih podatkov ter s tem izboljša uporabniško izkušnjo pri iskanju ustreznih elementov.

Amazon Titan Multimodal Embeddings vam pomaga zagotoviti natančnejše in kontekstualno relevantne večmodalne izkušnje iskanja, priporočila in personalizacije za končne uporabnike. Na primer, fotografsko podjetje z več sto milijoni slik lahko uporabi model za zagotavljanje svoje funkcije iskanja, tako da lahko uporabniki iščejo slike z besedno zvezo, sliko ali kombinacijo slike in besedila.

Model Amazon Titan Multimodal Embeddings v Amazon Bedrock je zdaj na voljo v regijah AWS vzhod ZDA (N. Virginia) in zahod ZDA (Oregon). Če želite izvedeti več, glejte Amazon Titan Image Generator, Multimodal Embeddings in Text modeli so zdaj na voljo v Amazon Bedrockje Stran izdelka Amazon TitanIn Uporabniški priročnik za Amazon Bedrock. Če želite začeti uporabljati Amazon Titan Multimodal Embeddings v Amazon Bedrock, obiščite Konzola Amazon Bedrock.

Začnite graditi z modelom Amazon Titan Multimodal Embeddings v Amazon Bedrock danes.

O avtorjih

Sandeep Singh je višji generativni podatkovni znanstvenik za AI pri Amazon Web Services, ki podjetjem pomaga pri inovacijah z generativnim AI. Specializiran je za generativno umetno inteligenco, umetno inteligenco, strojno učenje in sistemsko načrtovanje. Navdušen je nad razvojem najsodobnejših rešitev, ki jih poganja AI/ML, za reševanje zapletenih poslovnih problemov za različne industrije, optimizacijo učinkovitosti in razširljivosti.

Mani Khanuja je Tech Lead – Generative AI Specialists, avtorica knjige Applied Machine Learning and High Performance Computing on AWS in članica upravnega odbora Foundation Board of Women in Manufacturing Education Foundation. Vodi projekte strojnega učenja na različnih področjih, kot so računalniški vid, obdelava naravnega jezika in generativna umetna inteligenca. Govori na internih in zunanjih konferencah, kot so AWS re:Invent, Women in Manufacturing West, YouTube spletni seminarji in GHC 23. V prostem času se rada odpravi na dolge teke ob plaži.

Rupinder Grewal je višji strokovnjak za rešitve AI/ML pri AWS. Trenutno se osredotoča na streženje modelov in MLOps na Amazon SageMaker. Pred to vlogo je delal kot inženir strojnega učenja, gradil in gostoval modele. Izven službe rad igra tenis in kolesari po gorskih poteh.