Creați un motor de căutare contextuală de text și imagini pentru recomandări de produse utilizând Amazon Bedrock și Amazon OpenSearch Serverless

Republicat de Platon

Urmaritori: 0

Creșterea căutării contextuale și semantice a făcut ca comerțul electronic și afacerile de vânzare cu amănuntul să caute direct pentru consumatorii săi. Motoarele de căutare și sistemele de recomandare bazate pe inteligența artificială generativă pot îmbunătăți exponențial experiența de căutare a produselor, prin înțelegerea interogărilor în limbaj natural și prin returnarea unor rezultate mai precise. Acest lucru îmbunătățește experiența generală a utilizatorului, ajutându-i pe clienți să găsească exact ceea ce caută.

Serviciul Amazon OpenSearch sprijină acum asemănarea cosinusului metrica pentru indici k-NN. Similitudinea cosinus măsoară cosinusul unghiului dintre doi vectori, unde un unghi cosinus mai mic denotă o asemănare mai mare între vectori. Cu asemănarea cosinusului, puteți măsura orientarea dintre doi vectori, ceea ce o face o alegere bună pentru unele aplicații specifice de căutare semantică.

În această postare, vă arătăm cum să construiți un motor de căutare contextual pentru text și imagini pentru recomandări de produse folosind Modelul Amazon Titan Multimodal Embeddings, disponibil in Amazon Bedrock, Cu Amazon OpenSearch Serverless.

Un model de încorporare multimodal este conceput pentru a învăța reprezentări comune ale diferitelor modalități, cum ar fi text, imagini și audio. Prin antrenamentul pe seturi de date la scară mare care conțin imagini și legendele lor corespunzătoare, un model de încorporare multimodal învață să încorporeze imagini și texte într-un spațiu latent comun. Următoarea este o prezentare generală la nivel înalt a modului în care funcționează conceptual:

Codificatoare separate – Aceste modele au codificatoare separate pentru fiecare modalitate – un codificator de text pentru text (de exemplu, BERT sau RoBERTa), codificator de imagine pentru imagini (de exemplu, CNN pentru imagini) și codificatoare audio pentru audio (de exemplu, modele precum Wav2Vec) . Fiecare codificator generează înglobări care captează caracteristicile semantice ale modalităților respective
Fuziunea modalității – Înglobările de la codificatoarele unimodale sunt combinate folosind straturi suplimentare de rețea neuronală. Scopul este de a învăța interacțiunile și corelațiile dintre modalități. Abordările comune ale fuziunii includ concatenarea, operațiile în funcție de elemente, punerea în comun și mecanismele de atenție.
Spațiu de reprezentare comun – Straturile de fuziune ajută la proiectarea modalităților individuale într-un spațiu de reprezentare comun. Prin antrenamentul pe seturi de date multimodale, modelul învață un spațiu de încorporare comun în care înglobările din fiecare modalitate care reprezintă același conținut semantic subiacent sunt mai apropiate.
Sarcini în aval – Înglobarile multimodale comune generate pot fi apoi utilizate pentru diverse sarcini din aval, cum ar fi regăsirea multimodală, clasificarea sau traducerea. Modelul folosește corelații între modalități pentru a îmbunătăți performanța la aceste sarcini în comparație cu înglobările modale individuale. Avantajul cheie este capacitatea de a înțelege interacțiunile și semantica dintre modalități precum text, imagini și audio prin modelare comună.

Prezentare generală a soluțiilor

Soluția oferă o implementare pentru construirea unui prototip de motor de căutare alimentat cu model de limbă mare (LLM) pentru a prelua și recomanda produse bazate pe interogări de text sau imagine. Detaliem pașii de utilizare a unui Embeddings multimodale Amazon Titan model pentru a codifica imagini și text în înglobări, a ingera înglobări într-un index al serviciului OpenSearch și a interoga indexul utilizând serviciul OpenSearch funcționalitatea k-nearest neighbors (k-NN)..

Această soluție include următoarele componente:

Modelul Amazon Titan Multimodal Embeddings – Acest model de fundație (FM) generează înglobări ale imaginilor produselor utilizate în această postare. Cu Amazon Titan Multimodal Embeddings, puteți genera încorporare pentru conținutul dvs. și le puteți stoca într-o bază de date vectorială. Când un utilizator final trimite orice combinație de text și imagine ca interogare de căutare, modelul generează înglobări pentru interogarea de căutare și le potrivește cu înglobările stocate pentru a oferi utilizatorilor finali rezultate relevante de căutare și recomandări. Puteți personaliza și mai mult modelul pentru a îmbunătăți înțelegerea conținutului dvs. unic și pentru a oferi rezultate mai semnificative folosind perechi imagine-text pentru reglare fină. În mod implicit, modelul generează vectori (înglobări) de 1,024 de dimensiuni și este accesat prin Amazon Bedrock. De asemenea, puteți genera dimensiuni mai mici pentru a optimiza viteza și performanța
Amazon OpenSearch Serverless – Este o configurație fără server la cerere pentru Serviciul OpenSearch. Folosim Amazon OpenSearch Serverless ca bază de date vectorială pentru stocarea înglobărilor generate de modelul Amazon Titan Multimodal Embeddings. Un index creat în colecția Amazon OpenSearch Serverless servește drept magazin de vectori pentru soluția noastră Retrieval Augmented Generation (RAG).
Amazon SageMaker Studio – Este un mediu de dezvoltare integrat (IDE) pentru învățarea automată (ML). Practicanții ML pot efectua toți pașii de dezvoltare ML, de la pregătirea datelor până la construirea, instruirea și implementarea modelelor ML.

Proiectarea soluției constă din două părți: indexarea datelor și căutarea contextuală. În timpul indexării datelor, procesați imaginile produsului pentru a genera încorporare pentru aceste imagini și apoi populați depozitul de date vectoriale. Acești pași sunt finalizați înainte de pașii de interacțiune cu utilizatorul.

În faza de căutare contextuală, o interogare de căutare (text sau imagine) de la utilizator este convertită în înglobări și se execută o căutare de similaritate în baza de date vectorială pentru a găsi imagini de produse similare pe baza căutării de similaritate. Apoi afișați primele rezultate similare. Tot codul pentru această postare este disponibil în GitHub repo.

Următoarea diagramă ilustrează arhitectura soluției.

Următorii sunt pașii fluxului de lucru al soluției:

Descărcați textul și imaginile descrierii produsului de la public Serviciul Amazon de stocare simplă Găleată (Amazon S3)
Examinați și pregătiți setul de date.
Generați înglobări pentru imaginile produsului utilizând modelul Amazon Titan Multimodal Embeddings (amazon.titan-embed-image-v1). Dacă aveți un număr mare de imagini și descrieri, puteți utiliza opțional Inferență în lot pentru Amazon Bedrock.
Depozitați înglobările în Amazon OpenSearch Serverless ca motor de căutare.
În cele din urmă, preluați interogarea utilizatorului în limbaj natural, convertiți-o în înglobări folosind modelul Amazon Titan Multimodal Embeddings și efectuați o căutare k-NN pentru a obține rezultatele căutării relevante.

Folosim SageMaker Studio (nu este prezentat în diagramă) ca IDE pentru a dezvolta soluția.

Acești pași sunt discutați în detaliu în secțiunile următoare. Includem, de asemenea, capturi de ecran și detalii ale ieșirii.

Cerințe preliminare

Pentru a implementa soluția oferită în această postare, ar trebui să aveți următoarele:

An Cont AWS și familiaritatea cu FM, Amazon Bedrock, Amazon SageMaker, și Serviciul OpenSearch.
Modelul Amazon Titan Multimodal Embeddings activat în Amazon Bedrock. Puteți confirma că este activat pe Acces model pagina consolei Amazon Bedrock. Dacă Amazon Titan Multimodal Embeddings este activat, starea accesului se va afișa ca Acces permis, așa cum se arată în următoarea captură de ecran.

Dacă modelul nu este disponibil, permiteți accesul la model selectând Gestionați accesul la model, selectând Amazon Titan Multimodal Embeddings G1, și alegerea Solicitați acces la model. Modelul este activat pentru utilizare imediat.

Configurați soluția

Când pașii necesari sunt finalizați, sunteți gata să configurați soluția:

În contul dvs. AWS, deschideți consola SageMaker și alegeți Studio în panoul de navigare.
Alegeți domeniul și profilul dvs. de utilizator, apoi alegeți Deschide Studio.

Numele dvs. de domeniu și profilul de utilizator pot fi diferite.

Alege Terminal de sistem în Utilități și fișiere.
Rulați următoarea comandă pentru a clona GitHub repo la instanța SageMaker Studio:

git clone https://github.com/aws-samples/amazon-bedrock-samples.git

Navigați către multimodal/Titan/titan-multimodal-embeddings/amazon-bedrock-multimodal-oss-searchengine-e2e dosar.
Deschideți titan_mm_embed_search_blog.ipynb caiet.

Rulați soluția

Deschideți fișierul titan_mm_embed_search_blog.ipynb și utilizați nucleul Data Science Python 3. Pe Alerga meniu, alegeți Rulați toate celulele pentru a rula codul din acest caiet.

Acest notebook efectuează următorii pași:

Instalați pachetele și bibliotecile necesare pentru această soluție.
Încărcați conținutul disponibil publicului Setul de date pentru obiecte Amazon Berkeley și metadate într-un cadru de date panda.

Setul de date este o colecție de 147,702 liste de produse cu metadate multilingve și 398,212 imagini de catalog unice. Pentru această postare, utilizați doar imaginile și numele articolelor în limba engleză americană. Folosești aproximativ 1,600 de produse.

Generați înglobări pentru imaginile articolului folosind modelul Amazon Titan Multimodal Embeddings folosind get_titan_multomodal_embedding() funcţie. De dragul abstractizării, am definit toate funcțiile importante utilizate în acest caiet în utils.py fișier.

Apoi, creați și configurați un magazin de vectori Amazon OpenSearch Serverless (colecție și indexare).

Înainte de a crea noua colecție și index de căutare vectorială, trebuie mai întâi să creați trei politici asociate OpenSearch Service: politica de securitate a criptării, politica de securitate a rețelei și politica de acces la date.

În cele din urmă, ingerați imaginea încorporată în indexul vectorial.

Acum puteți efectua o căutare multimodală în timp real.

Rulați o căutare contextuală

În această secțiune, arătăm rezultatele căutării contextuale bazate pe o interogare de text sau imagine.

Mai întâi, să efectuăm o căutare de imagini bazată pe introducerea textului. În exemplul următor, folosim introducerea textului „pahar pentru băuturi” și o trimitem motorului de căutare pentru a găsi articole similare.

Următoarea captură de ecran arată rezultatele.

Acum să ne uităm la rezultate pe baza unei imagini simple. Imaginea de intrare este convertită în înglobări vectoriale și, pe baza căutării de similaritate, modelul returnează rezultatul.

Puteți folosi orice imagine, dar pentru exemplul următor, folosim o imagine aleatorie din setul de date bazată pe ID-ul articolului (de exemplu, item_id = „B07JCDQWM6”), apoi trimiteți această imagine motorului de căutare pentru a găsi articole similare.

Următoarea captură de ecran arată rezultatele.

A curăța

Pentru a evita costurile viitoare, ștergeți resursele utilizate în această soluție. Puteți face acest lucru rulând secțiunea de curățare a notebook-ului.

Concluzie

Această postare a prezentat o prezentare a utilizării modelului Amazon Titan Multimodal Embeddings în Amazon Bedrock pentru a construi aplicații puternice de căutare contextuală. În special, am demonstrat un exemplu de aplicație de căutare a listelor de produse. Am văzut cum modelul de încorporare permite descoperirea eficientă și precisă a informațiilor din imagini și date textuale, îmbunătățind astfel experiența utilizatorului în timpul căutării articolelor relevante.

Amazon Titan Multimodal Embeddings vă ajută să promovați experiențe de căutare, recomandare și personalizare multimodală mai precise și relevante din punct de vedere contextual pentru utilizatorii finali. De exemplu, o companie de fotografie de stoc cu sute de milioane de imagini poate folosi modelul pentru a-și alimenta funcționalitatea de căutare, astfel încât utilizatorii să poată căuta imagini folosind o frază, o imagine sau o combinație de imagine și text.

Modelul Amazon Titan Multimodal Embeddings din Amazon Bedrock este acum disponibil în Regiunile AWS de Est (N. Virginia) și Vest (Oregon) SUA. Pentru a afla mai multe, consultați Modelele Amazon Titan Image Generator, Multimodal Embeddings și Text sunt acum disponibile în Amazon Bedrock, Pagina produsului Amazon Titan, Şi Ghidul utilizatorului Amazon Bedrock. Pentru a începe cu Amazon Titan Multimodal Embeddings în Amazon Bedrock, vizitați Consola Amazon Bedrock.

Începeți să construiți cu modelul Amazon Titan Multimodal Embeddings Amazon Bedrock astăzi.

Despre Autori

Sandeep Singh este Senior Generative AI Data Scientist la Amazon Web Services, ajutând companiile să inoveze cu AI generativă. El este specializat în IA generativă, inteligență artificială, învățare automată și proiectare de sistem. Este pasionat de dezvoltarea de soluții de ultimă generație bazate pe AI/ML pentru a rezolva probleme complexe de afaceri pentru diverse industrii, optimizând eficiența și scalabilitatea.

Mani Khanuja este Tehnic Lead – Generative AI Specialists, autoarea cărții Applied Machine Learning and High Performance Computing on AWS și membru al Consiliului de Administrație pentru Women in Manufacturing Education Foundation Board. Ea conduce proiecte de învățare automată în diverse domenii, cum ar fi viziunea computerizată, procesarea limbajului natural și AI generativă. Vorbește la conferințe interne și externe, cum ar fi AWS re:Invent, Women in Manufacturing West, webinarii YouTube și GHC 23. În timpul liber, îi place să facă alergări lungi de-a lungul plajei.

Rupinder Grewal este arhitect senior de soluții de specialitate AI/ML cu AWS. În prezent, se concentrează pe difuzarea modelelor și a MLOps-ului pe Amazon SageMaker. Înainte de acest rol, a lucrat ca inginer de învățare automată, construind și găzduind modele. În afara serviciului, îi place să joace tenis și să meargă cu bicicleta pe traseele montane.