Creați cu ușurință căutare semantică de imagini folosind Amazon Titan

Republicat de Platon

Urmaritori: 0

Editorii digitali caută în permanență modalități de a-și eficientiza și automatiza fluxurile de lucru media pentru a genera și a publica conținut nou cât de repede pot, dar fără a renunța la calitate.

Adăugarea de imagini pentru a surprinde esența textului poate îmbunătăți experiența de citire. Tehnicile de învățare automată vă pot ajuta să descoperiți astfel de imagini. „O imagine izbitoare este una dintre cele mai eficiente moduri de a capta atenția publicului și de a crea implicare cu povestea dvs., dar trebuie să aibă și sens.. "

anterior mesaj a discutat despre cum puteți utiliza serviciile Amazon de învățare automată (ML) pentru a vă ajuta să găsiți cele mai bune imagini care să fie plasate de-a lungul unui articol sau a unui rezumat TV fără a introduce cuvinte cheie. În postarea anterioară, ai folosit Amazon Rekognition pentru a extrage metadate dintr-o imagine. Apoi ați folosit un model de încorporare a textului pentru a genera o încorporare de cuvinte a metadatelor care ar putea fi folosită ulterior pentru a ajuta la găsirea celor mai bune imagini.

În această postare, vezi cum poți folosi modelele de fond de ten Amazon Titan pentru a înțelege rapid un articol și a găsi cele mai bune imagini care să-l însoțească. De data aceasta, generați încorporarea direct din imagine.

Un concept cheie în căutarea semantică este încorporarea. O încorporare este o reprezentare numerică a unei intrări - o imagine, text sau ambele - sub forma unui vector. Când aveți mulți vectori, puteți măsura distanța dintre ei, iar vectorii care sunt aproape de distanță sunt similari sau înrudiți din punct de vedere semantic.

Amazon Bedrock este un serviciu complet gestionat care oferă o gamă de modele de bază (FM) de înaltă performanță de la companii de IA de top, inclusiv AI21 Labs, Anthropic, Cohere, Meta, Stability AI și Amazon, cu un singur API, împreună cu un set larg de capabilități pentru vă ajută să construiți aplicații AI generative, simplificând dezvoltarea, menținând în același timp confidențialitatea și securitatea.

Amazon Titan a adăugat recent un nou model de încorporare la colecția sa, Titan Multimodal Embeddings. Acest nou model poate fi utilizat pentru căutare multimodală, sisteme de recomandare și alte aplicații în aval.

Modelele multimodale pot înțelege și analiza datele în mai multe modalități, cum ar fi text, imagine, video și audio. Acest ultim model Amazon Titan poate accepta text, imagini sau ambele. Aceasta înseamnă că utilizați același model pentru a genera încorporari de imagini și text și folosiți acele înglobări pentru a calcula cât de asemănătoare sunt cele două.

Prezentare generală a soluției

În următoarea captură de ecran, puteți vedea cum puteți să luați un mini articol, să efectuați o căutare și să găsiți imagini care rezonează cu articolul. În acest exemplu, luați o propoziție care îl descrie pe Werner Vogels purtând eșarfe albe în timp ce călătorește prin India. Vectorul propoziției este legat semantic de vectorii imaginilor cu Werner purtând o eșarfă și, prin urmare, a revenit ca imagini de top în această căutare.

La un nivel înalt, o imagine este încărcată în Serviciul Amazon de stocare simplă (Amazon S3) iar metadatele sunt extrase inclusiv încorporarea imaginii.

Pentru a extrage metadate textuale din imagine, utilizați caracteristică de recunoaștere a celebrităților si caracteristica de detectare a etichetelor in Amazon Rekognition. Amazon Rekognition recunoaște automat zeci de mii de personalități binecunoscute în imagini și videoclipuri folosind ML. Folosești această funcție pentru a recunoaște celebritățile din imagini și pentru a stoca aceste metadate Serviciul Amazon OpenSearch. Detectarea etichetelor găsește obiecte și concepte din imagine, cum ar fi captura de ecran anterioară, unde aveți metadatele etichetei sub imagine.

Utilizați modelul Titan Multimodal Embeddings pentru a genera o încorporare a imaginii care este și metadate care pot fi căutate.

Toate metadatele sunt apoi stocate în Serviciul OpenSearch pentru interogări de căutare ulterioare când trebuie să găsiți o imagine sau imagini.

A doua parte a arhitecturii este de a trimite un articol pentru a găsi aceste imagini nou ingerate.

Când articolul este trimis, trebuie să extrageți și să transformați articolul într-o intrare de căutare pentru OpenSearch Service. Să utilizați Amazon Comprehend pentru a detecta orice nume din text care ar putea fi potențiale celebrități. Rezumați articolul, deoarece probabil veți alege doar una sau două imagini pentru a surprinde esența articolului. Generarea unui rezumat al textului este o modalitate bună de a vă asigura că încorporarea captează punctele pertinente ale poveștii. Pentru aceasta, utilizați Amazon Titan Text G1 – Express model cu un prompt precum „Vă rugăm să furnizați un rezumat al textului următor. Nu adăugați informații care nu sunt menționate în textul de mai jos.” Cu articolul rezumat, utilizați modelul Amazon Titan Multimodal Embeddings pentru a genera o încorporare a articolului rezumat. Modelul de încorporare are, de asemenea, un număr maxim de introduceri de simboluri, prin urmare, rezumarea articolului este și mai importantă pentru a vă asigura că puteți obține cât mai multe informații capturate în încorporare. În termeni simpli, un simbol este un singur cuvânt, subcuvânt sau caracter.

Apoi efectuați o căutare în serviciul OpenSearch cu numele și încorporarea din articol pentru a prelua imagini care sunt similare din punct de vedere semantic cu prezența celebrității date, dacă este prezentă.

Ca utilizator, doar cauți imagini folosind un articol ca intrare.

walkthrough

Următoarea diagramă vă arată arhitectura pentru a furniza acest caz de utilizare.

Următorii pași vorbesc prin secvența de acțiuni (reprezentate în diagramă) care permit căutarea semantică a imaginilor și a celebrităților.

Încarci o imagine într-un Amazon S3 găleată.
Amazon EventBridge ascultă acest eveniment și apoi inițiază un pas AWS Step Functions.
Pasul Funcții de pas ia Amazon S3 detaliile imaginii și execută trei acțiuni paralele:
1. Un apel API către Amazon Rekognition DetectLabels pentru a extrage metadatele obiectului
2. Un apel API către Amazon Rekognition Recunoaște celebritățile API-uri pentru a extrage orice celebritate cunoscută
3. A AWS Lambdas funcția redimensionează imaginea la dimensiunile maxime acceptate pentru modelul de încorporare ML și generează o încorporare direct din intrarea imaginii.
Lambda apoi inserează metadatele obiectului imagine și numele celebrităților, dacă sunt prezente, și încorporarea ca vector k-NN într-un index OpenSearch Service.
Amazon S3 găzduiește un site web static simplu, distribuit de un Amazon CloudFront. Interfața cu utilizatorul front-end (UI) vă permite să vă autentificați cu aplicația folosind Amazon Cognito pentru a căuta imagini.
Trimiteți un articol sau un text folosind interfața de utilizare.
O alta Lambda apeluri funcționale Amazon Comprehend pentru a detecta orice nume din text ca potențiale celebrități.
Apoi, funcția rezumă textul pentru a obține punctele pertinente din articol folosind Titan Text G1 – Express.
Funcția generează o încorporare a articolului rezumat folosind modelul Amazon Titan Multimodal Embeddings.
Funcția caută apoi Serviciul OpenSearch index de imagini pentru imagini care se potrivesc cu numele celebrității și k-cei mai apropiati vecini pentru vector folosind asemănarea cosinusului folosind K-NN exact cu script de scor.
Amazon CloudWatch și AWS X-Ray vă oferă observabilitate în fluxul de lucru de la capăt la capăt pentru a vă alerta cu privire la orice problemă.

Următoarea figură vă arată proiectantul vizual al fluxului de lucru al fluxului de lucru Step Functions.

Iată un exemplu de încorporare:

{"Embedding_Results": [-0.40342346, 0.073382884, 0.22957325, -0.014249567, 0.042733602, -0.102064356, 0.21086141, -0.4672587, 0.17779616, 0.08438544, -0.58220416, -0.010788828, -0.28306714, 0.4242958, -0.01655291,....

Matricea anterioară de numere este cea care captează semnificația din obiectul text sau imagine într-o formă cu care puteți efectua calcule și funcții.

Înglobările au o dimensiune mare de la câteva sute la multe mii de dimensiuni. Acest model are o dimensionalitate de 1,024, adică tabloul precedent va avea 1,024 de elemente care captează semantica obiectului dat.

Încorporarea multimodală versus încorporarea textului

Discutăm două opțiuni în furnizarea căutării semantice de imagini, unde principala diferență este modul în care generați încorporarea imaginilor. În a noastră anterior mesaj, generați o încorporare din metadatele textuale, care este extrasă folosind Amazon Rekognition. În această postare, utilizați modelul Titan Multimodal Embeddings și puteți genera direct o încorporare a imaginii.

Făcând un test rapid și rulând o interogare în interfața de utilizare împotriva celor două abordări, puteți vedea că rezultatele sunt vizibil diferite. Exemplul de articol este „Werner Vogels îi place să poarte eșarfe albe în timp ce călătorește prin India”.

Rezultatul modelului multimodal punctează mai sus imaginile cu o eșarfă prezentă. Cuvantul eșarfă este prezent în articolul trimis de noi, iar încorporarea a recunoscut acest lucru.

În UI, puteți vedea metadatele extrase de Amazon Rekognition, iar metadatele nu includ cuvântul eșarfă și, prin urmare, au omis unele informații din imagine, despre care puteți presupune că modelul de încorporare a imaginii nu le are și, prin urmare, modelul multimodal. ar putea avea un avantaj în funcție de cazul de utilizare. Folosind Amazon Rekognition, puteți filtra obiectele detectate în imagine înainte de a crea o încorporare și, prin urmare, aveți alte cazuri de utilizare aplicabile care ar putea funcționa mai bine în funcție de rezultatul dorit.

Următoarea figură arată rezultatele modelului Amazon Titan Multimodal Embeddings.

Următoarea figură arată rezultatele modelului de încorporare a textului Amazon Titan folosind metadatele extrase de Amazon Rekognition pentru a genera încorporarea.

Cerințe preliminare

Pentru această explicație, trebuie să aveți următoarele cerințe preliminare:

An Cont AWS
AWS Serverless Application Model Command Line Interface (AWS SAM CLI)
- Soluția folosește AWS SAM CLI pentru implementare.
- Asigurați-vă că utilizați cea mai recentă versiune a AWS SAM CLI.
Docher
- Soluția folosește opțiunea AWS SAM CLI pentru a construi în interiorul unui container pentru a evita necesitatea dependențelor locale. Ai nevoie de Docker pentru asta.
Nod
- Frontend-ul pentru această soluție este o aplicație web React care poate fi rulată local folosind Node.
NPM
- Instalarea pachetelor necesare pentru a rula aplicația web local sau pentru a o construi pentru implementare de la distanță necesită npm.

Construiți și implementați aplicația stivă completă

Clonează depozitul

git clone https://github.com/aws-samples/semantic-image-search-for-articles.git

Schimbați directorul în proiectul nou clonat.
```
cd semantic-image-search-for-articles
```
Rulați npm install pentru a descărca toate pachetele necesare pentru a rula aplicația.
```
npm install
```
Rulați un script de implementare care rulează o serie de scripturi în secvență care va face a sam construi, sam deploy, actualizați fișierele de configurare și apoi găzduiți fișierele aplicației web în Amazon S3 gata pentru a fi servite prin Amazon CloudFront
```
npm run deploy
```
Una dintre rezultatele finale din script este o adresă URL Amazon CloudFront, care este modul în care veți accesa aplicația. Trebuie să creați un utilizator nou în AWS Management Console pentru a vă conecta. Notați adresa URL pe care să o utilizați mai târziu.

Următoarea captură de ecran arată cum scriptul a folosit AWS SAM pentru a vă implementa stiva și a scos o adresă URL Amazon CloudFront pe care o puteți utiliza pentru a accesa aplicația.

Creați un utilizator nou pentru a vă conecta la aplicație

Du-te la Amazon Cognito consola și selectați-vă noua Pool de utilizatori.
Creați un utilizator nou cu o nouă parolă.

Conectați-vă și testați aplicația web

Găsi Amazon CloudFront URL pentru a ajunge la pagina de conectare. Acesta este afișat în linia finală, așa cum se arată în captura de ecran precedentă.
Introduceți noua combinație de nume de utilizator și parolă pentru a vă conecta.
Încărcați câteva exemple de imagini folosind interfața de utilizare.
1. Alege Alegeți fișierul și apoi alegeți Încărcați.
  Notă: De asemenea, puteți încărca în bloc direct în compartimentul S3, adăugând fișiere la /încărcări dosar.
2. Scrieți sau copiați și lipiți un articol și alegeți Trimite mesaj pentru a vedea dacă imaginile sunt returnate după comanda așteptată.

A curăța

Pentru a evita costurile viitoare, ștergeți resursele.

Găsiți găleata S3 implementată cu această soluție și goliți-o.
Accesați consola CloudFormation, alegeți stiva pe care ați implementat-o prin scriptul de implementare menționat anterior și ștergeți stiva.

Concluzie

În această postare, ați văzut cum să utilizați Amazon Rekognition, Amazon Comprehend, Amazon Bedrock și OpenSearch Service pentru a extrage metadate din imaginile dvs. și apoi utilizați tehnici ML pentru a descoperi automat conținut strâns legat, folosind celebrități și căutare semantică. Acest lucru este deosebit de important în industria editorială, unde viteza contează pentru a obține conținut proaspăt rapid și pe mai multe platforme.

Ca pas următor, implementați soluția în contul dvs. AWS și încărcați câteva dintre propriile imagini pentru a testa modul în care căutarea semantică poate funcționa pentru dvs. Spune-mi câteva dintre feedback-urile tale în comentariile de mai jos.

Despre Autori

Mark Watkins este arhitect de soluții în cadrul echipei Media și Divertisment, sprijinindu-și clienții să rezolve multe probleme de date și ML. Departe de viața profesională, îi place să petreacă timp cu familia și să-și privească cei doi micuți crescând.

Dan Johns este inginer arhitect de soluții, care își sprijină clienții pentru a construi pe AWS și a îndeplini cerințele de afaceri. Departe de viața profesională, îi place să citească, să petreacă timpul cu familia și să automatizeze sarcinile din casa lor.