Crea facilmente ricerche semantiche di immagini utilizzando Amazon Titan

Ripubblicato da Platone

Seguaci: 0

Gli editori digitali sono alla continua ricerca di modi per semplificare e automatizzare i propri flussi di lavoro multimediali per generare e pubblicare nuovi contenuti il più rapidamente possibile, ma senza rinunciare alla qualità.

L'aggiunta di immagini per catturare l'essenza del testo può migliorare l'esperienza di lettura. Le tecniche di apprendimento automatico possono aiutarti a scoprire tali immagini. “Un'immagine sorprendente è uno dei modi più efficaci per catturare l'attenzione del pubblico e creare coinvolgimento con la tua storia, ma deve anche avere senso. "

Il post precedente abbiamo discusso di come utilizzare i servizi di machine learning (ML) di Amazon per trovare le migliori immagini da inserire in un articolo o in una sinossi televisiva senza digitare parole chiave. Nel post precedente, hai usato Rekognition di Amazon per estrarre metadati da un'immagine. Hai quindi utilizzato un modello di incorporamento del testo per generare un incorporamento di parole dei metadati che potrebbe essere utilizzato in seguito per trovare le immagini migliori.

In questo post vedrai come utilizzare i modelli di base di Amazon Titan per comprendere rapidamente un articolo e trovare le migliori immagini per accompagnarlo. Questa volta generi l'incorporamento direttamente dall'immagine.

Un concetto chiave nella ricerca semantica sono gli incorporamenti. Un incorporamento è una rappresentazione numerica di alcuni input, un'immagine, un testo o entrambi, sotto forma di vettore. Quando si hanno molti vettori, è possibile misurare la distanza tra loro e i vettori vicini sono semanticamente simili o correlati.

Roccia Amazzonica è un servizio completamente gestito che offre una scelta di Foundation Model (FM) ad alte prestazioni di aziende leader nel settore dell'intelligenza artificiale, tra cui AI21 Labs, Anthropic, Cohere, Meta, Stability AI e Amazon con un'unica API, insieme a un'ampia gamma di funzionalità per aiutarti a creare applicazioni di intelligenza artificiale generativa, semplificando lo sviluppo mantenendo privacy e sicurezza.

Titano Amazzonico ha recentemente aggiunto un nuovo modello di inclusione alla sua collezione, Titan Multimodal Embeddings. Questo nuovo modello può essere utilizzato per la ricerca multimodale, i sistemi di raccomandazione e altre applicazioni a valle.

I modelli multimodali possono comprendere e analizzare i dati in più modalità come testo, immagini, video e audio. Quest'ultimo modello di Amazon Titan può accettare testo, immagini o entrambi. Ciò significa che utilizzi lo stesso modello per generare incorporamenti di immagini e testo e utilizzare tali incorporamenti per calcolare quanto sono simili i due.

Panoramica della soluzione

Nello screenshot seguente, puoi vedere come prendere un mini articolo, eseguire una ricerca e trovare immagini che siano in sintonia con l'articolo. In questo esempio, prendi una frase che descrive Werner Vogels che indossa sciarpe bianche mentre viaggia in India. Il vettore della frase è semanticamente correlato ai vettori delle immagini di Werner che indossa una sciarpa e quindi restituito come immagini principali in questa ricerca.

Ad alto livello, viene caricata un'immagine Servizio di archiviazione semplice Amazon (Amazon S3) e i metadati vengono estratti incluso l'incorporamento dell'immagine.

Per estrarre metadati testuali dall'immagine, utilizzare il file funzione di riconoscimento delle celebrità e la funzione di rilevamento dell'etichetta in Rekognition di Amazon. Amazon Rekognition riconosce automaticamente decine di migliaia di personalità famose in immagini e video utilizzando il machine learning. Utilizzi questa funzione per riconoscere eventuali celebrità nelle immagini e archiviare questi metadati Servizio Amazon OpenSearch. Il rilevamento delle etichette trova oggetti e concetti dall'immagine, come lo screenshot precedente in cui sono presenti i metadati dell'etichetta sotto l'immagine.

Si utilizza il modello Titan Multimodal Embeddings per generare un incorporamento dell'immagine che costituisce anche metadati ricercabili.

Tutti i metadati vengono quindi archiviati in Servizio OpenSearch per le query di ricerca successive quando è necessario trovare un'immagine o immagini.

La seconda parte dell'architettura consiste nell'inviare un articolo per trovare queste immagini appena inserite.

Quando l'articolo viene inviato, è necessario estrarre e trasformare l'articolo in un input di ricerca per il servizio OpenSearch. Usate Amazon Comprehend per rilevare eventuali nomi nel testo che potrebbero essere potenziali celebrità. Riassumi l'articolo poiché probabilmente sceglierai solo una o due immagini per catturare l'essenza dell'articolo. Generare un riassunto del testo è un buon modo per assicurarsi che l'incorporamento catturi i punti pertinenti della storia. Per questo, usi il file Amazon Titan Testo G1 – Espresso modello con una richiesta del tipo "Fornire un riepilogo del testo seguente. Non aggiungere alcuna informazione che non sia menzionata nel testo sottostante." Con l'articolo di riepilogo, utilizzi il modello Amazon Titan Multimodal Embeddings per generare un incorporamento dell'articolo di riepilogo. Il modello di incorporamento prevede anche un conteggio massimo di input di token, quindi riassumere l'articolo è ancora più importante per assicurarsi di poter ottenere quante più informazioni possibili catturate nell'incorporamento. In termini semplici, un token è una singola parola, sottoparola o carattere.

Quindi esegui una ricerca nel servizio OpenSearch con i nomi e l'incorporamento dall'articolo per recuperare immagini semanticamente simili con la presenza della celebrità specificata, se presente.

Come utente, stai semplicemente cercando immagini utilizzando un articolo come input.

Soluzione

Il diagramma seguente mostra l'architettura per fornire questo caso d'uso.

I passaggi seguenti illustrano la sequenza di azioni (rappresentate nel diagramma) che consentono la ricerca semantica di immagini e celebrità.

Carichi un'immagine su un file Amazon S3 secchio.
Amazon EventBridge ascolta questo evento e quindi avvia una fase AWS Step Functions.
Il passaggio Funzioni del passaggio accetta il file Amazon S3 dettagli dell'immagine ed esegue tre azioni parallele:
1. Una chiamata API a Rekognition di Amazon RilevaEtichette per estrarre i metadati dell'oggetto
2. Una chiamata API a Rekognition di Amazon Riconosci le celebrità API per estrarre eventuali celebrità conosciute
3. A AWS Lambda La funzione ridimensiona l'immagine alle dimensioni massime accettate per il modello di incorporamento ML e genera un incorporamento direttamente dall'input dell'immagine.
Il Lambda La funzione inserisce quindi i metadati dell'oggetto immagine e i nomi delle celebrità, se presenti, e l'incorporamento come vettore k-NN in un indice del servizio OpenSearch.
Amazon S3 ospita un semplice sito web statico, distribuito da an Amazon CloudFront. L'interfaccia utente front-end (UI) consente di autenticarsi con l'applicazione utilizzando Amazzonia Cognito per cercare immagini.
Invii un articolo o del testo utilizzando l'interfaccia utente.
Un altro Lambda chiamate di funzione Amazon Comprehend per rilevare eventuali nomi nel testo come potenziali celebrità.
La funzione quindi riassume il testo per ottenere i punti pertinenti dall'articolo utilizzando Titan Text G1 – Express.
La funzione genera un incorporamento dell'articolo riepilogativo utilizzando il modello Multimodal Embeddings di Amazon Titan.
La funzione quindi cerca il file Servizio OpenSearch indice delle immagini per le immagini che corrispondono al nome della celebrità e al k-vicini più vicini per il vettore utilizzando somiglianza del coseno utilizzando K-NN esatto con script di punteggio.
Amazon Cloud Watch ed Raggi X AWS darti osservabilità nel flusso di lavoro end-to-end per avvisarti di eventuali problemi.

La figura seguente mostra il progettista visivo del flusso di lavoro Step Functions.

Ecco un esempio di incorporamento:

{"Embedding_Results": [-0.40342346, 0.073382884, 0.22957325, -0.014249567, 0.042733602, -0.102064356, 0.21086141, -0.4672587, 0.17779616, 0.08438544, -0.58220416, -0.010788828, -0.28306714, 0.4242958, -0.01655291,....

La matrice di numeri precedente è ciò che cattura il significato dal testo o dall'oggetto immagine in un formato su cui è possibile eseguire calcoli e funzioni.

Gli incorporamenti hanno un'elevata dimensionalità da poche centinaia a molte migliaia di dimensioni. Questo modello ha una dimensionalità di 1,024, ovvero l'array precedente conterrà 1,024 elementi che catturano la semantica dell'oggetto dato.

Incorporamento multimodale e incorporamento di testo

Discutiamo due opzioni per fornire la ricerca semantica di immagini in cui la differenza principale è il modo in cui si generano gli incorporamenti delle immagini. Nel nostro post precedente, generi un incorporamento dai metadati testuali, che vengono estratti utilizzando Amazon Rekognition. In questo post utilizzerai il modello Titan Multimodal Embeddings e potrai generare direttamente un incorporamento dell'immagine.

Eseguendo un test rapido ed eseguendo una query nell'interfaccia utente rispetto ai due approcci, puoi vedere che i risultati sono notevolmente diversi. L'articolo di query di esempio è "Werner Vogels ama indossare sciarpe bianche mentre viaggia per l'India".

Il risultato del modello multimodale assegna un punteggio più alto alle immagini con una sciarpa presente. La parola sciarpa è presente nel nostro articolo inviato e l'incorporamento lo ha riconosciuto.

Nell'interfaccia utente, puoi vedere i metadati estratti da Amazon Rekognition e i metadati non includono la parola sciarpa e pertanto mancano alcune informazioni dall'immagine, cosa che puoi presumere non sia presente nel modello di incorporamento delle immagini, e quindi nel modello multimodale potrebbe avere un vantaggio a seconda del caso d'uso. Utilizzando Amazon Rekognition, puoi filtrare gli oggetti rilevati nell'immagine prima di creare un incorporamento e quindi avere altri casi d'uso applicabili che potrebbero funzionare meglio a seconda del risultato desiderato.

La figura seguente mostra i risultati del modello Multimodal Embeddings di Amazon Titan.

La figura seguente mostra i risultati del modello di incorporamento del testo Amazon Titan utilizzando i metadati estratti da Amazon Rekognition per generare l'incorporamento.

Prerequisiti

Per questa procedura dettagliata, è necessario disporre dei seguenti prerequisiti:

An Account AWS
Interfaccia a riga di comando del modello di applicazione AWS Serverless (AWS SAM CLI)
- La soluzione utilizza la CLI AWS SAM per la distribuzione.
- Assicurati di utilizzare la versione più recente dell'AWS SAM CLI.
docker
- La soluzione utilizza l'opzione CLI AWS SAM per creare all'interno di un contenitore per evitare la necessità di dipendenze locali. Per questo hai bisogno di Docker.
Nodo
- Il front-end per questa soluzione è un'applicazione web React che può essere eseguita localmente utilizzando Node.
npm
- L'installazione dei pacchetti richiesti per eseguire l'applicazione Web localmente o crearla per la distribuzione remota richiede npm.

Crea e distribuisci l'applicazione full stack

Clona il repository

git clone https://github.com/aws-samples/semantic-image-search-for-articles.git

Cambia la directory nel progetto appena clonato.
```
cd semantic-image-search-for-articles
```
Esegui npm install per scaricare tutti i pacchetti necessari per eseguire l'applicazione.
```
npm install
```
Esegui uno script di distribuzione che esegue una serie di script in sequenza che eseguiranno a Sam costruire, Sam schierato, aggiornare i file di configurazione e quindi ospitare i file dell'applicazione Web in Amazon S3 pronti per essere serviti tramite Amazon CloudFront
```
npm run deploy
```
Uno degli output finali dello script è un URL Amazon CloudFront, che consente di accedere all'applicazione. È necessario creare un nuovo utente nella Console di gestione AWS con cui accedere. Prendere nota dell'URL da utilizzare in seguito.

Lo screenshot seguente mostra come lo script ha utilizzato AWS SAM per distribuire lo stack e ha restituito un URL Amazon CloudFront che puoi utilizzare per accedere all'applicazione.

Crea un nuovo utente per accedere all'applicazione

Vai Amazzonia Cognito console e seleziona il tuo nuovo Pool di utenti.
Crea un nuovo utente con una nuova password.

Accedi e testa l'applicazione web

Trovare il Amazon CloudFront URL per accedere alla pagina di accesso. Questo viene visualizzato nella riga finale come mostrato nello screenshot precedente.
Inserisci la nuova combinazione di nome utente e password per accedere.
Carica alcune immagini di esempio utilizzando l'interfaccia utente.
1. Scegli Scegli il file e quindi scegliere Caricare.
  Nota: Puoi anche caricare direttamente nel bucket S3 in blocco aggiungendo file al file /caricamenti cartella.
2. Scrivi o copia e incolla un articolo e scegli Invio per vedere se le immagini vengono restituite secondo l'ordine previsto.

Pulire

Per evitare di incorrere in addebiti futuri, eliminare le risorse.

Trova il bucket S3 distribuito con questa soluzione e svuota il bucket.
Vai alla console CloudFormation, scegli lo stack che hai distribuito tramite lo script di distribuzione menzionato in precedenza ed elimina lo stack.

Conclusione

In questo post hai visto come utilizzare Amazon Rekognition, Amazon Comprehend, Amazon Bedrock e OpenSearch Service per estrarre metadati dalle tue immagini e quindi utilizzare tecniche ML per scoprire automaticamente contenuti strettamente correlati utilizzando celebrità e ricerca semantica. Ciò è particolarmente importante nel settore editoriale, dove la velocità è importante per distribuire rapidamente nuovi contenuti e su più piattaforme.

Come passaggio successivo, distribuisci la soluzione nel tuo account AWS e carica alcune delle tue immagini per testare come la ricerca semantica può funzionare per te. Fammi sapere alcuni dei tuoi feedback nei commenti qui sotto.

Informazioni sugli autori

Marco Watkins è un Solutions Architect all'interno del team Media and Entertainment, che supporta i suoi clienti nella risoluzione di molti problemi di dati e ML. Lontano dalla vita professionale, ama passare il tempo con la sua famiglia e guardare crescere i suoi due piccoli.

Dan Johns è un ingegnere di Solutions Architect, che supporta i suoi clienti nella realizzazione di AWS e nel rispetto dei requisiti aziendali. Lontano dalla vita professionale, ama leggere, passare il tempo con la famiglia e automatizzare le attività domestiche.