Ricerca semantica di immagini per articoli utilizzando Amazon Rekognition, modelli Amazon SageMaker Foundation e Amazon OpenSearch Service

Ripubblicato da Platone

Seguaci: 0

Gli editori digitali sono continuamente alla ricerca di modi per semplificare e automatizzare i propri flussi di lavoro multimediali al fine di generare e pubblicare nuovi contenuti il più rapidamente possibile.

Gli editori possono disporre di repository contenenti milioni di immagini e, per risparmiare denaro, devono essere in grado di riutilizzare queste immagini negli articoli. Trovare l'immagine che meglio corrisponde a un articolo in archivi di questa portata può essere un'attività manuale, ripetitiva e dispendiosa in termini di tempo, che può essere automatizzata. Si basa inoltre sul fatto che le immagini nel repository siano taggate correttamente, operazione che può anche essere automatizzata (per una storia di successo del cliente, fare riferimento a Aller Media trova successo con KeyCore e AWS).

In questo post, dimostriamo come utilizzare Rekognition di Amazon, JumpStart di Amazon SageMakere Servizio Amazon OpenSearch per risolvere questo problema aziendale. Amazon Rekognition semplifica l'aggiunta di funzionalità di analisi delle immagini alle tue applicazioni senza alcuna esperienza di machine learning (ML) e viene fornito con varie API per soddisfare casi d'uso come rilevamento di oggetti, moderazione dei contenuti, rilevamento e analisi di volti e riconoscimento di testo e celebrità, che usiamo in questo esempio. SageMaker JumpStart è un servizio low-code che viene fornito con soluzioni predefinite, notebook di esempio e molti modelli all'avanguardia e pre-addestrati provenienti da fonti disponibili al pubblico che sono semplici da distribuire con un solo clic nel tuo account AWS . Questi modelli sono stati confezionati per essere implementabili in modo sicuro e facile tramite Amazon Sage Maker API. Il nuovo SageMaker JumpStart Foundation Hub ti consente di distribuire facilmente modelli linguistici di grandi dimensioni (LLM) e di integrarli con le tue applicazioni. OpenSearch Service è un servizio completamente gestito che semplifica la distribuzione, la scalabilità e il funzionamento di OpenSearch. Il servizio OpenSearch ti consente di archiviare vettori e altri tipi di dati in un indice e offre funzionalità avanzate che ti consentono di cercare documenti utilizzando vettori e misurando la correlazione semantica, che utilizziamo in questo post.

L'obiettivo finale di questo post è mostrare come possiamo far emergere un insieme di immagini che sono semanticamente simili a un testo, sia esso un articolo o una sinossi televisiva.

Lo screenshot seguente mostra un esempio di come prendere un mini articolo come input di ricerca, anziché utilizzare parole chiave, e di riuscire a far emergere immagini semanticamente simili.

Panoramica della soluzione

La soluzione è divisa in due sezioni principali. Innanzitutto, estrai i metadati dell'etichetta e delle celebrità dalle immagini, utilizzando Amazon Rekognition. Quindi generi un incorporamento dei metadati utilizzando un LLM. Memorizzi i nomi delle celebrità e l'incorporamento dei metadati nel servizio OpenSearch. Nella seconda sezione principale, hai un'API per interrogare il tuo indice del servizio OpenSearch per le immagini utilizzando le funzionalità di ricerca intelligente di OpenSearch per trovare immagini semanticamente simili al tuo testo.

Questa soluzione utilizza i nostri servizi basati sugli eventi Amazon EventBridge, Funzioni AWS Stepe AWS Lambda per orchestrare il processo di estrazione dei metadati dalle immagini utilizzando Amazon Rekognition. Amazon Rekognition eseguirà due chiamate API per estrarre etichette e celebrità conosciute dall'immagine.

API di rilevamento delle celebrità di Amazon Rekognition, restituisce un numero di elementi nella risposta. Per questo post, utilizzi quanto segue:

Nome, ID e URL – Il nome della celebrità, un ID Amazon Rekognition univoco e un elenco di URL come il collegamento IMDb o Wikipedia della celebrità per ulteriori informazioni.
Partita Fiducia – Un punteggio di confidenza della corrispondenza che può essere utilizzato per controllare il comportamento dell'API. Ti consigliamo di applicare una soglia adeguata a questo punteggio nella tua domanda per scegliere il punto operativo preferito. Ad esempio, impostando una soglia del 99%, puoi eliminare più falsi positivi ma potresti perdere alcune potenziali corrispondenze.

Nella tua seconda chiamata API, API di rilevamento etichette di Amazon Rekognition, restituisce un numero di elementi nella risposta. Utilizzi quanto segue:

Nome – Il nome dell'etichetta rilevata
Fiducia – Il livello di confidenza nell'etichetta assegnata a un oggetto rilevato

Un concetto chiave nella ricerca semantica sono gli incorporamenti. Un word embedding è una rappresentazione numerica di una parola o di un gruppo di parole, sotto forma di vettore. Quando hai molti vettori, puoi misurare la distanza tra loro e i vettori che sono vicini sono semanticamente simili. Pertanto, se generi un incorporamento di tutti i metadati delle tue immagini e quindi generi un incorporamento del tuo testo, sia esso un articolo o una sinossi televisiva ad esempio, utilizzando lo stesso modello, puoi quindi trovare immagini che sono semanticamente simili alle tue dato testo.

All'interno di SageMaker JumpStart sono disponibili molti modelli per generare incorporamenti. Per questa soluzione, utilizzi l'incorporamento GPT-J 6B da Abbracciare il viso. Produce incorporamenti di alta qualità e ha uno dei parametri di prestazione più alti secondo Hugging Face's risultati della valutazione. Roccia Amazzonica è un'altra opzione, ancora in anteprima, in cui puoi scegliere il modello Amazon Titan Text Embeddings per generare gli incorporamenti.

Puoi utilizzare il modello pre-addestrato GPT-J di SageMaker JumpStart per creare un incorporamento dei metadati dell'immagine e archiviarli come file vettore k-NN nell'indice del servizio OpenSearch, insieme al nome della celebrità in un altro campo.

La seconda parte della soluzione è restituire all'utente le prime 10 immagini che sono semanticamente simili al loro testo, sia esso un articolo o una sinossi televisiva, comprese eventuali celebrità se presenti. Quando scegli un'immagine per accompagnare un articolo, vuoi che l'immagine risuoni con i punti pertinenti dell'articolo. SageMaker JumpStart ospita molti modelli di riepilogo che possono prendere un lungo corpo di testo e ridurlo ai punti principali dell'originale. Per il modello di riepilogo, utilizzare il file Laboratori AI21 Riassumi il modello. Questo modello fornisce riepiloghi di alta qualità di articoli di notizie e il testo originale può contenere circa 10,000 parole, il che consente all'utente di riassumere l'intero articolo in una volta sola.

Per rilevare se il testo contiene nomi, celebrità potenzialmente conosciute, utilizzi Amazon Comprehend che può estrarre entità chiave da una stringa di testo. Quindi filtri in base all'entità Persona, che utilizzi come parametro di ricerca di input.

Quindi prendi l'articolo riepilogato e generi un incorporamento da utilizzare come altro parametro di ricerca di input. È importante notare che utilizzi lo stesso modello distribuito sulla stessa infrastruttura per generare l'incorporamento dell'articolo come hai fatto per le immagini. Quindi usi K-NN esatto con script di punteggio in modo da poter effettuare la ricerca in due campi: nomi di celebrità e vettore che ha catturato le informazioni semantiche dell'articolo. Fare riferimento a questo post, Spiegazione delle funzionalità del database vettoriale di Amazon OpenSearch Service, sulla scalabilità dello script Score e su come questo approccio su indici di grandi dimensioni possa portare a latenze elevate.

Soluzione

Il diagramma seguente illustra l'architettura della soluzione.

Dopo le etichette numerate:

Carichi un'immagine su un file Amazon S3 benna
Amazon EventBridge ascolta questo evento e quindi attiva un Funzione AWS Step esecuzione
La funzione Step prende l'input dell'immagine, estrae l'etichetta e i metadati delle celebrità
Il AWS Lambda La funzione prende i metadati dell'immagine e genera un incorporamento
Il Lambda la funzione inserisce quindi il nome della celebrità (se presente) e l'incorporamento come vettore k-NN in un indice del servizio OpenSearch
Amazon S3 ospita un semplice sito Web statico, servito da un Amazon CloudFront distribuzione. L'interfaccia utente front-end (UI) consente di autenticarsi con l'applicazione utilizzando Amazzonia Cognito per cercare immagini
Invii un articolo o del testo tramite l'interfaccia utente
Un altro Lambda chiamate di funzione Amazon Comprehend per rilevare eventuali nomi nel testo
La funzione quindi riassume il testo per ottenere i punti pertinenti dall'articolo
La funzione genera un incorporamento dell'articolo riepilogato
La funzione quindi cerca Servizio OpenSearch indice dell'immagine per qualsiasi immagine corrispondente al nome della celebrità e ai k-vicini più vicini per il vettore utilizzando la somiglianza del coseno
Amazon Cloud Watch ed Raggi X AWS darti osservabilità nel flusso di lavoro end-to-end per avvisarti di eventuali problemi.

Estrai e archivia i metadati chiave delle immagini

Le API Amazon Rekognition DetectLabels e RecognizeCelebrities ti forniscono i metadati delle tue immagini: etichette di testo che puoi utilizzare per formare una frase da cui generare un incorporamento. L'articolo fornisce un input di testo che puoi utilizzare per generare un incorporamento.

Generare e archiviare incorporamenti di parole

La figura seguente mostra il tracciamento dei vettori delle nostre immagini in uno spazio bidimensionale, dove per aiuto visivo abbiamo classificato gli incorporamenti in base alla loro categoria primaria.

Generi anche un incorporamento di questo articolo appena scritto, in modo da poter cercare nel servizio OpenSearch le immagini più vicine all'articolo in questo spazio vettoriale. Utilizzando l'algoritmo k-nearest neighbors (k-NN), definisci quante immagini restituire nei risultati.

Ingrandendo la figura precedente, i vettori vengono classificati in base alla loro distanza dall'articolo e quindi restituiscono le K immagini più vicine, dove K è 10 in questo esempio.

Il servizio OpenSearch offre la possibilità di archiviare vettori di grandi dimensioni in un indice e offre anche la funzionalità per eseguire query sull'indice utilizzando k-NN, in modo da poter eseguire query con un vettore per restituire i documenti k-più vicini che hanno vettori a distanza ravvicinata utilizzando varie misurazioni. Per questo esempio utilizziamo somiglianza del coseno.

Rileva i nomi nell'articolo

Utilizzi Amazon Comprehend, un servizio di elaborazione del linguaggio naturale (NLP) AI, per estrarre le entità chiave dall'articolo. In questo esempio, utilizzi Amazon Comprehend per estrarre entità e filtrare in base all'entità Persona, che restituisce tutti i nomi che Amazon Comprehend riesce a trovare nell'articolo del giornalista, con solo poche righe di codice:

def get_celebrities(payload): response = comprehend_client.detect_entities( Text=' '.join(payload["text_inputs"]), LanguageCode="en", ) celebrities = "" for entity in response["Entities"]: if entity["Type"] == "PERSON": celebrities += entity["Text"] + " " return celebrities

In questo esempio, carichi un'immagine su Servizio di archiviazione semplice Amazon (Amazon S3), che attiva un flusso di lavoro in cui estrai i metadati dall'immagine, comprese le etichette e le eventuali celebrità. Quindi trasformi i metadati estratti in un incorporamento e memorizzi tutti questi dati nel servizio OpenSearch.

Riassumere l'articolo e generare un incorporamento

Riassumere l'articolo è un passo importante per assicurarsi che la parola incorporamento catturi i punti pertinenti dell'articolo e quindi restituisca immagini in sintonia con il tema dell'articolo.

Il modello AI21 Labs Summarize è molto semplice da usare senza alcuna richiesta e con solo poche righe di codice:

def summarise_article(payload): sagemaker_endpoint_summarise = os.environ["SAGEMAKER_ENDPOINT_SUMMARIZE"] response = ai21.Summarize.execute( source=payload, sourceType="TEXT", destination=ai21.SageMakerDestination(sagemaker_endpoint_summarise) ) response_summary = response.summary return response_summary

Quindi utilizzerai il modello GPT-J per generare l'incorporamento

def get_vector(payload_summary): sagemaker_endpoint = os.environ["SAGEMAKER_ENDPOINT_VECTOR"] response = sm_runtime_client.invoke_endpoint( EndpointName=sagemaker_endpoint, ContentType="application/json", Body=json.dumps(payload_summary).encode("utf-8"), ) response_body = json.loads((response["Body"].read())) return response_body["embedding"][0]

Quindi cerchi nel servizio OpenSearch le tue immagini

Quello che segue è un frammento di esempio di quella query:

def search_document_celeb_context(person_names, vector): results = wr.opensearch.search( client=os_client, index="images", search_body={ "size": 10, "query": { "script_score": { "query": { "match": {"celebrities": person_names } }, "script": { "lang": "knn", "source": "knn_score", "params": { "field": "image_vector", "query_value": vector, "space_type": "cosinesimil" } } } } }, ) return results.drop(columns=["image_vector"]).to_dict()

L'architettura contiene una semplice app Web per rappresentare un sistema di gestione dei contenuti (CMS).

Per un articolo di esempio, abbiamo utilizzato il seguente input:

“Werner Vogels amava viaggiare in giro per il mondo con la sua Toyota. Vediamo la sua Toyota apparire in molte scene mentre guida per incontrare vari clienti nelle loro città natale”.

Nessuna delle immagini contiene metadati con la parola "Toyota", ma la semantica della parola "Toyota" è sinonimo di automobili e guida. Pertanto, con questo esempio, possiamo dimostrare come possiamo andare oltre la ricerca per parole chiave e restituire immagini semanticamente simili. Nello screenshot sopra dell'interfaccia utente, la didascalia sotto l'immagine mostra i metadati estratti da Amazon Rekognition.

Potresti includere questa soluzione in un file flusso di lavoro più ampio dove utilizzi i metadati che hai già estratto dalle tue immagini per iniziare a utilizzare la ricerca vettoriale insieme ad altri termini chiave, come i nomi di celebrità, per restituire le immagini e i documenti più risonanti per la tua query di ricerca.

Conclusione

In questo post, abbiamo mostrato come utilizzare Amazon Rekognition, Amazon Comprehend, SageMaker e OpenSearch Service per estrarre metadati dalle tue immagini e quindi utilizzare tecniche ML per scoprirli automaticamente utilizzando celebrità e ricerca semantica. Ciò è particolarmente importante nel settore editoriale, dove la velocità è importante per distribuire rapidamente nuovi contenuti e su più piattaforme.

Per ulteriori informazioni sull'utilizzo delle risorse multimediali, fare riferimento a L'intelligenza multimediale è appena diventata più intelligente con Media2Cloud 3.0.

L'autore

Marco Watkins è un Solutions Architect all'interno del team Media and Entertainment, che supporta i suoi clienti nella risoluzione di molti problemi di dati e ML. Lontano dalla vita professionale, ama passare il tempo con la sua famiglia e guardare crescere i suoi due piccoli.