Semantic Image Search For Articles Using Amazon Rekognition, Amazon SageMaker Foundation Models, And Amazon OpenSearch Service

Republicat de Platon

Urmaritori: 0

Editorii digitali caută în permanență modalități de a-și eficientiza și automatiza fluxurile de lucru media pentru a genera și a publica conținut nou cât de repede pot.

Editorii pot avea depozite care conțin milioane de imagini și, pentru a economisi bani, trebuie să poată reutiliza aceste imagini în articole. Găsirea imaginii care se potrivește cel mai bine cu un articol în depozitele de această scară poate fi o sarcină manuală, repetitivă, consumatoare de timp, care poate fi automatizată. De asemenea, se bazează pe etichetarea corectă a imaginilor din depozit, care poate fi, de asemenea, automatizat (pentru o poveste de succes a clienților, consultați Aller Media găsește succes cu KeyCore și AWS).

În această postare, demonstrăm cum se utilizează Amazon Rekognition, Amazon SageMaker JumpStart, și Serviciul Amazon OpenSearch pentru a rezolva această problemă de afaceri. Amazon Rekognition facilitează adăugarea capacității de analiză a imaginii la aplicațiile dvs. fără nicio experiență de învățare automată (ML) și vine cu diverse API-uri pentru a îndeplini cazuri de utilizare, cum ar fi detectarea obiectelor, moderarea conținutului, detectarea și analiza fețelor și recunoașterea textului și a celebrităților, care folosim în acest exemplu. SageMaker JumpStart este un serviciu low-code care vine cu soluții pre-construite, exemple de notebook-uri și multe modele de ultimă generație, pre-antrenate din surse disponibile public, care sunt ușor de implementat cu un singur clic în contul tău AWS . Aceste modele au fost ambalate pentru a fi implementate în siguranță și ușor prin intermediul Amazon SageMaker API-uri. Noul SageMaker JumpStart Foundation Hub vă permite să implementați cu ușurință modele de limbaj mari (LLM) și să le integrați cu aplicațiile dvs. OpenSearch Service este un serviciu complet gestionat care simplifică implementarea, scalarea și operarea OpenSearch. Serviciul OpenSearch vă permite să stocați vectori și alte tipuri de date într-un index și oferă o funcționalitate bogată care vă permite să căutați documente folosind vectori și măsurarea relației semantice, pe care o folosim în această postare.

Scopul final al acestei postări este de a arăta cum putem scoate la suprafață un set de imagini care sunt similare din punct de vedere semantic cu un anumit text, fie un articol sau un rezumat TV.

Următoarea captură de ecran arată un exemplu de luare a unui mini articol ca intrare de căutare, mai degrabă decât de a folosi cuvinte cheie și de a putea scoate la suprafață imagini similare din punct de vedere semantic.

Prezentare generală a soluției

Soluția este împărțită în două secțiuni principale. În primul rând, extrageți metadatele de etichete și celebrități din imagini, folosind Amazon Rekognition. Apoi generați o încorporare a metadatelor folosind un LLM. Stocați numele celebrităților și încorporarea metadatelor în Serviciul OpenSearch. În a doua secțiune principală, aveți un API pentru a interoga indexul serviciului OpenSearch pentru imagini folosind capabilitățile de căutare inteligentă OpenSearch pentru a găsi imagini care sunt similare din punct de vedere semantic cu textul dvs.

Această soluție folosește serviciile noastre bazate pe evenimente Amazon EventBridge, Funcții pas AWS, și AWS Lambdas pentru a orchestra procesul de extragere a metadatelor din imagini folosind Amazon Rekognition. Amazon Rekognition va efectua două apeluri API pentru a extrage etichete și celebrități cunoscute din imagine.

API-ul de detectare a celebrităților Amazon Rekognition, returnează un număr de elemente în răspuns. Pentru această postare, utilizați următoarele:

Nume, Id și URL-uri – Numele celebrității, un ID unic de recunoaștere Amazon și o listă de adrese URL, cum ar fi linkul IMDb al celebrității sau Wikipedia pentru mai multe informații.
Încredere în meci – Un scor de încredere al meciului care poate fi folosit pentru a controla comportamentul API. Vă recomandăm să aplicați un prag adecvat acestui scor în aplicația dvs. pentru a alege punctul dvs. de operare preferat. De exemplu, setând un prag de 99%, puteți elimina mai multe rezultate false pozitive, dar este posibil să ratați unele potriviri potențiale.

În al doilea apel API, API-ul de detectare a etichetelor Amazon Rekognition, returnează un număr de elemente în răspuns. Folosiți următoarele:

Nume si Prenume – Numele etichetei detectate
Încredere – Nivelul de încredere în eticheta atribuită unui obiect detectat

Un concept cheie în căutarea semantică este încorporarea. O încorporare a unui cuvânt este o reprezentare numerică a unui cuvânt sau a unui grup de cuvinte, sub forma unui vector. Când aveți mulți vectori, puteți măsura distanța dintre ei, iar vectorii care sunt apropiați ca distanță sunt similari din punct de vedere semantic. Prin urmare, dacă generați o încorporare a tuturor metadatelor imaginilor dvs. și apoi generați o încorporare a textului dvs., fie un articol sau un sinopsis TV, de exemplu, folosind același model, puteți găsi apoi imagini care sunt similare din punct de vedere semantic cu dvs. textul dat.

Există multe modele disponibile în SageMaker JumpStart pentru a genera înglobări. Pentru această soluție, utilizați GPT-J 6B Embedding de la Fata îmbrățișată. Produce înglobări de înaltă calitate și are una dintre valorile de performanță de top conform celor de la Hugging Face rezultatele evaluării. Amazon Bedrock este o altă opțiune, încă în previzualizare, în care ați putea alege modelul Amazon Titan Text Embeddings pentru a genera înglobările.

Utilizați modelul GPT-J pre-antrenat de la SageMaker JumpStart pentru a crea o încorporare a metadatelor imaginii și a le stoca ca vector k-NN în indexul tău OpenSearch Service, împreună cu numele celebrității într-un alt câmp.

A doua parte a soluției este de a returna utilizatorului primele 10 imagini care sunt similare din punct de vedere semantic cu textul lor, fie acesta un articol sau un sinopsis TV, inclusiv orice celebrități, dacă sunt prezente. Atunci când alegeți o imagine care să însoțească un articol, doriți ca imaginea să rezoneze cu punctele pertinente din articol. SageMaker JumpStart găzduiește multe modele de rezumare care pot lua un corp lung de text și îl pot reduce la punctele principale din original. Pentru modelul de rezumat, utilizați Laboratoare AI21 Rezumat modelul. Acest model oferă recapitulări de înaltă calitate ale articolelor de știri, iar textul sursă poate conține aproximativ 10,000 de cuvinte, ceea ce permite utilizatorului să rezuma întregul articol dintr-o singură mișcare.

Pentru a detecta dacă textul conține nume, celebrități potențial cunoscute, folosiți Amazon Comprehend care poate extrage entitati cheie dintr-un șir de text. Apoi filtrați după entitatea Persoană, pe care o utilizați ca parametru de căutare de intrare.

Apoi luați articolul rezumat și generați o încorporare pe care să o utilizați ca alt parametru de căutare de intrare. Este important să rețineți că utilizați același model implementat pe aceeași infrastructură pentru a genera încorporarea articolului așa cum ați făcut pentru imagini. Apoi folosești K-NN exact cu script de scor astfel încât să poți căuta după două câmpuri: numele celebrităților și vectorul care a captat informațiile semantice ale articolului. Consultați această postare, Capacitățile bazei de date vectoriale ale Amazon OpenSearch Service au fost explicate, despre scalabilitatea scriptului Score și despre modul în care această abordare pe indici mari poate duce la latențe mari.

walkthrough

Următoarea diagramă ilustrează arhitectura soluției.

Urmând etichetele numerotate:

Încarci o imagine într-un Amazon S3 găleată
Amazon EventBridge ascultă acest eveniment și apoi declanșează un Funcția AWS Step execuție
Funcția Step preia imaginea, extrage eticheta și metadatele celebrităților
AWS Lambdas funcția preia metadatele imaginii și generează o încorporare
Lambda apoi inserează numele celebrității (dacă este prezent) și încorporarea ca vector k-NN într-un index OpenSearch Service
Amazon S3 găzduiește un site web static simplu, deservit de un Amazon CloudFront distributie. Interfața cu utilizatorul front-end (UI) vă permite să vă autentificați cu aplicația folosind Amazon Cognito pentru a căuta imagini
Trimiteți un articol sau un text prin interfața de utilizare
O alta Lambda apeluri funcționale Amazon Comprehend pentru a detecta orice nume din text
Funcția rezumă apoi textul pentru a obține punctele pertinente din articol
Funcția generează o încorporare a articolului rezumat
Funcția caută apoi Serviciul OpenSearch index de imagine pentru orice imagine care se potrivește cu numele celebrității și cu cei mai apropiați k vecini pentru vector folosind asemănarea cosinus
Amazon CloudWatch și AWS X-Ray vă oferă observabilitate în fluxul de lucru de la capăt la capăt pentru a vă alerta cu privire la orice problemă.

Extrageți și stocați metadatele cheie ale imaginii

API-urile Amazon Rekognition DetectLabels și RecognizeCelebrities vă oferă metadatele din imaginile dvs. — etichete text pe care le puteți utiliza pentru a forma o propoziție din care să generați o încorporare. Articolul vă oferă o introducere de text pe care o puteți utiliza pentru a genera o încorporare.

Generați și stocați încorporații de cuvinte

Următoarea figură demonstrează reprezentarea vectorilor imaginilor noastre într-un spațiu bidimensional, unde, pentru ajutor vizual, am clasificat înglobările după categoria lor primară.

De asemenea, generați o încorporare a acestui articol nou scris, astfel încât să puteți căuta în Serviciul OpenSearch cele mai apropiate imagini de articol în acest spațiu vectorial. Folosind algoritmul k-nearest neighbors (k-NN), definiți câte imagini să returnați în rezultate.

Măriți la figura anterioară, vectorii sunt clasificați în funcție de distanța lor de la articol și apoi returnează imaginile K cele mai apropiate, unde K este 10 în acest exemplu.

Serviciul OpenSearch oferă capacitatea de a stoca vectori mari într-un index și oferă, de asemenea, funcționalitatea de a rula interogări pe index folosind k-NN, astfel încât să puteți interoga cu un vector pentru a returna cele mai apropiate k documente care au vectori la distanță apropiată. folosind diverse măsurători. Pentru acest exemplu, folosim asemănarea cosinusului.

Detectează numele în articol

Utilizați Amazon Comprehend, un serviciu de procesare a limbajului natural (NLP) AI, pentru a extrage entitățile cheie din articol. În acest exemplu, utilizați Amazon Comprehend pentru a extrage entități și a filtra după entitatea Persoană, care returnează orice nume pe care Amazon Comprehend le poate găsi în povestea jurnalistului, cu doar câteva rânduri de cod:

def get_celebrities(payload): response = comprehend_client.detect_entities( Text=' '.join(payload["text_inputs"]), LanguageCode="en", ) celebrities = "" for entity in response["Entities"]: if entity["Type"] == "PERSON": celebrities += entity["Text"] + " " return celebrities

În acest exemplu, încărcați o imagine în Serviciul Amazon de stocare simplă (Amazon S3), care declanșează un flux de lucru în care extrageți metadate din imagine, inclusiv etichete și orice celebrități. Apoi transformați metadatele extrase într-o încorporare și stocați toate aceste date în Serviciul OpenSearch.

Rezumați articolul și generați o încorporare

Rezumarea articolului este un pas important pentru a vă asigura că încorporarea cuvântului captează punctele pertinente ale articolului și, prin urmare, returnează imagini care rezonează cu tema articolului.

Modelul AI21 Labs Summarize este foarte simplu de utilizat fără nicio solicitare și doar câteva rânduri de cod:

def summarise_article(payload): sagemaker_endpoint_summarise = os.environ["SAGEMAKER_ENDPOINT_SUMMARIZE"] response = ai21.Summarize.execute( source=payload, sourceType="TEXT", destination=ai21.SageMakerDestination(sagemaker_endpoint_summarise) ) response_summary = response.summary return response_summary

Apoi utilizați modelul GPT-J pentru a genera încorporarea

def get_vector(payload_summary): sagemaker_endpoint = os.environ["SAGEMAKER_ENDPOINT_VECTOR"] response = sm_runtime_client.invoke_endpoint( EndpointName=sagemaker_endpoint, ContentType="application/json", Body=json.dumps(payload_summary).encode("utf-8"), ) response_body = json.loads((response["Body"].read())) return response_body["embedding"][0]

Apoi căutați în Serviciul OpenSearch imaginile dvs

Următorul este un exemplu de fragment al acelei interogări:

def search_document_celeb_context(person_names, vector): results = wr.opensearch.search( client=os_client, index="images", search_body={ "size": 10, "query": { "script_score": { "query": { "match": {"celebrities": person_names } }, "script": { "lang": "knn", "source": "knn_score", "params": { "field": "image_vector", "query_value": vector, "space_type": "cosinesimil" } } } } }, ) return results.drop(columns=["image_vector"]).to_dict()

Arhitectura conține o aplicație web simplă pentru a reprezenta un sistem de management al conținutului (CMS).

Pentru un articol exemplu, am folosit următoarea intrare:

„Werner Vogels îi plăcea să călătorească în jurul globului cu Toyota lui. Îi vedem Toyota apare în multe scene în timp ce conduce să meargă și să întâlnească diverși clienți în orașele lor natale.”

Niciuna dintre imagini nu are metadate cu cuvântul „Toyota”, dar semantica cuvântului „Toyota” este sinonimă cu mașini și conducere. Prin urmare, cu acest exemplu, putem demonstra cum putem depăși căutarea prin cuvinte cheie și să returnăm imagini care sunt similare din punct de vedere semantic. În captura de ecran de mai sus a interfeței de utilizare, legenda de sub imagine arată metadatele extrase de Amazon Rekognition.

Puteți include această soluție într-un flux de lucru mai mare unde utilizați metadatele pe care le-ați extras deja din imagini pentru a începe să utilizați căutarea vectorială împreună cu alți termeni cheie, cum ar fi numele celebrităților, pentru a returna cele mai bune imagini și documente pentru interogarea dvs. de căutare.

Concluzie

În această postare, am arătat cum puteți utiliza Amazon Rekognition, Amazon Comprehend, SageMaker și OpenSearch Service pentru a extrage metadate din imaginile dvs. și apoi utilizați tehnici ML pentru a le descoperi automat folosind celebrități și căutare semantică. Acest lucru este deosebit de important în industria editorială, unde viteza contează pentru a obține conținut proaspăt rapid și pe mai multe platforme.

Pentru mai multe informații despre lucrul cu materiale media, consultați Inteligența media tocmai a devenit mai inteligentă cu Media2Cloud 3.0.

Despre autor

Mark Watkins este arhitect de soluții în cadrul echipei Media și Divertisment, sprijinindu-și clienții să rezolve multe probleme de date și ML. Departe de viața profesională, îi place să petreacă timp cu familia și să-și privească cei doi micuți crescând.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. Automobile/VE-uri, carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
ChartPrime. Crește-ți jocul de tranzacționare cu ChartPrime. Accesați Aici.
BlockOffsets. Modernizarea proprietății de compensare a mediului. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/machine-learning/semantic-image-search-for-articles-using-amazon-rekognition-amazon-sagemaker-foundation-models-and-amazon-opensearch-service/

Timestamp-ul: 8 Septembrie, 2023

Republicat de Platon

Salvați data: alăturați-vă AWS la NVIDIA GTC, 19-22 septembrie

MLOps la margine cu Amazon SageMaker Edge Manager și AWS IoT Greengrass

Securizarea adreselor URL semnate Amazon SageMaker Studio Partea 2: API-ul privat cu autentificare JWT

Creșteți tranzacțiile frauduloase folosind date sintetice în Amazon SageMaker

Începeți cu implementarea modelelor în timp real pe Amazon SageMaker

AWS Localization folosește Amazon Translate pentru a scala localizarea

Rulați și optimizați inferența cu mai multe modele cu punctele finale cu mai multe modele Amazon SageMaker

Activați CI/CD pentru punctele finale Amazon SageMaker cu mai multe regiuni

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont