Z łatwością twórz semantyczne wyszukiwanie obrazów za pomocą Amazon Titan

Opublikowane ponownie przez Plato

Obserwuje: 0

Wydawcy treści cyfrowych nieustannie szukają sposobów usprawnienia i zautomatyzowania przepływu pracy w mediach, aby generować i publikować nowe treści tak szybko, jak to możliwe, ale bez utraty jakości.

Dodawanie obrazów w celu uchwycenia istoty tekstu może poprawić komfort czytania. Techniki uczenia maszynowego mogą pomóc w odkryciu takich obrazów. „Uderzający obraz to jeden z najskuteczniejszych sposobów na przyciągnięcie uwagi odbiorców i wywołanie zaangażowania w historię, ale musi też mieć sens".

Połączenia poprzedni post omówiliśmy, w jaki sposób można wykorzystać usługi uczenia maszynowego Amazon (ML), aby pomóc Ci znaleźć najlepsze obrazy do umieszczenia obok artykułu lub streszczenia programu telewizyjnego bez wpisywania słów kluczowych. W poprzednim poście użyłeś Amazon Rekognition aby wyodrębnić metadane z obrazu. Następnie użyłeś modelu osadzania tekstu, aby wygenerować osadzanie słów z metadanymi, które można później wykorzystać do znalezienia najlepszych obrazów.

W tym poście zobaczysz, jak możesz wykorzystać modele fundamentów Amazon Titan, aby szybko zrozumieć artykuł i znaleźć najlepsze obrazy do niego towarzyszące. Tym razem generujesz osadzanie bezpośrednio z obrazu.

Kluczową koncepcją w wyszukiwaniu semantycznym jest osadzanie. Osadzanie to numeryczna reprezentacja danych wejściowych — obrazu, tekstu lub obu — w postaci wektora. Jeśli masz wiele wektorów, możesz zmierzyć odległość między nimi, a wektory znajdujące się w niewielkiej odległości są semantycznie podobne lub powiązane.

Amazońska skała macierzysta to w pełni zarządzana usługa oferująca wybór wysokowydajnych modeli podstawowych (FM) od wiodących firm zajmujących się sztuczną inteligencją, w tym AI21 Labs, Anthropic, Cohere, Meta, Stability AI i Amazon, za pomocą jednego interfejsu API, wraz z szerokim zestawem możliwości pomóc w tworzeniu generatywnych aplikacji AI, upraszczając programowanie przy jednoczesnym zachowaniu prywatności i bezpieczeństwa.

Amazon Tytan dodała niedawno do swojej kolekcji nowy model osadzania, Titan Multimodal Embeddings. Ten nowy model można wykorzystać do wyszukiwania multimodalnego, systemów rekomendacji i innych dalszych zastosowań.

Modele multimodalne mogą rozumieć i analizować dane w wielu modalnościach, takich jak tekst, obraz, wideo i audio. Ten najnowszy model Amazon Titan obsługuje tekst, obrazy lub jedno i drugie. Oznacza to, że używasz tego samego modelu do generowania osadzonych obrazów i tekstu, a następnie wykorzystujesz te osadzania do obliczenia podobieństwa obu elementów.

Omówienie rozwiązania

Na poniższym zrzucie ekranu możesz zobaczyć, jak utworzyć miniartykuł, przeprowadzić wyszukiwanie i znaleźć obrazy pasujące do artykułu. W tym przykładzie weźmiesz zdanie opisujące Wernera Vogelsa noszącego białe szaliki podczas podróży po Indiach. Wektor zdania jest semantycznie powiązany z wektorami obrazów Wernera w szaliku i dlatego jest zwracany jako najpopularniejsze obrazy w tym wyszukiwaniu.

Na wysokim poziomie obraz jest przesyłany do Usługa Amazon Simple Storage (Amazon S3) i wyodrębniane są metadane, łącznie z osadzeniem obrazu.

Aby wyodrębnić metadane tekstowe z obrazu, użyj metody funkcja rozpoznawania celebrytów oraz funkcja wykrywania etykiet in Amazon Rekognition. Amazon Rekognition automatycznie rozpoznaje dziesiątki tysięcy znanych osobistości na obrazach i filmach za pomocą ML. Używasz tej funkcji do rozpoznawania gwiazd na obrazach i przechowywania tych metadanych Usługa Amazon OpenSearch. Wykrywanie etykiet wyszukuje obiekty i koncepcje z obrazu, tak jak na powyższym zrzucie ekranu, na którym znajdują się metadane etykiety pod obrazem.

Model Titan Multimodal Embeddings służy do generowania osadzania obrazu, który jest również metadanymi z możliwością wyszukiwania.

Wszystkie metadane są następnie przechowywane w Usługa OpenSearch w przypadku późniejszych zapytań, gdy musisz znaleźć obraz lub obrazy.

Druga część architektury polega na przesłaniu artykułu w celu znalezienia nowo pobranych obrazów.

Po przesłaniu artykułu należy go wyodrębnić i przekształcić w dane wejściowe wyszukiwania dla usługi OpenSearch. Używasz Amazon Comprehend aby wykryć w tekście nazwiska, które mogą być potencjalnymi gwiazdami. Podsumujesz artykuł, ponieważ prawdopodobnie wybierzesz tylko jeden lub dwa obrazy, aby uchwycić istotę artykułu. Wygenerowanie streszczenia tekstu to dobry sposób, aby upewnić się, że osadzanie oddaje istotne punkty historii. W tym celu użyj Amazon Titan Text G1 – Express model z monitem typu „Proszę podać streszczenie poniższego tekstu. Nie dodawaj żadnych informacji, które nie są wymienione w poniższym tekście.” W przypadku podsumowanego artykułu używasz modelu Amazon Titan Multimodal Embeddings, aby wygenerować osadzenie podsumowanego artykułu. Model osadzania ma również maksymalną liczbę wejściowych tokenów, dlatego podsumowanie artykułu jest jeszcze ważniejsze, aby upewnić się, że możesz uzyskać jak najwięcej informacji przechwyconych podczas osadzania. Mówiąc najprościej, token to pojedyncze słowo, podsłowo lub znak.

Następnie przeprowadzasz wyszukiwanie w usłudze OpenSearch na podstawie nazw i osadzania z artykułu, aby znaleźć obrazy, które są semantycznie podobne do obecności danej gwiazdy, jeśli jest obecna.

Jako użytkownik po prostu szukasz obrazów, używając artykułu jako danych wejściowych.

Opis przejścia

Poniższy diagram przedstawia architekturę zapewniającą ten przypadek użycia.

Poniższe kroki opisują sekwencję działań (przedstawioną na diagramie), które umożliwiają semantyczne wyszukiwanie obrazów i gwiazd.

Przesyłasz obraz do pliku Amazon S3 wiadro.
Most zdarzeń Amazona nasłuchuje tego zdarzenia, a następnie inicjuje krok AWS Step Functions.
Krok Funkcje kroku obejmuje Amazon S3 szczegóły obrazu i uruchamia trzy równoległe akcje:
1. Wywołanie API do Amazon Rekognition Wykryj etykiety aby wyodrębnić metadane obiektu
2. Wywołanie API do Amazon Rekognition Rozpoznaj gwiazdy Interfejsy API umożliwiające wyodrębnienie znanych gwiazd
3. A AWS Lambda funkcja zmienia rozmiar obrazu do maksymalnych wymiarów akceptowanych dla modelu osadzania ML i generuje osadzenie bezpośrednio z wejściowego obrazu.
Połączenia Lambda następnie wstawia metadane obiektu obrazu i nazwiska gwiazd, jeśli są obecne, oraz osadza jako wektor k-NN w indeksie usługi OpenSearch.
Amazon S3 hostuje prostą statyczną witrynę internetową, dystrybuowaną przez firmę an Amazon CloudFront. Interfejs użytkownika front-end (UI) umożliwia uwierzytelnianie w aplikacji za pomocą Amazon Cognito aby wyszukać obrazy.
Przesyłasz artykuł lub tekst za pomocą interfejsu użytkownika.
Inne Lambda wywołania funkcji Amazon Comprehend aby rozpoznać w tekście nazwiska potencjalnych celebrytów.
Funkcja następnie podsumowuje tekst, aby uzyskać istotne punkty z artykułu za pomocą Titan Text G1 – Express.
Funkcja generuje osadzenie podsumowanego artykułu przy użyciu modelu Amazon Titan Multimodal Embeddings.
Następnie funkcja przeszukuje Usługa OpenSearch indeks obrazów dla obrazów pasujących do nazwiska gwiazdy i k-najbliżsi sąsiedzi dla wektora za pomocą podobieństwo cosinusowe za pomocą Dokładne k-NN ze skryptem punktacji.
Amazon Cloud Watch i RTG AWS zapewnia możliwość obserwacji całego przepływu pracy i powiadamia o wszelkich problemach.

Poniższy rysunek przedstawia wizualnego projektanta przepływu pracy w ramach przepływu pracy Step Functions.

Oto przykład osadzania:

{"Embedding_Results": [-0.40342346, 0.073382884, 0.22957325, -0.014249567, 0.042733602, -0.102064356, 0.21086141, -0.4672587, 0.17779616, 0.08438544, -0.58220416, -0.010788828, -0.28306714, 0.4242958, -0.01655291,....

Powyższa tablica liczb przechwytuje znaczenie obiektu tekstowego lub obrazu w formie, na podstawie której można wykonywać obliczenia i funkcje.

Osadzenia charakteryzują się dużą wymiarowością, od kilkuset do wielu tysięcy wymiarów. Model ten ma wymiarowość 1,024, co oznacza, że poprzednia tablica będzie zawierać 1,024 elementy, które oddają semantykę danego obiektu.

Osadzanie multimodalne a osadzanie tekstu

Omawiamy dwie opcje zapewniania semantycznego wyszukiwania obrazów, gdzie główną różnicą jest sposób generowania osadzania obrazów. W naszym poprzedni post, generujesz osadzenie na podstawie metadanych tekstowych, które są wyodrębniane za pomocą Amazon Rekognition. W tym poście używasz modelu Titan Multimodal Embeddings i możesz bezpośrednio wygenerować osadzenie obrazu.

Wykonując szybki test i uruchamiając zapytanie w interfejsie użytkownika względem obu podejść, można zauważyć, że wyniki są zauważalnie różne. Przykładowy artykuł zapytania brzmi: „Werner Vogels uwielbia nosić białe szaliki podczas podróży po Indiach”.

Wynik z modelu multimodalnego wyżej ocenia obrazy z chustą. Słowo szalik jest obecny w przesłanym przez nas artykule i osadzenie to rozpoznało.

W interfejsie użytkownika możesz zobaczyć metadane wyodrębnione przez Amazon Rekognition, a metadane nie zawierają słowa szalik i dlatego pominęły pewne informacje z obrazu, czego, jak można założyć, nie ma w modelu osadzania obrazu, a zatem w modelu multimodalnym może mieć przewagę w zależności od przypadku użycia. Korzystając z Amazon Rekognition, możesz filtrować obiekty wykryte na obrazie przed utworzeniem osadzania, dzięki czemu możesz uzyskać inne odpowiednie przypadki użycia, które mogą działać lepiej w zależności od pożądanego rezultatu.

Poniższy rysunek przedstawia wyniki z modelu Amazon Titan Multimodal Embeddings.

Poniższy rysunek przedstawia wyniki modelu osadzania tekstu Amazon Titan przy użyciu metadanych wyodrębnionych z usługi Amazon Rekognition w celu wygenerowania osadzania.

Wymagania wstępne

W przypadku tego przewodnika musisz mieć następujące wymagania wstępne:

An Konto AWS
Interfejs wiersza poleceń modelu aplikacji bezserwerowej AWS (AWS SAM CLI)
- Rozwiązanie wykorzystuje do wdrożenia interfejs CLI AWS SAM.
- Upewnij się, że używasz najnowszej wersji AWS SAM CLI.
Doker
- Rozwiązanie wykorzystuje opcję AWS SAM CLI do budowania wewnątrz kontenera, aby uniknąć konieczności tworzenia lokalnych zależności. Potrzebujesz do tego Dockera.
Node
- Frontendem tego rozwiązania jest aplikacja internetowa React, którą można uruchomić lokalnie przy użyciu Node.
Npm
- Instalacja pakietów wymaganych do lokalnego uruchomienia aplikacji internetowej lub zbudowania jej do zdalnego wdrożenia wymaga npm.

Kompiluj i wdrażaj aplikację z pełnym stosem

Sklonuj repozytorium

git clone https://github.com/aws-samples/semantic-image-search-for-articles.git

Zmień katalog na nowo sklonowany projekt.
```
cd semantic-image-search-for-articles
```
Uruchom npm install, aby pobrać wszystkie pakiety wymagane do uruchomienia aplikacji.
```
npm install
```
Uruchom skrypt wdrażania, który uruchamia serię skryptów w kolejności, która wykona: sama konstrukcja, sam wdrażam, zaktualizuj pliki konfiguracyjne, a następnie hostuj pliki aplikacji internetowej w Amazon S3, gotowe do udostępnienia przez Amazon CloudFront
```
npm run deploy
```
Jednym z końcowych wyników skryptu jest adres URL Amazon CloudFront, czyli sposób, w jaki uzyskasz dostęp do aplikacji. Aby się zalogować, musisz utworzyć nowego użytkownika w konsoli zarządzania AWS. Zanotuj adres URL, którego będziesz mógł użyć później.

Poniższy zrzut ekranu pokazuje, jak skrypt użył AWS SAM do wdrożenia stosu i wygenerował adres URL Amazon CloudFront, którego możesz użyć, aby uzyskać dostęp do aplikacji.

Utwórz nowego użytkownika, aby zalogować się do aplikacji

Idź do Amazon Cognito konsoli i wybierz nowy Pula użytkowników.
Utwórz nowego użytkownika z nowym hasłem.

Zaloguj się i przetestuj aplikację internetową

Znajdź Amazon CloudFront Adres URL umożliwiający przejście do strony logowania. Jest to wyświetlane w ostatniej linii, jak pokazano na poprzednim zrzucie ekranu.
Wprowadź nową kombinację nazwy użytkownika i hasła, aby się zalogować.
Prześlij kilka przykładowych obrazów za pomocą interfejsu użytkownika.
1. Dodaj Wybierz plik a następnie wybierz Prześlij.
  Uwaga: Możesz także przesłać zbiorczo bezpośrednio do segmentu S3, dodając pliki do pliku /przesłane teczka.
2. Napisz lub skopiuj i wklej artykuł i wybierz Prześlij aby sprawdzić, czy obrazy zostały zwrócone zgodnie z oczekiwaną kolejnością.

Sprzątanie

Aby uniknąć przyszłych opłat, usuń zasoby.

Znajdź wiadro S3 wdrożone z tym rozwiązaniem i opróżnij wiadro.
Przejdź do konsoli CloudFormation, wybierz stos wdrożony za pomocą wspomnianego wcześniej skryptu wdrażania i usuń stos.

Wnioski

W tym poście pokazałeś, jak używać Amazon Rekognition, Amazon Comprehend, Amazon Bedrock i OpenSearch Service do wyodrębniania metadanych ze swoich obrazów, a następnie korzystania z technik uczenia maszynowego w celu automatycznego odkrywania blisko powiązanych treści za pomocą wyszukiwania gwiazd i wyszukiwania semantycznego. Jest to szczególnie ważne w branży wydawniczej, gdzie szybkość ma znaczenie w szybkim udostępnianiu nowych treści na wielu platformach.

Następnym krokiem będzie wdrożenie rozwiązania na koncie AWS i przesłanie kilku własnych obrazów, aby przetestować, jak wyszukiwanie semantyczne może działać w Twoim przypadku. Daj mi znać kilka swoich opinii w komentarzach poniżej.

O autorach

Marka Watkinsa jest Architektem Rozwiązań w zespole Media and Entertainment, wspierając swoich klientów w rozwiązywaniu wielu problemów związanych z danymi i ML. Z dala od życia zawodowego uwielbia spędzać czas z rodziną i obserwować dorastającą dwójkę swoich maluchów.

Dana Johnsa jest inżynierem architektem rozwiązań, wspierającym swoich klientów w budowaniu rozwiązań na platformie AWS i spełnianiu wymagań biznesowych. Poza życiem zawodowym uwielbia czytać, spędzać czas z rodziną i automatyzować zadania w domu.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/machine-learning/easily-build-semantic-image-search-using-amazon-titan/

Znak czasu: Listopad 30, 2023

Znak czasu: Mar 30, 2023

Opublikowane ponownie przez Plato

Ujednolicone przygotowanie danych i uczenie modeli za pomocą Amazon SageMaker Data Wrangler i Amazon SageMaker Autopilot

W jaki sposób firma Yara wykorzystuje funkcje MLOps usługi Amazon SageMaker do skalowania optymalizacji zużycia energii w swoich zakładach produkcji amoniaku

Jak The Chefz serwuje idealny posiłek dzięki Amazon Personalizuj

Przeprowadzaj inteligentne wyszukiwanie w wiadomościach e-mail w obszarze roboczym Google, korzystając z łącznika Gmail dla Amazon Kendra

AWS DeepRacer umożliwia konstruktorom na wszystkich poziomach umiejętności podnoszenie umiejętności i rozpoczęcie korzystania z uczenia maszynowego | Usługi internetowe Amazona

Zautomatyzuj i zaimplementuj kontrolę wersji często zadawanych pytań Amazon Kendra

Bezpieczne wstępnie podpisane adresy URL Amazon SageMaker Studio Część 3: Prywatny dostęp API do programu Studio z wielu kont

Zorganizuj swoją podróż do uczenia maszynowego dzięki eksperymentom Amazon SageMaker i Amazon SageMaker Pipelines

Jak OCX Cognition skrócił czas tworzenia modelu ML z tygodni do dni i czas aktualizacji modelu z dni do czasu rzeczywistego przy użyciu AWS Step Functions i Amazon SageMaker | Usługi sieciowe Amazona

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto