Ulepsz swoje monity o stabilne rozproszenie dzięki generowaniu rozszerzonemu pobierania | Usługi internetowe Amazona

Ulepsz swoje monity o stabilne rozproszenie dzięki generowaniu rozszerzonemu pobierania | Usługi internetowe Amazona

Generowanie tekstu na obraz to szybko rozwijająca się dziedzina sztucznej inteligencji mająca zastosowanie w różnych obszarach, takich jak media i rozrywka, gry, wizualizacja produktów e-commerce, reklama i marketing, projektowanie i wizualizacje architektoniczne, dzieła artystyczne i obrazowanie medyczne.

Stabilna dyfuzja to model zamiany tekstu na obraz, który umożliwia tworzenie wysokiej jakości obrazów w ciągu kilku sekund. W listopadzie 2022 r ogłosił za pomocą których klienci AWS mogą generować obrazy z tekstu Stabilna dyfuzja modele w Amazon SageMaker JumpStart, centrum uczenia maszynowego (ML) oferujące modele, algorytmy i rozwiązania. Ewolucja była kontynuowana w kwietniu 2023 r. wraz z wprowadzeniem Amazońska skała macierzysta, w pełni zarządzana usługa oferująca dostęp do najnowocześniejszych modeli fundamentów, w tym Stable Diffusion, poprzez wygodne API.

W miarę jak coraz większa liczba klientów podejmuje próby zamiany tekstu na obraz, pojawia się częsta przeszkoda — jak tworzyć podpowiedzi, które mają moc dostarczania wysokiej jakości obrazów zorientowanych na cel. Wyzwanie to często wymaga znacznej ilości czasu i zasobów, ponieważ użytkownicy wyruszają w wielokrotną podróż eksperymentów, aby odkryć podpowiedzi, które odpowiadają ich wizjom.

Generowanie rozszerzone wyszukiwania (RAG) to proces, w którym model językowy pobiera dokumenty kontekstowe z zewnętrznego źródła danych i wykorzystuje te informacje do generowania dokładniejszego i bardziej informacyjnego tekstu. Technika ta jest szczególnie przydatna w przypadku zadań związanych z przetwarzaniem języka naturalnego (NLP) wymagających dużej wiedzy. Teraz rozszerzamy jego transformacyjny charakter na świat generowania tekstu na obraz. W tym poście pokazujemy, jak wykorzystać moc RAG, aby ulepszyć podpowiedzi wysyłane do modeli ze stabilnym rozproszeniem. Możesz stworzyć własnego asystenta AI do szybkiego generowania w ciągu kilku minut dzięki dużym modelom językowym (LLM) w serwisie Amazon Bedrock, a także w SageMaker JumpStart.

Podejścia do tworzenia podpowiedzi przekształcających tekst na obraz

Utworzenie podpowiedzi dla modelu zamiany tekstu na obraz może na pierwszy rzut oka wydawać się proste, ale jest to zwodniczo złożone zadanie. To coś więcej niż wpisanie kilku słów i oczekiwanie, że model wyczaruje obraz zgodny z Twoim obrazem mentalnym. Skuteczne podpowiedzi powinny zawierać jasne instrukcje, pozostawiając jednocześnie miejsce na kreatywność. Muszą równoważyć specyfikę i niejednoznaczność oraz powinny być dostosowane do konkretnego używanego modelu. Aby sprostać wyzwaniu szybkiego projektowania, branża zbadała różne podejścia:

  • Podpowiadaj biblioteki – Niektóre firmy tworzą biblioteki gotowych podpowiedzi, do których można uzyskać dostęp i które można dostosować. Biblioteki te zawierają szeroką gamę podpowiedzi dostosowanych do różnych przypadków użycia, umożliwiając wybór lub dostosowanie podpowiedzi, które odpowiadają Twoim konkretnym potrzebom.
  • Szablony podpowiedzi i wytyczne – Wiele firm i organizacji udostępnia użytkownikom zestaw predefiniowanych szablonów i wytycznych. Szablony te oferują uporządkowane formaty do pisania podpowiedzi, dzięki czemu tworzenie skutecznych instrukcji jest proste.
  • Wkład społeczności i użytkowników – Platformy crowdsourcingowe i społeczności użytkowników często odgrywają znaczącą rolę w ulepszaniu podpowiedzi. Użytkownicy mogą dzielić się ze społecznością swoimi dopracowanymi modelami, skutecznymi podpowiedziami, wskazówkami i najlepszymi praktykami, pomagając innym uczyć się i doskonalić swoje umiejętności szybkiego pisania.
  • Dostrajanie modelu – Firmy mogą udoskonalić swoje modele zamiany tekstu na obraz, aby lepiej rozumieć określone typy podpowiedzi i reagować na nie. Dostrajanie może poprawić wydajność modelu w określonych domenach lub przypadkach użycia.

Wspólnym celem tych podejść branżowych jest uczynienie procesu tworzenia skutecznych podpowiedzi zamiany tekstu na obraz bardziej dostępnym, przyjaznym dla użytkownika i wydajnym, co ostatecznie zwiększa użyteczność i wszechstronność modeli generowania tekstu na obraz w szerokim zakresie zastosowań.

Używanie RAG do szybkiego projektowania

W tej sekcji zagłębiamy się w to, jak techniki RAG mogą zmienić zasady gry w szybkiej inżynierii, działając w harmonii z istniejącymi podejściami. Bezproblemowo integrując RAG z procesem, możemy usprawnić i zwiększyć efektywność szybkiego projektowania.

Wyszukiwanie semantyczne w szybkiej bazie danych

Wyobraź sobie firmę, która zgromadziła ogromne repozytorium podpowiedzi w swojej bibliotece podpowiedzi lub utworzyła dużą liczbę szablonów podpowiedzi, każdy zaprojektowany do określonych przypadków użycia i celów. Tradycyjnie użytkownicy szukający inspiracji do podpowiedzi przekształcających tekst na obraz ręcznie przeglądali te biblioteki, często przeglądając obszerne listy opcji. Proces ten może być czasochłonny i nieefektywny. Osadzając podpowiedzi z biblioteki podpowiedzi przy użyciu modeli osadzania tekstu, firmy mogą zbudować wyszukiwarkę semantyczną. Oto jak to działa:

  • Osadzanie podpowiedzi – Firma wykorzystuje osadzanie tekstu, aby przekształcić każdy monit w swojej bibliotece w reprezentację numeryczną. Te osady oddają znaczenie semantyczne i kontekst podpowiedzi.
  • Zapytanie użytkownika – Gdy użytkownicy podają własne podpowiedzi lub opisują pożądany obraz, system może również przeanalizować i osadzić ich dane wejściowe.
  • Wyszukiwanie semantyczne – Korzystając z osadzania, system przeprowadza wyszukiwanie semantyczne. Pobiera z biblioteki najbardziej odpowiednie podpowiedzi na podstawie zapytania użytkownika, biorąc pod uwagę zarówno dane wejściowe użytkownika, jak i dane historyczne w bibliotece podpowiedzi.

Wdrażając wyszukiwanie semantyczne w swoich bibliotekach podpowiedzi, firmy umożliwiają swoim pracownikom łatwy dostęp do ogromnego zasobu podpowiedzi. Takie podejście nie tylko przyspiesza szybkie tworzenie, ale także zachęca do kreatywności i spójności w przetwarzaniu tekstu na obraz

Ulepsz swoje monity o stabilne rozproszenie dzięki generowaniu rozszerzonemu pobierania | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Szybkie generowanie na podstawie wyszukiwania semantycznego

Chociaż wyszukiwanie semantyczne usprawnia proces znajdowania odpowiednich podpowiedzi, RAG idzie o krok dalej, wykorzystując te wyniki wyszukiwania do generowania zoptymalizowanych podpowiedzi. Oto jak to działa:

  • Wyniki wyszukiwania semantycznego – Po pobraniu z biblioteki najbardziej odpowiednich podpowiedzi, system przedstawia je użytkownikowi wraz z oryginalnymi danymi wprowadzonymi przez użytkownika.
  • Model generowania tekstu – Użytkownik może wybrać podpowiedź z wyników wyszukiwania lub podać dalszy kontekst swoich preferencji. System wprowadza do LLM zarówno wybrany monit, jak i dane wejściowe użytkownika.
  • Zoptymalizowany monit – LLM, dzięki zrozumieniu niuansów językowych, tworzy zoptymalizowany podpowiedzi, które łączą elementy z wybranego podpowiedzi i danych wejściowych użytkownika. Ten nowy monit jest dostosowany do wymagań użytkownika i ma na celu uzyskanie pożądanego obrazu wyjściowego.

Połączenie wyszukiwania semantycznego i generowania podpowiedzi nie tylko upraszcza proces wyszukiwania podpowiedzi, ale także zapewnia, że ​​wygenerowane podpowiedzi są bardzo trafne i skuteczne. Umożliwia dostrojenie i dostosowanie podpowiedzi, co ostatecznie prowadzi do lepszych wyników generowania tekstu na obraz. Poniżej znajdują się przykłady obrazów wygenerowanych przez Stable Diffusion XL przy użyciu podpowiedzi z wyszukiwania semantycznego i generowania podpowiedzi.

Oryginalna zachęta Podpowiedzi wyszukiwania semantycznego Zoptymalizowany monit firmy LLM

rysunek małego psa

Ulepsz swoje monity o stabilne rozproszenie dzięki generowaniu rozszerzonemu pobierania | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

  • słodka kreskówka przedstawiająca psa jedzącego kanapkę przy stole
  • ilustracja kreskówkowa przedstawiająca punkowego psa, styl anime, białe tło
  • rysunek przedstawiający chłopca i jego psa idących leśną ścieżką

Ulepsz swoje monity o stabilne rozproszenie dzięki generowaniu rozszerzonemu pobierania | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Scena rysunkowa przedstawiająca chłopca szczęśliwie spacerującego za rękę leśną ścieżką ze swoim uroczym psem, w stylu animacji.

Ulepsz swoje monity o stabilne rozproszenie dzięki generowaniu rozszerzonemu pobierania | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Aplikacje do szybkiego projektowania oparte na RAG w różnych branżach

Zanim przyjrzymy się zastosowaniu sugerowanej przez nas architektury RAG, zacznijmy od branży, w której model generowania obrazu ma największe zastosowanie. W AdTech liczy się szybkość i kreatywność. Generowanie podpowiedzi oparte na RAG może natychmiastowo dodać wartość, generując szybkie sugestie umożliwiające szybkie utworzenie wielu obrazów na potrzeby kampanii reklamowej. Osoby podejmujące decyzje mogą przejrzeć automatycznie wygenerowane obrazy, aby wybrać zdjęcie kandydujące do kampanii. Ta funkcja może być samodzielną aplikacją lub wbudowaną w popularne obecnie dostępne narzędzia programowe i platformy.

Kolejną branżą, w której model Stable Diffusion może zwiększyć produktywność, są media i rozrywka. Architektura RAG może być pomocna na przykład w przypadkach użycia do tworzenia awatarów. Zaczynając od prostego podpowiedzi, RAG może dodać znacznie więcej kolorów i cech do pomysłów na awatary. Może generować wiele podpowiedzi dla kandydatów i dostarczać bardziej kreatywnych pomysłów. Na podstawie wygenerowanych obrazów można znaleźć rozwiązanie idealnie pasujące do danego zastosowania. Zwiększa produktywność poprzez automatyczne generowanie wielu podpowiedzi. Odmiana, którą może wymyślić, jest natychmiastową korzyścią z rozwiązania.

Omówienie rozwiązania

Umożliwianie klientom tworzenia własnego asystenta AI opartego na RAG w celu szybkiego projektowania w AWS jest świadectwem wszechstronności nowoczesnej technologii. AWS zapewnia mnóstwo opcji i usług ułatwiających to przedsięwzięcie. Poniższy diagram architektury referencyjnej ilustruje aplikację RAG do szybkiego projektowania w AWS.

Ulepsz swoje monity o stabilne rozproszenie dzięki generowaniu rozszerzonemu pobierania | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Jeśli chodzi o wybór odpowiednich LLM dla Twojego asystenta AI, AWS oferuje spektrum opcji, które zaspokoją Twoje specyficzne wymagania.

Po pierwsze, możesz wybrać LLM dostępne poprzez SageMaker JumpStart, wykorzystując dedykowane instancje. Instancje te obsługują różne modele, w tym Falcon, Llama 2, Bloom Z i Flan-T5, lub możesz eksplorować zastrzeżone modele, takie jak Cohere's Command and Multilingual Embedding lub Jurassic-2 z AI21 Labs.

Jeśli wolisz bardziej uproszczone podejście, AWS oferuje kursy LLM Amazońska skała macierzysta, zawierający takie modele jak Amazon Tytan i Antropiczny Claude. Modele te są łatwo dostępne poprzez proste wywołania API, co pozwala bez wysiłku wykorzystać ich moc. Elastyczność i różnorodność opcji zapewniają swobodę wyboru LLM, który najlepiej odpowiada Twoim celom projektowym, niezależnie od tego, czy szukasz innowacji z otwartymi pojemnikami, czy solidnych możliwości zastrzeżonych modeli.

Jeśli chodzi o budowanie podstawowej bazy danych wektorów, AWS zapewnia wiele opcji za pośrednictwem swoich natywnych usług. Możesz zdecydować się na Usługa Amazon OpenSearch, Amazonka Auroralub Usługa relacyjnej bazy danych Amazon (Amazon RDS) dla PostgreSQL, z których każdy oferuje solidne funkcje dostosowane do Twoich konkretnych potrzeb. Alternatywnie możesz zapoznać się z produktami partnerów AWS, takimi jak Pinecone, Weaviate, Elastic, Milvus lub Chroma, którzy zapewniają specjalistyczne rozwiązania do wydajnego przechowywania i wyszukiwania wektorów.

Aby pomóc Ci w rozpoczęciu konstruowania asystenta AI opartego na RAG i umożliwiającego szybkie projektowanie, przygotowaliśmy kompleksową demonstrację w naszym GitHub magazyn. W tej demonstracji wykorzystano następujące zasoby:

  • Generowanie obrazu: Stable Diffusion XL na Amazon Bedrock
  • Osadzanie tekstu: Amazon Titan na Amazon Bedrock
  • Generowanie tekstu: Claude 2 na Amazon Bedrock
  • Baza danych wektorowych: FAISS, biblioteka open source do wydajnego wyszukiwania podobieństw
  • Biblioteka podpowiedzi: przykłady podpowiedzi z DiffusionDB, pierwszy wielkoskalowy zbiór danych galerii podpowiedzi dla modeli generatywnych przekształcających tekst na obraz

Dodatkowo włączyliśmy LangChain do implementacji LLM i Streamit do komponentu aplikacji internetowej, zapewniając płynną i przyjazną dla użytkownika obsługę.

Wymagania wstępne

Aby uruchomić tę aplikację demonstracyjną, musisz mieć następujące elementy:

  • Konto AWS
  • Podstawowa wiedza o nawigacji Studio Amazon SageMaker
  • Podstawowa wiedza na temat pobierania repozytorium z GitHub
  • Podstawowa wiedza na temat uruchamiania poleceń na terminalu

Uruchom aplikację demonstracyjną

Możesz pobrać cały niezbędny kod wraz z instrukcjami ze strony GitHub repozytorium. Po wdrożeniu aplikacji zobaczysz stronę podobną do poniższego zrzutu ekranu.

Ulepsz swoje monity o stabilne rozproszenie dzięki generowaniu rozszerzonemu pobierania | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Dzięki tej demonstracji chcemy, aby proces wdrażania był dostępny i zrozumiały, zapewniając praktyczne doświadczenie, które umożliwi Ci rozpoczęcie podróży do świata RAG i szybkie projektowanie w AWS.

Sprzątać

Po wypróbowaniu aplikacji oczyść swoje zasoby, zatrzymując aplikację.

Wnioski

RAG stał się paradygmatem zmieniającym zasady gry w świecie szybkiego projektowania, ożywiającym możliwości zamiany tekstu na obraz w Stable Diffusion. Harmonizując techniki RAG z istniejącymi podejściami i korzystając z solidnych zasobów AWS, odkryliśmy ścieżkę do usprawnionej kreatywności i przyspieszonego uczenia się.

Aby uzyskać dodatkowe zasoby, odwiedź następujące strony:


O autorach

Ulepsz swoje monity o stabilne rozproszenie dzięki generowaniu rozszerzonemu pobierania | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Jamesa Yi jest starszym architektem rozwiązań partnerskich AI/ML w zespole nowych technologii w Amazon Web Services. Pasjonuje go praca z klientami korporacyjnymi i partnerami przy projektowaniu, wdrażaniu i skalowaniu aplikacji AI/ML w celu uzyskania ich wartości biznesowych. Poza pracą lubi grać w piłkę nożną, podróżować i spędzać czas z rodziną.

Ulepsz swoje monity o stabilne rozproszenie dzięki generowaniu rozszerzonemu pobierania | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Rumiego Olsena jest Architektem Rozwiązań w Programie Partnerskim AWS. Na swoim obecnym stanowisku specjalizuje się w rozwiązaniach serverless i machine learning, a także ma doświadczenie w technologiach przetwarzania języka naturalnego. Większość wolnego czasu spędza z córką, badając przyrodę północno-zachodniego Pacyfiku.

Znak czasu:

Więcej z Uczenie maszynowe AWS