Używaj modeli Amazon Titan do generowania, edytowania i wyszukiwania obrazów

Opublikowane ponownie przez Plato

Obserwuje: 0

Amazońska skała macierzysta zapewnia szeroką gamę wydajnych modeli podstawowych firmy Amazon i innych wiodących firm zajmujących się sztuczną inteligencją, w tym Antropiczny, AI21, Meta, Przystać do siebie, Stabilność AIi obejmuje szeroki zakres przypadków użycia, w tym generowanie tekstu i obrazów, wyszukiwanie, czat, wnioskowanie i działanie agentów i wiele innych. Nowa Generator obrazu Amazon Titan model umożliwia twórcom treści szybkie generowanie realistycznych obrazów o wysokiej jakości za pomocą prostych podpowiedzi tekstowych w języku angielskim. Zaawansowany model AI rozumie złożone instrukcje dotyczące wielu obiektów i zwraca odpowiednie obrazy o studyjnej jakości reklama, e-commerce i rozrywka. Kluczowe funkcje obejmują możliwość udoskonalania obrazów poprzez iterację po podpowiedziach, automatyczną edycję tła i generowanie wielu odmian tej samej sceny. Twórcy mogą również dostosować model za pomocą własnych danych, aby tworzyć obrazy marki w określonym stylu. Co ważne, Titan Image Generator ma wbudowane zabezpieczenia, takie jak niewidoczne znaki wodne na wszystkich obrazach generowanych przez sztuczną inteligencję, aby zachęcić odpowiedzialne korzystanie i ograniczanie rozprzestrzeniania się dezinformacji. Ta innowacyjna technologia umożliwia produkcję niestandardowych obrazów w dużych ilościach dowolnej branży bardziej dostępne i wydajne.

Nowa Multimodalne osadzania Amazon Titan model pomaga tworzyć dokładniejsze wyszukiwania i rekomendacje poprzez zrozumienie tekstu, obrazów lub obu. Konwertuje obrazy i tekst w języku angielskim na wektory semantyczne, przechwytując znaczenie i relacje w danych. Możesz łączyć tekst i obrazy, takie jak opisy produktów i zdjęcia, aby skuteczniej identyfikować produkty. Wektory umożliwiają szybkie i dokładne wyszukiwanie. Titan Multimodal Embeddings jest elastyczny pod względem wymiarów wektorowych, umożliwiając optymalizację pod kątem potrzeb wydajności. Asynchroniczny interfejs API i Usługa Amazon OpenSearch złącze ułatwia integrację modelu z aplikacjami do wyszukiwania neuronowego.

W tym poście opisujemy, jak używać modeli Titan Image Generator i Titan Multimodal Embeddings za pośrednictwem zestawu SDK AWS Python.

Generowanie i edycja obrazu

W tej sekcji przedstawiamy podstawowe wzorce kodowania umożliwiające wykorzystanie pakietu AWS SDK do generowania nowych obrazów i edytowania istniejących obrazów przy użyciu sztucznej inteligencji. Przykłady kodu podano w Pythonie, dostępny jest także JavaScript (Node.js). Repozytorium GitHub.

Zanim będziesz mógł pisać skrypty korzystające z API Amazon Bedrock, musisz zainstalować odpowiednią wersję AWS SDK w swoim środowisku. W przypadku skryptów Pythona można użyć metody AWS SDK dla Pythona (Boto3). Użytkownicy Pythona mogą również chcieć zainstalować plik Moduł poduszki, co ułatwia operacje na obrazach, takie jak ładowanie i zapisywanie obrazów. Instrukcje konfiguracji można znaleźć w Repozytorium GitHub.

Dodatkowo umożliwij dostęp do modeli Amazon Titan Image Generator i Titan Multimodal Embeddings. Aby uzyskać więcej informacji, zobacz Dostęp do modelu.

Funkcje pomocnicze

Następująca funkcja konfiguruje klienta wykonawczego Amazon Bedrock Boto3 i generuje obrazy, pobierając ładunki o różnych konfiguracjach (co omówimy w dalszej części tego posta):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

Generuj obrazy z tekstu

Skrypty generujące nowy obraz z podpowiedzi tekstowej są zgodne z następującym wzorcem implementacji:

Skonfiguruj monit tekstowy i opcjonalny monit o negatywnym tekście.
Użyj BedrockRuntime klienta do wywołania modelu generatora obrazu Titan.
Przeanalizuj i odszyfruj odpowiedź.
Zapisz powstałe obrazy na dysku.

Tekst na obraz

Poniżej znajduje się typowy skrypt generowania obrazu dla modelu Titan Image Generator:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Spowoduje to utworzenie obrazów podobnych do poniższych.

Odpowiedź Obraz 1	Odpowiedź Obraz 2

Warianty obrazu

Zmienność obrazu umożliwia generowanie subtelnych wariantów istniejącego obrazu. Poniższy fragment kodu wykorzystuje jeden z obrazów wygenerowanych w poprzednim przykładzie do tworzenia obrazów wariantowych:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Spowoduje to utworzenie obrazów podobnych do poniższych.

Oryginalny obraz	Odpowiedź Obraz 1	Odpowiedź Obraz 2

Edytuj istniejący obraz

Model Titan Image Generator umożliwia dodawanie, usuwanie lub zastępowanie elementów lub obszarów w istniejącym obrazie. Określasz obszar, na który chcesz wpłynąć, podając jedną z następujących opcji:

Obraz maski – Obraz maski to obraz binarny, w którym piksele o wartości 0 reprezentują obszar, na który chcesz wpłynąć, a piksele o wartości 255 reprezentują obszar, który powinien pozostać niezmieniony.
Monit o maskę – Podpowiedź maski to opis tekstowy w języku naturalnym elementów, na który chcesz wpłynąć, wykorzystujący wewnętrzny model segmentacji tekstu.

Aby uzyskać więcej informacji, zobacz Szybkie wytyczne inżynieryjne.

Skrypty wprowadzające edycję obrazu mają następujący wzorzec implementacji:

Załaduj obraz do edycji z dysku.
Konwertuj obraz na ciąg zakodowany w standardzie Base64.
Skonfiguruj maskę za pomocą jednej z następujących metod:
1. Załaduj obraz maski z dysku, kodując go jako base64 i ustawiając jako maskImage parametr.
2. Ustaw maskText parametr do opisu tekstowego elementów, na które ma to wpływ.
Określ nową treść, która ma zostać wygenerowana, korzystając z jednej z następujących opcji:
1. Aby dodać lub zamienić element, ustaw text parametr do opisu nowej zawartości.
2. Aby usunąć element, pomiń text parametr całkowicie.
Użyj BedrockRuntime klienta do wywołania modelu generatora obrazu Titan.
Przeanalizuj i odszyfruj odpowiedź.
Zapisz powstałe obrazy na dysku.

Edycja obiektu: Malowanie obrazem maski

Poniżej znajduje się typowy skrypt do edycji obrazu dla modelu Titan Image Generator maskImage. Bierzemy jeden z wygenerowanych wcześniej obrazów i dostarczamy obraz maski, w którym piksele o wartości 0 są renderowane jako czarne, a piksele o wartości 255 jako białe. Zamieniamy również jednego z psów na obrazku na kota, korzystając z podpowiedzi tekstowej.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Spowoduje to utworzenie obrazów podobnych do poniższych.

Oryginalny obraz	Obraz maski	Edytowany obraz

Usuwanie obiektu: Malowanie z monitem o maskę

W innym przykładzie używamy maskPrompt aby określić obiekt na obrazie, pobrany z poprzednich kroków, do edycji. Pominięcie podpowiedzi tekstowej spowoduje usunięcie obiektu:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Spowoduje to utworzenie obrazów podobnych do poniższych.

Oryginalny obraz	Obraz odpowiedzi

Edycja tła: Przemalowanie

Przemalowanie jest przydatne, gdy chcesz zastąpić tło obrazu. Można także rozszerzyć granice obrazu, aby uzyskać efekt pomniejszenia. W poniższym przykładowym skrypcie używamy maskPrompt aby określić, który obiekt zachować; możesz także użyć maskImage. Parametr outPaintingMode określa, czy zezwolić na modyfikację pikseli wewnątrz maski. Jeśli ustawione jako DEFAULT, piksele wewnątrz maski można modyfikować, tak aby zrekonstruowany obraz był ogólnie spójny. Ta opcja jest zalecana, jeśli maskImage podany nie reprezentuje obiektu z precyzją na poziomie pikseli. Jeśli ustawione jako PRECISE, zapobiega się modyfikacji pikseli wewnątrz maski. Ta opcja jest zalecana w przypadku korzystania z pliku a maskPrompt lub maskImage który reprezentuje obiekt z precyzją na poziomie pikseli.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Spowoduje to utworzenie obrazów podobnych do poniższych.

Oryginalny obraz	Tekst	Obraz odpowiedzi
	"plaża"
	"las"

Ponadto skutki różnych wartości dla outPaintingMode, Z maskImage które nie obrysowują obiektu z precyzją na poziomie pikseli, są następujące.

W tej sekcji przedstawiono przegląd operacji, które można wykonać za pomocą modelu Titan Image Generator. W szczególności skrypty te demonstrują zadania polegające na przetwarzaniu tekstu na obraz, zmienności obrazu, malowaniu i przemalowywaniu. Powinieneś być w stanie dostosować wzorce do własnych aplikacji, odwołując się do szczegółów parametrów dla typów zadań wyszczególnionych w Dokumentacja generatora obrazu Amazon Titan.

Osadzanie i wyszukiwanie multimodalne

Modelu Amazon Titan Multimodal Embeddings można używać do zadań korporacyjnych, takich jak wyszukiwanie obrazów i rekomendacje oparte na podobieństwie, a model ma wbudowane mechanizmy łagodzące, które pomagają zmniejszyć stronniczość w wynikach wyszukiwania. Istnieje wiele rozmiarów wymiarów osadzania, zapewniających najlepszy kompromis między opóźnieniami a dokładnością dla różnych potrzeb, a wszystkie można dostosować za pomocą prostego interfejsu API, aby dostosować się do własnych danych, zachowując jednocześnie bezpieczeństwo danych i prywatność. Usługa Amazon Titan Multimodal Embeddings jest dostarczana w postaci prostych interfejsów API do wyszukiwania i rekomendacji w czasie rzeczywistym lub asynchronicznie do transformacji wsadowej i może być połączona z różnymi wektorowymi bazami danych, w tym Usługa Amazon OpenSearch.

Funkcje pomocnicze

Następująca funkcja konwertuje obraz i opcjonalnie tekst na osadzanie multimodalne:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

Następująca funkcja zwraca najlepsze podobne osadzenia multimodalne, biorąc pod uwagę osadzenie multimodalne zapytania. Pamiętaj, że w praktyce możesz skorzystać z zarządzanej bazy wektorów, takiej jak OpenSearch Service. Poniższy przykład służy celom ilustracyjnym:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Syntetyczny zbiór danych

Dla celów ilustracyjnych używamy Model Claude 2.1 firmy Anthropic w Amazon Bedrock aby losowo wygenerować siedem różnych produktów, każdy z trzema wariantami, korzystając z następującego podpowiedzi:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Poniżej znajduje się lista zwróconych wyników:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Przypisz powyższą odpowiedź do zmiennej response_cat. Następnie używamy modelu Titan Image Generator do tworzenia zdjęć produktów dla każdego artykułu:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Wszystkie wygenerowane obrazy można znaleźć w załączniku na końcu tego wpisu.

Indeksowanie multimodalnego zbioru danych

Użyj poniższego kodu do indeksowania multimodalnego zbioru danych:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Wyszukiwanie multimodalne

Użyj następującego kodu do wyszukiwania multimodalnego:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Poniżej znajdują się niektóre wyniki wyszukiwania.

Wnioski

W poście przedstawiono modele Amazon Titan Image Generator i Amazon Titan Multimodal Embeddings. Titan Image Generator umożliwia tworzenie niestandardowych obrazów wysokiej jakości na podstawie podpowiedzi tekstowych. Najważniejsze funkcje obejmują iterację po podpowiedziach, automatyczną edycję w tle i dostosowywanie danych. Posiada zabezpieczenia, takie jak niewidoczne znaki wodne, które zachęcają do odpowiedzialnego użytkowania. Titan Multimodal Embeddings konwertuje tekst, obrazy lub jedno i drugie na wektory semantyczne, aby zapewnić dokładne wyszukiwanie i rekomendacje. Następnie udostępniliśmy próbki kodu Pythona umożliwiające korzystanie z tych usług oraz zademonstrowaliśmy generowanie obrazów na podstawie podpowiedzi tekstowych i iterację na tych obrazach. edytowanie istniejących obrazów poprzez dodawanie, usuwanie lub zastępowanie elementów określonych przez obrazy masek lub tekst maski; tworzenie multimodalnych osadzań z tekstu, obrazów lub obu; i wyszukiwanie podobnych multimodalnych osadzonych w zapytaniu. Zademonstrowaliśmy także wykorzystanie syntetycznego zbioru danych dotyczących handlu elektronicznego, indeksowanego i przeszukiwanego za pomocą Titan Multimodal Embeddings. Celem tego posta jest umożliwienie programistom rozpoczęcia korzystania z nowych usług AI w swoich aplikacjach. Wzorce kodu mogą służyć jako szablony do niestandardowych implementacji.

Cały kod jest dostępny na stronie Repozytorium GitHub. Aby uzyskać więcej informacji, zapoznaj się z Podręcznik użytkownika Amazon Bedrock.

O autorach

Rohita Mittala jest głównym menedżerem produktu w Amazon AI tworzącym multimodalne modele podstawowe. Niedawno kierował wprowadzeniem na rynek modelu Amazon Titan Image Generator w ramach usługi Amazon Bedrock. Ma doświadczenie w AI/ML, NLP i wyszukiwaniu. Interesuje się tworzeniem produktów, które rozwiązują problemy klientów dzięki innowacyjnej technologii.

Doktor Ashwin Swaminathan jest badaczem, inżynierem i menedżerem zajmującym się wizją komputerową i uczeniem maszynowym z ponad 12-letnim doświadczeniem w branży i ponad 5-letnim doświadczeniem w badaniach akademickich. Silne podstawy i sprawdzona umiejętność szybkiego zdobywania wiedzy i wnoszenia wkładu w nowsze i wyłaniające się obszary.

Doktor Yusheng Xie jest głównym naukowcem stosowanym w Amazon AGI. Jego praca skupia się na budowaniu multimodalnych modeli fundamentowych. Przed dołączeniem do AGI kierował różnymi multimodalnymi pracami nad rozwojem sztucznej inteligencji w AWS, takimi jak Amazon Titan Image Generator i Amazon Textract Queries.

Doktor Hao Yang jest głównym naukowcem stosowanym w firmie Amazon. Jego główne zainteresowania badawcze to wykrywanie obiektów i uczenie się za pomocą ograniczonych adnotacji. Poza pracą Hao lubi oglądać filmy, fotografować i spędzać czas na świeżym powietrzu.

Doktor Davide Modolo jest menedżerem ds. nauk stosowanych w Amazon AGI i pracuje nad budowaniem dużych, multimodalnych modeli podstawowych. Przed dołączeniem do Amazon AGI przez 7 lat był menadżerem/liderem w AWS AI Labs (Amazon Bedrock i Amazon Rekognition). Poza pracą lubi podróżować i uprawiać każdy sport, zwłaszcza piłkę nożną.

Doktor Baichuan Sun, obecnie pełni funkcję starszego architekta rozwiązań AI/ML w AWS, koncentrując się na generatywnej sztucznej inteligencji i wykorzystuje swoją wiedzę z zakresu analityki danych i uczenia maszynowego, aby dostarczać praktyczne rozwiązania biznesowe oparte na chmurze. Dzięki doświadczeniu w doradztwie w zakresie zarządzania i architekturze rozwiązań AI zajmuje się szeregiem złożonych wyzwań, w tym między innymi wizją komputerową robotyki, prognozowaniem szeregów czasowych i konserwacją predykcyjną. Jego praca opiera się na solidnym doświadczeniu w zakresie zarządzania projektami, prac badawczo-rozwojowych nad oprogramowaniem oraz zajęć akademickich. Poza pracą dr Sun ceni równowagę między podróżowaniem a spędzaniem czasu z rodziną i przyjaciółmi.

Doktor Kai Zhu obecnie pracuje jako inżynier wsparcia chmury w AWS, pomagając klientom w rozwiązywaniu problemów związanych z usługami związanymi z AI/ML, takimi jak SageMaker, Bedrock itp. Jest ekspertem merytorycznym SageMaker. Ma doświadczenie w nauce i inżynierii danych. Interesuje się budowaniem projektów generatywnych opartych na sztucznej inteligencji.

Chrisa Schultza spędził ponad 25 lat, ożywiając wciągające doświadczenia użytkowników, łącząc nowe technologie ze światowej klasy designem. Na stanowisku starszego menedżera produktu Kris pomaga projektować i budować usługi AWS obsługujące media i rozrywkę, gry oraz obliczenia przestrzenne.

dodatek

W poniższych sekcjach przedstawiamy trudne przykładowe przypadki użycia, takie jak wstawianie tekstu, wskazówki i odbicia, aby podkreślić możliwości modelu Titan Image Generator. Dołączamy także przykładowe obrazy wyjściowe utworzone we wcześniejszych przykładach.

Tekst

Model Titan Image Generator doskonale radzi sobie ze złożonymi przepływami pracy, takimi jak wstawianie czytelnego tekstu do obrazów. Ten przykład ilustruje zdolność programu Titan do wyraźnego renderowania wielkich i małych liter w obrazie w spójnym stylu.

corgi w czapce z daszkiem z napisem „genai”	szczęśliwy chłopiec pokazujący kciuk w górę, ubrany w koszulkę z tekstem „generatywna sztuczna inteligencja”

siła robocza

Model Titan Image Generator ma również możliwość generowania szczegółowych obrazów AI. Obraz przedstawia realistyczne dłonie i palce z widocznymi szczegółami, wykraczając poza bardziej podstawowe generowanie obrazu AI, któremu może brakować takiej specyfiki. W poniższych przykładach zwróć uwagę na dokładne przedstawienie pozy i anatomii.

dłoń danej osoby widziana z góry	dokładne spojrzenie na dłonie osoby trzymającej kubek z kawą

Lustro

Obrazy wygenerowane przez model Titan Image Generator przestrzennie układają obiekty i dokładnie odzwierciedlają efekty lustrzane, jak pokazano w poniższych przykładach.

Słodki, puszysty biały kot stoi na tylnych łapach i z ciekawością spogląda w ozdobne złote lustro. W odbiciu kot widzi siebie	piękne jezioro na niebie z odbiciami na wodzie