Använd Amazon Titan-modeller för bildgenerering, redigering och sökning

Återutgiven av Platon

anhängare: 0

Amazonas berggrund tillhandahåller ett brett utbud av högpresterande grundmodeller från Amazon och andra ledande AI-företag, inklusive Antropisk, AI21, meta, Hänga ihopoch Stabilitet AI, och täcker ett brett spektrum av användningsfall, inklusive text- och bildgenerering, sökning, chatt, resonemang och agerande agenter och mer. Den nya Amazon Titan Image Generator Med modellen kan innehållsskapare snabbt generera högkvalitativa, realistiska bilder med enkla engelska textuppmaningar. Den avancerade AI-modellen förstår komplexa instruktioner med flera objekt och returnerar bilder i studiokvalitet som är lämpliga för reklam, e-handel och underhållning. Nyckelfunktioner inkluderar möjligheten att förfina bilder genom att iterera på uppmaningar, automatisk bakgrundsredigering och generera flera varianter av samma scen. Skapare kan också anpassa modellen med sina egna data för att mata ut bilder på varumärket i en specifik stil. Viktigt är att Titan Image Generator har inbyggda skydd, som osynliga vattenstämplar på alla AI-genererade bilder, för att uppmuntra ansvarsfull användning och minska spridningen av desinformation. Denna innovativa teknik gör att skapa anpassade bilder i stor volym för någon bransch mer tillgänglig och effektiv.

Den nya Amazon Titan multimodala inbäddningar modellen hjälper till att skapa mer exakta sökningar och rekommendationer genom att förstå text, bilder eller båda. Den konverterar bilder och engelsk text till semantiska vektorer, och fångar betydelse och relationer i dina data. Du kan kombinera text och bilder som produktbeskrivningar och foton för att identifiera föremål mer effektivt. Vektorerna ger snabba, exakta sökupplevelser. Titan Multimodal Embeddings är flexibel i vektordimensioner, vilket möjliggör optimering för prestandabehov. Ett asynkront API och Amazon OpenSearch Service kontakt gör det enkelt att integrera modellen i dina neurala sökapplikationer.

I det här inlägget går vi igenom hur man använder modellerna Titan Image Generator och Titan Multimodal Embeddings via AWS Python SDK.

Bildgenerering och redigering

I det här avsnittet visar vi de grundläggande kodningsmönstren för att använda AWS SDK för att generera nya bilder och utföra AI-drivna redigeringar på befintliga bilder. Kodexempel finns i Python, och JavaScript (Node.js) är också tillgängligt i detta GitHub repository.

Innan du kan skriva skript som använder Amazon Bedrock API måste du installera lämplig version av AWS SDK i din miljö. För Python-skript kan du använda AWS SDK för Python (Boto3). Python-användare kanske också vill installera Kuddmodul, vilket underlättar bildoperationer som att ladda och spara bilder. För installationsinstruktioner, se GitHub repository.

Aktivera dessutom åtkomst till Amazon Titan Image Generator och Titan Multimodal Embeddings-modellerna. För mer information, se Modellåtkomst.

Hjälparfunktioner

Följande funktion ställer in Amazon Bedrock Boto3 runtime-klient och genererar bilder genom att ta nyttolaster av olika konfigurationer (som vi diskuterar senare i det här inlägget):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

Skapa bilder från text

Skript som genererar en ny bild från en textprompt följer detta implementeringsmönster:

Konfigurera en textprompt och valfri negativ textprompt.
Använd BedrockRuntime klienten för att anropa Titan Image Generator-modellen.
Analysera och avkoda svaret.
Spara de resulterande bilderna på disk.

Text-till-bild

Följande är ett typiskt bildgenereringsskript för Titan Image Generator-modellen:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Detta kommer att producera bilder som liknar följande.

Svarsbild 1	Svarsbild 2

Bildvarianter

Bildvariation ger ett sätt att generera subtila varianter av en befintlig bild. Följande kodavsnitt använder en av bilderna som genererades i föregående exempel för att skapa variantbilder:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Detta kommer att producera bilder som liknar följande.

Originalbild	Svarsbild 1	Svarsbild 2

Redigera en befintlig bild

Titan Image Generator-modellen låter dig lägga till, ta bort eller ersätta element eller områden i en befintlig bild. Du anger vilket område som ska påverkas genom att ange något av följande:

Maskbild – En maskbild är en binär bild där 0-värdespixlarna representerar det område du vill påverka och 255-värdespixlarna representerar området som ska förbli oförändrat.
Maskprompt – En maskprompt är en textbeskrivning på naturligt språk av de element du vill påverka, som använder en intern text-till-segmenteringsmodell.

Mer information finns i Snabba tekniska riktlinjer.

Skript som tillämpar en redigering på en bild följer detta implementeringsmönster:

Ladda bilden som ska redigeras från disken.
Konvertera bilden till en base64-kodad sträng.
Konfigurera masken med någon av följande metoder:
1. Ladda en maskbild från disken, koda den som base64 och ställ in den som maskImage parameter.
2. Ställ in maskText parameter till en textbeskrivning av de element som ska påverkas.
Ange det nya innehållet som ska genereras med ett av följande alternativ:
1. För att lägga till eller ersätta ett element, ställ in text parameter till en beskrivning av det nya innehållet.
2. För att ta bort ett element, utelämna text parameter helt.
Använd BedrockRuntime klienten för att anropa Titan Image Generator-modellen.
Analysera och avkoda svaret.
Spara de resulterande bilderna på disk.

Objektredigering: Inmålning med en maskbild

Följande är ett typiskt bildredigeringsskript för Titan Image Generator-modellen som använder maskImage. Vi tar en av bilderna som genererats tidigare och tillhandahåller en maskbild, där 0-värdepixlar renderas som svarta och 255-värdespixlar som vita. Vi byter även ut en av hundarna på bilden mot en katt med hjälp av en textuppmaning.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Detta kommer att producera bilder som liknar följande.

Originalbild	Mask bild	Redigerad bild

Objektborttagning: Målning med en maskuppmaning

I ett annat exempel använder vi maskPrompt för att ange ett objekt i bilden, taget från de tidigare stegen, att redigera. Genom att utelämna textprompten kommer objektet att tas bort:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Detta kommer att producera bilder som liknar följande.

Originalbild	Svarsbild

Bakgrundsredigering: Outpainting

Outpainting är användbart när du vill byta ut bakgrunden på en bild. Du kan också utöka gränserna för en bild för en utzoomingseffekt. I följande exempelskript använder vi maskPrompt att specificera vilket objekt som ska behållas; du kan också använda maskImage. Parametern outPaintingMode anger om modifiering av pixlarna inuti masken ska tillåtas. Om satt som DEFAULT, pixlar inuti masken tillåts modifieras så att den rekonstruerade bilden blir konsekvent överlag. Det här alternativet rekommenderas om maskImage tillhandahållet representerar inte objektet med precision på pixelnivå. Om satt som PRECISE, förhindras modifiering av pixlar inuti masken. Det här alternativet rekommenderas om du använder en maskPrompt eller ett maskImage som representerar objektet med precision på pixelnivå.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Detta kommer att producera bilder som liknar följande.

Originalbild	text	Svarsbild
	"strand"
	"skog"

Dessutom effekterna av olika värden för outPaintingMode, Med en maskImage som inte beskriver objektet med precision på pixelnivå, är följande.

Det här avsnittet har gett dig en översikt över de operationer du kan utföra med Titan Image Generator-modellen. Specifikt demonstrerar dessa skript text-till-bild, bildvariation, inpainting och outpainting uppgifter. Du bör kunna anpassa mönstren för dina egna applikationer genom att referera till parameterdetaljerna för de uppgiftstyper som beskrivs i Amazon Titan Image Generator-dokumentation.

Multimodal inbäddning och sökning

Du kan använda Amazon Titan Multimodal Embeddings-modellen för företagsuppgifter som bildsökning och likhetsbaserad rekommendation, och den har inbyggd begränsning som hjälper till att minska fördomar i sökresultat. Det finns flera inbäddningsdimensionsstorlekar för bästa avvägningar för latens/noggrannhet för olika behov, och alla kan anpassas med ett enkelt API för att anpassas till dina egna data samtidigt som datasäkerhet och integritet bibehålls. Amazon Titan Multimodal Embeddings tillhandahålls som enkla API:er för realtids- eller asynkrona batchtransformationssökningar och rekommendationsapplikationer, och kan kopplas till olika vektordatabaser, inklusive Amazon OpenSearch Service.

Hjälparfunktioner

Följande funktion konverterar en bild, och eventuellt text, till multimodala inbäddningar:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

Följande funktion returnerar de översta liknande multimodala inbäddningarna givet en fråga multimodala inbäddningar. Observera att du i praktiken kan använda en hanterad vektordatabas, såsom OpenSearch Service. Följande exempel är i illustrationssyfte:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Syntetisk datauppsättning

I illustrationssyfte använder vi Anthropics Claude 2.1-modell i Amazon Bedrock att slumpmässigt generera sju olika produkter, var och en med tre varianter, med hjälp av följande prompt:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Följande är listan över returnerade utgångar:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Tilldela ovanstående svar till variabel response_cat. Sedan använder vi Titan Image Generator-modellen för att skapa produktbilder för varje artikel:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Alla genererade bilder finns i bilagan i slutet av detta inlägg.

Multimodal datauppsättningsindexering

Använd följande kod för multimodal datauppsättningsindexering:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Multimodalt sökande

Använd följande kod för multimodal sökning:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Följande är några sökresultat.

Slutsats

Inlägget introducerar modellerna Amazon Titan Image Generator och Amazon Titan Multimodal Embeddings. Titan Image Generator låter dig skapa anpassade bilder av hög kvalitet från textmeddelanden. Nyckelfunktioner inkluderar iterering av uppmaningar, automatisk bakgrundsredigering och dataanpassning. Den har skydd som osynliga vattenstämplar för att uppmuntra ansvarsfull användning. Titan Multimodal Embeddings konverterar text, bilder eller båda till semantiska vektorer för att ge korrekt sökning och rekommendationer. Vi tillhandahöll sedan Python-kodexempel för att använda dessa tjänster, och demonstrerade generering av bilder från textmeddelanden och iterering på dessa bilder; redigera befintliga bilder genom att lägga till, ta bort eller ersätta element specificerade av maskbilder eller masktext; skapa multimodala inbäddningar från text, bilder eller båda; och söka efter liknande multimodala inbäddningar till en fråga. Vi demonstrerade också att använda en syntetisk e-handelsdatauppsättning indexerad och sökt med Titan Multimodal Embeddings. Syftet med det här inlägget är att göra det möjligt för utvecklare att börja använda dessa nya AI-tjänster i sina applikationer. Kodmönstren kan fungera som mallar för anpassade implementeringar.

All kod finns tillgänglig på GitHub repository. För mer information, se Amazon Bedrock användarguide.

Om författarna

Rohit Mittal är en huvudproduktchef på Amazon AI som bygger multimodala grundmodeller. Han ledde nyligen lanseringen av Amazon Titan Image Generator-modellen som en del av Amazon Bedrock-tjänsten. Han har erfarenhet av AI/ML, NLP och Sök och är intresserad av att bygga produkter som löser kundernas problem med innovativ teknik.

Dr Ashwin Swaminathan är en forskare, ingenjör och chef för datorseende och maskininlärning med 12+ års branscherfarenhet och 5+ års akademisk forskningserfarenhet. Starka grunder och bevisad förmåga att snabbt få kunskap och bidra till nyare och framväxande områden.

Dr Yusheng Xie är en Principal Applied Scientist vid Amazon AGI. Hans arbete fokuserar på att bygga multimodala grundmodeller. Innan han började på AGI ledde han olika multimodal AI-utveckling på AWS som Amazon Titan Image Generator och Amazon Textract Queries.

Dr Hao Yang är en Principal Applied Scientist på Amazon. Hans huvudsakliga forskningsintressen är objektdetektering och lärande med begränsade kommentarer. Utanför jobbet tycker Hao om att titta på film, fotografera och utomhusaktiviteter.

Dr Davide Modolo är en Applied Science Manager på Amazon AGI och arbetar med att bygga stora multimodala grundmodeller. Innan han började på Amazon AGI var han chef/ledare i 7 år i AWS AI Labs (Amazon Bedrock och Amazon Rekognition). Utanför jobbet tycker han om att resa och utöva alla slags sporter, särskilt fotboll.

Dr. Baichuan Sun, arbetar för närvarande som Sr. AI/ML Solutions Architect på AWS, med fokus på generativ AI och tillämpar sina kunskaper inom datavetenskap och maskininlärning för att tillhandahålla praktiska, molnbaserade affärslösningar. Med erfarenhet av managementkonsultation och AI-lösningsarkitektur tar han sig an en rad komplexa utmaningar, inklusive datorseende med robotar, tidsserieprognoser och prediktivt underhåll, bland annat. Hans arbete är grundat på en gedigen bakgrund av projektledning, programvara FoU och akademiska sysselsättningar. Utanför jobbet tycker Dr. Sun om balansen mellan att resa och umgås med familj och vänner.

Dr Kai Zhu arbetar för närvarande som Cloud Support Engineer på AWS och hjälper kunder med problem inom AI/ML-relaterade tjänster som SageMaker, Bedrock, etc. Han är SageMaker Subject Matter Expert. Han har erfarenhet av datavetenskap och datateknik och är intresserad av att bygga generativa AI-drivna projekt.

Kris Schultz har ägnat över 25 år åt att skapa engagerande användarupplevelser genom att kombinera framväxande teknologier med design i världsklass. I sin roll som Senior Product Manager hjälper Kris till att designa och bygga AWS-tjänster för att driva media och underhållning, spel och rumslig datoranvändning.

Appendix

I de följande avsnitten visar vi utmanande exempel på användningsfall som textinfogning, händer och reflektioner för att lyfta fram funktionerna hos Titan Image Generator-modellen. Vi inkluderar även de utdataexempel som producerats i tidigare exempel.

text

Titan Image Generator-modellen utmärker sig i komplexa arbetsflöden som att infoga läsbar text i bilder. Det här exemplet visar Titans förmåga att tydligt återge stora och små bokstäver i en konsekvent stil i en bild.

en corgi bär en basebollkeps med texten "genai"	en glad pojke som gör tummen upp, iklädd en t-shirt med texten "generativ AI"

händer

Titan Image Generator-modellen har också förmågan att generera detaljerade AI-bilder. Bilden visar realistiska händer och fingrar med synliga detaljer, som går utöver mer grundläggande AI-bildgenerering som kan sakna sådan specificitet. I följande exempel, lägg märke till den exakta bilden av ställningen och anatomin.

en persons hand sett uppifrån	en närmare titt på en persons händer som håller i en kaffemugg

Spegel

Bilderna som genereras av Titan Image Generator-modellen arrangerar rumsligt objekt och reflekterar exakt spegeleffekter, vilket visas i följande exempel.

En söt fluffig vit katt står på bakbenen och kikar nyfiket in i en utsmyckad gyllene spegel. I reflektionen ser katten sig själv	vacker himmel sjö med reflektioner på vattnet