Brug Amazon Titan-modeller til billedgenerering, redigering og søgning

Genudgivet af Platon

Abonnenter: 0

Amazonas grundfjeld leverer en bred vifte af højtydende fundamentmodeller fra Amazon og andre førende AI-virksomheder, herunder Antropisk, AI21, Meta, Sammenhængog Stabilitet AI, og dækker en bred vifte af use cases, herunder tekst- og billedgenerering, søgning, chat, ræsonnement og handlende agenter og mere. Den nye Amazon Titan Image Generator model giver indholdsskabere mulighed for hurtigt at generere realistiske billeder af høj kvalitet ved hjælp af enkle engelske tekstprompter. Den avancerede AI-model forstår komplekse instruktioner med flere objekter og returnerer billeder i studiekvalitet, der passer til reklame, e-handel og underholdning. Nøglefunktioner inkluderer evnen til at forfine billeder ved at gentage på prompter, automatisk baggrundsredigering og generere flere variationer af den samme scene. Skabere kan også tilpasse modellen med deres egne data for at outputte on-brand billeder i en bestemt stil. Det er vigtigt, at Titan Image Generator har indbyggede sikkerhedsforanstaltninger, som usynlige vandmærker på alle AI-genererede billeder, for at fremme ansvarlig brug og mindske spredningen af desinformation. Denne innovative teknologi gør produktion af brugerdefinerede billeder i stort volumen til enhver branche mere tilgængelig og effektiv.

Den nye Amazon Titan Multimodal Embeddings model hjælper med at opbygge mere nøjagtig søgning og anbefalinger ved at forstå tekst, billeder eller begge dele. Det konverterer billeder og engelsk tekst til semantiske vektorer, der fanger betydning og relationer i dine data. Du kan kombinere tekst og billeder som produktbeskrivelser og fotos for at identificere varer mere effektivt. Vektorerne giver hurtige, præcise søgeoplevelser. Titan Multimodal Embeddings er fleksible i vektordimensioner, hvilket muliggør optimering til ydeevnebehov. En asynkron API og Amazon OpenSearch Service stik gør det nemt at integrere modellen i dine neurale søgeapplikationer.

I dette indlæg gennemgår vi, hvordan man bruger Titan Image Generator og Titan Multimodal Embeddings-modellerne via AWS Python SDK.

Billedgenerering og redigering

I dette afsnit demonstrerer vi de grundlæggende kodningsmønstre for brug af AWS SDK til at generere nye billeder og udføre AI-drevne redigeringer på eksisterende billeder. Kodeeksempler findes i Python, og JavaScript (Node.js) er også tilgængelig i denne GitHub repository.

Før du kan skrive scripts, der bruger Amazon Bedrock API, skal du installere den relevante version af AWS SDK i dit miljø. Til Python-scripts kan du bruge AWS SDK til Python (Boto3). Python-brugere ønsker måske også at installere Pudemodul, som letter billedhandlinger som indlæsning og lagring af billeder. For opsætningsinstruktioner henvises til GitHub repository.

Aktiver desuden adgang til Amazon Titan Image Generator- og Titan Multimodal Embeddings-modellerne. For mere information, se Modeladgang.

Hjælpefunktioner

Følgende funktion opsætter Amazon Bedrock Boto3 runtime-klienten og genererer billeder ved at tage nyttelast af forskellige konfigurationer (som vi diskuterer senere i dette indlæg):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

Generer billeder fra tekst

Scripts, der genererer et nyt billede fra en tekstprompt, følger dette implementeringsmønster:

Konfigurer en tekstprompt og valgfri negativ tekstprompt.
Brug BedrockRuntime klient til at påberåbe sig Titan Image Generator-modellen.
Parse og afkode svaret.
Gem de resulterende billeder på disken.

Tekst-til-billede

Følgende er et typisk billedgenereringsscript til Titan Image Generator-modellen:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Dette vil producere billeder, der ligner følgende.

Svarbillede 1	Svarbillede 2

Billedvarianter

Billedvariation giver mulighed for at generere subtile varianter af et eksisterende billede. Følgende kodestykke bruger et af billederne genereret i det foregående eksempel til at oprette variantbilleder:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Dette vil producere billeder, der ligner følgende.

Oprindeligt billede	Svarbillede 1	Svarbillede 2

Rediger et eksisterende billede

Titan Image Generator-modellen giver dig mulighed for at tilføje, fjerne eller erstatte elementer eller områder i et eksisterende billede. Du angiver, hvilket område der skal påvirkes, ved at angive et af følgende:

Maske billede – Et maskebillede er et binært billede, hvor 0-værdi pixels repræsenterer det område, du vil påvirke, og 255-værdi pixels repræsenterer det område, der skal forblive uændret.
Maske-prompt – En maskeprompt er en tekstbeskrivelse på naturligt sprog af de elementer, du ønsker at påvirke, som bruger en intern tekst-til-segmenteringsmodel.

For mere information henvises til Hurtige tekniske retningslinjer.

Scripts, der anvender en redigering på et billede, følger dette implementeringsmønster:

Indlæs det billede, der skal redigeres, fra disken.
Konverter billedet til en base64-kodet streng.
Konfigurer masken ved hjælp af en af følgende metoder:
1. Indlæs et maskebillede fra disken, indkod det som base64 og indstil det som maskImage parameter.
2. Indstil maskText parameter til en tekstbeskrivelse af de elementer, der skal påvirkes.
Angiv det nye indhold, der skal genereres ved hjælp af en af følgende muligheder:
1. For at tilføje eller erstatte et element skal du indstille text parameter til en beskrivelse af det nye indhold.
2. For at fjerne et element skal du udelade text parameter fuldstændigt.
Brug BedrockRuntime klient til at påberåbe sig Titan Image Generator-modellen.
Parse og afkode svaret.
Gem de resulterende billeder på disken.

Objektredigering: Indmaling med et maskebillede

Det følgende er et typisk billedredigeringsscript til Titan Image Generator-modellen, der bruger maskImage. Vi tager et af de tidligere genererede billeder og giver et maskebillede, hvor 0-værdi pixels gengives som sort og 255-værdi pixels som hvid. Vi erstatter også en af hundene på billedet med en kat ved hjælp af en tekstprompt.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Dette vil producere billeder, der ligner følgende.

Oprindeligt billede	Maske billede	Redigeret billede

Objektfjernelse: Indmaling med en maskeprompt

I et andet eksempel bruger vi maskPrompt for at angive et objekt i billedet, taget fra de tidligere trin, der skal redigeres. Ved at udelade tekstprompten fjernes objektet:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Dette vil producere billeder, der ligner følgende.

Oprindeligt billede	Svarbillede

Baggrundsredigering: Overmaling

Outpainting er nyttigt, når du vil erstatte baggrunden på et billede. Du kan også udvide grænserne for et billede for at få en zoom-ud-effekt. I det følgende eksempelscript bruger vi maskPrompt at specificere hvilken genstand der skal beholdes; kan du også bruge maskImage. Parameteren outPaintingMode angiver, om der skal tillades ændring af pixels inde i masken. Hvis indstillet som DEFAULT, får pixel inde i masken lov til at blive ændret, så det rekonstruerede billede vil være konsistent generelt. Denne mulighed anbefales, hvis maskImage forudsat repræsenterer ikke objektet med præcision på pixelniveau. Hvis indstillet som PRECISE, forhindres modifikation af pixels inde i masken. Denne mulighed anbefales, hvis du bruger en maskPrompt eller maskImage der repræsenterer objektet med præcision på pixelniveau.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Dette vil producere billeder, der ligner følgende.

Oprindeligt billede	tekst	Svarbillede
	"strand"
	"Skov"

Hertil kommer virkningerne af forskellige værdier for outPaintingMode, Med en maskImage der ikke skitserer objektet med præcision på pixelniveau, er som følger.

Dette afsnit har givet dig et overblik over de operationer, du kan udføre med Titan Image Generator-modellen. Specifikt demonstrerer disse scripts tekst-til-billede, billedvariation, inpainting og outpainting opgaver. Du bør være i stand til at tilpasse mønstrene til dine egne applikationer ved at henvise til parameterdetaljerne for de opgavetyper, der er beskrevet i Amazon Titan Image Generator dokumentation.

Multimodal indlejring og søgning

Du kan bruge Amazon Titan Multimodal Embeddings-modellen til virksomhedsopgaver såsom billedsøgning og lighedsbaseret anbefaling, og den har indbygget afbødning, der hjælper med at reducere skævhed i søgeresultater. Der er flere indlejringsdimensionsstørrelser for den bedste ventetid/nøjagtighed afvejninger til forskellige behov, og alle kan tilpasses med en simpel API for at tilpasse til dine egne data, mens datasikkerhed og privatliv bevares. Amazon Titan Multimodal Embeddings leveres som simple API'er til real-time eller asynkron batchtransformationssøgning og anbefalingsapplikationer og kan forbindes til forskellige vektordatabaser, bl.a. Amazon OpenSearch Service.

Hjælpefunktioner

Følgende funktion konverterer et billede og eventuelt tekst til multimodale indlejringer:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

Følgende funktion returnerer de øverste lignende multimodale indlejringer givet en forespørgsel multimodale indlejringer. Bemærk, at du i praksis kan bruge en administreret vektordatabase, såsom OpenSearch Service. Følgende eksempel er til illustrationsformål:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Syntetisk datasæt

Til illustrationsformål bruger vi Anthropics Claude 2.1-model i Amazon Bedrock at tilfældigt generere syv forskellige produkter, hver med tre varianter, ved hjælp af følgende prompt:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Følgende er listen over returnerede output:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Tildel ovenstående svar til variabel response_cat. Så bruger vi Titan Image Generator-modellen til at skabe produktbilleder for hver vare:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Alle de genererede billeder kan findes i appendiks i slutningen af dette indlæg.

Multimodal datasætindeksering

Brug følgende kode til multimodal datasætindeksering:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Multimodal søgning

Brug følgende kode til multimodal søgning:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Følgende er nogle søgeresultater.

Konklusion

Indlægget introducerer Amazon Titan Image Generator og Amazon Titan Multimodal Embeddings-modellerne. Titan Image Generator giver dig mulighed for at skabe brugerdefinerede billeder af høj kvalitet fra tekstprompter. Nøglefunktioner inkluderer iteration på prompter, automatisk baggrundsredigering og datatilpasning. Den har sikkerhedsforanstaltninger som usynlige vandmærker for at tilskynde til ansvarlig brug. Titan Multimodal Embeddings konverterer tekst, billeder eller begge dele til semantiske vektorer for at sikre nøjagtig søgning og anbefalinger. Vi leverede derefter Python-kodeeksempler til brug af disse tjenester og demonstrerede generering af billeder fra tekstprompter og iteration på disse billeder; redigering af eksisterende billeder ved at tilføje, fjerne eller erstatte elementer specificeret af maskebilleder eller masketekst; skabe multimodale indlejringer fra tekst, billeder eller begge dele; og søgning efter lignende multimodale indlejringer til en forespørgsel. Vi demonstrerede også at bruge et syntetisk e-handelsdatasæt, der blev indekseret og søgt ved hjælp af Titan Multimodal Embeddings. Målet med dette indlæg er at gøre det muligt for udviklere at begynde at bruge disse nye AI-tjenester i deres applikationer. Kodemønstrene kan tjene som skabeloner til brugerdefinerede implementeringer.

Al koden er tilgængelig på GitHub repository. For mere information, se Amazon Bedrock brugervejledning.

Om forfatterne

Rohit Mittal er en hovedproduktchef hos Amazon AI, der bygger multimodale fundamentmodeller. Han ledede for nylig lanceringen af Amazon Titan Image Generator-modellen som en del af Amazon Bedrock-tjenesten. Han har erfaring med AI/ML, NLP og søgning og er interesseret i at bygge produkter, der løser kundeproblemer med innovativ teknologi.

Dr. Ashwin Swaminathan er en Computer Vision og Machine Learning forsker, ingeniør og leder med 12+ års brancheerfaring og 5+ års akademisk forskningserfaring. Stærke grundprincipper og dokumenteret evne til hurtigt at få viden og bidrage til nyere og nye områder.

Dr. Yusheng Xie er Principal Applied Scientist hos Amazon AGI. Hans arbejde fokuserer på at bygge multimodale fundamentmodeller. Før han kom til AGI, ledede han forskellige multimodale AI-udvikling hos AWS såsom Amazon Titan Image Generator og Amazon Textract Queries.

Dr. Hao Yang er Principal Applied Scientist hos Amazon. Hans vigtigste forskningsinteresser er objektdetektion og læring med begrænsede annotationer. Uden for arbejdet nyder Hao at se film, fotografering og udendørsaktiviteter.

Dr. Davide Modolo er en Applied Science Manager hos Amazon AGI, der arbejder på at bygge store multimodale grundmodeller. Før han kom til Amazon AGI, var han leder/lead i 7 år i AWS AI Labs (Amazon Bedrock og Amazon Rekognition). Uden for arbejdet nyder han at rejse og dyrke enhver form for sport, især fodbold.

Dr. Baichuan Sun, tjener i øjeblikket som Sr. AI/ML Solutions Architect hos AWS, med fokus på generativ AI og anvender sin viden inden for datavidenskab og maskinlæring til at levere praktiske, cloud-baserede forretningsløsninger. Med erfaring i ledelsesrådgivning og AI-løsningsarkitektur adresserer han en række komplekse udfordringer, herunder robotteknologi, computervision, tidsserieprognoser og forudsigelig vedligeholdelse, blandt andre. Hans arbejde er baseret på en solid baggrund inden for projektledelse, software R&D og akademiske aktiviteter. Uden for arbejdet nyder Dr. Sun balancen mellem at rejse og tilbringe tid med familie og venner.

Dr. Kai Zhu arbejder i øjeblikket som Cloud Support Engineer hos AWS og hjælper kunder med problemer i AI/ML relaterede tjenester som SageMaker, Bedrock osv. Han er SageMaker Subject Matter Expert. Han har erfaring med datavidenskab og datateknik og er interesseret i at bygge generative AI-drevne projekter.

Kris Schultz har brugt over 25 år på at bringe engagerende brugeroplevelser til live ved at kombinere nye teknologier med design i verdensklasse. I sin rolle som Senior Product Manager hjælper Kris med at designe og bygge AWS-tjenester til at drive Media & Entertainment, Gaming og Spatial Computing.

Tillæg

I de følgende afsnit demonstrerer vi udfordrende eksempler på brug som tekstindsættelse, hænder og refleksioner for at fremhæve mulighederne i Titan Image Generator-modellen. Vi inkluderer også de eksempler på outputbilleder, der er produceret i tidligere eksempler.

tekst

Titan Image Generator-modellen udmærker sig ved komplekse arbejdsgange som at indsætte læsbar tekst i billeder. Dette eksempel demonstrerer Titans evne til tydeligt at gengive store og små bogstaver i en ensartet stil i et billede.

en corgi iført en baseballkasket med teksten "genai"	en glad dreng, der giver tommelfingeren op, iført en t-shirt med teksten "generativ AI"

hænder

Titan Image Generator-modellen har også evnen til at generere detaljerede AI-billeder. Billedet viser realistiske hænder og fingre med synlige detaljer, der går ud over mere grundlæggende AI-billedgenerering, der muligvis mangler en sådan specificitet. I de følgende eksempler skal du bemærke den præcise afbildning af stillingen og anatomien.

en persons hånd set fra oven	et tæt kig på en persons hænder, der holder et kaffekrus

Spejl

Billederne genereret af Titan Image Generator-modellen arrangerer rumligt objekter og afspejler spejleffekter nøjagtigt, som vist i de følgende eksempler.

En sød fluffy hvid kat står på bagbenene og kigger nysgerrigt ind i et udsmykket gyldent spejl. I spejlingen ser katten sig selv	smuk himmelsø med refleksioner på vandet