Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Amazon Web Services

Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Amazon Web Services

Rocha Amazônica fornece uma ampla gama de modelos básicos de alto desempenho da Amazon e de outras empresas líderes de IA, incluindo Antrópico, AI21, Meta, Coerente e IA de estabilidadee abrange uma ampla variedade de casos de uso, incluindo geração de texto e imagem, pesquisa, bate-papo, agentes de raciocínio e atuação e muito mais. O novo Gerador de imagem Amazon Titan O modelo permite que os criadores de conteúdo gerem rapidamente imagens realistas e de alta qualidade usando instruções simples de texto em inglês. O modelo avançado de IA entende instruções complexas com vários objetos e retorna imagens com qualidade de estúdio adequadas para publicidade, comércio eletrônico e diversão. Os principais recursos incluem a capacidade de refinar imagens iterando prompts, edição automática de plano de fundo e geração de múltiplas variações da mesma cena. Os criadores também podem personalizar o modelo com seus próprios dados para gerar imagens da marca em um estilo específico. É importante ressaltar que o Titan Image Generator possui proteções integradas, como marcas d'água invisíveis em todas as imagens geradas por IA, para incentivar uso responsável e mitigar a propagação da desinformação. Esta tecnologia inovadora permite a produção de imagens personalizadas em grande volume para qualquer indústria mais acessível e eficiente.

O novo Incorporações multimodais do Amazon Titan O modelo ajuda a criar pesquisas e recomendações mais precisas, compreendendo textos, imagens ou ambos. Ele converte imagens e textos em inglês em vetores semânticos, capturando significado e relacionamentos em seus dados. Você pode combinar texto e imagens, como descrições de produtos e fotos, para identificar os itens de maneira mais eficaz. Os vetores proporcionam experiências de pesquisa rápidas e precisas. Titan Multimodal Embeddings é flexível em dimensões vetoriais, permitindo otimização para necessidades de desempenho. Uma API assíncrona e Serviço Amazon OpenSearch O conector facilita a integração do modelo em seus aplicativos de pesquisa neural.

Nesta postagem, explicamos como usar os modelos Titan Image Generator e Titan Multimodal Embeddings por meio do AWS Python SDK.

Geração e edição de imagens

Nesta seção, demonstramos os padrões básicos de codificação para usar o AWS SDK para gerar novas imagens e realizar edições com tecnologia de IA em imagens existentes. Exemplos de código são fornecidos em Python e JavaScript (Node.js) também está disponível neste Repositório GitHub.

Antes de poder escrever scripts que usam a API Amazon Bedrock, você precisa instalar a versão apropriada do AWS SDK em seu ambiente. Para scripts Python, você pode usar o SDK da AWS para Python (Boto3). Os usuários do Python também podem querer instalar o Módulo travesseiro, o que facilita operações de imagem, como carregar e salvar imagens. Para obter instruções de configuração, consulte o Repositório GitHub.

Além disso, habilite o acesso aos modelos Amazon Titan Image Generator e Titan Multimodal Embeddings. Para obter mais informações, consulte Acesso ao modelo.

Funções auxiliares

A função a seguir configura o cliente de tempo de execução Amazon Bedrock Boto3 e gera imagens usando cargas úteis de diferentes configurações (que discutiremos mais adiante nesta postagem):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images 

Gerar imagens a partir de texto

Os scripts que geram uma nova imagem a partir de um prompt de texto seguem este padrão de implementação:

  1. Configure um prompt de texto e um prompt de texto negativo opcional.
  2. Use o BedrockRuntime cliente para invocar o modelo Titan Image Generator.
  3. Analise e decodifique a resposta.
  4. Salve as imagens resultantes em disco.

Texto para imagem

A seguir está um script típico de geração de imagem para o modelo Titan Image Generator:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Isso produzirá imagens semelhantes às seguintes.

Imagem de resposta 1 Imagem de resposta 2
2 cachorros andando na rua 2 cachorros andando na rua

Variantes de imagem

A variação de imagem fornece uma maneira de gerar variantes sutis de uma imagem existente. O snippet de código a seguir usa uma das imagens geradas no exemplo anterior para criar imagens variantes:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Isso produzirá imagens semelhantes às seguintes.

Imagem original Imagem de resposta 1 Imagem de resposta 2
2 cachorros andando na rua Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Editar uma imagem existente

O modelo Titan Image Generator permite adicionar, remover ou substituir elementos ou áreas em uma imagem existente. Você especifica qual área afetar fornecendo um dos seguintes:

  • Imagem de máscara – Uma imagem de máscara é uma imagem binária na qual os pixels de valor 0 representam a área que você deseja afetar e os pixels de valor 255 representam a área que deve permanecer inalterada.
  • Alerta de máscara – Um prompt de máscara é uma descrição de texto em linguagem natural dos elementos que você deseja afetar, que usa um modelo interno de texto para segmentação.

Para mais informações, consulte Diretrizes de engenharia imediata.

Os scripts que aplicam uma edição a uma imagem seguem este padrão de implementação:

  1. Carregue a imagem a ser editada do disco.
  2. Converta a imagem em uma string codificada em base64.
  3. Configure a máscara através de um dos seguintes métodos:
    1. Carregue uma imagem de máscara do disco, codificando-a como base64 e configurando-a como maskImage parâmetro.
    2. Colocou o maskText parâmetro para uma descrição de texto dos elementos a serem afetados.
  4. Especifique o novo conteúdo a ser gerado usando uma das seguintes opções:
    1. Para adicionar ou substituir um elemento, defina o text parâmetro para uma descrição do novo conteúdo.
    2. Para remover um elemento, omita o text parâmetro completamente.
  5. Use o BedrockRuntime cliente para invocar o modelo Titan Image Generator.
  6. Analise e decodifique a resposta.
  7. Salve as imagens resultantes em disco.

Edição de objetos: pintura interna com uma imagem de máscara

A seguir está um script típico de edição de imagem para o modelo Titan Image Generator usando maskImage. Pegamos uma das imagens geradas anteriormente e fornecemos uma imagem de máscara, onde pixels de valor 0 são renderizados como pretos e pixels de valor 255 como brancos. Também substituímos um dos cães da imagem por um gato usando um prompt de texto.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Isso produzirá imagens semelhantes às seguintes.

Imagem original Imagem de máscara Imagem Editada
2 cachorros andando na rua Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. gato e cachorro andando na rua

Remoção de objetos: pintura interna com prompt de máscara

Em outro exemplo, usamos maskPrompt para especificar um objeto na imagem, obtido nas etapas anteriores, para editar. Ao omitir o prompt de texto, o objeto será removido:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Isso produzirá imagens semelhantes às seguintes.

Imagem original Imagem de resposta
2 cachorros andando na rua um cachorro andando na rua

Edição em segundo plano: Outpainting

Outpainting é útil quando você deseja substituir o plano de fundo de uma imagem. Você também pode estender os limites de uma imagem para obter um efeito de redução de zoom. No script de exemplo a seguir, usamos maskPrompt para especificar qual objeto manter; você também pode usar maskImage. O parâmetro outPaintingMode especifica se será permitida a modificação dos pixels dentro da máscara. Se definido como DEFAULT, os pixels dentro da máscara podem ser modificados para que a imagem reconstruída seja consistente em geral. Esta opção é recomendada se o maskImage fornecido não representa o objeto com precisão em nível de pixel. Se definido como PRECISE, a modificação dos pixels dentro da máscara é evitada. Esta opção é recomendada se estiver usando um maskPrompt ou um maskImage que representa o objeto com precisão em nível de pixel.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Isso produzirá imagens semelhantes às seguintes.

Imagem original Texto Imagem de resposta
2 cachorros andando na rua "praia" um cachorro andando na praia
2 cachorros andando na rua "floresta" Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Além disso, os efeitos de diferentes valores para outPaintingMode, Com um maskImage que não delineia o objeto com precisão em nível de pixel, são os seguintes.

Esta seção oferece uma visão geral das operações que você pode realizar com o modelo Titan Image Generator. Especificamente, esses scripts demonstram tarefas de texto para imagem, variação de imagem, pintura interna e pintura externa. Você deve ser capaz de adaptar os padrões para seus próprios aplicativos referenciando os detalhes dos parâmetros para os tipos de tarefas detalhados em Documentação do Amazon Titan Image Generator.

Incorporação e pesquisa multimodal

Você pode usar o modelo Amazon Titan Multimodal Embeddings para tarefas empresariais, como pesquisa de imagens e recomendação baseada em similaridade, e ele possui mitigação integrada que ajuda a reduzir distorções nos resultados da pesquisa. Existem vários tamanhos de dimensão de incorporação para melhores compensações de latência/precisão para diferentes necessidades, e todos podem ser personalizados com uma API simples para se adaptar aos seus próprios dados, mantendo a segurança e a privacidade dos dados. O Amazon Titan Multimodal Embeddings é fornecido como APIs simples para aplicações de pesquisa e recomendação de transformação em lote assíncrona ou em tempo real e pode ser conectado a diferentes bancos de dados de vetores, incluindo Serviço Amazon OpenSearch.

Funções auxiliares

A função a seguir converte uma imagem e, opcionalmente, texto, em embeddings multimodais:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

A função a seguir retorna os principais embeddings multimodais semelhantes, dada uma consulta de embeddings multimodais. Observe que, na prática, você pode usar um banco de dados de vetores gerenciado, como o OpenSearch Service. O exemplo a seguir é para fins ilustrativos:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Conjunto de dados sintético

Para fins ilustrativos, usamos Modelo Claude 2.1 da Anthropic no Amazon Bedrock para gerar aleatoriamente sete produtos diferentes, cada um com três variantes, usando o seguinte prompt:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

A seguir está a lista de saídas retornadas:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Atribua a resposta acima à variável response_cat. Em seguida, usamos o modelo Titan Image Generator para criar imagens de produtos para cada item:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Todas as imagens geradas podem ser encontradas no apêndice no final deste post.

Indexação de conjunto de dados multimodal

Use o seguinte código para indexação de conjunto de dados multimodal:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Pesquisa multimodal

Use o seguinte código para pesquisa multimodal:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

A seguir estão alguns resultados da pesquisa.

Conclusão

A postagem apresenta os modelos Amazon Titan Image Generator e Amazon Titan Multimodal Embeddings. Titan Image Generator permite criar imagens personalizadas e de alta qualidade a partir de prompts de texto. Os principais recursos incluem iteração em prompts, edição automática em segundo plano e personalização de dados. Possui salvaguardas como marcas d’água invisíveis para incentivar o uso responsável. Titan Multimodal Embeddings converte texto, imagens ou ambos em vetores semânticos para fornecer pesquisas e recomendações precisas. Em seguida, fornecemos exemplos de código Python para usar esses serviços e demonstramos a geração de imagens a partir de prompts de texto e a iteração nessas imagens; editar imagens existentes adicionando, removendo ou substituindo elementos especificados por imagens de máscara ou texto de máscara; criação de incorporações multimodais a partir de texto, imagens ou ambos; e pesquisando incorporações multimodais semelhantes a uma consulta. Também demonstramos o uso de um conjunto de dados sintético de comércio eletrônico indexado e pesquisado usando Titan Multimodal Embeddings. O objetivo deste post é permitir que os desenvolvedores comecem a usar esses novos serviços de IA em suas aplicações. Os padrões de código podem servir como modelos para implementações personalizadas.

Todo o código está disponível no Repositório GitHub. Para obter mais informações, consulte o Guia do usuário do Amazon Bedrock.


Sobre os autores

Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Rohit Mittal é gerente principal de produto na Amazon AI, construindo modelos básicos multimodais. Recentemente, ele liderou o lançamento do modelo Amazon Titan Image Generator como parte do serviço Amazon Bedrock. Com experiência em IA/ML, PNL e Pesquisa, ele está interessado em criar produtos que resolvam os problemas do cliente com tecnologia inovadora.

Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Dr. Ashwin Swaminathan é pesquisador, engenheiro e gerente de visão computacional e aprendizado de máquina com mais de 12 anos de experiência no setor e mais de 5 anos de experiência em pesquisa acadêmica. Fundamentos sólidos e capacidade comprovada de adquirir conhecimento rapidamente e contribuir para áreas novas e emergentes.

Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Dr. Yusheng Xie é Cientista Aplicado Principal da Amazon AGI. Seu trabalho se concentra na construção de modelos de fundação multimodais. Antes de ingressar na AGI, ele liderou vários desenvolvimentos de IA multimodal na AWS, como Amazon Titan Image Generator e Amazon Textract Queries.

Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Dr. é Cientista Aplicado Principal da Amazon. Seus principais interesses de pesquisa são detecção de objetos e aprendizado com anotações limitadas. Fora do trabalho, Hao gosta de assistir filmes, fotografar e fazer atividades ao ar livre.

Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Dr. Davide Modolo é gerente de ciências aplicadas na Amazon AGI, trabalhando na construção de grandes modelos multimodais fundamentais. Antes de ingressar na Amazon AGI, ele foi gerente/líder por 7 anos no AWS AI Labs (Amazon Bedrock e Amazon Rekognition). Fora do trabalho, gosta de viajar e praticar qualquer tipo de esporte, principalmente futebol.

Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Dr. Baichuan Sun, atualmente atua como arquiteto sênior de soluções de IA/ML na AWS, com foco em IA generativa e aplica seu conhecimento em ciência de dados e aprendizado de máquina para fornecer soluções de negócios práticas baseadas em nuvem. Com experiência em consultoria de gestão e arquitetura de soluções de IA, ele aborda uma série de desafios complexos, incluindo visão computacional robótica, previsão de séries temporais e manutenção preditiva, entre outros. Seu trabalho é baseado em uma sólida experiência em gerenciamento de projetos, pesquisa e desenvolvimento de software e atividades acadêmicas. Fora do trabalho, o Dr. Sun gosta de viajar e passar tempo com a família e amigos.

Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Dr. atualmente trabalha como engenheiro de suporte de nuvem na AWS, ajudando clientes com problemas em serviços relacionados a IA/ML, como SageMaker, Bedrock, etc. Ele é um especialista no assunto SageMaker. Com experiência em ciência e engenharia de dados, ele está interessado em construir projetos generativos alimentados por IA.

Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.Chris Schultz passou mais de 25 anos dando vida a experiências envolventes do usuário, combinando tecnologias emergentes com design de classe mundial. Em sua função como gerente de produto sênior, Kris ajuda a projetar e criar serviços da AWS para potencializar mídia e entretenimento, jogos e computação espacial.


Apêndice

Nas seções a seguir, demonstramos exemplos de casos de uso desafiadores, como inserção de texto, mãos e reflexos, para destacar os recursos do modelo Titan Image Generator. Também incluímos as imagens de saída de amostra produzidas nos exemplos anteriores.

Texto

O modelo Titan Image Generator é excelente em fluxos de trabalho complexos, como a inserção de texto legível em imagens. Este exemplo demonstra a capacidade do Titan de renderizar claramente letras maiúsculas e minúsculas em um estilo consistente dentro de uma imagem.

um corgi usando um boné de beisebol com o texto “genai” um garoto feliz fazendo sinal de positivo, vestindo uma camiseta com o texto “IA generativa”
Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

mãos

O modelo Titan Image Generator também tem a capacidade de gerar imagens detalhadas de IA. A imagem mostra mãos e dedos realistas com detalhes visíveis, indo além da geração de imagens de IA mais básicas que podem carecer de tal especificidade. Nos exemplos a seguir, observe a representação precisa da pose e da anatomia.

a mão de uma pessoa vista de cima uma olhada mais de perto nas mãos de uma pessoa segurando uma caneca de café
Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Espelho

As imagens geradas pelo modelo Titan Image Generator organizam objetos espacialmente e refletem com precisão os efeitos de espelho, conforme demonstrado nos exemplos a seguir.

Um lindo gato branco e fofo fica nas patas traseiras, olhando com curiosidade para um espelho dourado ornamentado. No reflexo o gato se vê lindo lago do céu com reflexos na água
Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Use modelos do Amazon Titan para geração, edição e pesquisa de imagens | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Imagens de produtos sintéticos

A seguir estão as imagens do produto geradas anteriormente nesta postagem para o modelo Titan Multimodal Embeddings.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS