Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Servicios web de Amazon

Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Servicios web de Amazon

lecho rocoso del amazonas proporciona una amplia gama de modelos básicos de alto rendimiento de Amazon y otras empresas líderes en inteligencia artificial, incluidas Antrópico, AI21, Meta, Adherirsey Estabilidad IAy cubre una amplia gama de casos de uso, incluida la generación de texto e imágenes, búsqueda, chat, agentes de razonamiento y actuación, y más. El nuevo Generador de imágenes de Amazon Titan El modelo permite a los creadores de contenido generar rápidamente imágenes realistas y de alta calidad utilizando sencillas indicaciones de texto en inglés. El modelo avanzado de IA comprende instrucciones complejas con múltiples objetos y devuelve imágenes con calidad de estudio adecuadas para publicidad, comercio electrónico y entretenimiento. Las características clave incluyen la capacidad de refinar imágenes iterando según indicaciones, edición automática de fondo y generando múltiples variaciones de la misma escena. Los creadores también pueden personalizar el modelo con sus propios datos para generar imágenes de marca con un estilo específico. Es importante destacar que Titan Image Generator tiene protecciones integradas, como marcas de agua invisibles en todas las imágenes generadas por IA, para fomentar uso responsable y mitigar la propagación de la desinformación. Esta innovadora tecnología permite producir imágenes personalizadas en gran volumen para cualquier industria más accesible y eficiente.

El nuevo Incorporaciones multimodales de Amazon Titan El modelo ayuda a crear búsquedas y recomendaciones más precisas al comprender texto, imágenes o ambos. Convierte imágenes y texto en inglés en vectores semánticos, capturando significado y relaciones en sus datos. Puede combinar texto e imágenes, como descripciones de productos y fotografías, para identificar artículos de forma más eficaz. Los vectores impulsan experiencias de búsqueda rápidas y precisas. Titan Multimodal Embeddings es flexible en dimensiones vectoriales, lo que permite la optimización para las necesidades de rendimiento. Una API asincrónica y Servicio Amazon OpenSearch El conector facilita la integración del modelo en sus aplicaciones de búsqueda neuronal.

En esta publicación, explicamos cómo utilizar los modelos Titan Image Generator y Titan Multimodal Embeddings a través del SDK de AWS Python.

Generación y edición de imágenes.

En esta sección, demostramos los patrones de codificación básicos para usar AWS SDK para generar nuevas imágenes y realizar ediciones basadas en IA en imágenes existentes. Se proporcionan ejemplos de código en Python y JavaScript (Node.js) también está disponible en este Repositorio GitHub.

Antes de poder escribir scripts que utilicen la API de Amazon Bedrock, debe instalar la versión adecuada del SDK de AWS en su entorno. Para scripts de Python, puede utilizar el AWS SDK para Python (Boto3). Los usuarios de Python también pueden querer instalar el Módulo de almohada, que facilita las operaciones de imágenes como cargar y guardar imágenes. Para obtener instrucciones de configuración, consulte la Repositorio GitHub.

Además, habilite el acceso a los modelos Amazon Titan Image Generator y Titan Multimodal Embeddings. Para obtener más información, consulte Modelo de acceso.

Funciones auxiliares

La siguiente función configura el cliente de tiempo de ejecución de Amazon Bedrock Boto3 y genera imágenes tomando cargas útiles de diferentes configuraciones (que analizamos más adelante en esta publicación):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images 

Generar imágenes a partir de texto

Los scripts que generan una nueva imagen a partir de un mensaje de texto siguen este patrón de implementación:

  1. Configure un mensaje de texto y un mensaje de texto negativo opcional.
  2. Ingrese al BedrockRuntime cliente para invocar el modelo Titan Image Generator.
  3. Analiza y decodifica la respuesta.
  4. Guarde las imágenes resultantes en el disco.

Texto a imagen

El siguiente es un script de generación de imágenes típico para el modelo Titan Image Generator:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Esto producirá imágenes similares a las siguientes.

Imagen de respuesta 1 Imagen de respuesta 2
2 perros caminando por la calle 2 perros caminando por la calle

Variantes de imagen

La variación de imagen proporciona una manera de generar variantes sutiles de una imagen existente. El siguiente fragmento de código utiliza una de las imágenes generadas en el ejemplo anterior para crear imágenes variantes:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Esto producirá imágenes similares a las siguientes.

Imagen original Imagen de respuesta 1 Imagen de respuesta 2
2 perros caminando por la calle Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Editar una imagen existente

El modelo Titan Image Generator le permite agregar, eliminar o reemplazar elementos o áreas dentro de una imagen existente. Usted especifica qué área afectar proporcionando uno de los siguientes:

  • Imagen de máscara – Una imagen de máscara es una imagen binaria en la que los píxeles de valor 0 representan el área que desea afectar y los píxeles de valor 255 representan el área que debe permanecer sin cambios.
  • Aviso de máscara – Un mensaje de máscara es una descripción de texto en lenguaje natural de los elementos que desea afectar, que utiliza un modelo interno de texto a segmentación.

Para obtener más información, consulte Directrices de ingeniería rápidas.

Los scripts que aplican una edición a una imagen siguen este patrón de implementación:

  1. Cargue la imagen a editar desde el disco.
  2. Convierta la imagen a una cadena codificada en base64.
  3. Configure la máscara mediante uno de los siguientes métodos:
    1. Cargue una imagen de máscara desde el disco, codificándola como base64 y configurándola como maskImage parámetro.
    2. Seleccione las maskText parámetro a una descripción de texto de los elementos a afectar.
  4. Especifique el nuevo contenido que se generará utilizando una de las siguientes opciones:
    1. Para agregar o reemplazar un elemento, configure el text parámetro a una descripción del nuevo contenido.
    2. Para eliminar un elemento, omita el text parámetro por completo.
  5. Ingrese al BedrockRuntime cliente para invocar el modelo Titan Image Generator.
  6. Analiza y decodifica la respuesta.
  7. Guarde las imágenes resultantes en el disco.

Edición de objetos: pintura interna con una imagen de máscara

El siguiente es un script de edición de imágenes típico para el modelo Titan Image Generator usando maskImage. Tomamos una de las imágenes generadas anteriormente y proporcionamos una imagen de máscara, donde los píxeles de valor 0 se representan en negro y los píxeles de valor 255 en blanco. También reemplazamos uno de los perros en la imagen con un gato usando un mensaje de texto.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Esto producirá imágenes similares a las siguientes.

Imagen original Imagen de máscara Imagen editada
2 perros caminando por la calle Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. perro y gato caminando por la calle

Eliminación de objetos: pintura interna con un mensaje de máscara

En otro ejemplo, usamos maskPrompt para especificar un objeto en la imagen, tomado de los pasos anteriores, para editar. Al omitir el mensaje de texto, el objeto se eliminará:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Esto producirá imágenes similares a las siguientes.

Imagen original Imagen de respuesta
2 perros caminando por la calle un perro caminando por la calle

Edición de fondo: pintura exterior

La pintura exterior es útil cuando desea reemplazar el fondo de una imagen. También puede ampliar los límites de una imagen para obtener un efecto de alejamiento. En el siguiente script de ejemplo, utilizamos maskPrompt especificar qué objeto conservar; también puedes usar maskImage. El parámetro outPaintingMode especifica si se permite la modificación de los píxeles dentro de la máscara. Si se establece como DEFAULT, se permite modificar los píxeles dentro de la máscara para que la imagen reconstruida sea consistente en general. Esta opción se recomienda si el maskImage proporcionado no representa el objeto con precisión a nivel de píxel. Si se establece como PRECISE, se evita la modificación de píxeles dentro de la máscara. Esta opción se recomienda si se utiliza un maskPrompt o un maskImage que representa el objeto con precisión a nivel de píxel.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Esto producirá imágenes similares a las siguientes.

Imagen original Texto Imagen de respuesta
2 perros caminando por la calle "playa" un perro caminando por la playa
2 perros caminando por la calle "bosque" Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Además, los efectos de diferentes valores para outPaintingMode, Con un maskImage que no delinea el objeto con precisión a nivel de píxel, son los siguientes.

Esta sección le ha brindado una descripción general de las operaciones que puede realizar con el modelo Titan Image Generator. Específicamente, estos guiones demuestran tareas de conversión de texto a imagen, variación de imágenes, pintura interna y pintura exterior. Debería poder adaptar los patrones para sus propias aplicaciones haciendo referencia a los detalles de los parámetros para los tipos de tareas que se detallan en Documentación del generador de imágenes de Amazon Titan.

Incrustación y búsqueda multimodal

Puede utilizar el modelo Amazon Titan Multimodal Embeddings para tareas empresariales como búsqueda de imágenes y recomendaciones basadas en similitudes, y tiene mitigación integrada que ayuda a reducir el sesgo en los resultados de búsqueda. Hay varios tamaños de dimensiones de incrustación para lograr mejores compensaciones entre latencia y precisión para diferentes necesidades, y todas se pueden personalizar con una API simple para adaptarse a sus propios datos mientras se mantiene la seguridad y privacidad de los datos. Amazon Titan Multimodal Embeddings se proporciona como API simples para aplicaciones de recomendación y búsqueda de transformación por lotes asincrónicas o en tiempo real, y se puede conectar a diferentes bases de datos vectoriales, incluidas Servicio Amazon OpenSearch.

Funciones auxiliares

La siguiente función convierte una imagen y, opcionalmente, texto en incrustaciones multimodales:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

La siguiente función devuelve las principales incorporaciones multimodales similares dada una consulta de incorporaciones multimodales. Tenga en cuenta que, en la práctica, puede utilizar una base de datos vectorial administrada, como OpenSearch Service. El siguiente ejemplo tiene fines ilustrativos:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Conjunto de datos sintéticos

Con fines ilustrativos utilizamos Modelo Claude 2.1 de Anthropic en Amazon Bedrock para generar aleatoriamente siete productos diferentes, cada uno con tres variantes, utilizando el siguiente mensaje:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

La siguiente es la lista de resultados devueltos:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Asigne la respuesta anterior a la variable response_cat. Luego utilizamos el modelo Titan Image Generator para crear imágenes de producto para cada artículo:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Todas las imágenes generadas se pueden encontrar en el apéndice al final de esta publicación.

Indexación de conjuntos de datos multimodales

Utilice el siguiente código para la indexación de conjuntos de datos multimodales:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Búsqueda multimodal

Utilice el siguiente código para búsqueda multimodal:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Los siguientes son algunos resultados de búsqueda.

Conclusión

La publicación presenta los modelos Amazon Titan Image Generator y Amazon Titan Multimodal Embeddings. Titan Image Generator le permite crear imágenes personalizadas de alta calidad a partir de indicaciones de texto. Las características clave incluyen iteración de indicaciones, edición automática en segundo plano y personalización de datos. Tiene salvaguardias como marcas de agua invisibles para fomentar el uso responsable. Titan Multimodal Embeddings convierte texto, imágenes o ambos en vectores semánticos para impulsar búsquedas y recomendaciones precisas. Luego proporcionamos ejemplos de código Python para usar estos servicios y demostramos cómo generar imágenes a partir de mensajes de texto e iterar sobre esas imágenes; editar imágenes existentes agregando, eliminando o reemplazando elementos especificados por imágenes de máscara o texto de máscara; crear incrustaciones multimodales a partir de texto, imágenes o ambos; y buscar incorporaciones multimodales similares a una consulta. También demostramos el uso de un conjunto de datos sintéticos de comercio electrónico indexados y buscados mediante Titan Multimodal Embeddings. El objetivo de esta publicación es permitir a los desarrolladores comenzar a utilizar estos nuevos servicios de IA en sus aplicaciones. Los patrones de código pueden servir como plantillas para implementaciones personalizadas.

Todo el código está disponible en el Repositorio GitHub. Para obtener más información, consulte el Guía del usuario de Amazon Bedrock.


Acerca de los autores

Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Rohit Mittal es gerente principal de productos en Amazon AI y crea modelos básicos multimodales. Recientemente dirigió el lanzamiento del modelo Amazon Titan Image Generator como parte del servicio Amazon Bedrock. Con experiencia en IA/ML, PNL y búsqueda, está interesado en crear productos que resuelvan los problemas de los clientes con tecnología innovadora.

Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Dr. Ashwin Swaminathan es un investigador, ingeniero y gerente de visión por computadora y aprendizaje automático con más de 12 años de experiencia en la industria y más de 5 años de experiencia en investigación académica. Fundamentos sólidos y capacidad comprobada para adquirir conocimientos rápidamente y contribuir a áreas más nuevas y emergentes.

Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Dr. Yusheng Xie es científico aplicado principal en Amazon AGI. Su trabajo se centra en la construcción de modelos de cimentaciones multimodales. Antes de unirse a AGI, dirigió varios desarrollos de IA multimodal en AWS, como Amazon Titan Image Generator y Amazon Textract Queries.

Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Dr.Hao Yang es científico aplicado principal en Amazon. Sus principales intereses de investigación son la detección de objetos y el aprendizaje con anotaciones limitadas. Fuera del trabajo, a Hao le gusta ver películas, fotografiar y realizar actividades al aire libre.

Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Dr. Davide Modolo es gerente de ciencias aplicadas en Amazon AGI y trabaja en la creación de grandes modelos fundamentales multimodales. Antes de unirse a Amazon AGI, fue gerente/líder durante 7 años en AWS AI Labs (Amazon Bedrock y Amazon Rekognition). Fuera del trabajo, le gusta viajar y practicar cualquier tipo de deporte, especialmente fútbol.

Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Dr. Baichuan Sun, Actualmente se desempeña como arquitecto senior de soluciones de IA/ML en AWS, enfocándose en IA generativa y aplica su conocimiento en ciencia de datos y aprendizaje automático para brindar soluciones comerciales prácticas basadas en la nube. Con experiencia en consultoría de gestión y arquitectura de soluciones de inteligencia artificial, aborda una variedad de desafíos complejos, incluida la visión robótica por computadora, el pronóstico de series temporales y el mantenimiento predictivo, entre otros. Su trabajo se basa en una sólida formación en gestión de proyectos, investigación y desarrollo de software y actividades académicas. Fuera del trabajo, el Dr. Sun disfruta del equilibrio entre viajar y pasar tiempo con familiares y amigos.

Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Dr. Kai Zhu Actualmente trabaja como ingeniero de soporte en la nube en AWS, ayudando a los clientes con problemas en servicios relacionados con AI/ML como SageMaker, Bedrock, etc. Es un experto en la materia de SageMaker. Con experiencia en ciencia e ingeniería de datos, está interesado en crear proyectos impulsados ​​por IA generativa.

Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.kris schultz ha pasado más de 25 años dando vida a experiencias de usuario atractivas combinando tecnologías emergentes con un diseño de clase mundial. En su función como gerente senior de productos, Kris ayuda a diseñar y crear servicios de AWS para impulsar los medios y el entretenimiento, los juegos y la computación espacial.


Apéndice

En las siguientes secciones, demostramos casos de uso de muestra desafiantes, como inserción de texto, manos y reflejos, para resaltar las capacidades del modelo Titan Image Generator. También incluimos las imágenes de salida de muestra producidas en ejemplos anteriores.

Texto

El modelo Titan Image Generator sobresale en flujos de trabajo complejos como insertar texto legible en imágenes. Este ejemplo demuestra la capacidad de Titan para representar claramente letras mayúsculas y minúsculas en un estilo consistente dentro de una imagen.

un corgi con una gorra de béisbol con el texto "genai" un niño feliz levantando el pulgar y vistiendo una camiseta con el texto "IA generativa"
Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Manos

El modelo Titan Image Generator también tiene la capacidad de generar imágenes detalladas de IA. La imagen muestra manos y dedos realistas con detalles visibles, yendo más allá de la generación de imágenes de IA más básica que puede carecer de tal especificidad. En los siguientes ejemplos, observe la descripción precisa de la pose y la anatomía.

la mano de una persona vista desde arriba una mirada cercana a las manos de una persona sosteniendo una taza de café
Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Mirror

Las imágenes generadas por el modelo Titan Image Generator organizan espacialmente los objetos y reflejan con precisión los efectos del espejo, como se demuestra en los siguientes ejemplos.

Un lindo gato blanco y esponjoso se para sobre sus patas traseras, mirando con curiosidad un espejo dorado adornado. En el reflejo el gato se ve a sí mismo. hermoso cielo lago con reflejos en el agua
Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Utilice modelos de Amazon Titan para generar, editar y buscar imágenes | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Imágenes de productos sintéticos.

Las siguientes son las imágenes de productos generadas anteriormente en esta publicación para el modelo Titan Multimodal Embeddings.

Sello de tiempo:

Mas de Aprendizaje automático de AWS