Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon

Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon

Коренная порода Амазонки предоставляет широкий спектр высокопроизводительных базовых моделей от Amazon и других ведущих компаний в области искусственного интеллекта, в том числе Антропный, AI21, Мета, членораздельными Стабильность ИИи охватывает широкий спектр вариантов использования, включая генерацию текста и изображений, поиск, чат, рассуждения и действия агентов и многое другое. Новый Генератор изображений Amazon Titan Модель позволяет создателям контента быстро создавать высококачественные реалистичные изображения с помощью простых текстовых подсказок на английском языке. Усовершенствованная модель искусственного интеллекта понимает сложные инструкции с несколькими объектами и возвращает изображения студийного качества, подходящие для реклама, электронная коммерция и развлечения. Ключевые функции включают в себя возможность уточнять изображения путем повторения подсказок, автоматического редактирования фона и создания нескольких вариантов одной и той же сцены. Создатели также могут настроить модель, используя свои собственные данные, для вывода фирменных изображений в определенном стиле. Важно отметить, что Titan Image Generator имеет встроенные средства защиты, такие как невидимые водяные знаки на всех изображениях, созданных искусственным интеллектом, для поощрения ответственное использование и уменьшить распространение дезинформации. Эта инновационная технология позволяет создавать индивидуальные изображения в больших объемах для любая отрасль более доступным и эффективным.

Новый Мультимодальные встраивания Amazon Titan Модель помогает создавать более точный поиск и рекомендации за счет понимания текста, изображений или того и другого. Он преобразует изображения и текст на английском языке в семантические векторы, фиксируя смысл и взаимосвязи в ваших данных. Вы можете комбинировать текст и изображения, такие как описания продуктов и фотографии, чтобы более эффективно идентифицировать товары. Векторы обеспечивают быстрый и точный поиск. Titan Multimodal Embeddings обеспечивает гибкость векторных измерений, что позволяет оптимизировать производительность. Асинхронный API и Сервис Amazon OpenSearch разъем позволяет легко интегрировать модель в ваши приложения нейронного поиска.

В этом посте мы расскажем, как использовать модели Titan Image Generator и Titan Multimodal Embeddings с помощью AWS Python SDK.

Генерация и редактирование изображений

В этом разделе мы демонстрируем основные шаблоны кодирования для использования AWS SDK для создания новых изображений и выполнения редактирования существующих изображений с помощью искусственного интеллекта. Примеры кода представлены на Python, а JavaScript (Node.js) также доступен в этом документе. Репозиторий GitHub.

Прежде чем вы сможете писать сценарии, использующие Amazon Bedrock API, вам необходимо установить соответствующую версию AWS SDK в вашей среде. Для сценариев Python вы можете использовать AWS SDK для Python (Boto3). Пользователи Python также могут захотеть установить Модуль подушки, который упрощает операции с изображениями, такие как загрузка и сохранение изображений. Инструкции по настройке см. Репозиторий GitHub.

Кроме того, включите доступ к моделям Amazon Titan Image Generator и Titan Multimodal Embeddings. Для получения дополнительной информации см. Доступ к модели.

Вспомогательные функции

Следующая функция настраивает клиент среды выполнения Amazon Bedrock Boto3 и генерирует изображения, получая полезные данные различных конфигураций (которые мы обсудим позже в этом посте):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images 

Генерация изображений из текста

Скрипты, генерирующие новое изображение из текстового запроса, следуют следующему шаблону реализации:

  1. Настройте текстовую подсказку и дополнительную отрицательную текстовую подсказку.
  2. Использовать BedrockRuntime клиент для вызова модели Titan Image Generator.
  3. Разберите и расшифруйте ответ.
  4. Сохраните полученные изображения на диск.

Текст в изображение

Ниже приведен типичный сценарий создания изображения для модели Titan Image Generator:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Это создаст изображения, подобные следующему.

Ответное изображение 1 Ответное изображение 2
2 собаки гуляют по улице 2 собаки гуляют по улице

Варианты изображений

Вариация изображения позволяет создавать тонкие варианты существующего изображения. В следующем фрагменте кода для создания вариантов изображений используется одно из изображений, созданных в предыдущем примере:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Это создаст изображения, подобные следующему.

Исходное изображение Ответное изображение 1 Ответное изображение 2
2 собаки гуляют по улице Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Редактировать существующее изображение

Модель Titan Image Generator позволяет добавлять, удалять или заменять элементы или области существующего изображения. Вы указываете, на какую область следует повлиять, предоставляя одно из следующих действий:

  • Изображение маски – Изображение маски – это двоичное изображение, в котором пиксели со значением 0 представляют область, на которую вы хотите повлиять, а пиксели со значением 255 представляют область, которая должна остаться неизменной.
  • Подсказка маски – Подсказка маски представляет собой текстовое описание элементов, на которые вы хотите повлиять, на естественном языке, в котором используется собственная модель сегментации текста.

Для получения дополнительной информации обратитесь к Краткое инженерное руководство.

Скрипты, применяющие редактирование к изображению, следуют следующему шаблону реализации:

  1. Загрузите изображение для редактирования с диска.
  2. Преобразуйте изображение в строку в кодировке Base64.
  3. Настройте маску одним из следующих способов:
    1. Загрузите изображение маски с диска, закодировав его как base64 и установив в качестве maskImage Параметр.
    2. Установить maskText параметр для текстового описания элементов, на которые требуется повлиять.
  4. Укажите новый контент, который будет создан, используя один из следующих параметров:
    1. Чтобы добавить или заменить элемент, установите text параметр описания нового контента.
    2. Чтобы удалить элемент, опустите text параметр полностью.
  5. Использовать BedrockRuntime клиент для вызова модели Titan Image Generator.
  6. Разберите и расшифруйте ответ.
  7. Сохраните полученные изображения на диск.

Редактирование объекта: Inpainting с изображением маски

Ниже приведен типичный сценарий редактирования изображений для модели Titan Image Generator с использованием maskImage. Мы берем одно из изображений, созданных ранее, и предоставляем изображение-маску, где пиксели со значением 0 отображаются как черные, а пиксели со значением 255 — как белые. Также одну из собак на изображении заменим кошкой с помощью текстовой подсказки.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Это создаст изображения, подобные следующему.

Исходное изображение Изображение маски Отредактированное изображение
2 собаки гуляют по улице Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. кошка и собака гуляют по улице

Удаление объекта: перерисовка с подсказкой маски

В другом примере мы используем maskPrompt указать объект на изображении, взятом на предыдущих шагах, для редактирования. Если пропустить текстовую подсказку, объект будет удален:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Это создаст изображения, подобные следующему.

Исходное изображение Изображение ответа
2 собаки гуляют по улице одна собака гуляет по улице

Редактирование фона: перерисовка

Перерисовка полезна, когда вы хотите заменить фон изображения. Вы также можете расширить границы изображения для эффекта уменьшения. В следующем примере сценария мы используем maskPrompt указать, какой объект оставить; вы также можете использовать maskImage, Параметр outPaintingMode указывает, разрешено ли изменение пикселей внутри маски. Если установлено как DEFAULTпиксели внутри маски можно изменять, чтобы реконструированное изображение в целом было единообразным. Этот вариант рекомендуется, если maskImage предоставленный объект не представляет объект с точностью до пикселя. Если установлено как PRECISE, изменение пикселей внутри маски предотвращается. Этот вариант рекомендуется использовать при использовании maskPrompt или maskImage который представляет объект с точностью на уровне пикселей.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Это создаст изображения, подобные следующему.

Исходное изображение Текст Изображение ответа
2 собаки гуляют по улице "пляж" одна собака гуляет по пляжу
2 собаки гуляют по улице "лес" Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Кроме того, влияние различных значений на outPaintingMode, С maskImage которые не очерчивают объект с точностью до пикселя, заключаются в следующем.

В этом разделе представлен обзор операций, которые вы можете выполнять с моделью Titan Image Generator. В частности, эти сценарии демонстрируют задачи преобразования текста в изображение, изменения изображения, закрашивания и закрашивания. У вас должна быть возможность адаптировать шаблоны для ваших собственных приложений, используя сведения о параметрах для тех типов задач, которые подробно описаны в разделе Документация по генератору изображений Amazon Titan.

Мультимодальное встраивание и поиск

Вы можете использовать модель Amazon Titan Multimodal Embeddings для корпоративных задач, таких как поиск изображений и рекомендации на основе сходства. Она имеет встроенную функцию смягчения последствий, которая помогает уменьшить предвзятость в результатах поиска. Существует несколько размеров встроенных измерений для достижения наилучшего компромисса между задержкой и точностью для различных нужд, и все они могут быть настроены с помощью простого API для адаптации к вашим собственным данным, сохраняя при этом безопасность и конфиденциальность данных. Amazon Titan Multimodal Embeddings предоставляется в виде простых API-интерфейсов для приложений поиска и рекомендаций в режиме реального времени или с асинхронным пакетным преобразованием и может быть подключен к различным векторным базам данных, включая Сервис Amazon OpenSearch.

Вспомогательные функции

Следующая функция преобразует изображение и, при необходимости, текст в мультимодальные внедрения:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

Следующая функция возвращает самые популярные мультимодальные вложения, заданные в запросе мультимодальных вложений. Обратите внимание, что на практике вы можете использовать управляемую базу данных векторов, например OpenSearch Service. Следующий пример приведен в целях иллюстрации:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Синтетический набор данных

В целях иллюстрации мы используем Модель Claude 2.1 от Anthropic в Amazon Bedrock чтобы случайным образом сгенерировать семь разных продуктов, каждый из которых имеет три варианта, используя следующую подсказку:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Ниже приведен список возвращаемых выходных данных:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Присвойте приведенный выше ответ переменной response_cat. Затем мы используем модель Titan Image Generator для создания изображений продуктов для каждого товара:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Все сгенерированные изображения можно найти в приложении в конце этого поста.

Мультимодальное индексирование набора данных

Используйте следующий код для индексации мультимодального набора данных:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Мультимодальный поиск

Используйте следующий код для мультимодального поиска:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Ниже приведены некоторые результаты поиска.

Заключение

В публикации представлены модели Amazon Titan Image Generator и Amazon Titan Multimodal Embeddings. Titan Image Generator позволяет создавать собственные высококачественные изображения из текстовых подсказок. Ключевые функции включают повторение подсказок, автоматическое фоновое редактирование и настройку данных. Он имеет такие гарантии, как невидимые водяные знаки, которые поощряют ответственное использование. Titan Multimodal Embeddings преобразует текст, изображения или и то, и другое в семантические векторы для обеспечения точного поиска и рекомендаций. Затем мы предоставили примеры кода Python для использования этих сервисов и продемонстрировали создание изображений из текстовых подсказок и обработку этих изображений; редактирование существующих изображений путем добавления, удаления или замены элементов, заданных изображениями-масками или текстом маски; создание мультимодальных вложений из текста, изображений или того и другого; и поиск похожих мультимодальных вложений в запрос. Мы также продемонстрировали использование синтетического набора данных электронной коммерции, индексированного и поискового с помощью Titan Multimodal Embeddings. Цель этого поста — дать разработчикам возможность начать использовать эти новые сервисы искусственного интеллекта в своих приложениях. Шаблоны кода могут служить шаблонами для пользовательских реализаций.

Весь код доступен на сайте Репозиторий GitHub. Для получения дополнительной информации см. Руководство пользователя Amazon Bedrock.


Об авторах

Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Рохит Миттал — главный менеджер по продукту в Amazon AI, создающий мультимодальные фундаментальные модели. Недавно он возглавил запуск модели Amazon Titan Image Generator в рамках сервиса Amazon Bedrock. Имея опыт работы в области AI/ML, NLP и поиска, он заинтересован в создании продуктов, которые решают болевые точки клиентов с помощью инновационных технологий.

Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Доктор Ашвин Сваминатан — исследователь, инженер и менеджер в области компьютерного зрения и машинного обучения с более чем 12-летним опытом работы в отрасли и более чем 5-летним опытом научных исследований. Сильные основы и доказанная способность быстро получать знания и вносить вклад в новые и развивающиеся области.

Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Доктор Юшэн Се — главный научный сотрудник Amazon AGI. Его работа направлена ​​на создание мультимодальных моделей фундамента. До прихода в AGI он руководил различными разработками мультимодального искусственного интеллекта в AWS, такими как Amazon Titan Image Generator и Amazon Textract Queries.

Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Доктор Хао Ян — главный научный сотрудник Amazon. Его основные исследовательские интересы — обнаружение и обучение объектов с ограниченными аннотациями. Помимо работы Хао любит смотреть фильмы, фотографировать и заниматься активным отдыхом.

Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Доктор Давиде Модоло — менеджер по прикладным наукам в Amazon AGI, работающий над созданием крупных мультимодальных базовых моделей. До прихода в Amazon AGI он в течение 7 лет был менеджером/руководителем лабораторий AWS AI Labs (Amazon Bedrock и Amazon Rekognition). Вне работы он любит путешествовать и заниматься любым видом спорта, особенно футболом.

Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Доктор Байчуань Сунь, в настоящее время работает старшим архитектором решений AI/ML в AWS, специализируясь на генеративном искусственном интеллекте, и применяет свои знания в области науки о данных и машинного обучения для предоставления практических облачных бизнес-решений. Имея опыт в управленческом консалтинге и архитектуре решений искусственного интеллекта, он решает ряд сложных задач, включая, среди прочего, робототехническое компьютерное зрение, прогнозирование временных рядов и профилактическое обслуживание. Его работа основана на солидном опыте управления проектами, исследованиях и разработках программного обеспечения и академической деятельности. Вне работы доктор Сан любит путешествовать и проводить время с семьей и друзьями.

Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Доктор Кай Чжу в настоящее время работает инженером облачной поддержки в AWS, помогая клиентам решать проблемы в сервисах, связанных с искусственным интеллектом и машинным обучением, таких как SageMaker, Bedrock и т. д. Он является экспертом по предметным вопросам SageMaker. Имея опыт работы в области науки о данных и инженерии данных, он интересуется созданием проектов на базе генеративного искусственного интеллекта.

Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Крис Шульц более 25 лет потратил на то, чтобы воплотить в жизнь привлекательный пользовательский опыт, сочетая новейшие технологии с дизайном мирового класса. В роли старшего менеджера по продукту Крис помогает проектировать и создавать сервисы AWS для поддержки медиа и развлечений, игр и пространственных вычислений.


Приложение

В следующих разделах мы демонстрируем сложные примеры использования, такие как вставка текста, руки и отражения, чтобы подчеркнуть возможности модели Titan Image Generator. Мы также включаем примеры выходных изображений, созданных в предыдущих примерах.

Текст

Модель Titan Image Generator отлично справляется со сложными рабочими процессами, такими как вставка читаемого текста в изображения. Этот пример демонстрирует способность Titan четко отображать прописные и строчные буквы в едином стиле внутри изображения.

корги в бейсболке с надписью «генай» счастливый мальчик, показывающий большой палец вверх, в футболке с надписью «генеративный ИИ»
Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Руки

Модель Titan Image Generator также способна генерировать подробные изображения с помощью искусственного интеллекта. На изображении показаны реалистичные руки и пальцы с видимыми деталями, что выходит за рамки более простой генерации изображений с помощью искусственного интеллекта, которой может не хватать такой специфичности. В следующих примерах обратите внимание на точное изображение позы и анатомии.

рука человека, вид сверху Пристальный взгляд на руки человека, держащего кофейную кружку
Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Зеркало

Изображения, созданные моделью Titan Image Generator, пространственно упорядочивают объекты и точно отражают зеркальные эффекты, как показано в следующих примерах.

Милый пушистый белый кот стоит на задних лапах и с любопытством вглядывается в богато украшенное золотое зеркало. В отражении кот видит себя красивое небесное озеро с отражениями на воде
Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Используйте модели Amazon Titan для создания, редактирования и поиска изображений | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Синтетические изображения продуктов

Ниже приведены изображения продуктов, созданные ранее в этом посте для модели Titan Multimodal Embeddings.

Отметка времени:

Больше от Машинное обучение AWS

Создавайте, делитесь, развертывайте: как бизнес-аналитики и специалисты по обработке и анализу данных сокращают время выхода на рынок с помощью машинного обучения без кода и Amazon SageMaker Canvas

Исходный узел: 1210859
Отметка времени: 10 Марта, 2022