이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | 아마존 웹 서비스

이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | 아마존 웹 서비스

아마존 기반암 Amazon 및 기타 주요 AI 기업의 광범위한 고성능 기반 모델을 제공합니다. 인류, AI21, 메타, 코어안정성 AI, 텍스트 및 이미지 생성, 검색, 채팅, 추론 및 에이전트 작동 등을 포함한 광범위한 사용 사례를 다룹니다. 새로운 Amazon Titan 이미지 생성기 모델을 사용하면 콘텐츠 제작자가 간단한 영어 텍스트 프롬프트를 사용하여 고품질의 사실적인 이미지를 빠르게 생성할 수 있습니다. 고급 AI 모델은 여러 개체에 대한 복잡한 지침을 이해하고 다음에 적합한 스튜디오 품질의 이미지를 반환합니다. 광고하는, 전자상거래 및 엔터테인먼트. 주요 기능으로는 프롬프트 반복을 통해 이미지를 다듬는 기능, 자동 배경 편집, 동일한 장면의 다양한 변형 생성 등이 있습니다. 제작자는 자신의 데이터로 모델을 맞춤 설정하여 특정 스타일의 브랜드 이미지를 출력할 수도 있습니다. 중요한 것은 Titan Image Generator에는 모든 AI 생성 이미지에 보이지 않는 워터마크와 같은 보호 장치가 내장되어 있다는 것입니다. 책임감 있는 사용 허위 정보의 확산을 완화합니다. 이 혁신적인 기술을 통해 맞춤형 이미지를 대량으로 제작할 수 있습니다. 모든 산업 더 접근하기 쉽고 효율적입니다.

새로운 Amazon Titan 다중 모드 임베딩 모델은 텍스트, 이미지 또는 둘 다를 이해하여 보다 정확한 검색 및 권장 사항을 구축하는 데 도움이 됩니다. 이미지와 영어 텍스트를 의미론적 벡터로 변환하여 데이터의 의미와 관계를 포착합니다. 상품 설명, 사진 등 텍스트와 이미지를 결합하여 상품을 더욱 효과적으로 식별할 수 있습니다. 벡터는 빠르고 정확한 검색 경험을 제공합니다. Titan 다중 모드 임베딩은 벡터 차원에서 유연하므로 성능 요구 사항에 맞게 최적화할 수 있습니다. 비동기 API 및 아마존 오픈서치 서비스 커넥터를 사용하면 모델을 신경 검색 애플리케이션에 쉽게 통합할 수 있습니다.

이 게시물에서는 AWS Python SDK를 통해 Titan 이미지 생성기 및 Titan 다중 모달 임베딩 모델을 사용하는 방법을 안내합니다.

이미지 생성 및 편집

이 섹션에서는 AWS SDK를 사용하여 새 이미지를 생성하고 기존 이미지에 대해 AI 기반 편집을 수행하기 위한 기본 코딩 패턴을 보여줍니다. 코드 예제는 Python으로 제공되며, JavaScript(Node.js)도 여기에서 사용할 수 있습니다. GitHub 저장소.

Amazon Bedrock API를 사용하는 스크립트를 작성하려면 먼저 환경에 적절한 버전의 AWS SDK를 설치해야 합니다. Python 스크립트의 경우 다음을 사용할 수 있습니다. Python 용 AWS SDK (Boto3). Python 사용자는 다음을 설치할 수도 있습니다. 베개 모듈, 이미지 로드 및 저장과 같은 이미지 작업을 용이하게 합니다. 설정 지침은 다음을 참조하세요. GitHub 저장소.

또한 Amazon Titan 이미지 생성기 및 Titan 다중 모드 임베딩 모델에 대한 액세스를 활성화합니다. 자세한 내용은 다음을 참조하세요. 모델 액세스.

도우미 기능

다음 함수는 Amazon Bedrock Boto3 런타임 클라이언트를 설정하고 다양한 구성의 페이로드를 가져와 이미지를 생성합니다(이 게시물의 뒷부분에서 설명).

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images 

텍스트에서 이미지 생성

텍스트 프롬프트에서 새 이미지를 생성하는 스크립트는 다음 구현 패턴을 따릅니다.

  1. 텍스트 프롬프트와 선택적 부정적인 텍스트 프롬프트를 구성합니다.
  2. 사용 BedrockRuntime 클라이언트가 Titan 이미지 생성기 모델을 호출합니다.
  3. 응답을 구문 분석하고 디코딩합니다.
  4. 결과 이미지를 디스크에 저장합니다.

텍스트를 이미지로

다음은 Titan 이미지 생성기 모델의 일반적인 이미지 생성 스크립트입니다.

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

그러면 다음과 유사한 이미지가 생성됩니다.

응답 이미지 1 응답 이미지 2
거리를 걷는 개 2마리 거리를 걷는 개 2마리

이미지 변형

이미지 변형은 기존 이미지의 미묘한 변형을 생성하는 방법을 제공합니다. 다음 코드 조각은 이전 예에서 생성된 이미지 중 하나를 사용하여 변형 이미지를 만듭니다.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

그러면 다음과 유사한 이미지가 생성됩니다.

원본 이미지 응답 이미지 1 응답 이미지 2
거리를 걷는 개 2마리 이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

기존 이미지 편집

Titan 이미지 생성기 모델을 사용하면 기존 이미지 내의 요소나 영역을 추가, 제거 또는 교체할 수 있습니다. 다음 중 하나를 제공하여 영향을 미칠 영역을 지정합니다.

  • 마스크 이미지 – 마스크 이미지는 0 값 픽셀이 영향을 미치려는 영역을 나타내고 255 값 픽셀은 변경되지 않은 상태로 유지되어야 하는 영역을 나타내는 이진 이미지입니다.
  • 마스크 프롬프트 – 마스크 프롬프트는 영향을 미치려는 요소에 대한 자연어 텍스트 설명으로, 내부 텍스트-세그먼트 모델을 사용합니다.

자세한 내용은 프롬프트 엔지니어링 지침.

이미지에 편집 내용을 적용하는 스크립트는 다음 구현 패턴을 따릅니다.

  1. 편집할 이미지를 디스크에서 로드합니다.
  2. 이미지를 base64로 인코딩된 문자열로 변환합니다.
  3. 다음 방법 중 하나를 통해 마스크를 구성합니다.
    1. 디스크에서 마스크 이미지를 로드하고 이를 base64로 인코딩하고 maskImage 매개 변수입니다.
    2. 설정 maskText 영향을 미칠 요소에 대한 텍스트 설명에 대한 매개변수입니다.
  4. 다음 옵션 중 하나를 사용하여 생성할 새 콘텐츠를 지정합니다.
    1. 요소를 추가하거나 교체하려면 text 새 콘텐츠에 대한 설명에 매개변수를 추가합니다.
    2. 요소를 제거하려면 text 완전히 매개변수입니다.
  5. 사용 BedrockRuntime 클라이언트가 Titan 이미지 생성기 모델을 호출합니다.
  6. 응답을 구문 분석하고 디코딩합니다.
  7. 결과 이미지를 디스크에 저장합니다.

개체 편집: 마스크 이미지로 인페인팅

다음은 Titan Image Generator 모델의 일반적인 이미지 편집 스크립트입니다. maskImage. 이전에 생성된 이미지 중 하나를 가져와 마스크 이미지를 제공합니다. 여기서 값이 0인 픽셀은 검은색으로 렌더링되고 값이 255인 픽셀은 흰색으로 렌더링됩니다. 또한 텍스트 프롬프트를 사용하여 이미지의 개 중 하나를 고양이로 대체합니다.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

그러면 다음과 유사한 이미지가 생성됩니다.

원본 이미지 마스크 이미지 편집 된 이미지
거리를 걷는 개 2마리 이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 길을 걷는 고양이와 개

개체 제거: 마스크 프롬프트로 인페인팅

또 다른 예에서는 다음을 사용합니다. maskPrompt 편집할 이전 단계에서 가져온 이미지의 개체를 지정합니다. 텍스트 프롬프트를 생략하면 객체가 제거됩니다.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

그러면 다음과 유사한 이미지가 생성됩니다.

원본 이미지 응답 이미지
거리를 걷는 개 2마리 길을 걷고 있는 개 한 마리

배경 편집: 아웃페인팅

아웃페인팅은 이미지의 배경을 바꾸고 싶을 때 유용합니다. 축소 효과를 위해 이미지의 경계를 확장할 수도 있습니다. 다음 예제 스크립트에서는 다음을 사용합니다. maskPrompt 유지할 객체를 지정합니다. 당신은 또한 사용할 수 있습니다 maskImage. 매개 변수 outPaintingMode 마스크 내부의 픽셀 수정을 허용할지 여부를 지정합니다. 으로 설정하면 DEFAULT, 재구성된 이미지가 전체적으로 일관되도록 마스크 내부의 픽셀을 수정할 수 있습니다. 이 옵션은 다음과 같은 경우에 권장됩니다. maskImage 제공된 픽셀 수준의 정밀도로 개체를 나타내지 않습니다. 으로 설정하면 PRECISE, 마스크 내부의 픽셀 수정이 방지됩니다. 이 옵션은 maskPrompt 또는 maskImage 이는 픽셀 수준의 정밀도로 객체를 나타냅니다.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

그러면 다음과 유사한 이미지가 생성됩니다.

원본 이미지 본문 응답 이미지
거리를 걷는 개 2마리 "바닷가" 개 한 마리가 해변을 걷고 있다
거리를 걷는 개 2마리 "숲" 이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

또한, 다양한 값의 효과는 다음과 같습니다. outPaintingMode,와 maskImage 픽셀 수준의 정밀도로 개체의 윤곽을 지정하지 않는 경우는 다음과 같습니다.

이 섹션에서는 Titan 이미지 생성기 모델로 수행할 수 있는 작업에 대한 개요를 제공했습니다. 특히 이러한 스크립트는 텍스트를 이미지로 변환, 이미지 변형, 인페인팅 및 아웃페인팅 작업을 보여줍니다. 에 자세히 설명된 해당 작업 유형에 대한 매개변수 세부정보를 참조하여 자신의 애플리케이션에 맞게 패턴을 조정할 수 있어야 합니다. Amazon Titan 이미지 생성기 설명서.

다중 모드 임베딩 및 검색

이미지 검색 및 유사성 기반 추천과 같은 엔터프라이즈 작업에 Amazon Titan 다중 모달 임베딩 모델을 사용할 수 있으며, 검색 결과의 편향을 줄이는 데 도움이 되는 완화 기능이 내장되어 있습니다. 다양한 요구 사항에 대한 최상의 대기 시간/정확도 절충을 위한 다양한 임베딩 차원 크기가 있으며, 모두 간단한 API로 사용자 정의하여 데이터 보안 및 개인 정보 보호를 유지하면서 자신의 데이터에 맞게 조정할 수 있습니다. Amazon Titan 다중 모드 임베딩은 실시간 또는 비동기식 배치 변환 검색 및 추천 애플리케이션을 위한 간단한 API로 제공되며 다음을 포함한 다양한 벡터 데이터베이스에 연결할 수 있습니다. 아마존 오픈서치 서비스.

도우미 기능

다음 함수는 이미지 및 선택적으로 텍스트를 다중 모드 임베딩으로 변환합니다.

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

다음 함수는 다중 모달 임베딩 쿼리에 대해 가장 유사한 다중 모달 임베딩을 반환합니다. 실제로는 OpenSearch Service와 같은 관리형 벡터 데이터베이스를 사용할 수 있습니다. 다음 예는 설명을 위한 것입니다.

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

합성 데이터 세트

설명을 위해 다음을 사용합니다. Amazon Bedrock의 Anthropic Claude 2.1 모델 다음 프롬프트를 사용하여 각각 세 가지 변형이 포함된 일곱 가지 제품을 무작위로 생성합니다.

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

다음은 반환된 출력 목록입니다.

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

위의 응답을 변수에 할당 response_cat. 그런 다음 Titan Image Generator 모델을 사용하여 각 항목에 대한 제품 이미지를 생성합니다.

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

생성된 모든 이미지는 이 게시물 끝에 있는 부록에서 확인할 수 있습니다.

다중 모드 데이터세트 인덱싱

다중 모드 데이터세트 인덱싱에는 다음 코드를 사용하세요.

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

다중 모드 검색

다중 모드 검색에는 다음 코드를 사용하십시오.

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

다음은 일부 검색결과입니다.

결론

이 게시물에서는 Amazon Titan 이미지 생성기 및 Amazon Titan 다중 모드 임베딩 모델을 소개합니다. Titan 이미지 생성기를 사용하면 텍스트 프롬프트에서 사용자 정의 고품질 이미지를 만들 수 있습니다. 주요 기능에는 프롬프트 반복, 자동 배경 편집, 데이터 사용자 정의가 포함됩니다. 책임감 있는 사용을 장려하기 위해 보이지 않는 워터마크와 같은 보호 장치가 있습니다. Titan Multimodal Embeddings는 텍스트, 이미지 또는 둘 다를 의미 벡터로 변환하여 정확한 검색 및 권장 사항을 제공합니다. 그런 다음 이러한 서비스를 사용하기 위한 Python 코드 샘플을 제공하고 텍스트 프롬프트에서 이미지를 생성하고 해당 이미지를 반복하는 방법을 시연했습니다. 마스크 이미지 또는 마스크 텍스트로 지정된 요소를 추가, 제거 또는 교체하여 기존 이미지를 편집합니다. 텍스트, 이미지 또는 둘 다에서 다중 모드 임베딩 생성 쿼리에 유사한 다중 모드 임베딩을 검색합니다. 또한 Titan Multimodal Embeddings를 사용하여 색인화 및 검색된 합성 전자 상거래 데이터 세트를 사용하여 시연했습니다. 이 게시물의 목적은 개발자가 애플리케이션에서 이러한 새로운 AI 서비스를 사용할 수 있도록 하는 것입니다. 코드 패턴은 사용자 정의 구현을 위한 템플릿 역할을 할 수 있습니다.

모든 코드는 다음에서 사용할 수 있습니다. GitHub 저장소. 자세한 내용은 Amazon Bedrock 사용 설명서.


저자에 관하여

이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.로히트 미탈 그는 다중 모드 기반 모델을 구축하는 Amazon AI의 수석 제품 관리자입니다. 그는 최근 Amazon Bedrock 서비스의 일부로 Amazon Titan 이미지 생성기 모델 출시를 주도했습니다. AI/ML, NLP, 검색 분야의 경험이 있는 그는 혁신적인 기술로 고객의 문제점을 해결하는 제품을 만드는 데 관심이 있습니다.

이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.Ashwin Swaminathan 박사 12년 이상의 업계 경험과 5년 이상의 학술 연구 경험을 갖춘 컴퓨터 비전 및 머신 러닝 연구원, 엔지니어 및 관리자입니다. 빠르게 지식을 습득하고 새로운 신흥 영역에 기여할 수 있는 강력한 기본 및 입증된 능력.

이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.시에 유셩 박사 Amazon AGI의 수석 응용 과학자입니다. 그의 작업은 다중 모드 기반 모델 구축에 중점을 두고 있습니다. AGI에 합류하기 전에는 Amazon Titan Image Generator, Amazon Textract Queries 등 AWS에서 다양한 다중 모드 AI 개발을 주도했습니다.

이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.양하오 박사 Amazon의 수석 응용 과학자입니다. 그의 주요 연구 관심 분야는 제한된 주석을 사용한 객체 감지 및 학습입니다. 업무 외에 Hao는 영화 감상, 사진 촬영, 야외 활동을 즐깁니다.

이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.다비데 모돌로 박사 Amazon AGI의 응용 과학 관리자로 대규모 다중 모드 기반 모델 구축을 담당하고 있습니다. Amazon AGI에 합류하기 전에는 AWS AI Labs(Amazon Bedrock 및 Amazon Rekognition)에서 7년 동안 관리자/리더로 근무했습니다. 업무 외에 그는 여행을 즐기고 모든 종류의 스포츠, 특히 축구를 즐깁니다.

이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.바이촨 선 박사, 현재 AWS에서 선임 AI/ML 솔루션 아키텍트로 근무하고 있으며 생성 AI에 중점을 두고 있으며 데이터 과학 및 기계 학습에 대한 지식을 적용하여 실용적인 클라우드 기반 비즈니스 솔루션을 제공하고 있습니다. 경영 컨설팅 및 AI 솔루션 아키텍처 경험을 바탕으로 그는 로봇 공학 컴퓨터 비전, 시계열 예측, 예측 유지 관리 등 다양한 복잡한 문제를 해결합니다. 그의 작업은 프로젝트 관리, 소프트웨어 R&D, 학문적 추구라는 확고한 배경을 바탕으로 이루어졌습니다. 업무 외적으로 Sun 박사는 여행과 가족, 친구들과 함께 시간을 보내는 균형을 즐깁니다.

이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.카이 주 박사 현재 AWS에서 클라우드 지원 엔지니어로 일하고 있으며 SageMaker, Bedrock 등과 같은 AI/ML 관련 서비스에서 문제가 있는 고객을 지원하고 있습니다. 그는 SageMaker 주제 전문가입니다. 데이터 과학 및 데이터 엔지니어링 경험이 있는 그는 생성 AI 기반 프로젝트를 구축하는 데 관심이 있습니다.

이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.크리스 슐츠 25년 이상 동안 새로운 기술과 세계적 수준의 디자인을 결합하여 매력적인 사용자 경험을 실현했습니다. Kris는 수석 제품 관리자로서 미디어 및 엔터테인먼트, 게임 및 공간 컴퓨팅을 지원하는 AWS 서비스를 설계하고 구축하는 데 도움을 줍니다.


충수

다음 섹션에서는 Titan 이미지 생성기 모델의 기능을 강조하기 위해 텍스트 삽입, 손, 반사와 같은 까다로운 샘플 사용 사례를 보여줍니다. 또한 이전 예제에서 생성된 샘플 출력 이미지도 포함됩니다.

본문

Titan 이미지 생성기 모델은 읽을 수 있는 텍스트를 이미지에 삽입하는 것과 같은 복잡한 작업 흐름에 탁월합니다. 이 예는 이미지 내에서 대문자와 소문자를 일관된 스타일로 명확하게 렌더링하는 Titan의 기능을 보여줍니다.

'genai'라는 문구가 적힌 야구 모자를 쓴 코기 '생성 AI'라는 텍스트가 적힌 티셔츠를 입고 엄지손가락을 치켜드는 행복한 소년
이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

Titan 이미지 생성기 모델에는 상세한 AI 이미지를 생성하는 기능도 있습니다. 이미지는 이러한 특이성이 부족할 수 있는 보다 기본적인 AI 이미지 생성을 뛰어넘어 눈에 보이는 세부 사항을 포함하는 사실적인 손과 손가락을 보여줍니다. 다음 예에서는 자세와 해부학적 구조가 정확하게 묘사되어 있음을 확인하세요.

위에서 본 사람의 손 커피 머그잔을 들고 있는 사람의 손을 자세히 살펴보세요
이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

거울

Titan Image Generator 모델에서 생성된 이미지는 다음 예에서 볼 수 있듯이 객체를 공간적으로 배열하고 거울 효과를 정확하게 반영합니다.

귀엽고 복슬복슬한 흰색 고양이가 뒷다리로 서서 화려한 황금 거울을 호기심 어린 눈으로 들여다보고 있습니다. 거울에 비친 고양이는 자기 자신을 본다 물에 반사된 아름다운 하늘 호수
이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 이미지 생성, 편집 및 검색에 Amazon Titan 모델 사용 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

합성 제품 이미지

다음은 이 게시물의 앞부분에서 Titan 다중 모달 임베딩 모델에 대해 생성된 제품 이미지입니다.

타임 스탬프 :

더보기 AWS 기계 학습