Görüntü Oluşturma, Düzenleme ve Arama İçin Amazon Titan Modellerini Kullanın

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Amazon Ana Kayası Amazon ve diğer önde gelen yapay zeka şirketlerinden geniş bir yelpazede yüksek performanslı temel modelleri sağlar; Antropik, AI21, Meta, tutarlı, ve Stabilite AI, ve metin ve resim oluşturma, arama, sohbet, akıl yürütme ve harekete geçme aracıları ve daha fazlasını içeren çok çeşitli kullanım örneklerini kapsar. Yeni Amazon Titan Görüntü Oluşturucu modeli, içerik oluşturucuların basit İngilizce metin istemlerini kullanarak hızlı bir şekilde yüksek kaliteli, gerçekçi görseller oluşturmasına olanak tanır. Gelişmiş yapay zeka modeli, birden fazla nesne içeren karmaşık talimatları anlar ve aşağıdakilere uygun stüdyo kalitesinde görüntüler döndürür: reklâm, e-ticaret ve eğlence. Temel özellikler arasında istemleri yineleyerek görüntüleri iyileştirme yeteneği, otomatik arka plan düzenleme ve aynı sahnenin birden fazla varyasyonunu oluşturma yeteneği yer alıyor. İçerik oluşturucular ayrıca markaya özel görsellerin belirli bir tarzda çıktısını almak için modeli kendi verileriyle özelleştirebilir. Daha da önemlisi, Titan Image Generator'ın AI tarafından oluşturulan tüm görüntülerde görünmez filigranlar gibi yerleşik güvenlik önlemleri vardır. sorumlu kullanım ve dezenformasyonun yayılmasını azaltın. Bu yenilikçi teknoloji, büyük hacimli özel görseller üretilmesini sağlar. herhangi bir endüstri daha erişilebilir ve verimli.

Yeni Amazon Titan Multimodal Gömmeler model, metni, görselleri veya her ikisini birden anlayarak daha doğru arama ve öneriler oluşturmaya yardımcı olur. Görüntüleri ve İngilizce metni anlamsal vektörlere dönüştürerek verilerinizdeki anlamı ve ilişkileri yakalar. Öğeleri daha etkili bir şekilde tanımlamak için ürün açıklamaları ve fotoğraflar gibi metin ve görselleri birleştirebilirsiniz. Vektörler hızlı ve doğru arama deneyimlerini destekler. Titan Multimodal Embeddings, vektör boyutlarında esnektir ve performans ihtiyaçları için optimizasyon sağlar. Eşzamansız bir API ve Amazon Açık Arama Hizmeti bağlayıcı, modeli sinirsel arama uygulamalarınıza entegre etmeyi kolaylaştırır.

Bu yazıda, AWS Python SDK aracılığıyla Titan Image Generator ve Titan Multimodal Embeddings modellerinin nasıl kullanılacağını açıklıyoruz.

Görüntü oluşturma ve düzenleme

Bu bölümde, yeni görüntüler oluşturmak ve mevcut görüntüler üzerinde yapay zeka destekli düzenlemeler gerçekleştirmek için AWS SDK'yı kullanmaya yönelik temel kodlama modellerini gösteriyoruz. Kod örnekleri Python'da verilmiştir ve burada JavaScript (Node.js) de mevcuttur. GitHub deposu.

Amazon Bedrock API'sini kullanan komut dosyaları yazabilmeniz için önce ortamınıza AWS SDK'nın uygun sürümünü yüklemeniz gerekir. Python komut dosyaları için şunları kullanabilirsiniz: Python için AWS SDK (Boto3). Python kullanıcıları ayrıca yüklemek isteyebilir Yastık modülügörüntüleri yükleme ve kaydetme gibi görüntü işlemlerini kolaylaştırır. Kurulum talimatları için bkz. GitHub deposu.

Ayrıca Amazon Titan Image Generator ve Titan Multimodal Embeddings modellerine erişimi etkinleştirin. Daha fazla bilgi için bkz. Model erişimi.

Yardımcı işlevler

Aşağıdaki işlev, Amazon Bedrock Boto3 çalışma zamanı istemcisini kurar ve farklı yapılandırmalardaki yükleri alarak görüntüler oluşturur (bunu bu yazının ilerleyen kısımlarında tartışacağız):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

Metinden görseller oluşturun

Bir metin isteminden yeni bir görüntü oluşturan komut dosyaları şu uygulama modelini izler:

Bir metin istemi ve isteğe bağlı negatif metin istemi yapılandırın.
Kullan BedrockRuntime istemcinin Titan Image Generator modelini çağırmasını sağlayın.
Yanıtı ayrıştırın ve kodunu çözün.
Ortaya çıkan görüntüleri diske kaydedin.

Metinden resme

Titan Image Generator modeli için tipik bir görüntü oluşturma komut dosyası aşağıdadır:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Bu, aşağıdakine benzer görüntüler üretecektir.

Yanıt Resmi 1	Yanıt Resmi 2

Resim çeşitleri

Görüntü varyasyonu, mevcut bir görüntünün incelikli değişkenlerini oluşturmanın bir yolunu sağlar. Aşağıdaki kod parçacığı, değişken görseller oluşturmak için önceki örnekte oluşturulan görsellerden birini kullanır:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Bu, aşağıdakine benzer görüntüler üretecektir.

Orijinal fotoğraf	Yanıt Resmi 1	Yanıt Resmi 2

Mevcut bir resmi düzenleyin

Titan Image Generator modeli, mevcut bir görüntüdeki öğeleri veya alanları eklemenizi, kaldırmanızı veya değiştirmenizi sağlar. Aşağıdakilerden birini sağlayarak hangi alanın etkileneceğini belirtirsiniz:

Maske resmi – Maske görüntüsü, 0 değerli piksellerin etkilemek istediğiniz alanı, 255 değerli piksellerin ise değişmeden kalması gereken alanı temsil ettiği ikili bir görüntüdür.
Maske istemi – Maske istemi, etkilemek istediğiniz öğelerin şirket içi metinden segmentasyon modelini kullanan doğal dildeki metin açıklamasıdır.

Daha fazla bilgi için, bkz. Hızlı Mühendislik Yönergeleri.

Bir görüntüye düzenleme uygulayan komut dosyaları şu uygulama modelini izler:

Düzenlenecek görüntüyü diskten yükleyin.
Görüntüyü base64 kodlu bir dizeye dönüştürün.
Maskeyi aşağıdaki yöntemlerden biriyle yapılandırın:
1. Diskten bir maske görüntüsü yükleyin, bunu base64 olarak kodlayın ve maskImage parametre.
2. Yı kur maskText Etkilenecek öğelerin metin açıklamasına parametre.
Aşağıdaki seçeneklerden birini kullanarak oluşturulacak yeni içeriği belirtin:
1. Bir öğeyi eklemek veya değiştirmek için text parametresini yeni içeriğin açıklamasına ekleyin.
2. Bir öğeyi kaldırmak için şunu atlayın: text parametreyi tamamen
Kullan BedrockRuntime istemcinin Titan Image Generator modelini çağırmasını sağlayın.
Yanıtı ayrıştırın ve kodunu çözün.
Ortaya çıkan görüntüleri diske kaydedin.

Nesne düzenleme: Maske görüntüsüyle iç boyama

Aşağıdaki, Titan Image Generator modeli için tipik bir görüntü düzenleme komut dosyasıdır. maskImage. Daha önce oluşturulan görüntülerden birini alıyoruz ve 0 değerli piksellerin siyah, 255 değerli piksellerin ise beyaz olarak işlendiği bir maske görüntüsü sağlıyoruz. Ayrıca görseldeki köpeklerden birini bir metin istemi kullanarak bir kediyle değiştiriyoruz.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Bu, aşağıdakine benzer görüntüler üretecektir.

Orijinal fotoğraf	Maske Resmi	Düzenlenen Görüntü

Nesne kaldırma: Maske istemiyle iç boyama

Başka bir örnekte, kullanıyoruz maskPrompt Düzenlemek üzere önceki adımlardan alınan görüntüdeki bir nesneyi belirtmek için. Metin isteminin atlanması durumunda nesne kaldırılacaktır:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Bu, aşağıdakine benzer görüntüler üretecektir.

Orijinal fotoğraf	Yanıt Resmi

Arka planda düzenleme: Dış boyama

Dış boyama, bir görüntünün arka planını değiştirmek istediğinizde kullanışlıdır. Uzaklaştırma efekti için görüntünün sınırlarını da genişletebilirsiniz. Aşağıdaki örnek komut dosyasında şunu kullanıyoruz: maskPrompt hangi nesnenin tutulacağını belirtmek için; Ayrıca kullanabilirsin maskImage. Parametre outPaintingMode maskenin içindeki piksellerin değiştirilmesine izin verilip verilmeyeceğini belirtir. Olarak ayarlanmışsa DEFAULTyeniden oluşturulan görüntünün genel olarak tutarlı olması için maskenin içindeki piksellerin değiştirilmesine izin verilir. Bu seçenek aşağıdaki durumlarda önerilir: maskImage sağlanan nesneyi piksel düzeyinde hassasiyetle temsil etmiyor. Olarak ayarlanmışsa PRECISEmaskenin içindeki piksellerin değiştirilmesi engellenir. kullanılıyorsa bu seçenek önerilir. maskPrompt ya da maskImage nesneyi piksel düzeyinde hassasiyetle temsil eder.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Bu, aşağıdakine benzer görüntüler üretecektir.

Orijinal fotoğraf	Metin	Yanıt Resmi
	"sahil"
	"orman"

Ayrıca farklı değerlerin etkileri outPaintingMode, Bir ile maskImage nesnenin çerçevesini piksel düzeyinde hassasiyetle çizmeyen durumlar aşağıdaki gibidir.

Bu bölümde Titan Image Generator modeliyle gerçekleştirebileceğiniz işlemlere genel bir bakış sunulmuştur. Özellikle, bu komut dosyaları metinden resme, görüntü varyasyonunu, iç boyama ve dış boyama görevlerini gösterir. Bu görev türlerine ilişkin parametre ayrıntılarına başvurarak kalıpları kendi uygulamalarınız için uyarlayabilmelisiniz. Amazon Titan Image Generator belgeleri.

Çok modlu yerleştirme ve arama

Amazon Titan Multimodal Embeddings modelini görsel arama ve benzerliğe dayalı öneri gibi kurumsal görevler için kullanabilirsiniz ve bu model, arama sonuçlarında önyargının azaltılmasına yardımcı olan yerleşik bir hafifletme özelliğine sahiptir. Farklı ihtiyaçlar için en iyi gecikme/doğruluk dengesi için birden fazla yerleştirme boyutu boyutu vardır ve bunların tümü, veri güvenliği ve gizliliğini korurken kendi verilerinize uyum sağlamak için basit bir API ile özelleştirilebilir. Amazon Titan Multimodal Embeddings, gerçek zamanlı veya eşzamansız toplu dönüşüm arama ve öneri uygulamaları için basit API'ler olarak sağlanır ve aşağıdakiler dahil farklı vektör veritabanlarına bağlanabilir: Amazon Açık Arama Hizmeti.

Yardımcı işlevler

Aşağıdaki işlev, bir görüntüyü ve isteğe bağlı olarak metni çok modlu yerleştirmelere dönüştürür:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

Aşağıdaki işlev, bir sorgu çok modlu yerleştirmeler verildiğinde en üstteki benzer çok modlu yerleştirmeleri döndürür. Uygulamada OpenSearch Hizmeti gibi yönetilen bir vektör veritabanını kullanabileceğinizi unutmayın. Aşağıdaki örnek açıklama amaçlıdır:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Sentetik veri kümesi

Örnekleme amacıyla şunu kullanıyoruz: Anthropic'in Amazon Bedrock'taki Claude 2.1 modeli Aşağıdaki istemi kullanarak her biri üç değişkene sahip yedi farklı ürünü rastgele oluşturmak için:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Döndürülen çıktıların listesi aşağıdadır:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Yukarıdaki yanıtı değişkene atayın response_cat. Daha sonra her öğe için ürün görselleri oluşturmak amacıyla Titan Image Generator modelini kullanırız:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Oluşturulan tüm görselleri bu yazının sonundaki ekte bulabilirsiniz.

Çok modlu veri kümesi indeksleme

Çok modlu veri kümesi dizini oluşturmak için aşağıdaki kodu kullanın:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Çok modlu arama

Çok modlu arama için aşağıdaki kodu kullanın:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Aşağıda bazı arama sonuçları verilmiştir.

Sonuç

Gönderide Amazon Titan Image Generator ve Amazon Titan Multimodal Embeddings modelleri tanıtılıyor. Titan Image Generator, metin istemlerinden özel, yüksek kaliteli görüntüler oluşturmanıza olanak tanır. Temel özellikler arasında istemlerde yineleme, otomatik arka plan düzenleme ve veri özelleştirme yer alır. Sorumlu kullanımı teşvik etmek için görünmez filigranlar gibi önlemlere sahiptir. Titan Multimodal Embeddings, doğru arama ve önerileri desteklemek için metni, görüntüleri veya her ikisini de anlamsal vektörlere dönüştürür. Daha sonra bu hizmetleri kullanmak için Python kod örnekleri sağladık ve metin istemlerinden görseller oluşturmayı ve bu görseller üzerinde yineleme yapmayı gösterdik; maske görüntüleri veya maske metni tarafından belirtilen öğeleri ekleyerek, kaldırarak veya değiştirerek mevcut görüntüleri düzenlemek; metinden, görsellerden veya her ikisinden birden çok modlu yerleştirmeler oluşturma; ve bir sorguya benzer çok modlu yerleştirmelerin aranması. Ayrıca Titan Multimodal Embeddings kullanılarak indekslenen ve aranan sentetik bir e-ticaret veri kümesinin kullanımını da gösterdik. Bu yazının amacı geliştiricilerin bu yeni AI hizmetlerini uygulamalarında kullanmaya başlamalarını sağlamaktır. Kod kalıpları, özel uygulamalar için şablon görevi görebilir.

Kodun tamamı mevcut GitHub deposu. Daha fazla bilgi için bkz. Amazon Bedrock Kullanıcı Kılavuzu.

Yazarlar Hakkında

Rohit Mittal Amazon AI'da çok modlu temel modeller oluşturan Baş Ürün Yöneticisidir. Yakın zamanda Amazon Bedrock hizmetinin bir parçası olarak Amazon Titan Image Generator modelinin lansmanına öncülük etti. Yapay Zeka/Makine Öğrenimi, NLP ve Arama konusunda deneyimli olan kendisi, yenilikçi teknolojiyle müşterilerin sıkıntılı noktalarını çözen ürünler geliştirmekle ilgileniyor.

Dr.Ashwin Swaminathan 12 yıldan fazla endüstri deneyimine ve 5 yıldan fazla akademik araştırma deneyimine sahip bir Bilgisayarla Görme ve Makine Öğrenimi araştırmacısı, mühendisi ve yöneticisidir. Hızlı bir şekilde bilgi edinme ve yeni ve gelişmekte olan alanlara katkıda bulunma konusunda güçlü temeller ve kanıtlanmış yetenek.

Dr.Yusheng Xie Amazon AGI'da Baş Uygulamalı Bilim Adamıdır. Çalışmaları çok modlu temel modelleri oluşturmaya odaklanıyor. AGI'ye katılmadan önce AWS'de Amazon Titan Image Generator ve Amazon Textract Queries gibi çeşitli çok modlu yapay zeka geliştirmelerine liderlik ediyordu.

Dr.Hao Yang Amazon'da Baş Uygulamalı Bilim Adamıdır. Başlıca araştırma alanları nesne tespiti ve sınırlı açıklamalarla öğrenmedir. Hao, iş dışında film izlemeyi, fotoğraf çekmeyi ve açık hava etkinliklerini seviyor.

Dr.Davide Modolo Amazon AGI'da Uygulamalı Bilim Müdürü olarak büyük, çok modlu temel modeller oluşturmaya çalışmaktadır. Amazon AGI'ya katılmadan önce AWS AI Laboratuvarlarında (Amazon Bedrock ve Amazon Rekognition) 7 yıl boyunca yönetici/lider olarak görev yaptı. İş dışında seyahat etmekten ve her türlü sporu, özellikle de futbol oynamayı seviyor.

Dr.Baichuan Sun, şu anda AWS'de Kıdemli Yapay Zeka/Makine Öğrenimi Çözüm Mimarı olarak görev yapıyor ve üretken yapay zekaya odaklanıyor ve pratik, bulut tabanlı iş çözümleri sağlamak için veri bilimi ve makine öğrenimi alanındaki bilgilerini kullanıyor. Yönetim danışmanlığı ve yapay zeka çözüm mimarisi alanındaki deneyimiyle, diğerlerinin yanı sıra robotik bilgisayarlı görme, zaman serisi tahmini ve tahmine dayalı bakım da dahil olmak üzere bir dizi karmaşık zorluğu ele alıyor. Çalışmaları proje yönetimi, yazılım AR-GE'si ve akademik uğraşlardan oluşan sağlam bir altyapıya dayanmaktadır. Dr. Sun, iş dışında seyahat etme ve ailesi ve arkadaşlarıyla vakit geçirme dengesinin tadını çıkarıyor.

Dr.Kai Zhu şu anda AWS'de Bulut Destek Mühendisi olarak çalışıyor ve müşterilere SageMaker, Bedrock vb. gibi AI/ML ile ilgili hizmetlerdeki sorunlarda yardımcı oluyor. Kendisi bir SageMaker Konu Uzmanıdır. Veri bilimi ve veri mühendisliği alanında deneyimli olan kendisi, üretken yapay zeka destekli projeler oluşturmakla ilgileniyor.

Kris Schultz Gelişen teknolojileri birinci sınıf tasarımla birleştirerek ilgi çekici kullanıcı deneyimlerini hayata geçirmek için 25 yıldan fazla zaman harcadı. Kıdemli Ürün Müdürü görevinde Kris, Medya ve Eğlence, Oyun ve Uzamsal Bilgi İşlemi güçlendirecek AWS hizmetlerinin tasarlanmasına ve oluşturulmasına yardımcı oluyor.

Ek

Aşağıdaki bölümlerde Titan Image Generator modelinin yeteneklerini vurgulamak için metin ekleme, eller ve yansımalar gibi zorlu örnek kullanım durumlarını gösteriyoruz. Daha önceki örneklerde üretilen örnek çıktı görüntülerini de dahil ediyoruz.

Metin

Titan Image Generator modeli, görüntülere okunabilir metin eklemek gibi karmaşık iş akışlarında mükemmeldir. Bu örnek, Titan'ın bir görüntü içinde büyük ve küçük harfleri tutarlı bir tarzda net bir şekilde oluşturma yeteneğini göstermektedir.

"genai" yazan beyzbol şapkası takan bir corgi	Üzerinde "üretken yapay zeka" yazan bir tişört giyen, baş parmağını kaldıran mutlu bir çocuk

Eller

Titan Image Generator modeli ayrıca ayrıntılı AI görüntüleri oluşturma yeteneğine de sahiptir. Görüntü, görünür ayrıntılara sahip gerçekçi elleri ve parmakları gösteriyor ve bu tür bir spesifiklikten yoksun olabilecek daha temel yapay zeka görüntü oluşturmanın ötesine geçiyor. Aşağıdaki örneklerde poz ve anatominin kesin tasvirine dikkat edin.

bir kişinin eli yukarıdan bakıldığında	kahve kupası tutan bir kişinin ellerine yakından bakış

Ayna

Titan Image Generator modeli tarafından oluşturulan görüntüler, aşağıdaki örneklerde gösterildiği gibi nesneleri uzamsal olarak düzenler ve ayna efektlerini doğru şekilde yansıtır.

Sevimli, kabarık beyaz bir kedi arka ayakları üzerinde duruyor ve merakla süslü bir altın aynaya bakıyor. Yansımada kedi kendini görüyor	su yansımaları ile güzel gökyüzü gölü

Sentetik ürün görselleri

Aşağıdakiler, Titan Multimodal Gömmeler modeli için bu yazının başlarında oluşturulan ürün görselleridir.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://aws.amazon.com/blogs/machine-learning/use-amazon-titan-models-for-image-generation-editing-and-searching/

Zaman Damgası: Şubat 19, 2024

Den fazla AWS Makine Öğrenimi

Amazon SageMaker'ı kullanarak özel toplulukları verimli bir şekilde eğitin, ayarlayın ve devreye alın | Amazon Web Hizmetleri

AWS Makine Öğrenimi

Kaynak Düğüm: 1618077

Zaman Damgası: Ağustos 11, 2022

AWS Code Commit'i kullanarak Amazon SageMaker Data Wrangler Flows'unuz için özel kod kitaplıkları oluşturun

Kaynak Küme:

AWS Makine Öğrenimi

Kaynak Düğüm: 1817443

Zaman Damgası: Mar 21, 2023

Plato tarafından yeniden yayınlandı

Amazon SageMaker'ı kullanarak özel toplulukları verimli bir şekilde eğitin, ayarlayın ve devreye alın | Amazon Web Hizmetleri

Amazon SageMaker'da TensorFlow nesne algılama modelleri için öğrenimi aktarın

Sağlam bir metin tabanlı toksisite tahmincisi oluşturun

Çok Bölgeli Amazon SageMaker uç noktalarının CI/CD'sini etkinleştirin

İnsan müdahalesiyle bir Amazon SageMaker Model Kaydı onayı ve tanıtım iş akışı oluşturun | Amazon Web Hizmetleri

LoRA ile Amazon SageMaker'da Whisper modellerine ince ayar yapın | Amazon Web Hizmetleri

Amazon Lookout for Metrics'i kullanarak bir hava kalitesi anormalliği dedektörü oluşturun

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap