השתמש בדגמי אמזון טיטאן ליצירת תמונות, עריכה וחיפוש

הועלה מחדש על ידי אפלטון

עוקב: 0

סלע אמזון מספק מגוון רחב של דגמי יסוד בעלי ביצועים גבוהים מאמזון וחברות AI מובילות אחרות, כולל אנתרופי, AI21, meta, קוהרה, ו יציבות AI, ומכסה מגוון רחב של מקרי שימוש, לרבות יצירת טקסט ותמונה, חיפוש, צ'אט, חשיבה וסוכני משחק ועוד. החדש אמזון טיטאן מחולל תמונות המודל מאפשר ליוצרי תוכן ליצור במהירות תמונות באיכות גבוהה ומציאותיות באמצעות הנחיות טקסט פשוטות באנגלית. מודל הבינה המלאכותית המתקדם מבין הוראות מורכבות עם מספר אובייקטים ומחזיר תמונות באיכות סטודיו המתאימות להן פרסום, מסחר אלקטרוני ו בידור. תכונות מפתח כוללות את היכולת לחדד תמונות על ידי איטרציה על הנחיות, עריכת רקע אוטומטית ויצירת וריאציות מרובות של אותה סצנה. יוצרים יכולים גם להתאים אישית את המודל עם הנתונים שלהם כדי להוציא תמונות על המותג בסגנון ספציפי. חשוב לציין, ל-Titan Image Generator יש אמצעי הגנה מובנים, כמו סימני מים בלתי נראים על כל התמונות שנוצרו בינה מלאכותית, כדי לעודד שימוש אחראי ולמתן את התפשטות הדיסאינפורמציה. טכנולוגיה חדשנית זו הופכת את הפקת תמונות מותאמות אישית בנפח גדול עבור כל תעשייה יותר נגיש ויעיל.

DELETE THIS Embeddings Multimodal של Amazon Titan המודל עוזר לבנות חיפוש והמלצות מדויקים יותר על ידי הבנת טקסט, תמונות או שניהם. זה ממיר תמונות וטקסט באנגלית לוקטורים סמנטיים, לוכד משמעות ויחסים בנתונים שלך. אתה יכול לשלב טקסט ותמונות כמו תיאורי מוצרים ותמונות כדי לזהות פריטים בצורה יעילה יותר. הוקטורים מחזקים חוויות חיפוש מהירות ומדויקות. Titan Multimodal Embeddings גמיש בממדים וקטוריים, המאפשר אופטימיזציה לצרכי ביצועים. API אסינכרוני ו שירות חיפוש פתוח של אמזון המחבר מקל על שילוב המודל ביישומי החיפוש העצבי שלך.

בפוסט זה, אנו עוברים על אופן השימוש בדגמי Titan Image Generator ו- Titan Multimodal Embeddings דרך AWS Python SDK.

יצירת ועריכת תמונות

בסעיף זה, אנו מדגימים את דפוסי הקידוד הבסיסיים לשימוש ב-AWS SDK כדי ליצור תמונות חדשות ולבצע עריכות המופעלות על ידי AI בתמונות קיימות. דוגמאות קוד מסופקות ב- Python, ו-JavaScript (Node.js) זמין גם בזה מאגר GitHub.

לפני שתוכל לכתוב סקריפטים המשתמשים ב-Amazon Bedrock API, עליך להתקין את הגרסה המתאימה של AWS SDK בסביבה שלך. עבור סקריפטים של Python, אתה יכול להשתמש ב- AWS SDK עבור Python (Boto3). ייתכן שמשתמשי Python ירצו להתקין את מודול כרית, מה שמקל על פעולות תמונה כמו טעינה ושמירת תמונות. להוראות התקנה, עיין ב- מאגר GitHub.

בנוסף, אפשר גישה לדגמי Amazon Titan Image Generator ו-Titan Multimodal Embeddings. למידע נוסף, עיין ב גישה לדגם.

פונקציות עוזר

הפונקציה הבאה מגדירה את לקוח זמן הריצה של Amazon Bedrock Boto3 ומייצרת תמונות על ידי נטילת מטענים של תצורות שונות (עליהם נדון בהמשך הפוסט הזה):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

צור תמונות מטקסט

סקריפטים שיוצרים תמונה חדשה מהודעת טקסט עוקבים אחר דפוס היישום הזה:

הגדר הודעת טקסט ובקשת טקסט שלילית אופציונלית.
השתמש BedrockRuntime לקוח להפעיל את מודל ה-Titan Image Generator.
נתח ופענח את התגובה.
שמור את התמונות שהתקבלו בדיסק.

טקסט לתמונה

להלן תסריט יצירת תמונה טיפוסי עבור דגם ה-Titan Image Generator:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

זה יפיק תמונות דומות לתמונות הבאות.

תמונת תגובה 1	תמונת תגובה 2

גרסאות תמונה

וריאציה של תמונה מספקת דרך ליצור גרסאות עדינות של תמונה קיימת. קטע הקוד הבא משתמש באחת מהתמונות שנוצרו בדוגמה הקודמת כדי ליצור תמונות וריאנטיות:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

זה יפיק תמונות דומות לתמונות הבאות.

תמונה מקורית	תמונת תגובה 1	תמונת תגובה 2

ערוך תמונה קיימת

דגם ה-Titan Image Generator מאפשר לך להוסיף, להסיר או להחליף אלמנטים או אזורים בתוך תמונה קיימת. אתה מציין באיזה אזור להשפיע על ידי מתן אחת מהאפשרויות הבאות:

תמונת מסכה – תמונת מסכה היא תמונה בינארית שבה הפיקסלים בעלי ערך 0 מייצגים את האזור שעליו רוצים להשפיע והפיקסלים בעלי הערך 255 מייצגים את האזור שאמור להישאר ללא שינוי.
בקשת מסכה - הנחית מסכה היא תיאור טקסט בשפה טבעית של האלמנטים שאתה רוצה להשפיע, המשתמש במודל פנימי של טקסט לפילוח.

למידע נוסף עיין ב הנחיות הנדסיות מהירות.

סקריפטים שמחילים עריכה על תמונה פועלים לפי דפוס היישום הזה:

טען את התמונה לעריכה מהדיסק.
המר את התמונה למחרוזת מקודדת base64.
הגדר את המסכה באמצעות אחת מהשיטות הבאות:
1. טען תמונת מסכה מהדיסק, קידוד אותה כ-base64 והגדר אותה כ- maskImage פָּרָמֶטֶר.
2. הגדר את maskText פרמטר לתיאור טקסט של האלמנטים שעליהם להשפיע.
ציין את התוכן החדש שייווצר באמצעות אחת מהאפשרויות הבאות:
1. כדי להוסיף או להחליף אלמנט, הגדר את text פרמטר לתיאור של התוכן החדש.
2. כדי להסיר אלמנט, הסר את ה- text פרמטר לחלוטין.
השתמש BedrockRuntime לקוח להפעיל את מודל ה-Titan Image Generator.
נתח ופענח את התגובה.
שמור את התמונות שהתקבלו בדיסק.

עריכת אובייקט: ציור עם תמונת מסכה

להלן סקריפט אופייני לעריכת תמונה עבור מודל Titan Image Generator באמצעות maskImage. אנו לוקחים אחת מהתמונות שנוצרו קודם לכן ומספקים תמונת מסכה, שבה פיקסלים בעלי ערך 0 מוצגים כשחור ופיקסלים בעלי ערך 255 ללבן. אנחנו גם מחליפים את אחד הכלבים בתמונה בחתול באמצעות הנחיה טקסט.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

זה יפיק תמונות דומות לתמונות הבאות.

תמונה מקורית	תמונת מסכה	תמונה ערוכה

הסרת חפץ: צביעה עם הנחיית מסכה

בדוגמה אחרת, אנו משתמשים maskPrompt כדי לציין אובייקט בתמונה, שנלקח מהשלבים המוקדמים יותר, כדי לערוך. על ידי השמטת שורת הטקסט, האובייקט יוסר:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

זה יפיק תמונות דומות לתמונות הבאות.

תמונה מקורית	תמונת תגובה

עריכת רקע: ציור חוץ

ציור חיצוני שימושי כאשר ברצונך להחליף את הרקע של תמונה. ניתן גם להרחיב את גבולות התמונה לקבלת אפקט התרחקות. בסקריפט לדוגמה הבא, אנו משתמשים maskPrompt לציין איזה חפץ לשמור; אתה יכול גם להשתמש maskImage. הפרמטר outPaintingMode מציין אם לאפשר שינוי של הפיקסלים בתוך המסכה. אם מוגדר כ DEFAULT, מותר לשנות פיקסלים בתוך המסכה כך שהתמונה המשוחזרת תהיה עקבית בסך הכל. אפשרות זו מומלצת אם maskImage המסופק אינו מייצג את האובייקט בדיוק ברמת הפיקסלים. אם מוגדר כ PRECISE, השינוי של פיקסלים בתוך המסכה נמנע. אפשרות זו מומלצת אם משתמשים ב-a maskPrompt או maskImage שמייצג את האובייקט בדיוק ברמת הפיקסלים.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

זה יפיק תמונות דומות לתמונות הבאות.

תמונה מקורית	טקסט	תמונת תגובה
	"החוף"
	"יַעַר"

בנוסף, ההשפעות של ערכים שונים עבור outPaintingMode, עם maskImage שאינם מתארים את האובייקט בדיוק ברמת הפיקסלים, הם כדלקמן.

סעיף זה נתן לך סקירה כללית של הפעולות שאתה יכול לבצע עם דגם ה-Titan Image Generator. באופן ספציפי, סקריפטים אלה מדגימים משימות טקסט לתמונה, וריאציות של תמונה, ציור וצביעה חוץ. אתה אמור להיות מסוגל להתאים את התבניות ליישומים שלך על ידי התייחסות לפרטי הפרמטרים עבור סוגי המשימות המפורטים ב תיעוד Amazon Titan Image Generator.

הטבעה וחיפוש מולטי-מודאליים

אתה יכול להשתמש במודל Amazon Titan Multimodal Embeddings עבור משימות ארגוניות כגון חיפוש תמונות והמלצה מבוססת דמיון, ויש לו הפחתה מובנית שעוזרת להפחית הטיה בתוצאות החיפוש. ישנם מספר גדלים של מימדים של הטבעה לשינויים הטובים ביותר של זמן אחזור/דיוק עבור צרכים שונים, ואת כולם ניתן להתאים אישית עם API פשוט כדי להתאים לנתונים שלך תוך אבטחת נתונים ופרטיות מתמשכת. Amazon Titan Multimodal Embeddings מסופק כממשקי API פשוטים לחיפוש טרנספורמציה אצווה אסינכרוני בזמן אמת או יישומי המלצות, וניתן לחבר אותם למאגרי מידע וקטוריים שונים, כולל שירות חיפוש פתוח של אמזון.

פונקציות עוזר

הפונקציה הבאה ממירה תמונה, ובאופן אופציונלי טקסט, להטבעות מולטי-מודאליות:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

הפונקציה הבאה מחזירה את ההטבעות המולטי-מודאליות הדומות המובילות בהינתן שאילתה הטמעות רב-מודאליות. שימו לב שבפועל, ניתן להשתמש במסד נתונים וקטור מנוהל, כמו OpenSearch Service. הדוגמה הבאה היא להמחשה:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

מערך נתונים סינתטי

למטרות המחשה, אנו משתמשים דגם קלוד 2.1 של אנתרופיק ב- Amazon Bedrock ליצור באופן אקראי שבעה מוצרים שונים, כל אחד עם שלוש גרסאות, באמצעות ההנחיה הבאה:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

להלן רשימת הפלטים שהוחזרו:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

הקצה את התגובה לעיל למשתנה response_cat. לאחר מכן אנו משתמשים במודל Titan Image Generator כדי ליצור תמונות מוצר עבור כל פריט:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

את כל התמונות שנוצרו ניתן למצוא בנספח בסוף פוסט זה.

אינדקס מערך נתונים רב-מודאלי

השתמש בקוד הבא לאינדקס של מערכי נתונים רב-מודאליים:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

חיפוש מולטי-מודאלי

השתמש בקוד הבא לחיפוש מולטי-מודאלי:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

להלן כמה תוצאות חיפוש.

סיכום

הפוסט מציג את דגמי Amazon Titan Image Generator ו- Amazon Titan Multimodal Embeddings. Titan Image Generator מאפשר לך ליצור תמונות מותאמות אישית ואיכותיות מהודעות טקסט. תכונות מפתח כוללות איטרציה על הנחיות, עריכת רקע אוטומטית והתאמה אישית של נתונים. יש לו אמצעי הגנה כמו סימני מים בלתי נראים כדי לעודד שימוש אחראי. Titan Multimodal Embeddings ממירה טקסט, תמונות או שניהם לוקטורים סמנטיים כדי להפעיל חיפוש והמלצות מדויקות. לאחר מכן סיפקנו דוגמאות קוד של Python לשימוש בשירותים אלה, והדגמנו יצירת תמונות מהנחיות טקסט ואיטרציה על התמונות הללו; עריכת תמונות קיימות על ידי הוספה, הסרה או החלפה של אלמנטים שצוינו על ידי תמונות מסכה או טקסט מסיכה; יצירת הטבעות מולטי-מודאליות מטקסט, תמונות או שניהם; וחיפוש אחר הטבעות מולטי-מודאליות דומות לשאילתה. הדגמנו גם שימוש במערך נתונים סינתטי של מסחר אלקטרוני שנוסף לאינדקס וחיפשנו באמצעות Titan Multimodal Embeddings. מטרת הפוסט הזה היא לאפשר למפתחים להתחיל להשתמש בשירותי AI חדשים אלה ביישומים שלהם. דפוסי הקוד יכולים לשמש כתבניות עבור יישומים מותאמים אישית.

כל הקוד זמין ב- מאגר GitHub. למידע נוסף, עיין ב מדריך למשתמש של Amazon Bedrock.

על הכותבים

רוהיט מיטל הוא מנהל מוצר ראשי באמזון AI בונה מודלים של בסיס רב-מודאלי. לאחרונה הוא הוביל את השקת דגם Amazon Titan Image Generator כחלק משירות Amazon Bedrock. מנוסה ב-AI/ML, NLP וחיפוש, הוא מעוניין בבניית מוצרים הפותרים נקודות כאב ללקוחות באמצעות טכנולוגיה חדשנית.

ד"ר אשווין סוואמינאתן הוא חוקר, מהנדס ומנהל ראיית מחשב ולמידת מכונה עם 12+ שנות ניסיון בתעשייה ו-5+ שנות ניסיון במחקר אקדמי. יסודות חזקים ויכולת מוכחת לצבור ידע במהירות ולתרום לתחומים חדשים ומתפתחים.

ד"ר יושנג שי הוא מדען יישומי ראשי באמזון AGI. עבודתו מתמקדת בבניית מודלים של בסיס רב-מודאלי. לפני שהצטרף ל-AGI, הוא הוביל פיתוחים שונים של AI מולטי-מודאלי ב-AWS כמו Amazon Titan Image Generator ו-Amazon Textract Queries.

ד"ר האו יאנג הוא מדען יישומי ראשי באמזון. תחומי המחקר העיקריים שלו הם זיהוי אובייקטים ולמידה עם הערות מוגבלות. מחוץ לעבודה, האו נהנה לצפות בסרטים, צילום ופעילויות חוצות.

ד"ר דויד מודולו הוא מנהל מדע יישומי באמזון AGI, עובד על בניית מודלים בסיסיים מולטי-מודאליים גדולים. לפני שהצטרף לאמזון AGI, הוא היה מנהל/מוביל במשך 7 שנים במעבדות AWS AI (Amazon Bedrock ו-Amazon Rekognition). מחוץ לעבודה, הוא נהנה לטייל ולשחק בכל סוג של ספורט, במיוחד כדורגל.

ד"ר באיצ'ואן סאן, משמש כיום כאדריכל פתרונות בינה מלאכותית/ML ב-AWS, מתמקד בבינה מלאכותית ומיישם את הידע שלו במדעי הנתונים ולמידת מכונה כדי לספק פתרונות עסקיים מעשיים מבוססי ענן. עם ניסיון בייעוץ ניהולי וארכיטקטורת פתרונות בינה מלאכותית, הוא נותן מענה למגוון אתגרים מורכבים, כולל ראייה ממוחשבת ברובוטיקה, חיזוי סדרות זמן ותחזוקה חזויה, בין היתר. עבודתו מבוססת על רקע מוצק של ניהול פרויקטים, מו"פ תוכנה ועיסוקים אקדמיים. מחוץ לעבודה, ד"ר סאן נהנה מהאיזון שבין נסיעות ובילוי עם משפחה וחברים.

ד"ר קאי ג'ו עובד כיום כמהנדס תמיכה בענן ב-AWS, עוזר ללקוחות עם בעיות בשירותים הקשורים ל-AI/ML כמו SageMaker, Bedrock וכו'. הוא מומחה בנושאים של SageMaker. מנוסה במדעי נתונים והנדסת נתונים, הוא מעוניין בבניית פרויקטים מונעי בינה מלאכותית.

קריס שולץ בילתה למעלה מ-25 שנים בהפיכת חוויות משתמש מרתקות לחיים על ידי שילוב של טכנולוגיות מתפתחות עם עיצוב ברמה עולמית. בתפקידו כמנהל מוצר בכיר, קריס עוזר לתכנן ולבנות שירותי AWS להפעלת מדיה ובידור, משחקים ומחשוב מרחבי.

נספח

בסעיפים הבאים, אנו מדגימים מקרי שימוש מאתגרים כמו הכנסת טקסט, ידיים והשתקפויות כדי להדגיש את היכולות של דגם ה-Titan Image Generator. אנו כוללים גם את תמונות הפלט לדוגמה שהופקו בדוגמאות קודמות.

טקסט

מודל ה-Titan Image Generator מצטיין בתהליכי עבודה מורכבים כמו הוספת טקסט קריא לתמונות. דוגמה זו מדגימה את יכולתו של Titan להציג בבירור אותיות רישיות וקטנות בסגנון עקבי בתוך תמונה.

קורגי חובש כובע בייסבול עם הטקסט "genai"	ילד מאושר נותן אגודל למעלה, לובש חולצה עם הטקסט "גנרטיבי AI"

ידיים

לדגם Titan Image Generator יש גם את היכולת ליצור תמונות AI מפורטות. התמונה מציגה ידיים ואצבעות ריאליסטיות עם פרטים גלויים, מעבר ליצירת תמונה בסיסית יותר של AI שעשויה להיות חסרה ספציפית כזו. בדוגמאות הבאות, שימו לב לתיאור המדויק של התנוחה והאנטומיה.

ידו של אדם במבט מלמעלה	מבט מקרוב על ידיו של אדם אוחז בספל קפה

מַרְאָה

התמונות שנוצרו על ידי מודל Titan Image Generator מסדרות אובייקטים במרחב ומשקפות במדויק אפקטים של מראה, כפי שהודגם בדוגמאות הבאות.

חתול לבן ורך וחמוד עומד על רגליו האחוריות, מציץ בסקרנות לתוך מראה זהוב מקושט. בהשתקפות החתול רואה את עצמו	אגם שמיים יפהפה עם השתקפויות על המים

תמונות מוצר סינתטיות

להלן תמונות המוצר שנוצרו קודם לכן בפוסט זה עבור דגם Titan Multimodal Embeddings.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://aws.amazon.com/blogs/machine-learning/use-amazon-titan-models-for-image-generation-editing-and-searching/

בול זמן: פברואר 19, 2024

בול זמן: נובמבר 14, 2022

הועלה מחדש על ידי אפלטון

פרוס מודל יומן רמקול של Hugging Face (PyAnnote) באמזון SageMaker כנקודת קצה אסינכרונית | שירותי האינטרנט של אמזון

תחילת העבודה עם פריסת מודלים בזמן אמת באמזון SageMaker

אוטומציה של תיוג PDF מראש עבור Amazon Comprehend | שירותי האינטרנט של אמזון

כיצד Getir הפחיתה את משך האימון של המודל ב-90% עם Amazon SageMaker ו-AWS Batch | שירותי האינטרנט של אמזון

עיבוד נתוני PII ב-The Very Group עם Amazon Comprehend

הפעל עומסי עבודה של מסקנות למידת מכונה במופעים מבוססי AWS Graviton עם Amazon SageMaker

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן