Χρησιμοποιήστε μοντέλα Amazon Titan για δημιουργία, επεξεργασία και αναζήτηση εικόνων

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Θεμέλιο του Αμαζονίου παρέχει μια ευρεία γκάμα μοντέλων foundation υψηλής απόδοσης από την Amazon και άλλες κορυφαίες εταιρείες τεχνητής νοημοσύνης, συμπεριλαμβανομένων Ανθρωπικός, AI21, Meta, Συνέρχομαι, να Σταθερότητα AI, και καλύπτει ένα ευρύ φάσμα περιπτώσεων χρήσης, συμπεριλαμβανομένης της δημιουργίας κειμένου και εικόνων, αναζήτησης, συνομιλίας, συλλογισμού και ενεργειών και πολλά άλλα. Το νέο Amazon Titan Image Generator Το μοντέλο επιτρέπει στους δημιουργούς περιεχομένου να δημιουργούν γρήγορα υψηλής ποιότητας, ρεαλιστικές εικόνες χρησιμοποιώντας απλά αγγλικά μηνύματα κειμένου. Το προηγμένο μοντέλο AI κατανοεί πολύπλοκες οδηγίες με πολλά αντικείμενα και επιστρέφει εικόνες ποιότητας στούντιο κατάλληλες για διαφήμιση, ηλεκτρονικό εμπόριο και ψυχαγωγία. Τα βασικά χαρακτηριστικά περιλαμβάνουν τη δυνατότητα βελτίωσης των εικόνων με επανάληψη σε προτροπές, αυτόματη επεξεργασία φόντου και δημιουργία πολλαπλών παραλλαγών της ίδιας σκηνής. Οι δημιουργοί μπορούν επίσης να προσαρμόσουν το μοντέλο με τα δικά τους δεδομένα για την παραγωγή εικόνων της επωνυμίας σε συγκεκριμένο στυλ. Είναι σημαντικό ότι το Titan Image Generator έχει ενσωματωμένες ασφάλειες, όπως αόρατα υδατογραφήματα σε όλες τις εικόνες που δημιουργούνται από AI, για να ενθαρρύνει υπεύθυνη χρήση και να μετριάσει τη διάδοση της παραπληροφόρησης. Αυτή η καινοτόμος τεχνολογία κάνει την παραγωγή προσαρμοσμένων εικόνων σε μεγάλο όγκο για οποιαδήποτε βιομηχανία πιο προσιτό και αποτελεσματικό.

Το νέο Amazon Titan Multimodal Embeddings Το μοντέλο βοηθά στη δημιουργία ακριβέστερης αναζήτησης και προτάσεων με την κατανόηση κειμένου, εικόνων ή και των δύο. Μετατρέπει εικόνες και αγγλικό κείμενο σε σημασιολογικά διανύσματα, αποτυπώνοντας νόημα και σχέσεις στα δεδομένα σας. Μπορείτε να συνδυάσετε κείμενο και εικόνες όπως περιγραφές προϊόντων και φωτογραφίες για να προσδιορίσετε τα στοιχεία πιο αποτελεσματικά. Τα διανύσματα τροφοδοτούν γρήγορες, ακριβείς εμπειρίες αναζήτησης. Το Titan Multimodal Embeddings είναι ευέλικτο σε διανυσματικές διαστάσεις, επιτρέποντας τη βελτιστοποίηση για τις ανάγκες απόδοσης. Ένα ασύγχρονο API και Amazon OpenSearch Service Η σύνδεση διευκολύνει την ενσωμάτωση του μοντέλου στις εφαρμογές νευρικής αναζήτησης.

Σε αυτήν την ανάρτηση, περιγράφουμε πώς να χρησιμοποιήσετε τα μοντέλα Titan Image Generator και Titan Multimodal Embeddings μέσω του AWS Python SDK.

Δημιουργία και επεξεργασία εικόνων

Σε αυτήν την ενότητα, παρουσιάζουμε τα βασικά μοτίβα κωδικοποίησης για τη χρήση του AWS SDK για τη δημιουργία νέων εικόνων και την εκτέλεση επεξεργασιών με τεχνητή νοημοσύνη σε υπάρχουσες εικόνες. Παραδείγματα κώδικα παρέχονται στην Python και η JavaScript (Node.js) είναι επίσης διαθέσιμη σε αυτό Αποθετήριο GitHub.

Για να μπορέσετε να γράψετε σενάρια που χρησιμοποιούν το Amazon Bedrock API, πρέπει να εγκαταστήσετε την κατάλληλη έκδοση του AWS SDK στο περιβάλλον σας. Για σενάρια Python, μπορείτε να χρησιμοποιήσετε το AWS SDK για Python (Boto3). Οι χρήστες Python μπορεί επίσης να θέλουν να εγκαταστήσουν το Μονάδα μαξιλαριού, το οποίο διευκολύνει λειτουργίες εικόνας όπως η φόρτωση και η αποθήκευση εικόνων. Για οδηγίες ρύθμισης, ανατρέξτε στο Αποθετήριο GitHub.

Επιπλέον, ενεργοποιήστε την πρόσβαση στα μοντέλα Amazon Titan Image Generator και Titan Multimodal Embeddings. Για περισσότερες πληροφορίες, ανατρέξτε στο Πρόσβαση μοντέλου.

Βοηθητικές λειτουργίες

Η ακόλουθη συνάρτηση ρυθμίζει το πρόγραμμα-πελάτη χρόνου εκτέλεσης Amazon Bedrock Boto3 και δημιουργεί εικόνες λαμβάνοντας ωφέλιμα φορτία διαφορετικών διαμορφώσεων (τις οποίες θα συζητήσουμε αργότερα σε αυτήν την ανάρτηση):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images

Δημιουργήστε εικόνες από κείμενο

Τα σενάρια που δημιουργούν μια νέα εικόνα από μια προτροπή κειμένου ακολουθούν αυτό το μοτίβο υλοποίησης:

Διαμορφώστε μια προτροπή κειμένου και προαιρετική ερώτηση αρνητικού κειμένου.
Χρησιμοποιήστε το BedrockRuntime πελάτη για να επικαλεστεί το μοντέλο Titan Image Generator.
Αναλύστε και αποκωδικοποιήστε την απάντηση.
Αποθηκεύστε τις εικόνες που προκύπτουν στο δίσκο.

Κείμενο σε εικόνα

Το παρακάτω είναι ένα τυπικό σενάριο δημιουργίας εικόνας για το μοντέλο Titan Image Generator:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Αυτό θα δημιουργήσει εικόνες παρόμοιες με τις παρακάτω.

Εικόνα απόκρισης 1	Εικόνα απόκρισης 2

Παραλλαγές εικόνας

Η παραλλαγή εικόνας παρέχει έναν τρόπο δημιουργίας λεπτών παραλλαγών μιας υπάρχουσας εικόνας. Το ακόλουθο απόσπασμα κώδικα χρησιμοποιεί μία από τις εικόνες που δημιουργήθηκαν στο προηγούμενο παράδειγμα για τη δημιουργία παραλλαγών εικόνων:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Αυτό θα δημιουργήσει εικόνες παρόμοιες με τις παρακάτω.

Αρχική εικόνα	Εικόνα απόκρισης 1	Εικόνα απόκρισης 2

Επεξεργαστείτε μια υπάρχουσα εικόνα

Το μοντέλο Titan Image Generator σάς επιτρέπει να προσθέσετε, να αφαιρέσετε ή να αντικαταστήσετε στοιχεία ή περιοχές σε μια υπάρχουσα εικόνα. Καθορίζετε ποια περιοχή θα επηρεάζετε παρέχοντας ένα από τα ακόλουθα:

Εικόνα μάσκας – Μια εικόνα μάσκας είναι μια δυαδική εικόνα στην οποία τα εικονοστοιχεία αξίας 0 αντιπροσωπεύουν την περιοχή που θέλετε να επηρεάσετε και τα εικονοστοιχεία 255 τιμών αντιπροσωπεύουν την περιοχή που πρέπει να παραμείνει αμετάβλητη.
Προτροπή μάσκας – Η προτροπή μάσκας είναι μια περιγραφή κειμένου σε φυσική γλώσσα των στοιχείων που θέλετε να επηρεάσετε, η οποία χρησιμοποιεί ένα εσωτερικό μοντέλο τμηματοποίησης κειμένου.

Για περισσότερες πληροφορίες, ανατρέξτε στο Άμεσες Οδηγίες Μηχανικής.

Τα σενάρια που εφαρμόζουν μια επεξεργασία σε μια εικόνα ακολουθούν αυτό το μοτίβο υλοποίησης:

Φορτώστε την εικόνα που πρόκειται να επεξεργαστείτε από το δίσκο.
Μετατρέψτε την εικόνα σε μια συμβολοσειρά με κωδικοποίηση base64.
Διαμορφώστε τη μάσκα με μία από τις ακόλουθες μεθόδους:
1. Φορτώστε μια εικόνα μάσκας από το δίσκο, κωδικοποιώντας την ως base64 και ορίζοντας την ως maskImage παράμετρος.
2. Ρυθμίστε το maskText παράμετρος σε μια περιγραφή κειμένου των στοιχείων που θα επηρεαστούν.
Καθορίστε το νέο περιεχόμενο που θα δημιουργηθεί χρησιμοποιώντας μία από τις ακόλουθες επιλογές:
1. Για να προσθέσετε ή να αντικαταστήσετε ένα στοιχείο, ορίστε το text παράμετρος για μια περιγραφή του νέου περιεχομένου.
2. Για να αφαιρέσετε ένα στοιχείο, παραλείψτε το text πλήρως.
Χρησιμοποιήστε το BedrockRuntime πελάτη για να επικαλεστεί το μοντέλο Titan Image Generator.
Αναλύστε και αποκωδικοποιήστε την απάντηση.
Αποθηκεύστε τις εικόνες που προκύπτουν στο δίσκο.

Επεξεργασία αντικειμένου: Ζωγραφική με εικόνα μάσκας

Το παρακάτω είναι ένα τυπικό σενάριο επεξεργασίας εικόνας για το μοντέλο Titan Image Generator που χρησιμοποιεί maskImage. Λαμβάνουμε μία από τις εικόνες που δημιουργήθηκαν νωρίτερα και παρέχουμε μια εικόνα μάσκας, όπου τα εικονοστοιχεία με τιμή 0 αποδίδονται ως μαύρα και τα εικονοστοιχεία με τιμή 255 ως λευκά. Αντικαθιστούμε επίσης ένα από τα σκυλιά της εικόνας με μια γάτα χρησιμοποιώντας μια προτροπή κειμένου.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Αυτό θα δημιουργήσει εικόνες παρόμοιες με τις παρακάτω.

Αρχική εικόνα	Εικόνα μάσκας	Επεξεργασμένη εικόνα

Αφαίρεση αντικειμένου: Βαφή με προτροπή μάσκας

Σε άλλο παράδειγμα, χρησιμοποιούμε maskPrompt για να καθορίσετε ένα αντικείμενο στην εικόνα, που λήφθηκε από τα προηγούμενα βήματα, για επεξεργασία. Με την παράλειψη της προτροπής κειμένου, το αντικείμενο θα αφαιρεθεί:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Αυτό θα δημιουργήσει εικόνες παρόμοιες με τις παρακάτω.

Αρχική εικόνα	Εικόνα απόκρισης

Επιμέλεια φόντου: Outpainting

Το outpainting είναι χρήσιμο όταν θέλετε να αντικαταστήσετε το φόντο μιας εικόνας. Μπορείτε επίσης να επεκτείνετε τα όρια μιας εικόνας για ένα εφέ σμίκρυνσης. Στο παρακάτω παράδειγμα σεναρίου, χρησιμοποιούμε maskPrompt για να καθορίσετε ποιο αντικείμενο θα κρατήσει. μπορείτε επίσης να χρησιμοποιήσετε maskImage. Η παράμετρος outPaintingMode καθορίζει εάν θα επιτρέπεται η τροποποίηση των pixel μέσα στη μάσκα. Εάν οριστεί ως DEFAULT, τα εικονοστοιχεία στο εσωτερικό της μάσκας επιτρέπεται να τροποποιηθούν έτσι ώστε η ανακατασκευασμένη εικόνα να είναι συνεπής συνολικά. Αυτή η επιλογή συνιστάται εάν η maskImage που παρέχεται δεν αντιπροσωπεύει το αντικείμενο με ακρίβεια σε επίπεδο pixel. Εάν οριστεί ως PRECISE, αποτρέπεται η τροποποίηση των pixel στο εσωτερικό της μάσκας. Αυτή η επιλογή συνιστάται εάν χρησιμοποιείτε α maskPrompt ή ένα maskImage που αναπαριστά το αντικείμενο με ακρίβεια σε επίπεδο pixel.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Αυτό θα δημιουργήσει εικόνες παρόμοιες με τις παρακάτω.

Αρχική εικόνα	Κείμενο	Εικόνα απόκρισης
	"παραλία"
	"δάσος"

Επιπλέον, τα αποτελέσματα των διαφορετικών τιμών για outPaintingMode, Με maskImage που δεν περιγράφει το αντικείμενο με ακρίβεια σε επίπεδο pixel, είναι οι εξής.

Αυτή η ενότητα σάς παρέχει μια επισκόπηση των λειτουργιών που μπορείτε να εκτελέσετε με το μοντέλο Titan Image Generator. Συγκεκριμένα, αυτά τα σενάρια επιδεικνύουν εργασίες κειμένου σε εικόνα, παραλλαγή εικόνας, inpainting και outpainting. Θα πρέπει να μπορείτε να προσαρμόσετε τα μοτίβα για τις δικές σας εφαρμογές αναφέροντας τις λεπτομέρειες παραμέτρων για αυτούς τους τύπους εργασιών που περιγράφονται λεπτομερώς στο Τεκμηρίωση Amazon Titan Image Generator.

Πολυτροπική ενσωμάτωση και αναζήτηση

Μπορείτε να χρησιμοποιήσετε το μοντέλο Amazon Titan Multimodal Embeddings για εταιρικές εργασίες, όπως η αναζήτηση εικόνων και η σύσταση βάσει ομοιοτήτων, και διαθέτει ενσωματωμένο μετριασμό που συμβάλλει στη μείωση της προκατάληψης στα αποτελέσματα αναζήτησης. Υπάρχουν πολλά μεγέθη διαστάσεων ενσωμάτωσης για βέλτιστες αντισταθμίσεις καθυστέρησης/ακρίβειας για διαφορετικές ανάγκες και όλα μπορούν να προσαρμοστούν με ένα απλό API για προσαρμογή στα δικά σας δεδομένα, διατηρώντας παράλληλα την ασφάλεια και το απόρρητο των δεδομένων. Το Amazon Titan Multimodal Embeddings παρέχεται ως απλά API για εφαρμογές αναζήτησης και σύστασης μετασχηματισμού σε πραγματικό χρόνο ή ασύγχρονου μαζικού μετασχηματισμού και μπορεί να συνδεθεί με διαφορετικές διανυσματικές βάσεις δεδομένων, όπως Amazon OpenSearch Service.

Βοηθητικές λειτουργίες

Η ακόλουθη συνάρτηση μετατρέπει μια εικόνα, και προαιρετικά κείμενο, σε πολυτροπικές ενσωματώσεις:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

Η ακόλουθη συνάρτηση επιστρέφει τις κορυφαίες παρόμοιες πολυτροπικές ενσωματώσεις σε ένα ερώτημα πολυτροπικές ενσωματώσεις. Σημειώστε ότι στην πράξη, μπορείτε να χρησιμοποιήσετε μια διαχειριζόμενη διανυσματική βάση δεδομένων, όπως η Υπηρεσία OpenSearch. Το παρακάτω παράδειγμα είναι για λόγους επεξήγησης:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Συνθετικό σύνολο δεδομένων

Για λόγους απεικόνισης, χρησιμοποιούμε Το μοντέλο Claude 2.1 της Anthropic στο Amazon Bedrock για να δημιουργήσετε τυχαία επτά διαφορετικά προϊόντα, το καθένα με τρεις παραλλαγές, χρησιμοποιώντας την ακόλουθη προτροπή:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Ακολουθεί η λίστα των επιστρεφόμενων εξόδων:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Αντιστοιχίστε την παραπάνω απάντηση στη μεταβλητή response_cat. Στη συνέχεια χρησιμοποιούμε το μοντέλο Titan Image Generator για να δημιουργήσουμε εικόνες προϊόντων για κάθε αντικείμενο:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Όλες οι εικόνες που δημιουργούνται βρίσκονται στο παράρτημα στο τέλος αυτής της ανάρτησης.

Πολυτροπική ευρετηρίαση δεδομένων

Χρησιμοποιήστε τον ακόλουθο κώδικα για την ευρετηρίαση πολυτροπικών δεδομένων:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Πολυτροπική αναζήτηση

Χρησιμοποιήστε τον ακόλουθο κώδικα για πολυτροπική αναζήτηση:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Ακολουθούν ορισμένα αποτελέσματα αναζήτησης.

Συμπέρασμα

Η ανάρτηση παρουσιάζει τα μοντέλα Amazon Titan Image Generator και Amazon Titan Multimodal Embeddings. Το Titan Image Generator σάς δίνει τη δυνατότητα να δημιουργείτε προσαρμοσμένες, υψηλής ποιότητας εικόνες από μηνύματα κειμένου. Τα βασικά χαρακτηριστικά περιλαμβάνουν την επανάληψη στις προτροπές, την αυτόματη επεξεργασία φόντου και την προσαρμογή δεδομένων. Διαθέτει ασφάλειες όπως αόρατα υδατογραφήματα για να ενθαρρύνει την υπεύθυνη χρήση. Το Titan Multimodal Embeddings μετατρέπει κείμενο, εικόνες ή και τα δύο σε σημασιολογικά διανύσματα για να παρέχει ακριβή αναζήτηση και προτάσεις. Στη συνέχεια παρείχαμε δείγματα κώδικα Python για τη χρήση αυτών των υπηρεσιών και δείξαμε τη δημιουργία εικόνων από μηνύματα κειμένου και την επανάληψη σε αυτές τις εικόνες. Επεξεργασία υπαρχουσών εικόνων προσθέτοντας, αφαιρώντας ή αντικαθιστώντας στοιχεία που καθορίζονται από εικόνες μάσκας ή κείμενο μάσκας. δημιουργία πολυτροπικών ενσωματώσεων από κείμενο, εικόνες ή και τα δύο· και αναζήτηση για παρόμοιες πολυτροπικές ενσωματώσεις σε ένα ερώτημα. Επίσης, δείξαμε τη χρήση ενός συνθετικού συνόλου δεδομένων ηλεκτρονικού εμπορίου που ευρετηριάστηκε και αναζητήθηκε χρησιμοποιώντας το Titan Multimodal Embeddings. Ο στόχος αυτής της ανάρτησης είναι να επιτρέψει στους προγραμματιστές να αρχίσουν να χρησιμοποιούν αυτές τις νέες υπηρεσίες AI στις εφαρμογές τους. Τα μοτίβα κώδικα μπορούν να χρησιμεύσουν ως πρότυπα για προσαρμοσμένες υλοποιήσεις.

Όλος ο κωδικός είναι διαθέσιμος στο Αποθετήριο GitHub. Για περισσότερες πληροφορίες, ανατρέξτε στο Οδηγός χρήσης Amazon Bedrock.

Σχετικά με τους Συγγραφείς

Ροχίτ Μίτταλ είναι Κύριος Διευθυντής Προϊόντων στο Amazon AI που κατασκευάζει πολυτροπικά μοντέλα θεμελίωσης. Πρόσφατα ηγήθηκε της κυκλοφορίας του μοντέλου Amazon Titan Image Generator ως μέρος της υπηρεσίας Amazon Bedrock. Με εμπειρία σε AI/ML, NLP και Αναζήτηση, ενδιαφέρεται για την κατασκευή προϊόντων που λύνουν τα σημεία πόνου των πελατών με καινοτόμο τεχνολογία.

Δρ Ashwin Swaminathan είναι ερευνητής, μηχανικός και διευθυντής Computer Vision and Machine Learning με 12+ χρόνια εμπειρίας στον κλάδο και 5+ χρόνια ακαδημαϊκής ερευνητικής εμπειρίας. Ισχυρές θεμελιώδεις αρχές και αποδεδειγμένη ικανότητα γρήγορης απόκτησης γνώσεων και συμβολής σε νεότερους και αναδυόμενους τομείς.

Ο Δρ Γιουσένγκ Σιε είναι Κύριος Εφαρμοσμένος Επιστήμονας στο Amazon AGI. Η δουλειά του επικεντρώνεται στην κατασκευή πολυτροπικών μοντέλων θεμελίωσης. Πριν ενταχθεί στην AGI, ήταν επικεφαλής διαφόρων multi-modal AI ανάπτυξης στην AWS, όπως το Amazon Titan Image Generator και το Amazon Textract Queries.

Δρ Χάο Γιανγκ είναι Κύριος Εφαρμοσμένος Επιστήμονας στο Amazon. Τα κύρια ερευνητικά του ενδιαφέροντα είναι η ανίχνευση αντικειμένων και η εκμάθηση με περιορισμένους σχολιασμούς. Εκτός εργασίας, ο Χάο απολαμβάνει την παρακολούθηση ταινιών, τη φωτογραφία και τις υπαίθριες δραστηριότητες.

Δρ Davide Modolo είναι Διευθυντής Εφαρμοσμένων Επιστημών στο Amazon AGI, που εργάζεται για τη δημιουργία μεγάλων πολυτροπικών θεμελιωδών μοντέλων. Πριν ενταχθεί στην Amazon AGI, ήταν διευθυντής/επικεφαλής για 7 χρόνια στα AWS AI Labs (Amazon Bedrock και Amazon Rekognition). Εκτός δουλειάς, του αρέσει να ταξιδεύει και να παίζει κάθε είδους άθλημα, ειδικά το ποδόσφαιρο.

Δρ Baichuan Sun, επί του παρόντος υπηρετεί ως Sr. AI/ML Solutions Architect στην AWS, εστιάζοντας στη γενετική τεχνητή νοημοσύνη και εφαρμόζει τις γνώσεις του στην επιστήμη των δεδομένων και τη μηχανική μάθηση για να παρέχει πρακτικές επιχειρηματικές λύσεις που βασίζονται στο cloud. Με εμπειρία στη συμβουλευτική διαχείρισης και την αρχιτεκτονική λύσεων AI, αντιμετωπίζει μια σειρά από πολύπλοκες προκλήσεις, όπως η ρομποτική όραση υπολογιστών, η πρόβλεψη χρονοσειρών και η προγνωστική συντήρηση, μεταξύ άλλων. Το έργο του βασίζεται σε ένα σταθερό υπόβαθρο διαχείρισης έργων, Ε&Α λογισμικού και ακαδημαϊκών αναζητήσεων. Εκτός δουλειάς, ο Dr. Sun απολαμβάνει την ισορροπία του ταξιδιού και του χρόνου με την οικογένεια και τους φίλους.

Δρ Κάι Ζου Επί του παρόντος εργάζεται ως Μηχανικός Υποστήριξης Cloud στην AWS, βοηθώντας πελάτες με ζητήματα σε υπηρεσίες που σχετίζονται με AI/ML όπως το SageMaker, το Bedrock κ.λπ. Είναι ειδικός σε θέματα SageMaker. Έμπειρος στην επιστήμη των δεδομένων και τη μηχανική δεδομένων, ενδιαφέρεται για τη δημιουργία έργων που τροφοδοτούνται με τεχνητή νοημοσύνη.

Κρις Σουλτς έχει αφιερώσει πάνω από 25 χρόνια ζωντανεύοντας τις ελκυστικές εμπειρίες των χρηστών συνδυάζοντας τις αναδυόμενες τεχνολογίες με το σχεδιασμό παγκόσμιας κλάσης. Στο ρόλο του ως Senior Product Manager, ο Kris βοηθά στο σχεδιασμό και τη δημιουργία υπηρεσιών AWS για την ενίσχυση των Media & Entertainment, Gaming και Spatial Computing.

Παράρτημα

Στις επόμενες ενότητες, παρουσιάζουμε προκλητικές περιπτώσεις χρήσης δειγμάτων, όπως εισαγωγή κειμένου, χέρια και αντανακλάσεις για να τονίσουμε τις δυνατότητες του μοντέλου Titan Image Generator. Περιλαμβάνουμε επίσης τα δείγματα εικόνων εξόδου που παράγονται σε προηγούμενα παραδείγματα.

Κείμενο

Το μοντέλο Titan Image Generator υπερέχει σε περίπλοκες ροές εργασίας, όπως η εισαγωγή ευανάγνωστου κειμένου σε εικόνες. Αυτό το παράδειγμα δείχνει την ικανότητα του Titan να αποδίδει ξεκάθαρα κεφαλαία και πεζά γράμματα με σταθερό στυλ μέσα σε μια εικόνα.

ένα corgi που φορά ένα καπέλο του μπέιζμπολ με το κείμενο "genai"	ένα χαρούμενο αγόρι που δίνει μπράβο, φορώντας ένα μπλουζάκι με κείμενο "γεννητικό AI"

τα χέρια

Το μοντέλο Titan Image Generator έχει επίσης τη δυνατότητα να δημιουργεί λεπτομερείς εικόνες AI. Η εικόνα δείχνει ρεαλιστικά χέρια και δάχτυλα με ορατή λεπτομέρεια, υπερβαίνοντας τη δημιουργία πιο βασικών εικόνων AI που μπορεί να μην έχουν τέτοια ιδιαιτερότητα. Στα παρακάτω παραδείγματα, παρατηρήστε την ακριβή απεικόνιση της στάσης και της ανατομίας.

το χέρι ενός ατόμου που φαίνεται από ψηλά	μια προσεκτική ματιά στα χέρια ενός ατόμου που κρατά μια κούπα καφέ

Καθρέπτης

Οι εικόνες που δημιουργούνται από το μοντέλο Titan Image Generator τακτοποιούν χωρικά αντικείμενα και αντανακλούν με ακρίβεια τα κατοπτρικά εφέ, όπως φαίνεται στα ακόλουθα παραδείγματα.

Μια χαριτωμένη αφράτη λευκή γάτα στέκεται στα πίσω πόδια της, κοιτάζοντας με περιέργεια σε έναν περίτεχνο χρυσό καθρέφτη. Στην αντανάκλαση η γάτα βλέπει τον εαυτό της	όμορφη λίμνη ουρανού με αντανακλάσεις στο νερό