Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon-webservices

Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon-webservices

Amazonebodem biedt een breed scala aan goed presterende basismodellen van Amazon en andere toonaangevende AI-bedrijven, waaronder antropisch, AI21, meta, Samenhangen en Stabiliteit AI, en omvat een breed scala aan gebruiksscenario's, waaronder het genereren van tekst en afbeeldingen, zoeken, chatten, redeneren en handelen, en meer. De nieuwe Amazon Titan-afbeeldingsgenerator Met dit model kunnen makers van inhoud snel realistische afbeeldingen van hoge kwaliteit genereren met behulp van eenvoudige Engelse tekstprompts. Het geavanceerde AI-model begrijpt complexe instructies met meerdere objecten en retourneert afbeeldingen van studiokwaliteit die daarvoor geschikt zijn reclame, e-commerce en amusement. Belangrijke kenmerken zijn onder meer de mogelijkheid om afbeeldingen te verfijnen door aanwijzingen te herhalen, automatische achtergrondbewerking en het genereren van meerdere variaties van dezelfde scène. Makers kunnen het model ook aanpassen met hun eigen gegevens om merkafbeeldingen in een specifieke stijl uit te voeren. Belangrijk is dat Titan Image Generator ingebouwde beveiligingen heeft, zoals onzichtbare watermerken op alle door AI gegenereerde afbeeldingen, om verantwoord gebruik en de verspreiding van desinformatie beperken. Deze innovatieve technologie maakt het produceren van aangepaste afbeeldingen in grote volumes mogelijk welke branche dan ook toegankelijker en efficiënter.

De nieuwe Multimodale inbedding van Amazon Titan model helpt bij het bouwen van nauwkeurigere zoekopdrachten en aanbevelingen door tekst, afbeeldingen of beide te begrijpen. Het converteert afbeeldingen en Engelse tekst naar semantische vectoren, waardoor betekenis en relaties in uw gegevens worden vastgelegd. U kunt tekst en afbeeldingen, zoals productbeschrijvingen en foto's, combineren om artikelen effectiever te identificeren. De vectoren zorgen voor snelle, nauwkeurige zoekervaringen. Titan Multimodal Embeddings is flexibel in vectordimensies, waardoor optimalisatie voor prestatiebehoeften mogelijk is. Een asynchrone API en Amazon OpenSearch-service connector maken het eenvoudig om het model te integreren in uw neurale zoektoepassingen.

In dit bericht laten we zien hoe u de Titan Image Generator- en Titan Multimodal Embeddings-modellen kunt gebruiken via de AWS Python SDK.

Genereren en bewerken van afbeeldingen

In deze sectie demonstreren we de basiscoderingspatronen voor het gebruik van de AWS SDK om nieuwe afbeeldingen te genereren en door AI aangedreven bewerkingen uit te voeren op bestaande afbeeldingen. Er worden codevoorbeelden gegeven in Python en hierin is ook JavaScript (Node.js) beschikbaar GitHub-repository.

Voordat u scripts kunt schrijven die de Amazon Bedrock API gebruiken, moet u de juiste versie van de AWS SDK in uw omgeving installeren. Voor Python-scripts kunt u de AWS SDK voor Python (Boto3). Python-gebruikers willen mogelijk ook de Kussenmodule, wat afbeeldingsbewerkingen vergemakkelijkt, zoals het laden en opslaan van afbeeldingen. Voor installatie-instructies raadpleegt u de GitHub-repository.

Schakel bovendien toegang in tot de modellen Amazon Titan Image Generator en Titan Multimodal Embeddings. Voor meer informatie, zie Toegang tot modellen.

Helper-functies

De volgende functie stelt de Amazon Bedrock Boto3 runtime-client in en genereert afbeeldingen door payloads van verschillende configuraties te nemen (die we later in dit bericht bespreken):

import boto3
import json, base64, io
from random import randint
from PIL import Image bedrock_runtime_client = boto3.client("bedrock-runtime") def titan_image( payload: dict, num_image: int = 2, cfg: float = 10.0, seed: int = None, modelId: str = "amazon.titan-image-generator-v1",
) -> list: # ImageGenerationConfig Options: # - numberOfImages: Number of images to be generated # - quality: Quality of generated images, can be standard or premium # - height: Height of output image(s) # - width: Width of output image(s) # - cfgScale: Scale for classifier-free guidance # - seed: The seed to use for reproducibility seed = seed if seed is not None else randint(0, 214783647) body = json.dumps( { **payload, "imageGenerationConfig": { "numberOfImages": num_image, # Range: 1 to 5 "quality": "premium", # Options: standard/premium "height": 1024, # Supported height list above "width": 1024, # Supported width list above "cfgScale": cfg, # Range: 1.0 (exclusive) to 10.0 "seed": seed, # Range: 0 to 214783647 }, } ) response = bedrock_runtime_client.invoke_model( body=body, modelId=modelId, accept="application/json", contentType="application/json", ) response_body = json.loads(response.get("body").read()) images = [ Image.open(io.BytesIO(base64.b64decode(base64_image))) for base64_image in response_body.get("images") ] return images 

Genereer afbeeldingen uit tekst

Scripts die een nieuwe afbeelding genereren op basis van een tekstprompt volgen dit implementatiepatroon:

  1. Configureer een tekstprompt en een optionele negatieve tekstprompt.
  2. Gebruik de BedrockRuntime client om het Titan Image Generator-model aan te roepen.
  3. Parseer en decodeer het antwoord.
  4. Sla de resulterende afbeeldingen op schijf op.

Tekst-naar-beeld

Het volgende is een typisch script voor het genereren van afbeeldingen voor het Titan Image Generator-model:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "negativeText": "cars", # Optional }, }
)

Dit levert afbeeldingen op die lijken op de volgende.

Reactieafbeelding 1 Reactieafbeelding 2
2 honden lopen op straat 2 honden lopen op straat

Afbeeldingsvarianten

Beeldvariatie biedt een manier om subtiele varianten van een bestaande afbeelding te genereren. Het volgende codefragment gebruikt een van de afbeeldingen die in het vorige voorbeeld zijn gegenereerd om variantafbeeldingen te maken:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image( { "taskType": "IMAGE_VARIATION", "imageVariationParams": { "text": "two dogs walking down an urban street, facing the camera", # Required "images": [input_image], # One image is required "negativeText": "cars", # Optional }, },
)

Dit levert afbeeldingen op die lijken op de volgende.

Originele foto Reactieafbeelding 1 Reactieafbeelding 2
2 honden lopen op straat Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bewerk een bestaande afbeelding

Met het Titan Image Generator-model kunt u elementen of gebieden binnen een bestaande afbeelding toevoegen, verwijderen of vervangen. U geeft aan welk gebied moet worden beïnvloed door een van de volgende gegevens op te geven:

  • Masker afbeelding – Een maskerafbeelding is een binaire afbeelding waarin de pixels met waarde 0 het gebied vertegenwoordigen dat u wilt beïnvloeden en de pixels met waarde 255 het gebied vertegenwoordigen dat ongewijzigd moet blijven.
  • Maskerprompt – Een maskerprompt is een tekstbeschrijving in natuurlijke taal van de elementen die u wilt beïnvloeden, waarbij gebruik wordt gemaakt van een intern tekst-naar-segmentatiemodel.

Raadpleeg voor meer informatie Snelle technische richtlijnen.

Scripts die een bewerking op een afbeelding toepassen, volgen dit implementatiepatroon:

  1. Laad de afbeelding die u wilt bewerken vanaf schijf.
  2. Converteer de afbeelding naar een base64-gecodeerde tekenreeks.
  3. Configureer het masker via een van de volgende methoden:
    1. Laad een maskerimage vanaf schijf, codeer deze als base64 en stel deze in als maskImage parameter.
    2. Kies het maskText parameter naar een tekstbeschrijving van de te beïnvloeden elementen.
  4. Geef de nieuwe inhoud op die moet worden gegenereerd met behulp van een van de volgende opties:
    1. Om een ​​element toe te voegen of te vervangen, stelt u de text parameter toe aan een beschrijving van de nieuwe inhoud.
    2. Om een ​​element te verwijderen, laat u de text parameter volledig.
  5. Gebruik de BedrockRuntime client om het Titan Image Generator-model aan te roepen.
  6. Parseer en decodeer het antwoord.
  7. Sla de resulterende afbeeldingen op schijf op.

Objectbewerking: inschilderen met een maskerafbeelding

Het volgende is een typisch beeldbewerkingsscript voor het Titan Image Generator-model maskImage. We nemen een van de eerder gegenereerde afbeeldingen en bieden een maskerafbeelding, waarbij pixels met een waarde van 0 worden weergegeven als zwart en pixels met een waarde van 255 als wit. We vervangen ook een van de honden in de afbeelding door een kat met behulp van een tekstprompt.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file: mask_image = base64.b64encode(image_file.read()).decode("utf8") # Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "text": "a cat", # Optional "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskImage": mask_image, }, }, num_image=3,
)

Dit levert afbeeldingen op die lijken op de volgende.

Originele foto Masker afbeelding Bewerkte afbeelding
2 honden lopen op straat Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. kat en hond lopen op straat

Objectverwijdering: inschilderen met een maskerprompt

In een ander voorbeeld gebruiken we maskPrompt om een ​​object in de afbeelding, afkomstig uit de eerdere stappen, op te geven om te bewerken. Door de tekstprompt weg te laten, wordt het object verwijderd:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") images = titan_image( { "taskType": "INPAINTING", "inPaintingParams": { "negativeText": "bad quality, low res", # Optional "image": input_image, # Required "maskPrompt": "white dog", # One of "maskImage" or "maskPrompt" is required }, },
)

Dit levert afbeeldingen op die lijken op de volgende.

Originele foto Reactie afbeelding
2 honden lopen op straat één hond die op straat loopt

Achtergrondbewerking: Outpainting

Overschilderen is handig als u de achtergrond van een afbeelding wilt vervangen. U kunt ook de grenzen van een afbeelding verlengen voor een uitzoomeffect. In het volgende voorbeeldscript gebruiken we maskPrompt om te specificeren welk object u wilt behouden; je kan ook gebruiken maskImage. De parameter outPaintingMode geeft aan of wijziging van de pixels in het masker moet worden toegestaan. Indien ingesteld als DEFAULTmogen pixels binnen het masker worden gewijzigd, zodat het gereconstrueerde beeld over het geheel genomen consistent is. Deze optie wordt aanbevolen als de maskImage het opgegeven object vertegenwoordigt het object niet met precisie op pixelniveau. Indien ingesteld als PRECISE, wordt de wijziging van pixels binnen het masker voorkomen. Deze optie wordt aanbevolen als u een maskPrompt of maskImage dat het object met precisie op pixelniveau weergeeft.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file: input_image = base64.b64encode(image_file.read()).decode("utf8") # OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image( { "taskType": "OUTPAINTING", "outPaintingParams": { "text": "forest", # Required "image": input_image, # Required "maskPrompt": "dogs", # One of "maskImage" or "maskPrompt" is required "outPaintingMode": "PRECISE", # One of "PRECISE" or "DEFAULT" }, }, num_image=3,
)

Dit levert afbeeldingen op die lijken op de volgende.

Originele foto Tekst Reactie afbeelding
Er lopen 2 honden op straat "strand" één hond die op het strand loopt
2 honden lopen op straat "Woud" Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bovendien zijn de effecten van verschillende waarden voor outPaintingMode, Met een maskImage die het object niet met precisie op pixelniveau schetsen, zijn als volgt.

In dit gedeelte vindt u een overzicht van de bewerkingen die u kunt uitvoeren met het Titan Image Generator-model. Deze scripts demonstreren met name taken van tekst naar afbeelding, afbeeldingsvariatie, inpainting en outpainting. U zou de patronen voor uw eigen toepassingen moeten kunnen aanpassen door te verwijzen naar de parameterdetails voor de taaktypen die worden beschreven in Documentatie van Amazon Titan Image Generator.

Multimodaal inbedden en zoeken

U kunt het Amazon Titan Multimodal Embeddings-model gebruiken voor bedrijfstaken zoals het zoeken naar afbeeldingen en op overeenkomsten gebaseerde aanbevelingen, en het heeft ingebouwde mitigatie die vertekening in zoekresultaten helpt verminderen. Er zijn meerdere afmetingen voor insluitingsdimensies voor de beste afweging tussen latentie en nauwkeurigheid voor verschillende behoeften, en ze kunnen allemaal worden aangepast met een eenvoudige API om zich aan te passen aan uw eigen gegevens, terwijl de gegevensbeveiliging en privacy behouden blijven. Amazon Titan Multimodal Embeddings wordt geleverd als eenvoudige API's voor realtime of asynchrone zoek- en aanbevelingstoepassingen voor batchtransformaties, en kan worden verbonden met verschillende vectordatabases, waaronder Amazon OpenSearch-service.

Helper-functies

De volgende functie converteert een afbeelding, en optioneel tekst, naar multimodale inbedding:

def titan_multimodal_embedding( image_path: str = None, # maximum 2048 x 2048 pixels description: str = None, # English only and max input tokens 128 dimension: int = 1024, # 1,024 (default), 384, 256 model_id: str = "amazon.titan-embed-image-v1",
): payload_body = {} embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}} # You can specify either text or image or both if image_path: # Maximum image size supported is 2048 x 2048 pixels with open(image_path, "rb") as image_file: payload_body["inputImage"] = base64.b64encode(image_file.read()).decode( "utf8" ) if description: payload_body["inputText"] = description assert payload_body, "please provide either an image and/or a text description" print("n".join(payload_body.keys())) response = bedrock_runtime_client.invoke_model( body=json.dumps({**payload_body, **embedding_config}), modelId=model_id, accept="application/json", contentType="application/json", ) return json.loads(response.get("body").read())

De volgende functie retourneert de belangrijkste vergelijkbare multimodale inbeddingen, gegeven een zoekopdracht multimodale inbedding. Houd er rekening mee dat u in de praktijk een beheerde vectordatabase kunt gebruiken, zoals OpenSearch Service. Het volgende voorbeeld is ter illustratie:

from scipy.spatial.distance import cdist
import numpy as np def search(query_emb: np.array, indexes: np.array, top_k: int = 1): dist = cdist(query_emb, indexes, metric="cosine") return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Synthetische dataset

Ter illustratie gebruiken we Het Claude 2.1-model van Anthropic in Amazon Bedrock om willekeurig zeven verschillende producten te genereren, elk met drie varianten, met behulp van de volgende prompt:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Hieronder volgt de lijst met geretourneerde uitvoer:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves. 2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets. 3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole. 4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps. 5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces. 6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid. 7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Wijs het bovenstaande antwoord toe aan de variabele response_cat. Vervolgens gebruiken we het Titan Image Generator-model om voor elk item productafbeeldingen te maken:

import re def extract_text(input_string): pattern = r"- (.*?)($|n)" matches = re.findall(pattern, input_string) extracted_texts = [match[0] for match in matches] return extracted_texts product_description = extract_text(response_cat) titles = []
for prompt in product_description: images = titan_image( { "taskType": "TEXT_IMAGE", "textToImageParams": { "text": prompt, # Required }, }, num_image=1, ) title = "_".join(prompt.split()[:4]).lower() titles.append(title) images[0].save(f"{title}.png", format="png")

Alle gegenereerde afbeeldingen zijn te vinden in de bijlage aan het einde van dit bericht.

Multimodale dataset-indexering

Gebruik de volgende code voor het indexeren van multimodale gegevenssets:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description): embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"] multimodal_embeddings.append(embedding)

Multimodaal zoeken

Gebruik de volgende code voor multimodaal zoeken:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Hieronder volgen enkele zoekresultaten.

Conclusie

Het bericht introduceert de modellen Amazon Titan Image Generator en Amazon Titan Multimodal Embeddings. Met Titan Image Generator kunt u aangepaste afbeeldingen van hoge kwaliteit maken op basis van tekstprompts. De belangrijkste functies zijn onder meer het herhalen van aanwijzingen, automatische bewerking op de achtergrond en gegevensaanpassing. Het bevat waarborgen zoals onzichtbare watermerken om verantwoord gebruik aan te moedigen. Titan Multimodal Embeddings converteert tekst, afbeeldingen of beide naar semantische vectoren om nauwkeurige zoekopdrachten en aanbevelingen mogelijk te maken. Vervolgens hebben we Python-codevoorbeelden geleverd voor het gebruik van deze services, en hebben we gedemonstreerd hoe we afbeeldingen konden genereren op basis van tekstprompts en hoe we die afbeeldingen konden herhalen; het bewerken van bestaande afbeeldingen door elementen toe te voegen, te verwijderen of te vervangen die zijn gespecificeerd door maskerafbeeldingen of maskertekst; het creëren van multimodale inbedding van tekst, afbeeldingen of beide; en zoeken naar vergelijkbare multimodale inbedding van een zoekopdracht. We hebben ook gedemonstreerd met behulp van een synthetische e-commerce dataset die is geïndexeerd en doorzocht met behulp van Titan Multimodal Embeddings. Het doel van dit bericht is om ontwikkelaars in staat te stellen deze nieuwe AI-diensten in hun applicaties te gaan gebruiken. De codepatronen kunnen dienen als sjablonen voor aangepaste implementaties.

Alle code is beschikbaar op de GitHub-repository. Raadpleeg voor meer informatie de Amazon Bedrock-gebruikershandleiding.


Over de auteurs

Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Rohit Mittal is een Principal Product Manager bij Amazon AI en bouwt multimodale basismodellen. Onlangs leidde hij de lancering van het Amazon Titan Image Generator-model als onderdeel van de Amazon Bedrock-service. Hij heeft ervaring met AI/ML, NLP en Search en is geïnteresseerd in het bouwen van producten die pijnpunten van klanten oplossen met innovatieve technologie.

Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Dr. Ashwin Swaminathan is een Computer Vision en Machine Learning-onderzoeker, ingenieur en manager met meer dan 12 jaar ervaring in de sector en meer dan 5 jaar academische onderzoekservaring. Sterke fundamenten en bewezen vermogen om snel kennis op te doen en bij te dragen aan nieuwere en opkomende gebieden.

Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Dr. Yusheng Xie is een Principal Applied Scientist bij Amazon AGI. Zijn werk richt zich op het bouwen van multimodale funderingsmodellen. Voordat hij bij AGI kwam, leidde hij verschillende multimodale AI-ontwikkelingen bij AWS, zoals Amazon Titan Image Generator en Amazon Textract Queries.

Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Dr. Hao Yang is een Principal Applied Scientist bij Amazon. Zijn belangrijkste onderzoeksinteresses zijn objectdetectie en leren met beperkte annotaties. Buiten het werk kijkt Hao graag naar films, fotografie en buitenactiviteiten.

Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Dr. Davide Modolo is Applied Science Manager bij Amazon AGI en werkt aan het bouwen van grote multimodale fundamentele modellen. Voordat hij bij Amazon AGI kwam, was hij zeven jaar lang manager/leider bij AWS AI Labs (Amazon Bedrock en Amazon Rekognition). Buiten zijn werk houdt hij van reizen en sporten, vooral voetbal.

Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Dr. Baichuan Zon, is momenteel werkzaam als Sr. AI/ML Solutions Architect bij AWS, waarbij hij zich richt op generatieve AI en zijn kennis op het gebied van datawetenschap en machine learning toepast om praktische, cloudgebaseerde bedrijfsoplossingen te bieden. Met ervaring in managementadvies en AI-oplossingsarchitectuur pakt hij een reeks complexe uitdagingen aan, waaronder onder meer robotica-computervisie, tijdreeksvoorspellingen en voorspellend onderhoud. Zijn werk is geworteld in een solide achtergrond van projectmanagement, software-R&D en academische bezigheden. Buiten het werk houdt Dr. Sun van de balans tussen reizen en tijd doorbrengen met familie en vrienden.

Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Dr. Kai Zhu werkt momenteel als Cloud Support Engineer bij AWS en helpt klanten met problemen in AI/ML-gerelateerde diensten zoals SageMaker, Bedrock, enz. Hij is een SageMaker Subject Matter Expert. Hij heeft ervaring in datawetenschap en data-engineering en is geïnteresseerd in het bouwen van generatieve AI-aangedreven projecten.

Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Kris Schultz heeft meer dan 25 jaar besteed aan het tot leven brengen van boeiende gebruikerservaringen door opkomende technologieën te combineren met design van wereldklasse. In zijn rol als Senior Product Manager helpt Kris bij het ontwerpen en bouwen van AWS-services ter ondersteuning van Media & Entertainment, Gaming en Spatial Computing.


Bijlage

In de volgende secties demonstreren we uitdagende voorbeeldgebruiksscenario's zoals tekstinvoeging, handen en reflecties om de mogelijkheden van het Titan Image Generator-model te benadrukken. We nemen ook de voorbeelduitvoerafbeeldingen op die in eerdere voorbeelden zijn geproduceerd.

Tekst

Het Titan Image Generator-model blinkt uit in complexe workflows, zoals het invoegen van leesbare tekst in afbeeldingen. Dit voorbeeld demonstreert het vermogen van Titan om hoofdletters en kleine letters duidelijk weer te geven in een consistente stijl binnen een afbeelding.

een corgi met een baseballpet op met de tekst “genai” een vrolijke jongen die zijn duim opsteekt en een t-shirt draagt ​​met de tekst ‘generatieve AI’
Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

handen

Het Titan Image Generator-model heeft ook de mogelijkheid om gedetailleerde AI-afbeeldingen te genereren. De afbeelding toont realistische handen en vingers met zichtbare details, die verder gaan dan de meer basale AI-beeldgeneratie die dergelijke specificiteit mogelijk niet heeft. Let in de volgende voorbeelden op de precieze weergave van de houding en anatomie.

iemands hand van bovenaf gezien een blik op de handen van iemand die een koffiemok vasthoudt
Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Spiegel

De afbeeldingen die door het Titan Image Generator-model worden gegenereerd, rangschikken objecten ruimtelijk en weerspiegelen nauwkeurig spiegeleffecten, zoals gedemonstreerd in de volgende voorbeelden.

Een schattige pluizige witte kat staat op zijn achterpoten en tuurt nieuwsgierig in een sierlijke gouden spiegel. In de reflectie ziet de kat zichzelf prachtig luchtmeer met reflecties op het water
Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Gebruik Amazon Titan-modellen voor het genereren, bewerken en zoeken van afbeeldingen | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Synthetische productafbeeldingen

Hieronder volgen de productafbeeldingen die eerder in dit bericht zijn gegenereerd voor het Titan Multimodal Embeddings-model.

Tijdstempel:

Meer van AWS-machine learning