Exklusiva bilder med stabil spridning i Amazon SageMaker JumpStart

Återutgiven av Platon

anhängare: 0

I november 2022, vi meddelade som AWS-kunder kan generera bilder från text med Stabil diffusion modeller i Amazon SageMaker JumpStart. Idag tillkännager vi en ny funktion som låter dig skala upp bilder (ändra storlek på bilder utan att förlora kvalitet) med stabila diffusionsmodeller i JumpStart. En bild som är lågupplöst, suddig och pixlad kan konverteras till en högupplöst bild som ser jämnare, tydligare och mer detaljerad ut. Denna process, kallad uppskalning, kan appliceras på både riktiga bilder och bilder genererade av text-till-bild stabila diffusionsmodeller. Detta kan användas för att förbättra bildkvaliteten i olika branscher som e-handel och fastigheter, såväl som för konstnärer och fotografer. Dessutom kan uppskalning förbättra den visuella kvaliteten på lågupplösta bilder när de visas på högupplösta skärmar.

Stable Diffusion använder en AI-algoritm för att uppskala bilder, vilket eliminerar behovet av manuellt arbete som kan kräva att man manuellt fyller luckor i en bild. Den har tränats på miljontals bilder och kan exakt förutsäga högupplösta bilder, vilket resulterar i en betydande detaljökning jämfört med traditionella bilduppskalare. Dessutom, till skillnad från icke-djupinlärningstekniker som närmaste granne, tar stabil spridning hänsyn till bildens sammanhang, med hjälp av en textuppmaning för att vägleda uppskalningsprocessen.

I det här inlägget ger vi en översikt över hur man distribuerar och kör inferens med uppskalningsmodellen Stable Diffusion på två sätt: via JumpStarts användargränssnitt (UI) i Amazon SageMaker Studio, och programmatiskt igenom JumpStart API:er tillgängligt i SageMaker Python SDK.

Lösningsöversikt

Följande bilder visar exempel på uppskalning utförd av modellen. Till vänster är den ursprungliga lågupplösta bilden förstorad för att matcha storleken på bilden som genereras av modellen. Till höger är bilden som genereras av modellen.

Den första genererade bilden är resultatet av en lågupplöst kattbild och uppmaningen "en vit katt."

Uppskala bilder med stabil spridning i Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Den andra genererade bilden är resultatet av lågupplösta fjärilsbild och prompten "en fjäril på ett grönt blad."

Uppskala bilder med stabil spridning i Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Att köra stora modeller som Stable Diffusion kräver anpassade slutledningsskript. Du måste köra end-to-end-tester för att se till att skriptet, modellen och den önskade instansen fungerar effektivt tillsammans. JumpStart förenklar denna process genom att tillhandahålla färdiga skript som har testats ordentligt. Du kan komma åt dessa skript med ett klick genom Studio UI eller med väldigt få rader kod genom JumpStart API:er.

Följande avsnitt ger en översikt över hur du distribuerar modellen och kör slutledning med antingen Studio UI eller JumpStart API:er.

Observera att genom att använda denna modell godkänner du CreativeML Open RAIL++-M-licens.

Få åtkomst till JumpStart via Studio UI

I det här avsnittet visar vi hur man tränar och distribuerar JumpStart-modeller genom Studio UI. Följande video visar hur du hittar den förtränade Stable Diffusion upscaler-modellen på JumpStart och distribuerar den. Modellsidan innehåller värdefull information om modellen och hur man använder den. Som slutledning använder vi instanstypen ml.p3.2xlarge eftersom den ger den GPU-acceleration som behövs för latens med låg slutledning till ett lågt pris. När du har konfigurerat SageMaker-värdinstansen väljer du Distribuera. Det tar 5–10 minuter innan slutpunkten är igång och redo att svara på slutledningsförfrågningar.

För att påskynda tiden till slutledning tillhandahåller JumpStart en exempelanteckningsbok som visar hur man kör inferens på den nyskapade slutpunkten. För att komma åt anteckningsboken i Studio, välj Öppna Notebook i Använd Endpoint från Studio avsnittet på modellens slutpunktssida.

Använd JumpStart programmatiskt med SageMaker SDK

Du kan använda JumpStart UI för att distribuera en förtränad modell interaktivt med bara några klick. Men du kan också använda JumpStart-modeller programmatiskt genom att använda API:er som är integrerade i SageMaker Python SDK.

I det här avsnittet väljer vi en lämplig förtränad modell i JumpStart, distribuerar denna modell till en SageMaker-slutpunkt och kör slutledning om den distribuerade slutpunkten, allt med SageMaker Python SDK. Följande exempel innehåller kodavsnitt. För den fullständiga koden med alla steg i denna demo, se Introduktion till JumpStart – Förbättra bildkvaliteten med hjälp av uppmaning exempel anteckningsbok.

Implementera den förtränade modellen

SageMaker använder Docker-behållare för olika bygg- och körningsuppgifter. JumpStart använder SageMaker Deep Learning Containers (DLC) som är ramspecifika. Vi hämtar först eventuella ytterligare paket, samt skript för att hantera utbildning och slutledning för den valda uppgiften. Sedan hämtas de förtränade modellartefakterna separat med model_uris, vilket ger flexibilitet till plattformen. Detta gör att flera förtränade modeller kan användas med ett enda slutledningsskript. Följande kod illustrerar denna process:

model_id, model_version = "model-upscaling-stabilityai-stable-diffusion-x4-upscaler-fp16", "*"
# Retrieve the inference docker container uri
deploy_image_uri = image_uris.retrieve( region=None, framework=None, # automatically inferred from model_id image_scope="inference", model_id=model_id, model_version=model_version, instance_type=inference_instance_type,
)
# Retrieve the inference script uri
deploy_source_uri = script_uris.retrieve(model_id=model_id, model_version=model_version, script_scope="inference") base_model_uri = model_uris.retrieve(model_id=model_id, model_version=model_version, model_scope="inference")

Därefter tillhandahåller vi dessa resurser till en SageMaker modell instans och distribuera en slutpunkt:

# Create the SageMaker model instance
model = Model( image_uri=deploy_image_uri, source_dir=deploy_source_uri, model_data=base_model_uri, entry_point="inference.py", # entry point file in source_dir and present in deploy_source_uri role=aws_role, predictor_cls=Predictor, name=endpoint_name,
) # deploy the Model - note that we need to pass the Predictor class when we deploy the model through the Model class,
# in order to run inference through the SageMaker API
base_model_predictor = model.deploy( initial_instance_count=1, instance_type=inference_instance_type, predictor_cls=Predictor, endpoint_name=endpoint_name,
)

Efter att vår modell har implementerats kan vi få förutsägelser från den i realtid!

Inmatningsformat

Slutpunkten accepterar en lågupplöst bild som råa RGB-värden eller en base64-kodad bild. Slutledningshanteraren avkodar bilden baserat på content_type:

För content_type = “application/json”måste den inmatade nyttolasten vara en JSON-ordbok med de råa RGB-värdena, en textprompt och andra valfria parametrar
För content_type = “application/json;jpeg”, måste den inmatade nyttolasten vara en JSON-ordbok med den base64-kodade bilden, en textprompt och andra valfria parametrar

Utmatningsformat

Följande kodexempel ger dig en glimt av hur utgångarna ser ut. På samma sätt som inmatningsformatet kan slutpunkten svara med bildens råa RGB-värden eller en base64-kodad bild. Detta kan specificeras genom inställning accept till ett av de två värdena:

För accept = “application/json”, returnerar slutpunkten en JSON-ordbok med RGB-värden för bilden
För accept = “application/json;jpeg”, returnerar slutpunkten en JSON-ordlista med JPEG-bilden som byte kodad med base64.b64-kodning

Observera att att skicka eller ta emot nyttolasten med de råa RGB-värdena kan träffa standardgränser för indatanyttolasten och svarsstorleken. Därför rekommenderar vi att du använder den base64-kodade bilden genom inställning content_type = “application/json;jpeg” och accept = “application/json;jpeg”.

Följande kod är ett exempel på begäran om slutledning:

content_type = “application/json;jpeg” # We recommend rescaling the image of low_resolution_image such that both height and width are powers of 2.
# This can be achieved by original_image = Image.open('low_res_image.jpg'); rescaled_image = original_image.rescale((128,128)); rescaled_image.save('rescaled_image.jpg')
with open(low_res_img_file_name,'rb') as f: low_res_image_bytes = f.read() encoded_image = base64.b64encode(bytearray(low_res_image_bytes)).decode() payload = { "prompt": "a cat", "image": encoded_image, "num_inference_steps":50, "guidance_scale":7.5} accept = "application/json;jpeg" def query(model_predictor, payload, content_type, accept): """Query the model predictor.""" query_response = model_predictor.predict( payload, { "ContentType": content_type, "Accept": accept, }, ) return query_response

Endpoint-svaret är ett JSON-objekt som innehåller de genererade bilderna och prompten:

def parse_response(query_response): """Parse response and return the generated images and prompt.""" response_dict = json.loads(query_response) return response_dict["generated_images"], response_dict["prompt"] query_response = query(model_predictor, json.dumps(payload).encode('utf-8'), content_type, accept)
generated_images, prompt = parse_response(query_response)

Parametrar som stöds

Stabila diffusionsuppskalningsmodeller stöder många parametrar för bildgenerering:

bild – En bild med låg upplösning.
snabb – En uppmaning för att vägleda bildgenereringen. Det kan vara en sträng eller en lista med strängar.
num_inference_steps (valfritt) – Antalet nedtoningssteg under bildgenerering. Fler steg leder till högre bildkvalitet. Om det anges måste det vara ett positivt heltal. Observera att fler slutledningssteg kommer att leda till en längre svarstid.
vägledningsskala (valfritt) – En högre vägledningsskala resulterar i en bild som är mer relaterad till uppmaningen, på bekostnad av bildkvaliteten. Om det anges måste det vara en flöte. guidance_scale<=1 ignoreras.
negativ_prompt (valfritt) – Detta styr bildgenereringen mot denna uppmaning. Om det anges måste det vara en sträng eller en lista med strängar och användas med guidance_scale. Om guidance_scale är inaktiverat, är detta också inaktiverat. Dessutom, om prompten är en lista med strängar, måste negativ_prompten också vara en lista med strängar.
frö (valfritt) – Detta fixar det randomiserade tillståndet för reproducerbarhet. Om det anges måste det vara ett heltal. När du använder samma prompt med samma frö kommer den resulterande bilden alltid att vara densamma.
noise_level (valfritt) – Detta lägger till brus till latenta vektorer innan uppskalning. Om det anges måste det vara ett heltal.

Du kan rekursivt skala upp en bild genom att anropa slutpunkten upprepade gånger för att få bilder med högre och högre kvalitet.

Bildstorlek och instanstyper

Bilder som genereras av modellen kan vara upp till fyra gånger så stor som den ursprungliga lågupplösta bilden. Dessutom växer modellens minnesbehov (GPU-minne) med storleken på den genererade bilden. Därför, om du uppskalar en redan högupplöst bild eller rekursivt uppskalar bilder, välj en instanstyp med ett stort GPU-minne. Till exempel har ml.g5.2xlarge mer GPU-minne än instanstypen ml.p3.2xlarge som vi använde tidigare. För mer information om olika instanstyper, se Amazon EC2 instansstyper.

Uppskalning av bilder bit för bit

För att minska minneskraven vid uppskalning av stora bilder kan du dela upp bilden i mindre sektioner, så kallade plattor, och exklusiva varje bricka individuellt. Efter att brickorna har uppskalats kan de blandas ihop för att skapa den slutliga bilden. Denna metod kräver att man anpassar uppmaningen för varje bricka så att modellen kan förstå innehållet i plattan och undvika att skapa konstiga bilder. Stildelen av prompten bör förbli konsekvent för alla brickor för att göra blandningen lättare. När du använder högre inställningar för denoising är det viktigt att vara mer specifik i prompten eftersom modellen har större frihet att anpassa bilden. Detta kan vara utmanande när brickan endast innehåller bakgrund eller inte är direkt relaterad till bildens huvudinnehåll.

Begränsningar och partiskhet

Även om Stable Diffusion har imponerande prestanda i uppskalning, lider den av flera begränsningar och fördomar. Dessa inkluderar men är inte begränsade till:

Modellen kanske inte genererar exakta ansikten eller lemmar eftersom träningsdatan inte innehåller tillräckligt med bilder med dessa funktioner
Modellen utbildades på LAION-5B dataset, som har vuxet innehåll och kanske inte är lämplig för produktanvändning utan ytterligare överväganden
Modellen kanske inte fungerar bra med icke-engelska språk eftersom modellen tränades på engelskspråkig text
Modellen kan inte generera bra text i bilder

För mer information om begränsningar och fördomar, se Stable Diffusion upscaler modellkort.

Städa upp

När du är klar med att köra anteckningsboken, se till att ta bort alla resurser som skapats i processen för att säkerställa att faktureringen stoppas. Koden för att rensa slutpunkten är tillgänglig i den tillhörande anteckningsbok.

Slutsats

I det här inlägget visade vi hur man distribuerar en förutbildad Stable Diffusion upscaler-modell med JumpStart. Vi visade kodsnuttar i det här inlägget – hela koden med alla steg i den här demon finns i Introduktion till JumpStart – Förbättra bildkvaliteten med hjälp av uppmaning exempel anteckningsbok. Prova lösningen på egen hand och skicka oss dina kommentarer.

För att lära dig mer om modellen och hur den fungerar, se följande resurser:

För att lära dig mer om JumpStart, kolla in följande blogginlägg:

Om författarna

Dr. Vivek Madan är en tillämpad forskare med Amazon SageMaker JumpStart-teamet. Han tog sin doktorsexamen från University of Illinois i Urbana-Champaign och var postdoktor vid Georgia Tech. Han är en aktiv forskare inom maskininlärning och algoritmdesign och har publicerat artiklar på EMNLP-, ICLR-, COLT-, FOCS- och SODA-konferenser.

Heiko Hotz är en senior lösningsarkitekt för AI och maskininlärning med särskilt fokus på Natural Language Processing (NLP), Large Language Models (LLMs) och Generativ AI. Innan den här rollen var han chef för datavetenskap för Amazons EU Customer Service. Heiko hjälper våra kunder att bli framgångsrika i sin AI/ML-resa på AWS och har arbetat med organisationer i många branscher, inklusive försäkring, finansiella tjänster, media och underhållning, hälsovård, verktyg och tillverkning. På fritiden reser Heiko så mycket som möjligt.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/upscale-images-with-stable-diffusion-in-amazon-sagemaker-jumpstart/

Tidsstämpel: Januari 25, 2023

Tidsstämpel: Februari 21, 2023

Återutgiven av Platon

Uppnå fyra gånger högre ML-inferensgenomströmning till tre gånger lägre kostnad per slutledning med Amazon EC2 G5-instanser för NLP- och CV PyTorch-modeller

Snabb och kostnadseffektiv LLaMA 2-finjustering med AWS Trainium | Amazon webbtjänster

Resan för PGA TOURs generativa virtuella AI-assistent, från idé till utveckling till prototyp | Amazon webbtjänster

Sök intelligent Adobe Experience Manager-innehåll med Amazon Kendra | Amazon webbtjänster

AI21 Jurassic-1 foundation modell är nu tillgänglig på Amazon SageMaker

Extrahera insikter från SAP ERP med no-code ML-lösningar med Amazon AppFlow och Amazon SageMaker Canvas

Implementera personliga rekommendationer i realtid med Amazon Personalize | Amazon webbtjänster

AWS och Hugging Face samarbetar för att göra generativ AI mer tillgänglig och kostnadseffektiv

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto