Tasokkaat kuvat vakaalla diffuusiolla Amazon SageMaker JumpStartissa

Julkaissut Platon

seuraajia: 0

Marraskuussa 2022 me ilmoitti jolla AWS-asiakkaat voivat luoda kuvia tekstistä Vakaa diffuusio malleja Amazon SageMaker JumpStart. Tänään julkistamme uuden ominaisuuden, jonka avulla voit skaalata kuvia (muuttaa kuvien kokoa laadun heikkenemättä) JumpStartin Stable Diffusion -malleilla. Matalaresoluutioinen, epäselvä ja pikselöity kuva voidaan muuntaa korkearesoluutioiseksi kuvaksi, joka näyttää tasaisemmalta, selkeämmältä ja yksityiskohtaisemmalta. Tämä prosessi ns skaalaus, voidaan soveltaa sekä oikeisiin kuviin että luomiin kuviin tekstistä kuvaksi vakaat diffuusiomallit. Tätä voidaan käyttää kuvanlaadun parantamiseen eri aloilla, kuten verkkokaupassa ja kiinteistöalalla, sekä taiteilijoille ja valokuvaajille. Lisäksi skaalaus voi parantaa matalaresoluutioisten kuvien visuaalista laatua, kun ne näytetään korkearesoluutioisilla näytöillä.

Vakaa diffuusio käyttää tekoälyalgoritmia kuvien skaalaamiseen, mikä eliminoi manuaalisen työn tarpeen, joka saattaa edellyttää kuvan aukkojen manuaalista täyttämistä. Se on koulutettu miljooniin kuviin, ja se voi ennustaa tarkasti korkearesoluutioisia kuvia, mikä lisää huomattavasti yksityiskohtia perinteisiin kuvan parannuskeinoihin verrattuna. Lisäksi, toisin kuin ei-syväoppivat tekniikat, kuten lähin naapuri, Stable Diffusion ottaa huomioon kuvan kontekstin ja käyttää tekstikehotetta ohjaamaan skaalausprosessia.

Tässä viestissä annamme yleiskatsauksen siitä, kuinka Stable Diffusion Upscaler -mallin avulla voidaan ottaa käyttöön ja suorittaa päätelmiä kahdella tavalla: JumpStartin käyttöliittymän (UI) kautta Amazon SageMaker Studio, ja ohjelmallisesti läpi JumpStart API:t saatavana SageMaker Python SDK.

Ratkaisun yleiskatsaus

Seuraavissa kuvissa on esimerkkejä mallin suorittamasta skaalauksesta. Vasemmalla on alkuperäinen matalaresoluutioinen kuva suurennettuna vastaamaan mallin luoman kuvan kokoa. Oikealla on mallin luoma kuva.

Ensimmäinen luotu kuva on tulosta matalaresoluutioisesta kissakuvasta ja kehotteesta "valkoinen kissa".

Korkeatasoiset kuvat vakaalla diffuusiolla Amazon SageMaker JumpStart PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Toinen luotu kuva on tulosta matalaresoluutioisesta perhoskuvasta ja kehotteesta "perhonen vihreällä lehdellä".

Korkeatasoiset kuvat vakaalla diffuusiolla Amazon SageMaker JumpStart PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Suurten mallien, kuten Stable Diffusion, käyttäminen vaatii mukautettuja päättelykomentosarjoja. Sinun on suoritettava päästä päähän -testejä varmistaaksesi, että komentosarja, malli ja haluttu ilmentymä toimivat yhdessä tehokkaasti. JumpStart yksinkertaistaa tätä prosessia tarjoamalla käyttövalmiita komentosarjoja, jotka on testattu vankasti. Voit käyttää näitä komentosarjoja yhdellä napsautuksella Studion käyttöliittymän kautta tai vain harvoilla koodiriveillä JumpStart API:t.

Seuraavissa osissa on yleiskatsaus mallin käyttöönotosta ja päättelyn suorittamisesta joko Studio-käyttöliittymän tai JumpStart-sovellusliittymien avulla.

Huomaa, että käyttämällä tätä mallia hyväksyt CreativeML Open RAIL++-M -lisenssi.

Käytä JumpStartia Studion käyttöliittymän kautta

Tässä osiossa esittelemme, kuinka JumpStart-malleja koulutetaan ja otetaan käyttöön Studio-käyttöliittymän kautta. Seuraava video näyttää, kuinka esikoulutettu Stable Diffusion upscaler -malli löytyy JumpStartista ja otetaan käyttöön. Mallisivulla on arvokasta tietoa mallista ja sen käytöstä. Päätelmien tekemiseen käytämme ml.p3.2xlarge ilmentymätyyppiä, koska se tarjoaa GPU-kiihdytyksen, joka tarvitaan alhaiseen päättelyviiveeseen alhaisella hinnalla. Kun olet määrittänyt SageMaker-isännöintiesiintymän, valitse Sijoittaa. Kestää 5–10 minuuttia, ennen kuin päätepiste on valmis ja valmis vastaamaan päättelypyyntöihin.

Päätelmän tekemiseen kuluvan ajan nopeuttamiseksi JumpStart tarjoaa mallimuistikirjan, joka näyttää, kuinka johtopäätös suoritetaan äskettäin luodulle päätepisteelle. Voit käyttää muistikirjaa Studiossa valitsemalla Avaa Muistikirja vuonna Käytä Endpointia Studiosta mallin päätepistesivun osio.

Käytä JumpStartia ohjelmallisesti SageMaker SDK:n kanssa

JumpStart-käyttöliittymän avulla voit ottaa esikoulutetun mallin käyttöön interaktiivisesti muutamalla napsautuksella. Voit kuitenkin käyttää JumpStart-malleja myös ohjelmallisesti käyttämällä sovellusliittymiä, jotka on integroitu SageMaker Python SDK:han.

Tässä osiossa valitsemme JumpStartissa sopivan valmiiksi koulutetun mallin, otamme tämän mallin käyttöön SageMaker-päätepisteeseen ja suoritamme päättelyn käyttöönotetusta päätepisteestä käyttäen SageMaker Python SDK:ta. Seuraavat esimerkit sisältävät koodinpätkät. Katso täydellinen koodi ja kaikki tämän esittelyn vaiheet kohdasta Johdatus JumpStartiin – Paranna kuvanlaatua kehotteen ohjaamana muistikirja esimerkkinä.

Ota esikoulutettu malli käyttöön

SageMaker käyttää Docker-säiliöitä erilaisiin rakennus- ja ajonaikaisiin tehtäviin. JumpStart käyttää SageMaker Deep Learning -säiliöt (DLC:t), jotka ovat kehyskohtaisia. Haemme ensin mahdolliset lisäpaketit sekä komentosarjat valitun tehtävän koulutusta ja päätelmiä varten. Sitten esiopetetut malliesineet haetaan erikseen model_uris, joka tarjoaa alustalle joustavuutta. Tämä mahdollistaa useiden esikoulutettujen mallien käytön yhdellä päättelykomentosarjalla. Seuraava koodi havainnollistaa tätä prosessia:

model_id, model_version = "model-upscaling-stabilityai-stable-diffusion-x4-upscaler-fp16", "*"
# Retrieve the inference docker container uri
deploy_image_uri = image_uris.retrieve( region=None, framework=None, # automatically inferred from model_id image_scope="inference", model_id=model_id, model_version=model_version, instance_type=inference_instance_type,
)
# Retrieve the inference script uri
deploy_source_uri = script_uris.retrieve(model_id=model_id, model_version=model_version, script_scope="inference") base_model_uri = model_uris.retrieve(model_id=model_id, model_version=model_version, model_scope="inference")

Seuraavaksi tarjoamme nämä resurssit a SageMaker malli esiintyy ja ota käyttöön päätepiste:

# Create the SageMaker model instance
model = Model( image_uri=deploy_image_uri, source_dir=deploy_source_uri, model_data=base_model_uri, entry_point="inference.py", # entry point file in source_dir and present in deploy_source_uri role=aws_role, predictor_cls=Predictor, name=endpoint_name,
) # deploy the Model - note that we need to pass the Predictor class when we deploy the model through the Model class,
# in order to run inference through the SageMaker API
base_model_predictor = model.deploy( initial_instance_count=1, instance_type=inference_instance_type, predictor_cls=Predictor, endpoint_name=endpoint_name,
)

Kun mallimme on otettu käyttöön, voimme saada siitä ennusteita reaaliajassa!

Syöttömuoto

Päätepiste hyväksyy matalaresoluutioisen kuvan raaka-RGB-arvoina tai base64-koodatun kuvan. Päätelmien käsittelijä purkaa kuvan sen perusteella content_type:

varten content_type = “application/json”, syöttöhyötykuorman on oltava JSON-sanakirja, jossa on raaka-RGB-arvot, tekstikehote ja muut valinnaiset parametrit.
varten content_type = “application/json;jpeg”, syöttöhyötykuorman on oltava JSON-sanakirja, jossa on base64-koodattu kuva, tekstikehote ja muut valinnaiset parametrit

Tulostusmuoto

Seuraavat koodiesimerkit antavat sinulle välähdyksen siitä, miltä lähdöt näyttävät. Samoin kuin syöttömuodossa, päätepiste voi vastata kuvan raaka-RGB-arvoilla tai base64-koodatulla kuvalla. Tämä voidaan määrittää asetuksilla accept johonkin kahdesta arvosta:

varten accept = “application/json”, päätepiste palauttaa JSON-sanakirjan kuvan RGB-arvoineen
varten accept = “application/json;jpeg”, päätepiste palauttaa JSON-sanakirjan, jossa on JPEG-kuva tavuina base64.b64-koodauksella

Huomaa, että hyötykuorman lähettäminen tai vastaanottaminen raaka-RGB-arvoilla voi saavuttaa syötteen hyötykuorman ja vastauskoon oletusrajat. Siksi suosittelemme käyttämään base64-koodattua kuvaa asettamalla content_type = “application/json;jpeg” ja accept = “application/json;jpeg”.

Seuraava koodi on esimerkki johtopäätöspyynnöstä:

content_type = “application/json;jpeg” # We recommend rescaling the image of low_resolution_image such that both height and width are powers of 2.
# This can be achieved by original_image = Image.open('low_res_image.jpg'); rescaled_image = original_image.rescale((128,128)); rescaled_image.save('rescaled_image.jpg')
with open(low_res_img_file_name,'rb') as f: low_res_image_bytes = f.read() encoded_image = base64.b64encode(bytearray(low_res_image_bytes)).decode() payload = { "prompt": "a cat", "image": encoded_image, "num_inference_steps":50, "guidance_scale":7.5} accept = "application/json;jpeg" def query(model_predictor, payload, content_type, accept): """Query the model predictor.""" query_response = model_predictor.predict( payload, { "ContentType": content_type, "Accept": accept, }, ) return query_response

Päätepisteen vastaus on JSON-objekti, joka sisältää luodut kuvat ja kehotteen:

def parse_response(query_response): """Parse response and return the generated images and prompt.""" response_dict = json.loads(query_response) return response_dict["generated_images"], response_dict["prompt"] query_response = query(model_predictor, json.dumps(payload).encode('utf-8'), content_type, accept)
generated_images, prompt = parse_response(query_response)

Tuetut parametrit

Vakaan diffuusion skaalausmallit tukevat monia parametreja kuvan luomiseen:

kuva – Matalaresoluutioinen kuva.
nopea – Keho, joka ohjaa kuvan luomista. Se voi olla merkkijono tai merkkijonoluettelo.
num_inference_steps (valinnainen) – Kohinanpoistovaiheiden määrä kuvan luomisen aikana. Useammat vaiheet johtavat laadukkaampaan kuvaan. Jos määritetään, sen on oltava positiivinen kokonaisluku. Huomaa, että useampi päättelyvaihe johtaa pidempään vasteaikaan.
guidance_scale (valinnainen) – Korkeampi ohjausasteikko johtaa siihen, että kuva liittyy lähemmin kehotteeseen kuvanlaadun kustannuksella. Jos määritetään, sen on oltava kelluva. guidance_scale<=1 ohitetaan.
negatiivinen_kehote (valinnainen) – Tämä ohjaa kuvan luomista tätä kehotetta vastaan. Jos se on määritetty, sen on oltava merkkijono tai merkkijonoluettelo ja sitä on käytettävä guidance_scale. Jos guidance_scale on poistettu käytöstä, myös tämä on poistettu käytöstä. Lisäksi, jos kehote on merkkijonoluettelo, negatiivisen_kehotteen on myös oltava merkkijonoluettelo.
siemenet (valinnainen) – Tämä korjaa satunnaistetun tilan toistettavuutta varten. Jos määritetään, sen on oltava kokonaisluku. Aina kun käytät samaa kehotetta samalla siemenellä, tuloksena oleva kuva on aina sama.
melutaso (valinnainen) – Tämä lisää kohinaa piileviin vektoreihin ennen skaalausta. Jos määritetään, sen on oltava kokonaisluku.

Voit skaalata kuvaa rekursiivisesti kutsumalla päätepistettä toistuvasti saadaksesi parempia ja laadukkaampia kuvia.

Kuvan koko ja esiintymätyypit

Mallin luomat kuvat voivat olla jopa neljä kertaa alkuperäisen matalaresoluutioisen kuvan kokoisia. Lisäksi mallin muistitarve (GPU-muisti) kasvaa generoidun kuvan koon myötä. Siksi, jos skaalaat jo korkearesoluutioista kuvaa tai rekursiivisesti nostat kuvia, valitse ilmentymätyyppi, jossa on suuri GPU-muisti. Esimerkiksi ml.g5.2xlarge sisältää enemmän GPU-muistia kuin aiemmin käyttämämme ml.p3.2xlarge ilmentymätyyppi. Lisätietoja eri instanssityypeistä on kohdassa Amazon EC2-instanssityypit.

Kuvien skaalaus pala palalta

Voit vähentää muistin tarvetta suuria kuvia skaalattaessa jakamalla kuvan pienempiin osiin, joita kutsutaan nimellä laatatja skaalaa jokainen laatta erikseen. Kun laatat on skaalattu, ne voidaan sekoittaa yhteen lopullisen kuvan luomiseksi. Tämä menetelmä edellyttää kehotteen mukauttamista jokaiselle ruudulle, jotta malli voi ymmärtää ruudun sisällön ja välttää outojen kuvien luomista. Kehotteen tyyliosan tulee pysyä yhtenäisenä kaikissa laatoissa sekoittamisen helpottamiseksi. Käytettäessä korkeampia kohinanvaimennusasetuksia on tärkeää olla tarkempi kehotteessa, koska mallilla on enemmän vapautta muokata kuvaa. Tämä voi olla haastavaa, kun laatta sisältää vain taustan tai ei liity suoraan kuvan pääsisältöön.

Rajoitukset ja ennakkoluulot

Vaikka Stable Diffusionilla on vaikuttava suorituskyky skaalauksessa, se kärsii useista rajoituksista ja harhoista. Näitä ovat muun muassa:

Malli ei välttämättä luo tarkkoja kasvoja tai raajoja, koska harjoitustiedot eivät sisällä riittävästi kuvia näillä ominaisuuksilla
Malli on koulutettu LAION-5B tietojoukko, joka sisältää vain aikuisille suunnattua sisältöä ja joka ei välttämättä sovellu tuotteen käyttöön ilman lisähuomiota
Malli ei välttämättä toimi hyvin muiden kuin englannin kielten kanssa, koska malli on koulutettu englanninkielisellä tekstillä
Malli ei voi luoda hyvää tekstiä kuviin

Lisätietoja rajoituksista ja harhoista on kohdassa Stable Diffusion upscaler mallikortti.

Puhdistaa

Kun olet lopettanut muistikirjan käyttämisen, muista poistaa kaikki prosessin aikana luodut resurssit varmistaaksesi, että laskutus pysäytetään. Koodi päätepisteen puhdistamiseksi on saatavilla liitetyssä osiossa muistikirja.

Yhteenveto

Tässä viestissä osoitimme, kuinka esikoulutettu Stable Diffusion upscaler -malli otetaan käyttöön JumpStartin avulla. Tässä viestissä näytimme koodinpätkät – koko koodi ja kaikki tämän esittelyn vaiheet ovat saatavilla osoitteessa Johdatus JumpStartiin – Paranna kuvanlaatua kehotteen ohjaamana esimerkkimuistikirja. Kokeile ratkaisua itse ja lähetä meille kommenttisi.

Saat lisätietoja mallista ja sen toiminnasta seuraavissa resursseissa:

Jos haluat lisätietoja JumpStartista, tutustu seuraaviin blogikirjoituksiin:

Tietoja Tekijät

Tohtori Vivek Madan on soveltuva tutkija Amazon SageMaker JumpStart -tiimin kanssa. Hän sai tohtorin tutkinnon Illinoisin yliopistosta Urbana-Champaignissa ja oli tutkijatohtorina Georgia Techissä. Hän on aktiivinen koneoppimisen ja algoritmisuunnittelun tutkija ja julkaissut julkaisuja EMNLP-, ICLR-, COLT-, FOCS- ja SODA-konferensseissa.

Heiko Hotz on tekoälyn ja koneoppimisen vanhempi ratkaisuarkkitehti, joka keskittyy erityisesti luonnollisen kielen käsittelyyn (NLP), suuriin kielimalleihin (LLM) ja generatiiviseen tekoälyyn. Ennen tätä tehtävää hän toimi Amazonin EU-asiakaspalvelun datatieteen johtajana. Heiko auttaa asiakkaitamme menestymään AI/ML-matkallaan AWS:ssä ja on työskennellyt organisaatioiden kanssa monilla toimialoilla, mukaan lukien vakuutus-, rahoitus-, media- ja viihde-, terveydenhuolto-, yleishyödylliset palvelut ja valmistus. Vapaa-ajallaan Heiko matkustaa niin paljon kuin mahdollista.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/upscale-images-with-stable-diffusion-in-amazon-sagemaker-jumpstart/

Aikaleima: Tammikuu 25, 2023

Aikaleima: Huhtikuu 24, 2024

Julkaissut Platon

Opi kuinka Amazon SageMaker Clarify auttaa havaitsemaan harhaa

Paranna tiedonpoistoa ja asiakirjojen käsittelyä Amazon Textractin avulla

Edistä ominaisuuksien löytämistä ja uudelleenkäyttöä organisaatiossasi käyttämällä Amazon SageMaker Feature Storea ja sen ominaisuustason metatietoominaisuuksia

Amazon Redshiftin ja RStudion yhdistäminen Amazon SageMakerissa

Amazon Kendra Box -liittimen käytön aloittaminen

Paranna Amazon Rekognition Face Searchin tarkkuutta käyttäjävektoreilla | Amazon Web Services

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili