Upscale Images With Stable Diffusion In Amazon SageMaker JumpStart

Újra kiadta Platón

Követő: 0

2022 novemberében mi bejelentés amellyel az AWS ügyfelei képeket generálhatnak szövegből Stabil diffúzió modellek be Amazon SageMaker JumpStart. Ma bejelentünk egy új funkciót, amely lehetővé teszi a képek felnagyítását (a képek átméretezését a minőség romlása nélkül) a JumpStart Stable Diffusion modelljeivel. Az alacsony felbontású, elmosódott és pixeles kép nagy felbontású képpé alakítható, amely simábbnak, tisztábbnak és részletesebbnek tűnik. Ezt a folyamatot, az ún upscaling, valós képekre és által generált képekre egyaránt alkalmazható szöveg-kép Stabil diffúziós modellek. Ez felhasználható a képminőség javítására különböző iparágakban, például az e-kereskedelemben és az ingatlanügyekben, valamint művészek és fotósok számára. Ezenkívül a felskálázás javíthatja a nagy felbontású képernyőkön megjelenített kis felbontású képek vizuális minőségét.

A Stable Diffusion egy mesterséges intelligencia algoritmust használ a képek felskálázásához, így nincs szükség kézi munkára, amely a kép hézagait manuálisan kitöltheti. Több millió képre betanították, és pontosan meg tudja jósolni a nagy felbontású képeket, ami jelentős részletgazdagságot eredményez a hagyományos képfelskálázókhoz képest. Ezenkívül a nem mély tanulási technikáktól, például a legközelebbi szomszédtól eltérően, a Stable Diffusion figyelembe veszi a kép kontextusát, és szöveges felszólítást használ a felskálázási folyamat irányítására.

Ebben a bejegyzésben áttekintést adunk arról, hogyan lehet a Stable Diffusion upscaler modellel kétféleképpen telepíteni és futtatni a következtetést: a JumpStart felhasználói felületén (UI) Amazon SageMaker Studio, és programozottan keresztül JumpStart API-k elérhető a SageMaker Python SDK.

Megoldás áttekintése

A következő képek példákat mutatnak be a modell által végrehajtott felskálázásra. A bal oldalon az eredeti kis felbontású kép látható a modell által generált kép méretéhez igazítva. A jobb oldalon a modell által generált kép látható.

Az első generált kép az alacsony felbontású macskakép és a „fehér macska” üzenet eredménye.

Upscale images with Stable Diffusion in Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A második generált kép az alacsony felbontású pillangókép és a „pillangó zöld levélen” üzenet eredménye.

Upscale images with Stable Diffusion in Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A nagy modellek, például a Stable Diffusion futtatásához egyéni következtetési szkriptekre van szükség. Végpontok közötti teszteket kell futtatnia, hogy megbizonyosodjon arról, hogy a szkript, a modell és a kívánt példány hatékonyan működik együtt. A JumpStart leegyszerűsíti ezt a folyamatot azáltal, hogy használatra kész szkripteket biztosít, amelyeket alaposan teszteltek. Ezeket a szkripteket egy kattintással érheti el a Studio felhasználói felületén, vagy nagyon kevés kódsorral a következőn keresztül JumpStart API-k.

A következő szakaszok áttekintést nyújtanak a modell telepítéséről és a következtetés futtatásáról a Studio UI vagy a JumpStart API-k használatával.

Vegye figyelembe, hogy ennek a modellnek a használatával Ön elfogadja a CreativeML Open RAIL++-M licenc.

A JumpStart elérése a Studio felhasználói felületén keresztül

Ebben a részben bemutatjuk, hogyan lehet betanítani és telepíteni a JumpStart modelleket a Studio felhasználói felületén keresztül. A következő videó bemutatja, hogyan találhatja meg az előre betanított Stable Diffusion upscaler modellt a JumpStarton, és hogyan telepítheti azt. A modelloldal értékes információkat tartalmaz a modellről és annak használatáról. Következtetéshez az ml.p3.2xlarge példánytípust használjuk, mert ez biztosítja az alacsony következtetési késleltetéshez szükséges GPU-gyorsítást alacsony áron. A SageMaker tárhelypéldány konfigurálása után válassza a lehetőséget Telepítése. 5–10 percbe telik, amíg a végpont beindul, és készen áll arra, hogy válaszoljon a következtetési kérésekre.

A következtetéshez szükséges idő felgyorsítása érdekében a JumpStart egy mintajegyzetfüzetet biztosít, amely bemutatja, hogyan lehet következtetést lefuttatni az újonnan létrehozott végponton. A jegyzetfüzet Studio alkalmazásban való eléréséhez válassza a lehetőséget Nyissa meg a Jegyzetfüzetet a Használja a Studio végpontját részt a modell végpont oldalán.

A JumpStart programozott használata a SageMaker SDK-val

A JumpStart felhasználói felülettel néhány kattintással interaktívan telepíthet egy előre betanított modellt. A JumpStart modelleket azonban programozottan is használhatja a SageMaker Python SDK-ba integrált API-k használatával.

Ebben a szakaszban kiválasztunk egy megfelelő előre betanított modellt a JumpStartban, telepítjük ezt a modellt egy SageMaker-végpontra, és következtetést futtatunk a telepített végponton, mindezt a SageMaker Python SDK használatával. A következő példák kódrészleteket tartalmaznak. A teljes kódért a bemutató összes lépésével együtt tekintse meg a Bevezetés a JumpStart-ba – Javítsa a képminőséget felszólítással példafüzet.

Telepítse az előre betanított modellt

A SageMaker Docker-tárolókat használ különféle összeállítási és futásidejű feladatokhoz. A JumpStart a SageMaker Deep Learning tárolók (DLC-k), amelyek keretspecifikusak. Először lekérünk minden további csomagot, valamint szkripteket, amelyekkel kezelhetjük a képzést és a következtetéseket a kiválasztott feladathoz. Ezután az előre betanított modelltermékeket külön lekérik model_uris, amely rugalmasságot biztosít a platform számára. Ez lehetővé teszi több előre betanított modell használatát egyetlen következtetési szkripttel. A következő kód szemlélteti ezt a folyamatot:

model_id, model_version = "model-upscaling-stabilityai-stable-diffusion-x4-upscaler-fp16", "*"
# Retrieve the inference docker container uri
deploy_image_uri = image_uris.retrieve( region=None, framework=None, # automatically inferred from model_id image_scope="inference", model_id=model_id, model_version=model_version, instance_type=inference_instance_type,
)
# Retrieve the inference script uri
deploy_source_uri = script_uris.retrieve(model_id=model_id, model_version=model_version, script_scope="inference") base_model_uri = model_uris.retrieve(model_id=model_id, model_version=model_version, model_scope="inference")

Ezután ezeket az erőforrásokat a SageMaker modell példány és telepítsen egy végpontot:

# Create the SageMaker model instance
model = Model( image_uri=deploy_image_uri, source_dir=deploy_source_uri, model_data=base_model_uri, entry_point="inference.py", # entry point file in source_dir and present in deploy_source_uri role=aws_role, predictor_cls=Predictor, name=endpoint_name,
) # deploy the Model - note that we need to pass the Predictor class when we deploy the model through the Model class,
# in order to run inference through the SageMaker API
base_model_predictor = model.deploy( initial_instance_count=1, instance_type=inference_instance_type, predictor_cls=Predictor, endpoint_name=endpoint_name,
)

Modellünk bevezetése után valós időben kaphatunk előrejelzéseket belőle!

Bemeneti formátum

A végpont kis felbontású képet fogad el nyers RGB-értékként vagy base64 kódolású képként. A következtetéskezelő az alapján dekódolja a képet content_type:

A content_type = “application/json”, a bemeneti hasznos adatnak egy JSON-szótárnak kell lennie a nyers RGB-értékekkel, egy szöveges prompttal és más opcionális paraméterekkel.
A content_type = “application/json;jpeg”, a bemeneti hasznos adatnak egy JSON-szótárnak kell lennie base64 kódolású képpel, szöveges prompttal és egyéb opcionális paraméterekkel

Kimeneti formátum

A következő kódpéldák bepillantást nyújtanak a kimenetek kinézetébe. A bemeneti formátumhoz hasonlóan a végpont a kép vagy egy base64 kódolású kép nyers RGB értékeivel válaszolhat. Ezt beállítással lehet megadni accept a két érték egyikére:

A accept = “application/json”, a végpont a JSON-szótárt adja vissza a kép RGB-értékeivel
A accept = “application/json;jpeg”, a végpont egy JSON-szótárt ad vissza a JPEG-képpel base64.b64 kódolással kódolt bájtokban

Ne feledje, hogy a nyers RGB-értékekkel történő hasznos adat küldése vagy fogadása elérheti a bemeneti hasznos terhelés és a válaszméret alapértelmezett korlátait. Ezért javasoljuk a base64 kódolású kép használatát beállítással content_type = “application/json;jpeg” és a accept = “application/json;jpeg”.

A következő kód egy példa következtetési kérés:

content_type = “application/json;jpeg” # We recommend rescaling the image of low_resolution_image such that both height and width are powers of 2.
# This can be achieved by original_image = Image.open('low_res_image.jpg'); rescaled_image = original_image.rescale((128,128)); rescaled_image.save('rescaled_image.jpg')
with open(low_res_img_file_name,'rb') as f: low_res_image_bytes = f.read() encoded_image = base64.b64encode(bytearray(low_res_image_bytes)).decode() payload = { "prompt": "a cat", "image": encoded_image, "num_inference_steps":50, "guidance_scale":7.5} accept = "application/json;jpeg" def query(model_predictor, payload, content_type, accept): """Query the model predictor.""" query_response = model_predictor.predict( payload, { "ContentType": content_type, "Accept": accept, }, ) return query_response

A végpont válasz egy JSON-objektum, amely tartalmazza a generált képeket és a promptot:

def parse_response(query_response): """Parse response and return the generated images and prompt.""" response_dict = json.loads(query_response) return response_dict["generated_images"], response_dict["prompt"] query_response = query(model_predictor, json.dumps(payload).encode('utf-8'), content_type, accept)
generated_images, prompt = parse_response(query_response)

Támogatott paraméterek

A stabil diffúziós felskálázási modellek számos paramétert támogatnak a képgeneráláshoz:

kép – Alacsony felbontású kép.
azonnali – Felszólítás a képalkotáshoz. Ez lehet karakterlánc vagy karakterláncok listája.
num_inference_steps (nem kötelező) – A zajcsökkentési lépések száma a képgenerálás során. Több lépés jobb minőségű képhez vezet. Ha meg van adva, pozitív egész számnak kell lennie. Vegye figyelembe, hogy több következtetési lépés hosszabb válaszidőt eredményez.
guidance_scale (nem kötelező) – A magasabb útmutatási skála azt eredményezi, hogy a kép szorosabban kapcsolódik a felszólításhoz, a képminőség rovására. Ha meg van adva, akkor úszónak kell lennie. guidance_scale<=1 figyelmen kívül hagyja.
negatív_prompt (nem kötelező) – Ez irányítja a képgenerálást ezzel a felszólítással szemben. Ha meg van adva, akkor karakterláncnak vagy karakterláncok listájának kell lennie, és együtt kell használni guidance_scale. Ha guidance_scale le van tiltva, ez is le van tiltva. Sőt, ha a prompt egy karakterláncok listája, akkor a negatív_promptnak is karakterláncok listájának kell lennie.
mag (opcionális) – Ez rögzíti a véletlenszerű állapotot a reprodukálhatóság érdekében. Ha meg van adva, akkor egész számnak kell lennie. Amikor ugyanazt a promptot ugyanazzal a maggal használja, a kapott kép mindig ugyanaz lesz.
zajszint (opcionális) – Ez zajt ad a látens vektoroknak a felskálázás előtt. Ha meg van adva, akkor egész számnak kell lennie.

Rekurzívan felskálázhat egy képet a végpont ismételt meghívásával, hogy egyre jobb minőségű képeket kapjon.

Képméret és példánytípusok

A modell által generált képek akár négyszer akkorák is lehetnek, mint az eredeti kis felbontású kép. Továbbá a modell memóriaigénye (GPU memória) a generált kép méretével nő. Ezért, ha egy már nagy felbontású képet vagy rekurzívan skáláz fel, válasszon egy nagy GPU-memóriával rendelkező példánytípust. Például az ml.g5.2xlarge több GPU-memóriával rendelkezik, mint a korábban használt ml.p3.2xlarge példánytípus. A különböző példánytípusokkal kapcsolatos további információkért lásd: Amazon EC2 példánytípusok.

A képek darabonkénti felskálázása

A memóriaigény csökkentése érdekében nagy képek felskálázásakor a képet kisebb részekre bonthatja csempe, és minden csempét külön-külön felskálázzon. A csempék felskálázása után összekeverhetők a végső kép létrehozásához. Ez a módszer megköveteli, hogy minden csempéhez igazítsa a promptot, hogy a modell megértse a csempe tartalmát, és elkerülje a furcsa képek létrehozását. A prompt stílus részének konzisztensnek kell maradnia az összes csempénél, hogy megkönnyítse a keverést. Ha nagyobb zajtalanítási beállításokat használ, fontos, hogy pontosabb legyen a promptban, mert a modellnek nagyobb szabadsága van a kép adaptálására. Ez kihívást jelenthet, ha a csempe csak hátteret tartalmaz, vagy nem kapcsolódik közvetlenül a kép fő tartalmához.

Korlátozások és elfogultság

Annak ellenére, hogy a Stable Diffusion lenyűgöző teljesítményt nyújt a felskálázásban, számos korláttól és torzítástól szenved. Ezek közé tartozik, de nem kizárólagosan:

Előfordulhat, hogy a modell nem generál pontos arcokat vagy végtagokat, mert a képzési adatok nem tartalmaznak elegendő képet ezekkel a funkciókkal
A modellt a LAION-5B adatkészlet, amely felnőtt tartalommal rendelkezik, és további megfontolások nélkül nem biztos, hogy alkalmas a termék felhasználására
Előfordulhat, hogy a modell nem működik jól a nem angol nyelvekkel, mert a modellt angol nyelvű szövegre tanították
A modell nem tud jó szöveget generálni a képeken belül

A korlátozásokról és az elfogultságról további információkért tekintse meg a Stable Diffusion upscaler modellkártya.

Tisztítsuk meg

Miután befejezte a jegyzetfüzet futtatását, törölje a folyamat során létrehozott összes erőforrást, hogy biztosítsa a számlázás leállítását. A végpont megtisztításához szükséges kód a kapcsolódó oldalon érhető el jegyzetfüzet.

Következtetés

Ebben a bejegyzésben bemutattuk, hogyan telepíthet egy előre betanított Stable Diffusion upscaler modellt a JumpStart segítségével. Ebben a bejegyzésben kódrészleteket mutattunk be – a teljes kód a bemutató összes lépésével a következő helyen érhető el: Bevezetés a JumpStart-ba – Javítsa a képminőséget felszólítással példafüzet. Próbálja ki a megoldást saját maga, és küldje el nekünk észrevételeit.

Ha többet szeretne megtudni a modellről és működéséről, tekintse meg a következő forrásokat:

Ha többet szeretne megtudni a JumpStartról, tekintse meg a következő blogbejegyzéseket:

A szerzőkről

Dr. Vivek Madan az Amazon SageMaker JumpStart csapatának alkalmazott tudósa. PhD fokozatát az Illinoisi Egyetemen szerezte, az Urbana-Champaign-ben, és a Georgia Tech posztdoktori kutatója volt. Aktív kutatója a gépi tanulásnak és az algoritmustervezésnek, és publikált előadásokat EMNLP, ICLR, COLT, FOCS és SODA konferenciákon.

Heiko Hotz a mesterséges intelligencia és a gépi tanulás vezető megoldástervezője, különös tekintettel a természetes nyelvi feldolgozásra (NLP), a nagy nyelvi modellekre (LLM) és a generatív mesterséges intelligenciára. Ezt megelőzően az Amazon EU-s ügyfélszolgálatának adattudományi vezetője volt. A Heiko segít ügyfeleinknek abban, hogy sikeresek legyenek az AI/ML-útjuk során az AWS-ben, és számos iparágban dolgozott együtt szervezetekkel, beleértve a biztosítást, a pénzügyi szolgáltatásokat, a médiát és a szórakoztatást, az egészségügyet, a közműveket és a gyártást. Szabadidejében Heiko minél többet utazik.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/upscale-images-with-stable-diffusion-in-amazon-sagemaker-jumpstart/

Időbélyeg: Január 25, 2023

Időbélyeg: 21. február 2023.

Újra kiadta Platón

Négyszer nagyobb ML következtetési átviteli sebességet érhet el háromszor alacsonyabb következtetésenkénti költséggel az Amazon EC2 G5 példányaival NLP és CV PyTorch modellekhez

Gyors és költséghatékony LLaMA 2 finomhangolás az AWS Trainium | Amazon webszolgáltatások

A PGA TOUR generatív AI virtuális asszisztensének útja a koncepciótól a fejlesztésen át a prototípusig | Amazon webszolgáltatások

Intelligens keresés az Adobe Experience Manager tartalmában az Amazon Kendra | segítségével Amazon webszolgáltatások

Az AI21 Jurassic-1 alapozómodell már elérhető az Amazon SageMakeren

Szerezzen betekintést az SAP ERP-ből kód nélküli ML megoldásokkal az Amazon AppFlow és az Amazon SageMaker Canvas segítségével

Valós idejű, személyre szabott ajánlások megvalósítása az Amazon Personalize | segítségével Amazon webszolgáltatások

Az AWS és a Hugging Face együttműködve teszik elérhetőbbé és költséghatékonyabbá a generatív AI-t

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók