Gambar Kelas Atas Dengan Difusi Stabil Di Amazon SageMaker JumpStart

Diterbitkan Ulang Oleh Plato

Followers: 0

Pada November 2022, kami mengumumkan yang dapat digunakan pelanggan AWS untuk menghasilkan gambar dari teks Difusi Stabil model dalam Mulai Lompatan Amazon SageMaker. Hari ini, kami mengumumkan fitur baru yang memungkinkan Anda memperbesar gambar (mengubah ukuran gambar tanpa kehilangan kualitas) dengan model Difusi Stabil di JumpStart. Gambar beresolusi rendah, buram, dan berpiksel dapat diubah menjadi gambar beresolusi tinggi yang tampak lebih halus, lebih jelas, dan lebih detail. Proses ini, disebut upscaling, dapat diterapkan pada gambar nyata dan gambar yang dihasilkan oleh model Difusi Stabil teks-ke-gambar. Ini dapat digunakan untuk meningkatkan kualitas gambar di berbagai industri seperti e-commerce dan real estate, serta untuk seniman dan fotografer. Selain itu, upscaling dapat meningkatkan kualitas visual gambar beresolusi rendah saat ditampilkan di layar beresolusi tinggi.

Difusi Stabil menggunakan algoritme AI untuk meningkatkan gambar, menghilangkan kebutuhan akan pekerjaan manual yang mungkin memerlukan pengisian celah secara manual pada gambar. Ini telah dilatih pada jutaan gambar dan dapat secara akurat memprediksi gambar beresolusi tinggi, menghasilkan peningkatan detail yang signifikan dibandingkan dengan peningkatan skala gambar tradisional. Selain itu, tidak seperti teknik non-deep-learning seperti tetangga terdekat, Stable Diffusion mempertimbangkan konteks gambar, menggunakan petunjuk tekstual untuk memandu proses peningkatan.

Dalam postingan ini, kami memberikan ikhtisar tentang cara menerapkan dan menjalankan inferensi dengan model peningkatan Difusi Stabil dalam dua cara: melalui antarmuka pengguna (UI) JumpStart di Studio Amazon SageMaker, dan secara terprogram melalui API JumpStart tersedia di SDK Python SageMaker.

Ikhtisar solusi

Gambar berikut menunjukkan contoh upscaling yang dilakukan oleh model. Di sebelah kiri adalah gambar asli beresolusi rendah yang diperbesar agar sesuai dengan ukuran gambar yang dihasilkan oleh model. Di sebelah kanan adalah gambar yang dihasilkan oleh model.

Gambar yang dihasilkan pertama adalah hasil dari gambar kucing beresolusi rendah dan perintah "kucing putih".

Gambar kelas atas dengan Difusi Stabil di Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Gambar yang dihasilkan kedua adalah hasil gambar kupu-kupu beresolusi rendah dan perintah "kupu-kupu di atas daun hijau".

Gambar kelas atas dengan Difusi Stabil di Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Menjalankan model besar seperti Stable Diffusion memerlukan skrip inferensi khusus. Anda harus menjalankan pengujian end-to-end untuk memastikan bahwa skrip, model, dan instance yang diinginkan bekerja sama secara efisien. JumpStart menyederhanakan proses ini dengan menyediakan skrip siap pakai yang telah diuji dengan kuat. Anda dapat mengakses skrip ini dengan satu klik melalui Studio UI atau dengan sangat sedikit baris kode melalui API JumpStart.

Bagian berikut memberikan ikhtisar tentang cara menerapkan model dan menjalankan inferensi menggunakan Studio UI atau JumpStart API.

Perhatikan bahwa dengan menggunakan model ini, Anda menyetujui Lisensi CreativeML Open RAIL++-M.

Akses JumpStart melalui UI Studio

Di bagian ini, kami mendemonstrasikan cara melatih dan menerapkan model JumpStart melalui UI Studio. Video berikut menunjukkan cara menemukan model upscaler Stable Diffusion pra-pelatihan di JumpStart dan menerapkannya. Halaman model berisi informasi berharga tentang model dan cara menggunakannya. Untuk inferensi, kami menggunakan jenis instans ml.p3.2xlarge karena memberikan akselerasi GPU yang diperlukan untuk latensi inferensi rendah pada titik harga rendah. Setelah Anda mengonfigurasi instans hosting SageMaker, pilih Menyebarkan. Diperlukan waktu 5–10 menit hingga titik akhir aktif dan berjalan serta siap merespons permintaan inferensi.

Untuk mempercepat waktu inferensi, JumpStart menyediakan contoh notebook yang menunjukkan cara menjalankan inferensi pada titik akhir yang baru dibuat. Untuk mengakses buku catatan di Studio, pilih Buka Buku Catatan dalam Gunakan Endpoint dari Studio bagian dari halaman titik akhir model.

Gunakan JumpStart secara terprogram dengan SageMaker SDK

Anda dapat menggunakan UI JumpStart untuk menerapkan model terlatih secara interaktif hanya dengan beberapa klik. Namun, Anda juga dapat menggunakan model JumpStart secara terprogram dengan menggunakan API yang terintegrasi ke dalam SageMaker Python SDK.

Di bagian ini, kami memilih model terlatih yang sesuai di JumpStart, menerapkan model ini ke titik akhir SageMaker, dan menjalankan inferensi pada titik akhir yang diterapkan, semuanya menggunakan SageMaker Python SDK. Contoh berikut berisi cuplikan kode. Untuk kode lengkap dengan semua langkah dalam demo ini, lihat Pengantar JumpStart – Tingkatkan kualitas gambar yang dipandu oleh prompt contoh buku catatan.

Deploy model yang telah dilatih sebelumnya

SageMaker menggunakan kontainer Docker untuk berbagai tugas build dan runtime. JumpStart menggunakan Wadah Pembelajaran Mendalam SageMaker (DLC) yang spesifik kerangka kerja. Kami pertama-tama mengambil paket tambahan apa pun, serta skrip untuk menangani pelatihan dan inferensi untuk tugas yang dipilih. Kemudian artefak model pra-pelatihan diambil secara terpisah model_uris, yang memberikan fleksibilitas pada platform. Hal ini memungkinkan beberapa model terlatih untuk digunakan dengan satu skrip inferensi. Kode berikut mengilustrasikan proses ini:

model_id, model_version = "model-upscaling-stabilityai-stable-diffusion-x4-upscaler-fp16", "*"
# Retrieve the inference docker container uri
deploy_image_uri = image_uris.retrieve( region=None, framework=None, # automatically inferred from model_id image_scope="inference", model_id=model_id, model_version=model_version, instance_type=inference_instance_type,
)
# Retrieve the inference script uri
deploy_source_uri = script_uris.retrieve(model_id=model_id, model_version=model_version, script_scope="inference") base_model_uri = model_uris.retrieve(model_id=model_id, model_version=model_version, model_scope="inference")

Selanjutnya, kami menyediakan sumber daya tersebut ke dalam a Model SageMaker contoh dan gunakan titik akhir:

# Create the SageMaker model instance
model = Model( image_uri=deploy_image_uri, source_dir=deploy_source_uri, model_data=base_model_uri, entry_point="inference.py", # entry point file in source_dir and present in deploy_source_uri role=aws_role, predictor_cls=Predictor, name=endpoint_name,
) # deploy the Model - note that we need to pass the Predictor class when we deploy the model through the Model class,
# in order to run inference through the SageMaker API
base_model_predictor = model.deploy( initial_instance_count=1, instance_type=inference_instance_type, predictor_cls=Predictor, endpoint_name=endpoint_name,
)

Setelah model kita di-deploy, kita bisa mendapatkan prediksi darinya secara real time!

Masukkan format

Titik akhir menerima gambar beresolusi rendah sebagai nilai RGB mentah atau gambar berenkode base64. Penangan inferensi menerjemahkan gambar berdasarkan content_type:

Untuk content_type = “application/json”, payload input harus berupa kamus JSON dengan nilai RGB mentah, perintah tekstual, dan parameter opsional lainnya
Untuk content_type = “application/json;jpeg”, muatan input harus berupa kamus JSON dengan gambar berenkode base64, perintah tekstual, dan parameter opsional lainnya

Format output

Contoh kode berikut memberi Anda gambaran sekilas seperti apa keluarannya. Mirip dengan format input, titik akhir dapat merespons dengan nilai RGB mentah dari gambar atau gambar yang disandikan base64. Ini dapat ditentukan dengan pengaturan accept ke salah satu dari dua nilai:

Untuk accept = “application/json”, titik akhir mengembalikan kamus JSON dengan nilai RGB untuk gambar
Untuk accept = “application/json;jpeg”, titik akhir mengembalikan kamus JSON dengan gambar JPEG sebagai byte yang dikodekan dengan pengkodean base64.b64

Perhatikan bahwa mengirim atau menerima muatan dengan nilai RGB mentah mungkin mencapai batas default untuk muatan input dan ukuran respons. Oleh karena itu, sebaiknya gunakan gambar yang disandikan base64 dengan pengaturan content_type = “application/json;jpeg” dan accept = “application/json;jpeg”.

Kode berikut adalah contoh permintaan inferensi:

content_type = “application/json;jpeg” # We recommend rescaling the image of low_resolution_image such that both height and width are powers of 2.
# This can be achieved by original_image = Image.open('low_res_image.jpg'); rescaled_image = original_image.rescale((128,128)); rescaled_image.save('rescaled_image.jpg')
with open(low_res_img_file_name,'rb') as f: low_res_image_bytes = f.read() encoded_image = base64.b64encode(bytearray(low_res_image_bytes)).decode() payload = { "prompt": "a cat", "image": encoded_image, "num_inference_steps":50, "guidance_scale":7.5} accept = "application/json;jpeg" def query(model_predictor, payload, content_type, accept): """Query the model predictor.""" query_response = model_predictor.predict( payload, { "ContentType": content_type, "Accept": accept, }, ) return query_response

Respons titik akhir adalah objek JSON yang berisi gambar yang dihasilkan dan prompt:

def parse_response(query_response): """Parse response and return the generated images and prompt.""" response_dict = json.loads(query_response) return response_dict["generated_images"], response_dict["prompt"] query_response = query(model_predictor, json.dumps(payload).encode('utf-8'), content_type, accept)
generated_images, prompt = parse_response(query_response)

Parameter yang didukung

Model upscaling Difusi Stabil mendukung banyak parameter untuk pembuatan gambar:

gambar – Gambar beresolusi rendah.
cepat – Perintah untuk memandu pembuatan gambar. Itu bisa berupa string atau daftar string.
num_inference_steps (opsional) – Jumlah langkah denoising selama pembuatan gambar. Lebih banyak langkah menghasilkan gambar berkualitas lebih tinggi. Jika ditentukan, itu harus berupa bilangan bulat positif. Perhatikan bahwa lebih banyak langkah inferensi akan menghasilkan waktu respons yang lebih lama.
skala_panduan (opsional) – Skala panduan yang lebih tinggi menghasilkan gambar yang lebih dekat hubungannya dengan prompt, dengan mengorbankan kualitas gambar. Jika ditentukan, itu harus pelampung. guidance_scale<=1 diabaikan.
negatif_prompt (opsional) – Ini memandu pembuatan gambar melawan prompt ini. Jika ditentukan, itu harus berupa string atau daftar string dan digunakan dengan guidance_scale. Jika guidance_scale dinonaktifkan, ini juga dinonaktifkan. Selain itu, jika prompt adalah daftar string, maka negative_prompt juga harus berupa daftar string.
benih (opsional) – Ini memperbaiki keadaan acak untuk reproduktifitas. Jika ditentukan, itu harus bilangan bulat. Setiap kali Anda menggunakan prompt yang sama dengan seed yang sama, gambar yang dihasilkan akan selalu sama.
tingkat_kebisingan (opsional) – Ini menambahkan noise ke vektor laten sebelum peningkatan. Jika ditentukan, itu harus bilangan bulat.

Anda dapat meningkatkan skala gambar secara rekursif dengan memanggil titik akhir berulang kali untuk mendapatkan gambar dengan kualitas yang lebih tinggi dan lebih tinggi.

Ukuran gambar dan jenis instans

Gambar yang dihasilkan oleh model dapat berukuran hingga empat kali ukuran gambar asli beresolusi rendah. Selain itu, kebutuhan memori model (memori GPU) tumbuh dengan ukuran gambar yang dihasilkan. Oleh karena itu, jika Anda meningkatkan gambar beresolusi tinggi atau meningkatkan gambar secara rekursif, pilih jenis instans dengan memori GPU yang besar. Misalnya, ml.g5.2xlarge memiliki lebih banyak memori GPU daripada jenis instans ml.p3.2xlarge yang kita gunakan sebelumnya. Untuk informasi selengkapnya tentang berbagai jenis instans, lihat Jenis Instans Amazon EC2.

Meningkatkan gambar sepotong demi sepotong

Untuk mengurangi kebutuhan memori saat memperbesar gambar besar, Anda dapat memecah gambar menjadi beberapa bagian yang lebih kecil, yang dikenal sebagai ubin, dan tingkatkan setiap ubin satu per satu. Setelah ubin ditingkatkan, mereka dapat dicampur bersama untuk membuat gambar akhir. Metode ini memerlukan penyesuaian perintah untuk setiap petak sehingga model dapat memahami konten petak dan menghindari pembuatan gambar yang aneh. Bagian gaya prompt harus tetap konsisten untuk semua petak agar pencampuran lebih mudah. Saat menggunakan pengaturan denoising yang lebih tinggi, penting untuk lebih spesifik dalam prompt karena model memiliki lebih banyak kebebasan untuk mengadaptasi gambar. Hal ini dapat menjadi tantangan saat petak hanya berisi latar belakang atau tidak terkait langsung dengan konten utama gambar.

Keterbatasan dan bias

Meskipun Stable Diffusion memiliki performa yang mengesankan dalam upscaling, ia mengalami beberapa keterbatasan dan bias. Ini termasuk tetapi tidak terbatas pada:

Model mungkin tidak menghasilkan wajah atau anggota tubuh yang akurat karena data pelatihan tidak menyertakan gambar yang memadai dengan fitur ini
Model dilatih di Kumpulan data LAION-5B, yang memiliki konten khusus dewasa dan mungkin tidak sesuai untuk penggunaan produk tanpa pertimbangan lebih lanjut
Model mungkin tidak bekerja dengan baik dengan bahasa non-Inggris karena model dilatih pada teks bahasa Inggris
Model tidak dapat menghasilkan teks yang bagus di dalam gambar

Untuk informasi lebih lanjut tentang keterbatasan dan bias, lihat Kartu model upscaler Difusi Stabil.

Membersihkan

Setelah Anda selesai menjalankan notebook, pastikan untuk menghapus semua sumber daya yang dibuat dalam proses untuk memastikan penagihan dihentikan. Kode untuk membersihkan titik akhir tersedia di terkait buku catatan.

Kesimpulan

Dalam postingan ini, kami menunjukkan cara menerapkan model upscaler Stable Diffusion pra-pelatihan menggunakan JumpStart. Kami menunjukkan cuplikan kode di pos ini—kode lengkap dengan semua langkah dalam demo ini tersedia di Pengantar JumpStart – Tingkatkan kualitas gambar yang dipandu oleh prompt contoh buku catatan. Cobalah solusinya sendiri dan kirimkan komentar Anda kepada kami.

Untuk mempelajari lebih lanjut tentang model dan cara kerjanya, lihat sumber daya berikut:

Untuk mempelajari lebih lanjut tentang JumpStart, lihat posting blog berikut:

Tentang Penulis

Dr Vivek Madan adalah Ilmuwan Terapan dengan tim JumpStart Amazon SageMaker. Dia mendapatkan gelar PhD dari University of Illinois di Urbana-Champaign dan merupakan Peneliti Pasca Doktoral di Georgia Tech. Dia adalah peneliti aktif dalam pembelajaran mesin dan desain algoritma dan telah menerbitkan makalah di konferensi EMNLP, ICLR, COLT, FOCS, dan SODA.

Heiko Hotzo adalah Arsitek Solusi Senior untuk AI & Pembelajaran Mesin dengan fokus khusus pada Pemrosesan Bahasa Alami (NLP), Model Bahasa Besar (LLM), dan AI Generatif. Sebelum peran ini, dia adalah Kepala Ilmu Data untuk Layanan Pelanggan UE Amazon. Heiko membantu pelanggan kami agar berhasil dalam perjalanan AI/ML mereka di AWS dan telah bekerja dengan organisasi di banyak industri, termasuk Asuransi, Layanan Keuangan, Media dan Hiburan, Perawatan Kesehatan, Utilitas, dan Manufaktur. Di waktu luangnya, Heiko bepergian sebanyak mungkin.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/upscale-images-with-stable-diffusion-in-amazon-sagemaker-jumpstart/

Stempel Waktu: Januari 25, 2023

Stempel Waktu: Februari 21, 2023

Diterbitkan Ulang Oleh Plato

Mencapai throughput inferensi ML empat kali lebih tinggi dengan biaya per inferensi tiga kali lebih rendah dengan instans Amazon EC2 G5 untuk model NLP dan CV PyTorch

Penyempurnaan LLaMA 2 yang cepat dan hemat biaya dengan AWS Trainium | Layanan Web Amazon

Perjalanan asisten virtual AI generatif PGA TOUR, mulai dari konsep hingga pengembangan hingga prototipe | Layanan Web Amazon

Telusuri konten Adobe Experience Manager secara cerdas menggunakan Amazon Kendra | Layanan Web Amazon

Model dasar AI21 Jurassic-1 kini tersedia di Amazon SageMaker

Ekstrak wawasan dari SAP ERP dengan solusi ML tanpa kode dengan Amazon AppFlow dan Amazon SageMaker Canvas

Terapkan rekomendasi yang dipersonalisasi secara real-time menggunakan Amazon Personalize | Layanan Web Amazon

AWS dan Hugging Face berkolaborasi untuk membuat AI generatif lebih mudah diakses dan hemat biaya

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun