Tingkatkan Perintah Difusi Stabil Anda Dengan Retrieval Augmented Generation

Diterbitkan Ulang Oleh Plato

Followers: 0

Pembuatan teks-ke-gambar adalah bidang kecerdasan buatan yang berkembang pesat dengan aplikasi di berbagai bidang, seperti media dan hiburan, permainan, visualisasi produk e-niaga, periklanan dan pemasaran, desain dan visualisasi arsitektur, kreasi artistik, dan pencitraan medis.

Difusi Stabil adalah model teks-ke-gambar yang memberdayakan Anda untuk membuat gambar berkualitas tinggi dalam hitungan detik. Pada bulan November 2022, kami mengumumkan yang dapat digunakan pelanggan AWS untuk menghasilkan gambar dari teks Difusi Stabil model dalam Mulai Lompatan Amazon SageMaker, pusat pembelajaran mesin (ML) yang menawarkan model, algoritme, dan solusi. Evolusi berlanjut pada April 2023 dengan diperkenalkannya Batuan Dasar Amazon, layanan terkelola sepenuhnya yang menawarkan akses ke model fondasi mutakhir, termasuk Difusi Stabil, melalui API yang mudah digunakan.

Ketika semakin banyak pelanggan yang memulai upaya teks-ke-gambar, tantangan umum pun muncul—bagaimana membuat perintah yang memiliki kekuatan untuk menghasilkan gambar berkualitas tinggi dan berorientasi pada tujuan. Tantangan ini sering kali memerlukan banyak waktu dan sumber daya karena pengguna memulai perjalanan eksperimen yang berulang-ulang untuk menemukan petunjuk yang selaras dengan visi mereka.

Retrieval Augmented Generation (RAG) adalah proses di mana model bahasa mengambil dokumen kontekstual dari sumber data eksternal dan menggunakan informasi ini untuk menghasilkan teks yang lebih akurat dan informatif. Teknik ini sangat berguna untuk tugas pemrosesan bahasa alami (NLP) yang intensif pengetahuan. Kami kini memperluas sentuhan transformatifnya ke dunia pembuatan teks-ke-gambar. Dalam postingan ini, kami mendemonstrasikan cara memanfaatkan kekuatan RAG untuk meningkatkan perintah yang dikirim ke model Difusi Stabil Anda. Anda dapat membuat asisten AI Anda sendiri untuk pembuatan cepat dalam hitungan menit dengan model bahasa besar (LLM) di Amazon Bedrock, serta di SageMaker JumpStart.

Pendekatan untuk menyusun perintah teks-ke-gambar

Membuat prompt untuk model teks-ke-gambar mungkin terlihat mudah pada pandangan pertama, namun ini merupakan tugas yang rumit. Ini lebih dari sekedar mengetik beberapa kata dan mengharapkan model untuk memunculkan gambaran yang selaras dengan gambaran mental Anda. Perintah yang efektif harus memberikan instruksi yang jelas sambil memberikan ruang untuk kreativitas. Model-model tersebut harus menyeimbangkan kekhususan dan ambiguitas, dan harus disesuaikan dengan model tertentu yang digunakan. Untuk mengatasi tantangan rekayasa cepat, industri telah mengeksplorasi berbagai pendekatan:

Perpustakaan yang cepat – Beberapa perusahaan menyusun perpustakaan perintah yang telah ditulis sebelumnya yang dapat Anda akses dan sesuaikan. Pustaka ini berisi berbagai perintah yang disesuaikan dengan berbagai kasus penggunaan, memungkinkan Anda memilih atau menyesuaikan perintah yang selaras dengan kebutuhan spesifik Anda.
Templat dan pedoman yang cepat – Banyak perusahaan dan organisasi menyediakan seperangkat templat dan pedoman cepat yang telah ditentukan sebelumnya kepada pengguna. Templat ini menawarkan format terstruktur untuk petunjuk penulisan, sehingga memudahkan pembuatan instruksi yang efektif.
Kontribusi komunitas dan pengguna – Platform crowdsourcing dan komunitas pengguna sering kali memainkan peran penting dalam meningkatkan permintaan. Pengguna dapat berbagi model yang telah mereka sesuaikan, perintah sukses, tips, dan praktik terbaik dengan komunitas, membantu orang lain mempelajari dan menyempurnakan keterampilan menulis cepat mereka.
Penyempurnaan model – Perusahaan dapat menyempurnakan model teks-ke-gambar mereka untuk lebih memahami dan merespons jenis permintaan tertentu. Penyempurnaan dapat meningkatkan kinerja model untuk domain atau kasus penggunaan tertentu.

Pendekatan industri ini secara kolektif bertujuan untuk membuat proses pembuatan pesan teks-ke-gambar yang efektif menjadi lebih mudah diakses, mudah digunakan, dan efisien, yang pada akhirnya meningkatkan kegunaan dan keserbagunaan model pembuatan teks-ke-gambar untuk berbagai aplikasi.

Menggunakan RAG untuk desain yang cepat

Pada bagian ini, kita mempelajari bagaimana teknik RAG dapat berperan sebagai pengubah permainan dalam rekayasa cepat, bekerja selaras dengan pendekatan yang ada. Dengan mengintegrasikan RAG ke dalam proses secara lancar, kami dapat menyederhanakan dan meningkatkan efisiensi desain cepat.

Pencarian semantik dalam database prompt

Bayangkan sebuah perusahaan yang telah mengumpulkan banyak sekali repositori prompt di perpustakaan promptnya atau telah membuat sejumlah besar template prompt, masing-masing dirancang untuk kasus penggunaan dan tujuan tertentu. Biasanya, pengguna yang mencari inspirasi untuk perintah teks-ke-gambar akan menelusuri perpustakaan ini secara manual, sering kali memilah-milah daftar opsi yang ekstensif. Proses ini dapat memakan waktu dan tidak efisien. Dengan menyematkan perintah dari perpustakaan cepat menggunakan model penyematan teks, perusahaan dapat membangun mesin pencari semantik. Begini cara kerjanya:

Menyematkan petunjuk – Perusahaan menggunakan penyematan teks untuk mengubah setiap perintah di perpustakaannya menjadi representasi numerik. Penyematan ini menangkap makna semantik dan konteks perintahnya.
Permintaan pengguna – Saat pengguna memberikan petunjuknya sendiri atau mendeskripsikan gambar yang diinginkan, sistem juga dapat menganalisis dan menyematkan masukan mereka.
Pencarian semantik – Menggunakan embeddings, sistem melakukan pencarian semantik. Ini mengambil perintah yang paling relevan dari perpustakaan berdasarkan permintaan pengguna, dengan mempertimbangkan masukan pengguna dan data historis di perpustakaan perintah.

Dengan menerapkan pencarian semantik di perpustakaan cepat mereka, perusahaan memberdayakan karyawan mereka untuk mengakses sejumlah besar perintah dengan mudah. Pendekatan ini tidak hanya mempercepat penciptaan cepat namun juga mendorong kreativitas dan konsistensi dalam pembuatan teks-ke-gambar.y

Tingkatkan perintah Difusi Stabil Anda dengan Retrieval Augmented Generation | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Generasi cepat dari pencarian semantik

Meskipun pencarian semantik menyederhanakan proses menemukan petunjuk yang relevan, RAG mengambil langkah lebih jauh dengan menggunakan hasil pencarian ini untuk menghasilkan petunjuk yang dioptimalkan. Begini cara kerjanya:

Hasil pencarian semantik – Setelah mengambil perintah yang paling relevan dari perpustakaan, sistem menyajikan perintah tersebut kepada pengguna, bersama dengan masukan asli pengguna.
Model pembuatan teks – Pengguna dapat memilih perintah dari hasil pencarian atau memberikan konteks lebih lanjut mengenai preferensi mereka. Sistem memasukkan prompt yang dipilih dan masukan pengguna ke dalam LLM.
Perintah yang dioptimalkan – LLM, dengan pemahamannya tentang nuansa bahasa, membuat perintah yang dioptimalkan yang menggabungkan elemen dari perintah yang dipilih dan masukan pengguna. Prompt baru ini disesuaikan dengan kebutuhan pengguna dan dirancang untuk menghasilkan keluaran gambar yang diinginkan.

Kombinasi pencarian semantik dan pembuatan prompt tidak hanya menyederhanakan proses menemukan prompt tetapi juga memastikan bahwa prompt yang dihasilkan sangat relevan dan efektif. Ini memberdayakan Anda untuk menyempurnakan dan menyesuaikan perintah Anda, yang pada akhirnya menghasilkan hasil pembuatan teks-ke-gambar yang lebih baik. Berikut ini adalah contoh gambar yang dihasilkan dari Stable Diffusion XL menggunakan petunjuk dari pencarian semantik dan pembuatan prompt.

Permintaan Asli

Anjuran dari Pencarian Semantik

Prompt yang Dioptimalkan oleh LLM

kartun seekor anjing kecil

Tingkatkan perintah Difusi Stabil Anda dengan Retrieval Augmented Generation | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

kartun lucu seekor anjing sedang makan sandwich di meja makan
ilustrasi kartun anjing punk, gaya anime, latar belakang putih
gambar kartun seorang anak laki-laki dan anjingnya berjalan menyusuri jalur hutan

Adegan kartun seorang anak laki-laki dengan gembira berjalan bergandengan tangan menyusuri jalur hutan dengan anjing peliharaannya yang lucu, dalam gaya animasi.

Tingkatkan perintah Difusi Stabil Anda dengan Retrieval Augmented Generation | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Aplikasi desain cepat berbasis RAG di berbagai industri

Sebelum kita menjelajahi penerapan arsitektur RAG yang kami sarankan, mari kita mulai dengan industri di mana model pembuatan gambar paling dapat diterapkan. Di AdTech, kecepatan dan kreativitas sangat penting. Pembuatan cepat berbasis RAG dapat menambah nilai instan dengan menghasilkan saran cepat untuk membuat banyak gambar dengan cepat untuk kampanye iklan. Pengambil keputusan dapat melihat gambar yang dihasilkan secara otomatis untuk memilih gambar kandidat untuk kampanye. Fitur ini dapat berupa aplikasi mandiri atau tertanam dalam perangkat lunak dan platform populer yang tersedia saat ini.

Industri lain di mana model Difusi Stabil dapat meningkatkan produktivitas adalah media dan hiburan. Arsitektur RAG dapat membantu dalam kasus penggunaan pembuatan avatar, misalnya. Dimulai dari perintah sederhana, RAG dapat menambahkan lebih banyak warna dan karakteristik pada ide avatar. Ini dapat menghasilkan banyak permintaan kandidat dan memberikan lebih banyak ide kreatif. Dari gambar yang dihasilkan ini, Anda dapat menemukan gambar yang paling cocok untuk aplikasi tertentu. Ini meningkatkan produktivitas dengan secara otomatis menghasilkan banyak saran cepat. Variasi yang dihasilkan merupakan manfaat langsung dari solusi tersebut.

Ikhtisar solusi

Memberdayakan pelanggan untuk membangun asisten AI berbasis RAG mereka sendiri untuk desain cepat di AWS merupakan bukti keserbagunaan teknologi modern. AWS menyediakan banyak opsi dan layanan untuk memfasilitasi upaya ini. Diagram arsitektur referensi berikut mengilustrasikan aplikasi RAG untuk desain cepat di AWS.

Tingkatkan perintah Difusi Stabil Anda dengan Retrieval Augmented Generation | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Saat memilih LLM yang tepat untuk asisten AI Anda, AWS menawarkan spektrum pilihan untuk memenuhi kebutuhan spesifik Anda.

Pertama, Anda dapat memilih LLM yang tersedia melalui SageMaker JumpStart, menggunakan instans khusus. Instans ini mendukung berbagai model, termasuk Falcon, Llama 2, Bloom Z, dan Flan-T5, atau Anda dapat menjelajahi model berpemilik seperti Cohere's Command dan Multilingual Embedding, atau Jurassic-2 dari AI21 Labs.

Jika Anda lebih menyukai pendekatan yang lebih sederhana, AWS menawarkan LLM Batuan Dasar Amazon, menampilkan model seperti Titan Amazon dan Claude Antropis. Model-model ini mudah diakses melalui panggilan API langsung, sehingga Anda dapat memanfaatkan kekuatannya dengan mudah. Fleksibilitas dan keragaman pilihan memastikan bahwa Anda memiliki kebebasan untuk memilih LLM yang paling sesuai dengan tujuan desain cepat Anda, baik Anda mencari inovasi dengan wadah terbuka atau kemampuan model eksklusif yang kuat.

Ketika membangun database vektor penting, AWS menyediakan banyak pilihan melalui layanan asli mereka. Anda dapat memilih Layanan Pencarian Terbuka Amazon, Amazon Aurora, atau Amazon Relational Database Service (Amazon RDS) untuk PostgreSQL, masing-masing menawarkan fitur canggih untuk memenuhi kebutuhan spesifik Anda. Alternatifnya, Anda dapat menjelajahi produk dari mitra AWS seperti Pinecone, Weaviate, Elastic, Milvus, atau Chroma, yang menyediakan solusi khusus untuk penyimpanan dan pengambilan vektor yang efisien.

Untuk membantu Anda mulai membuat asisten AI berbasis RAG untuk desain cepat, kami telah menyiapkan demonstrasi komprehensif di kami GitHub gudang. Demonstrasi ini menggunakan sumber daya berikut:

Pembuatan gambar: Difusi Stabil XL di Amazon Bedrock
Penyematan teks: Amazon Titan di Amazon Bedrock
Pembuatan teks: Claude 2 di Amazon Bedrock
Basis data vektor: FAISS, perpustakaan sumber terbuka untuk pencarian kesamaan yang efisien
Perpustakaan cepat: Contoh cepat dari DifusiDB, kumpulan data galeri cepat berskala besar pertama untuk model generatif teks-ke-gambar

Selain itu, kami telah memasukkan LangChain untuk implementasi LLM dan Streamit untuk komponen aplikasi web, memberikan pengalaman yang lancar dan ramah pengguna.

Prasyarat

Anda harus memiliki yang berikut ini untuk menjalankan aplikasi demo ini:

Akun AWS
Pemahaman dasar tentang cara bernavigasi Studio Amazon SageMaker
Pemahaman dasar tentang cara mengunduh repo GitHub
Pengetahuan dasar menjalankan perintah di terminal

Jalankan aplikasi demonya

Anda dapat mengunduh semua kode yang diperlukan dengan instruksi dari GitHub repo. Setelah aplikasi di-deploy, Anda akan melihat halaman seperti screenshot berikut.

Tingkatkan perintah Difusi Stabil Anda dengan Retrieval Augmented Generation | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Dengan demonstrasi ini, kami bertujuan untuk membuat proses implementasi dapat diakses dan dipahami, memberikan Anda pengalaman langsung untuk memulai perjalanan Anda ke dunia RAG dan desain cepat di AWS.

Membersihkan

Setelah Anda mencoba aplikasinya, bersihkan sumber daya Anda dengan menghentikan aplikasi.

Kesimpulan

RAG telah muncul sebagai paradigma pengubah permainan dalam dunia desain cepat, merevitalisasi kemampuan teks-ke-gambar Difusi Stabil. Dengan menyelaraskan teknik RAG dengan pendekatan yang ada dan menggunakan sumber daya AWS yang kuat, kami telah menemukan jalur untuk menyederhanakan kreativitas dan mempercepat pembelajaran.

Untuk sumber daya tambahan, kunjungi yang berikut ini:

Tentang penulis

James Yi adalah Senior AI/ML Partner Solutions Architect di tim Emerging Technologies di Amazon Web Services. Dia bersemangat bekerja dengan pelanggan dan mitra perusahaan untuk merancang, menerapkan, dan menskalakan aplikasi AI/ML untuk mendapatkan nilai bisnis mereka. Di luar pekerjaan, ia menikmati bermain sepak bola, bepergian, dan menghabiskan waktu bersama keluarganya.

Tingkatkan perintah Difusi Stabil Anda dengan Retrieval Augmented Generation | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai. Rumi Olsen adalah Arsitek Solusi dalam Program Mitra AWS. Dia berspesialisasi dalam solusi pembelajaran mesin dan tanpa server dalam perannya saat ini, dan memiliki latar belakang dalam teknologi pemrosesan bahasa alami. Dia menghabiskan sebagian besar waktu luangnya dengan putrinya menjelajahi alam Pacific Northwest.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/improve-your-stable-diffusion-prompts-with-retrieval-augmented-generation/

Stempel Waktu: Desember 14, 2023

Stempel Waktu: April 30, 2024

Diterbitkan Ulang Oleh Plato

Deteksi anomali dengan Amazon SageMaker Edge Manager menggunakan AWS IoT Greengrass V2

Cari pengetahuan di dokumen Quip dengan pencarian cerdas menggunakan konektor Quip untuk Amazon Kendra

Jalankan segmentasi gambar dengan Amazon SageMaker JumpStart

Percepat inferensi Amazon SageMaker dengan instans Amazon EC6 berbasis C2i Intel

Gunakan Amazon Lex untuk menangkap alamat jalan

Kurangi waktu yang dibutuhkan untuk menerapkan model Anda ke Amazon SageMaker untuk pengujian

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun