Alma Artırılmış Nesil ile Kararlı Difüzyon istemlerinizi geliştirin | Amazon Web Hizmetleri

Alma Artırılmış Nesil ile Kararlı Difüzyon istemlerinizi geliştirin | Amazon Web Hizmetleri

Metinden görüntüye dönüştürme, medya ve eğlence, oyun, e-ticaret ürün görselleştirmesi, reklam ve pazarlama, mimari tasarım ve görselleştirme, sanatsal yaratımlar ve tıbbi görüntüleme gibi çeşitli alanlardaki uygulamalarla hızla büyüyen bir yapay zeka alanıdır.

Kararlı Difüzyon saniyeler içinde yüksek kaliteli görüntüler oluşturmanıza olanak tanıyan bir metinden resme modelidir. Kasım 2022'de biz açıkladı AWS müşterilerinin metinden görüntüler oluşturabilmesi Kararlı Difüzyon modelleri Amazon SageMaker Hızlı Başlangıçmodeller, algoritmalar ve çözümler sunan bir makine öğrenimi (ML) merkezidir. Gelişim, Nisan 2023'te aşağıdakilerin piyasaya sürülmesiyle devam etti: Amazon Ana KayasıUygun bir API aracılığıyla Stabil Difüzyon da dahil olmak üzere son teknoloji temel modellerine erişim sunan, tam olarak yönetilen bir hizmet.

Giderek artan sayıda müşteri, metinden resme çalışmalarına başladıkça, ortak bir engel ortaya çıkıyor: yüksek kaliteli, amaca yönelik görseller üretme gücünü kullanan istemlerin nasıl oluşturulacağı. Kullanıcılar kendi vizyonlarına uygun ipuçlarını keşfetmek için yinelenen bir deneme yolculuğuna çıktıklarından, bu zorluk genellikle önemli miktarda zaman ve kaynak gerektirir.

Alma Artırılmış Oluşturma (RAG), bir dil modelinin bağlamsal belgeleri harici bir veri kaynağından aldığı ve bu bilgiyi daha doğru ve bilgilendirici metin oluşturmak için kullandığı bir süreçtir. Bu teknik özellikle bilgi yoğun doğal dil işleme (NLP) görevleri için kullanışlıdır. Artık dönüştürücü dokunuşunu metinden görüntüye dönüştürme dünyasına genişletiyoruz. Bu yazıda, Kararlı Difüzyon modellerinize gönderilen istemleri geliştirmek için RAG'ın gücünden nasıl yararlanabileceğinizi gösteriyoruz. Amazon Bedrock'ta ve SageMaker JumpStart'ta büyük dil modelleriyle (LLM'ler) dakikalar içinde hızlı oluşturma için kendi yapay zeka asistanınızı oluşturabilirsiniz.

Metinden resme istemleri oluşturmaya yönelik yaklaşımlar

Metinden görüntüye modeli için bilgi istemi oluşturmak ilk bakışta basit görünebilir, ancak bu yanıltıcı derecede karmaşık bir iştir. Bu sadece birkaç kelime yazıp modelin zihinsel imajınıza uygun bir imaj yaratmasını beklemekten daha fazlasıdır. Etkili yönlendirmeler açık talimatlar sağlamalı ve yaratıcılığa yer bırakmalıdır. Spesifiklik ile belirsizliği dengelemeli ve kullanılan belirli modele göre uyarlanmalıdırlar. Hızlı mühendislik sorununun üstesinden gelmek için endüstri çeşitli yaklaşımları araştırdı:

  • Bilgi istemi kitaplıkları – Bazı şirketler, erişebileceğiniz ve özelleştirebileceğiniz önceden yazılmış istemlerden oluşan kütüphaneler oluşturur. Bu kitaplıklar, çeşitli kullanım senaryolarına göre uyarlanmış geniş bir bilgi istemi yelpazesi içerir ve özel ihtiyaçlarınıza uygun istemleri seçmenize veya uyarlamanıza olanak tanır.
  • İstem şablonları ve yönergeler – Birçok şirket ve kuruluş, kullanıcılara önceden tanımlanmış bir dizi bilgi istemi şablonu ve yönergesi sağlar. Bu şablonlar, istemlerin yazılması için yapılandırılmış formatlar sunarak etkili talimatlar oluşturmayı kolaylaştırır.
  • Topluluk ve kullanıcı katkıları – Kitle kaynaklı platformlar ve kullanıcı toplulukları genellikle istemlerin iyileştirilmesinde önemli bir rol oynar. Kullanıcılar ince ayarlı modellerini, başarılı istemlerini, ipuçlarını ve en iyi uygulamalarını toplulukla paylaşarak başkalarının bilgi istemi yazma becerilerini öğrenmesine ve geliştirmesine yardımcı olabilir.
  • Model ince ayarı – Şirketler, belirli türdeki istemleri daha iyi anlamak ve bunlara yanıt vermek için metinden resme modellerinde ince ayar yapabilir. İnce ayar, belirli alanlar veya kullanım durumları için model performansını iyileştirebilir.

Bu endüstri yaklaşımları toplu olarak, etkili metinden resme yönlendirmeler oluşturma sürecini daha erişilebilir, kullanıcı dostu ve verimli hale getirmeyi ve sonuçta geniş bir uygulama yelpazesi için metinden resme oluşturma modellerinin kullanılabilirliğini ve çok yönlülüğünü geliştirmeyi amaçlamaktadır.

Hızlı tasarım için RAG kullanma

Bu bölümde RAG tekniklerinin mevcut yaklaşımlarla uyum içinde çalışarak hızlı mühendislikte nasıl oyun değiştirici olarak hizmet edebileceğini araştırıyoruz. RAG'ı sürece sorunsuz bir şekilde entegre ederek, hızlı tasarımın verimliliğini kolaylaştırabilir ve geliştirebiliriz.

Bilgi istemi veritabanında anlamsal arama

Bilgi istemi kitaplığında geniş bir bilgi istemi deposu biriktirmiş veya her biri belirli kullanım durumları ve hedefler için tasarlanmış çok sayıda bilgi istemi şablonu oluşturmuş bir şirket hayal edin. Geleneksel olarak, metinden resme yönlendirmeleri için ilham arayan kullanıcılar, genellikle kapsamlı seçenek listelerini tarayarak bu kitaplıklara manuel olarak göz atarlardı. Bu süreç zaman alıcı ve verimsiz olabilir. Şirketler, metin yerleştirme modellerini kullanarak bilgi istemi kitaplığından istemleri yerleştirerek anlamsal bir arama motoru oluşturabilir. İşte nasıl çalışıyor:

  • İstemleri yerleştirme – Şirket, kütüphanesindeki her istemi sayısal bir gösterime dönüştürmek için metin yerleştirmeleri kullanıyor. Bu yerleştirmeler istemlerin anlamsal anlamını ve bağlamını yakalar.
  • Kullanıcı sorgusu – Kullanıcılar kendi istemlerini sağladıklarında veya istedikleri görüntüyü tanımladıklarında sistem, girdilerini de analiz edip yerleştirebilir.
  • Anlamsal arama – Sistem, yerleştirmeleri kullanarak anlamsal bir arama gerçekleştirir. Hem kullanıcının girişini hem de bilgi istemi kitaplığındaki geçmiş verileri göz önünde bulundurarak, kullanıcının sorgusuna dayalı olarak kitaplıktan en alakalı istemleri alır.

Şirketler, bilgi istemi kitaplıklarında anlamsal arama uygulayarak çalışanlarının geniş bir bilgi istemi deposuna zahmetsizce erişmesini sağlar. Bu yaklaşım yalnızca hızlı oluşturmayı hızlandırmakla kalmaz, aynı zamanda metinden görüntüye oluşturmada yaratıcılığı ve tutarlılığı da teşvik eder.y

Alma Artırılmış Nesil ile Kararlı Difüzyon istemlerinizi geliştirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Anlamsal aramadan hızlı üretim

Anlamsal arama, ilgili istemleri bulma sürecini kolaylaştırsa da RAG, optimize edilmiş istemler oluşturmak için bu arama sonuçlarını kullanarak bunu bir adım daha ileri götürür. İşte nasıl çalışıyor:

  • Semantik arama sonuçları – Kütüphaneden en alakalı istemleri aldıktan sonra sistem, bu istemleri kullanıcının orijinal girişiyle birlikte kullanıcıya sunar.
  • Metin oluşturma modeli – Kullanıcı, arama sonuçlarından bir bilgi istemi seçebilir veya tercihlerine ilişkin daha fazla bağlam sağlayabilir. Sistem, hem seçilen istemi hem de kullanıcının girişini bir LLM'ye besler.
  • Optimize edilmiş istem – Yüksek Lisans, dil nüanslarına ilişkin anlayışıyla, seçilen bilgi istemindeki öğeler ile kullanıcının girişini birleştiren optimize edilmiş bir bilgi istemi oluşturur. Bu yeni bilgi istemi kullanıcının gereksinimlerine göre uyarlanmıştır ve istenen görüntü çıktısını sağlayacak şekilde tasarlanmıştır.

Anlamsal arama ve bilgi istemi oluşturmanın birleşimi, yalnızca bilgi istemi bulma sürecini basitleştirmekle kalmaz, aynı zamanda oluşturulan istemlerin son derece alakalı ve etkili olmasını da sağlar. İstemlerinize ince ayar yapmanıza ve özelleştirmenize olanak tanır ve sonuçta metinden görüntüye dönüştürme sonuçlarının iyileştirilmesini sağlar. Aşağıda anlamsal arama ve bilgi istemi oluşturma istemleri kullanılarak Stable Diffusion XL'den oluşturulan görüntülerin örnekleri yer almaktadır.

Orijinal Bilgi İstemi Anlamsal Aramadan Gelen İstemler LLM tarafından Optimize Edilmiş İstem

küçük bir köpeğin karikatürü

Alma Artırılmış Nesil ile Kararlı Difüzyon istemlerinizi geliştirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

  • yemek masasında sandviç yiyen bir köpeğin sevimli çizgi filmi
  • bir punk köpeğinin karikatür çizimi, anime tarzı, beyaz arka plan
  • orman yolunda yürüyen bir çocuk ve köpeğinin karikatürü

Alma Artırılmış Nesil ile Kararlı Difüzyon istemlerinizi geliştirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Animasyon tarzında, sevimli evcil köpeğiyle orman yolunda el ele mutlu bir şekilde yürüyen bir çocuğun çizgi film sahnesi.

Alma Artırılmış Nesil ile Kararlı Difüzyon istemlerinizi geliştirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Çeşitli endüstrilerde RAG tabanlı hızlı tasarım uygulamaları

Önerilen RAG mimarimizin uygulamasını keşfetmeden önce, görüntü oluşturma modelinin en uygulanabilir olduğu sektörle başlayalım. AdTech'te hız ve yaratıcılık kritik öneme sahiptir. RAG tabanlı bilgi istemi oluşturma, bir reklam kampanyası için hızlı bir şekilde çok sayıda görsel oluşturmaya yönelik hızlı öneriler üreterek anında değer katabilir. İnsan karar vericiler, kampanyaya aday görseli seçmek için otomatik olarak oluşturulan görselleri inceleyebilir. Bu özellik bağımsız bir uygulama olabilir veya şu anda mevcut olan popüler yazılım araçlarına ve platformlarına yerleştirilebilir.

Kararlı Yayılım modelinin üretkenliği artırabileceği bir diğer sektör ise medya ve eğlencedir. RAG mimarisi, örneğin avatar oluşturmanın kullanım durumlarına yardımcı olabilir. RAG, basit bir bilgi isteminden yola çıkarak avatar fikirlerine çok daha fazla renk ve özellik katabilir. Birçok aday istemi oluşturabilir ve daha yaratıcı fikirler sağlayabilir. Oluşturulan bu görüntülerden, verilen uygulama için mükemmel uyumu bulabilirsiniz. Otomatik olarak birçok hızlı öneri üreterek üretkenliği artırır. Ortaya çıkarabileceği değişiklik, çözümün doğrudan faydasıdır.

Çözüme genel bakış

Müşterilerin, AWS'de hızlı tasarım için kendi RAG tabanlı yapay zeka asistanlarını oluşturmalarına olanak sağlamak, modern teknolojinin çok yönlülüğünün bir kanıtıdır. AWS, bu çabayı kolaylaştırmak için çok sayıda seçenek ve hizmet sunar. Aşağıdaki referans mimari şeması, AWS'de hızlı tasarım için bir RAG uygulamasını göstermektedir.

Alma Artırılmış Nesil ile Kararlı Difüzyon istemlerinizi geliştirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Yapay zeka asistanınız için doğru Yüksek Lisans'ı seçmek söz konusu olduğunda AWS, özel gereksinimlerinizi karşılayacak çeşitli seçenekler sunar.

İlk olarak, özel bulut sunucularını kullanarak SageMaker JumpStart aracılığıyla sunulan LLM'leri tercih edebilirsiniz. Bu bulut sunucuları Falcon, Llama 2, Bloom Z ve Flan-T5 gibi çeşitli modelleri destekler veya Cohere's Command ve Multilingual Embedding veya AI2 Labs'ın Jurassic-21 gibi tescilli modelleri keşfedebilirsiniz.

Daha basitleştirilmiş bir yaklaşımı tercih ediyorsanız AWS, Amazon Ana Kayasıgibi modellerin yer aldığı Amazon Titanı ve Antropik Claude. Bu modellere basit API çağrıları yoluyla kolayca erişilebildiğinden, güçlerinden zahmetsizce yararlanmanıza olanak tanır. Seçeneklerin esnekliği ve çeşitliliği, ister açık konteynırlarla bir yenilik ister tescilli modellerin sağlam yeteneklerini arıyor olun, anlık tasarım hedeflerinizle en iyi uyum sağlayan LLM'yi seçme özgürlüğüne sahip olmanızı sağlar.

Temel vektör veritabanının oluşturulması söz konusu olduğunda AWS, yerel hizmetleri aracılığıyla çok sayıda seçenek sunar. Tercih edebilirsiniz Amazon Açık Arama Hizmeti, Amazon Aurora'sıya da PostgreSQL için Amazon İlişkisel Veritabanı Hizmeti (Amazon RDS)Her biri özel ihtiyaçlarınıza uyacak sağlam özellikler sunar. Alternatif olarak, verimli vektör depolama ve geri alma için özel çözümler sunan Pinecone, Weaviate, Elastic, Milvus veya Chroma gibi AWS iş ortaklarının ürünlerini keşfedebilirsiniz.

Hızlı tasarım için RAG tabanlı bir yapay zeka asistanı oluşturmaya başlamanıza yardımcı olmak amacıyla, sayfamızda kapsamlı bir gösteri hazırladık. GitHub depo. Bu gösteri aşağıdaki kaynakları kullanır:

  • Görüntü oluşturma: Amazon Ana Kayasında Stabil Difüzyon XL
  • Metin yerleştirme: Amazon Ana Kayasında Amazon Titan
  • Metin oluşturma: Amazon Bedrock'ta Claude 2
  • Vektör veritabanı: FAISS, etkili benzerlik araması için açık kaynaklı bir kütüphane
  • Bilgi istemi kütüphanesi: Bilgi istemi örnekleri DifüzyonDBmetinden resme üretken modeller için ilk büyük ölçekli bilgi istemi galerisi veri kümesi

Ek olarak, LLM uygulaması için LangChain'i ve web uygulaması bileşeni için Streamit'i de dahil ederek kusursuz ve kullanıcı dostu bir deneyim sağladık.

Önkoşullar

Bu demo uygulamasını çalıştırmak için aşağıdakilere sahip olmanız gerekir:

  • Bir AWS hesabı
  • Gezinme konusunda temel anlayış Amazon SageMaker Stüdyosu
  • Bir reponun nasıl indirileceğine ilişkin temel anlayış GitHub
  • Bir terminalde komut çalıştırmaya ilişkin temel bilgiler

Demo uygulamasını çalıştırın

Talimatlarla birlikte gerekli tüm kodları şuradan indirebilirsiniz: GitHub repo. Uygulamayı konuşlandırdıktan sonra aşağıdaki ekran görüntüsündeki gibi bir sayfa göreceksiniz.

Alma Artırılmış Nesil ile Kararlı Difüzyon istemlerinizi geliştirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Bu gösterimle uygulama sürecini erişilebilir ve anlaşılır hale getirmeyi, RAG dünyasına yolculuğunuzu başlatmanız ve AWS'de hızlı tasarım yapmanızı sağlayacak uygulamalı bir deneyim sunmayı amaçlıyoruz.

Temizlemek

Uygulamayı denedikten sonra uygulamayı durdurarak kaynaklarınızı temizleyin.

Sonuç

RAG, Stable Diffusion'ın metinden görüntüye yeteneklerini yeniden canlandırarak, hızlı tasarım dünyasında oyunun kurallarını değiştiren bir paradigma olarak ortaya çıktı. RAG tekniklerini mevcut yaklaşımlarla uyumlu hale getirerek ve AWS'nin güçlü kaynaklarını kullanarak, kolaylaştırılmış yaratıcılığa ve hızlandırılmış öğrenmeye giden yolu ortaya çıkardık.

Ek kaynaklar için aşağıdakileri ziyaret edin:


yazarlar hakkında

Alma Artırılmış Nesil ile Kararlı Difüzyon istemlerinizi geliştirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.James Yi Amazon Web Services'de Gelişen Teknolojiler ekibinde Kıdemli AI/ML İş Ortağı Çözümleri Mimarıdır. AI/ML uygulamalarını iş değerlerini elde etmek için tasarlamak, dağıtmak ve ölçeklendirmek için kurumsal müşteriler ve ortaklarla çalışma konusunda tutkulu. İş dışında futbol oynamayı, seyahat etmeyi ve ailesiyle vakit geçirmeyi seviyor.

Alma Artırılmış Nesil ile Kararlı Difüzyon istemlerinizi geliştirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Rumi Olsen AWS Çözüm Ortağı Programında bir Çözüm Mimarıdır. Mevcut görevinde sunucusuz ve makine öğrenimi çözümlerinde uzmanlaşmıştır ve doğal dil işleme teknolojilerinde bir geçmişe sahiptir. Boş zamanlarının çoğunu kızıyla birlikte Kuzeybatı Pasifik'in doğasını keşfederek geçirir.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi