Metinden resme modeller sahte verilerle daha verimli şekilde öğrenir

Metinden resme modeller sahte verilerle daha verimli şekilde öğrenir

Text-to-image models learn more efficiently with fake data PlatoBlockchain Data Intelligence. Vertical Search. Ai.

MIT ve Google'daki bilgisayar bilimcilerine göre sentetik görüntüler, yapay zeka modellerinin gerçek anlık görüntülere kıyasla görsel temsilleri daha doğru bir şekilde öğrenmesine yardımcı olabilir. Sonuç, yazılı açıklamalarınızdan resim oluşturma konusunda daha iyi olan sinir ağlarıdır.

Tüm metinden resme modellerinin temelinde nesneleri kelimelerle eşleme yeteneği vardır. Bir giriş metni istemi verildiğinde (örneğin, "güneşli bir günde kırmızı bir balon tutan bir çocuk" gibi) açıklamaya yakın bir resim döndürmelidirler. Bunu yapabilmek için bir çocuğun, kırmızı bir balonun ve güneşli bir günün neye benzeyebileceğinin görsel temsillerini öğrenmeleri gerekir. 

MIT-Google ekibi, sinir ağlarının, gerçek enstantane kullanmak yerine yapay zeka yapımı resimler üzerinde eğitildikten sonra istemlerden daha doğru görüntüler üretebileceğine inanıyor. Bunu göstermek için grup şunu geliştirdi: StableRepAçıklayıcı yazılı altyazıların, popüler açık kaynaklı metinden görüntüye modeli Stable Diffusion tarafından oluşturulan resimlerden doğru karşılık gelen görüntülere nasıl dönüştürüleceğini öğrenen.

Başka bir deyişle: diğer modelleri öğretmek için yerleşik, eğitilmiş bir yapay zeka modelini kullanmak.

Bilim adamlarının ön baskı makalesi olarak yayınlandı arXiv Geçen ayın sonunda şunları söylüyor: "StableRep tarafından öğrenilen temsiller, yalnızca sentetik görüntülerle, büyük ölçekli veri kümelerinde aynı metin istemleri setini ve karşılık gelen gerçek görüntüleri kullanarak SimCLR ve CLIP tarafından öğrenilen temsillerin performansını geride bırakıyor." SimCLR ve CLIP, metin istemlerinden görseller oluşturmak için kullanılabilen makine öğrenme algoritmalarıdır.

Makale şöyle devam ediyor: "Dil denetimini daha da eklediğimizde, 20 milyon sentetik görüntüyle eğitilmiş StableRep, 50 milyon gerçek görüntüyle eğitilmiş CLIP'ten daha iyi doğruluk elde ediyor."

Makine öğrenimi algoritmaları, nesnelerin özellikleri ile kelimelerin anlamları arasındaki ilişkileri bir sayı dizisi olarak yakalar. Araştırmacılar, StableRep'i kullanarak bu süreci daha dikkatli bir şekilde kontrol edebilirler; bir modeli aynı istemde Stable Diffusion tarafından oluşturulan birden fazla görüntü üzerinde eğitebilirler. Bu, modelin daha çeşitli görsel temsilleri öğrenebileceği ve hangi görsellerin istemlerle diğerlerinden daha yakından eşleştiğini görebileceği anlamına gelir. 

Bazı modellerin gerçek verilerle, bazılarının ise sentetik verilerle eğitildiği bir ekosisteme sahip olacağımızı düşünüyorum.

Araştırmanın baş araştırmacısı ve MIT'de elektrik mühendisliği alanında doktora öğrencisi olan Lijie Fan, "Modeli yalnızca verileri beslemek için değil, bağlam ve değişkenlik yoluyla üst düzey kavramlar hakkında daha fazla bilgi edinmek için öğretiyoruz" dedi. açıkladı Bu hafta. "Hepsi aynı metinden oluşturulan ve hepsi aynı temelde yatan şeyin tasvirleri olarak ele alınan birden fazla görüntü kullanıldığında, model yalnızca piksellerin değil, görüntülerin (örneğin nesnenin) arkasındaki kavramlara daha derinlemesine dalıyor."

Yukarıda belirtildiği gibi, bu yaklaşım aynı zamanda sinir ağınızı eğitmek için gerçek olanlardan daha az sentetik görüntü kullanabileceğiniz ve daha iyi sonuçlar alabileceğiniz anlamına da gelir; bu da yapay zeka geliştiricileri için bir kazan-kazan durumudur.

StableRep gibi yöntemler, metinden resme modellerin bir gün sentetik veriler üzerinde eğitilebileceği anlamına geliyor. Bu, geliştiricilerin gerçek görüntülere daha az güvenmesine olanak tanır ve yapay zeka motorlarının mevcut çevrimiçi kaynakları tüketmesi durumunda gerekli olabilir.

Makalenin ortak yazarı ve MIT'de bilgisayarlı görme alanında doçent olan Phillip Isola, "Yapay zeka modellerinin sentetik görüntüler üzerinde eğitilmesinin giderek yaygınlaşacağını düşünüyorum" dedi. Kayıt. "Sanırım bazı modellerin gerçek verilerle, bazılarının sentetik verilerle eğitildiği bir ekosisteme sahip olacağız ve belki de çoğu model her ikisiyle de eğitilecek."

Yalnızca yapay zeka tarafından oluşturulan görüntülere güvenmek zordur çünkü bunların kalitesi ve çözünürlüğü çoğu zaman gerçek fotoğraflardan daha kötüdür. Bunları oluşturan metinden resme modeller başka yönlerden de sınırlıdır. Kararlı Dağıtım her zaman metin istemlerine sadık kalan görüntüler üretmez.

Isola, sentetik görseller kullanmanın potansiyel telif hakkı ihlali sorununu da ortadan kaldırmadığı konusunda uyardı, çünkü bunları oluşturan modeller muhtemelen korunan materyaller üzerinde eğitilmişti.

"Sentetik veriler, telif hakkı verilerinin tam kopyalarını içerebilir. Bununla birlikte, sentetik veriler aynı zamanda IP ve mahremiyet sorunlarının üstesinden gelmek için yeni fırsatlar da sunuyor, çünkü üretim modelini hassas özellikleri kaldıracak şekilde düzenleyerek bunlara potansiyel olarak müdahale edebiliriz" diye açıkladı.

Ekip ayrıca yapay zeka tarafından oluşturulan görüntülere yönelik eğitim sistemlerinin, temeldeki metinden görüntüye modeli tarafından öğrenilen önyargıları potansiyel olarak daha da kötüleştirebileceği konusunda uyardı. ®

Zaman Damgası:

Den fazla Kayıt