Ideogram, Rekabeti Ortadan Kaldıran, MidJourney ve Dall-E 3'ten Daha İyi Performans Gösteren Yeni Bir Yapay Zeka Görüntü Oluşturucudur - Decrypt

Ideogram, Rekabeti Ortadan Kaldıran, MidJourney ve Dall-E 3'ten Daha İyi Performans Gösteren Yeni Bir Yapay Zeka Görüntü Oluşturucudur - Decrypt

Eski Google mühendislerinin yanı sıra UC Berkeley, Carnegie Mellon Üniversitesi ve Toronto Üniversitesi gibi prestijli kurumların üyeleri tarafından kurulan bir girişim olan Ideogram AI, kendi adını taşıyan görüntü oluşturucunun ilk tam sürümünün yayınlandığını duyurdu.

Ideogram AI resmi bir açıklamada şunları söyledi: "Bugüne kadarki en gelişmiş metinden resme modelimiz olan Ideogram 1.0'ı piyasaya sürmekten heyecan duyuyoruz." blog yazısı. "Tüm Ideogram modelleri gibi sıfırdan eğitilen Ideogram 1.0, son teknoloji ürünü metin oluşturma, benzeri görülmemiş fotogerçekçilik ve anında uyumun yanı sıra güzel, yaratıcı görüntüler için ayrıntılı istemler yazmanıza yardımcı olan Magic Prompt adlı yeni bir özellik sunuyor."

Açıklama, Redpoint Ventures, Pear VC ve SV Angel ile birlikte Andreessen Horowitz liderliğindeki 80 milyon dolarlık A Serisi bağış toplama haberiyle birlikte geliyor.

azalmak modeli test edebildi ve Ideogram AI'nin iddiaları aşırı derecede abartılmış değil; yan yana bir karşılaştırmayı aşağıda bulabilirsiniz. Ideogram'ın birinci sürümü, önceki v0.1 ve v0.2 sürümlerine göre açık bir gelişmedir: hızlı uyum, görüntü kalitesi ve metin oluşturma yetenekleri açısından mükemmeldir.

Model açık kaynak değil, dolayısıyla tesisatına ilişkin görünürlük sınırlı ve değerlendirilecek bir araştırma makalesi yok. Ancak modelle elde edilen sonuçlar, onu şu anda mevcut olan en iyi model haline getirme potansiyeline sahip. Kararlı Difüzyon 3 kamuya açıklanıyor.

Yeni model, Dall-E 3 veya MidJourney'e göre daha az hatayla daha uzun metin dizeleri üreten, metin yetenekleri açısından tartışmasız en yetenekli görüntü oluşturucudur. Mevcut ücretsiz katman aynı zamanda Dall-E 3 ve MidJourney gibi rakiplere karşı da bir avantaj sağlıyor; MidJourney'de ise ücretsiz katman bulunmuyor. Microsoft Copilot ayrıca Dall-E 3'ü kullanıyor ancak yalnızca kare 1:1 görüntüler oluştururken, Ideogram daha geniş bir en boy oranı kümesini destekler.

İdeogram ayrıca şunları sunar: iki ücretli plan Aylık 7 ABD Doları ve 15 ABD Doları, bu da günde 400'den fazla jenerasyona erişim sağlamanın yanı sıra resim düzenleyici, daha kaliteli indirmeler, mevcut bir resim üzerinde değişikliklere veya çeşitlemelere izin veren img2img ve özel nesiller gibi diğer avantajlara da olanak tanır. Tüm alt katmanlar, istenen görselleri herkese açık olarak görüntüler.

Ideogram, uzun istemleri anlama, Stable Diffusion 3 ile baştan sona ilerleme ve bu alandaki diğer tüm görüntü oluşturucuları geride bırakma kapasitesine sahiptir.

Ideogram'ın öne çıkan özelliklerinden biri de açılıp kapatılabilen "Prompt Magic". Bu özellik istemi analiz eder ve daha kaliteli görüntüler oluşturmak için onu geliştirir; temel olarak modele Dall-E 3 gibi doğal dili anlama yeteneği kazandırır. Ancak, bu özellik isteğe bağlı olduğundan Ideogram daha çok yönlüdür. Bazen yanlışlıklara yol açan ChatGPT Plus ile her zaman açıktır.

Son olarak Ideogram, MidJourney ve Dall-E 3'e göre daha az agresif bir şekilde sansürleniyor ve şu ana kadar ünlü kişilerin, şirket logolarının ve sanat tarzlarının resimlerini oluşturma kapasitesine sahip. Tamamen NSFW'ye gitmiyor, ancak istemlerin sansürlenmesi söz konusu olduğunda daha ayrık.

Ve ilk testçiler diğer modellere göre Ideogram'ı tercih ediyor gibi görünüyor. Başlangıç, "DALL·E 3'ünkine benzer bir değerlendirme protokolü kullanarak, insan değerlendiricilerin hızlı hizalama, görüntü tutarlılığı, genel tercih ve metin oluşturma kalitesi açısından DALL·E 1.0 ve Midjourney V3'ya göre Ideogram 6'ı tercih ettiğini bulduk" dedi.

Yan yana karşılaştırma: Ideogram vs MidJourney vs Dall-E 3

azalmak Ideogram'ın yeteneklerini test etti ve onu en iyi rakipleri MidJourney ve Dall-E 3 ile karşılaştırdı. Stable Diffusion 3 ve Google'ın en üst düzey ürünü GörüntüFX SD3 henüz piyasaya sürülmediği ve ImageFX yaygın olarak bulunmadığı için burada değerlendirilmiyor.

Uzun metin dizeleri oluşturma

İstem: Cyberpunk City'de "Yapay zeka trendinde geç kalmayın: Şifre Çözerek Ortaya Çıkın" yazan bir tabelanın bulunduğu fütüristik bir Android.

İdeogramlı Nesiller (solda), MidJourney (ortada) ve Dall-e 3 (sağda)
İdeogramlı Nesiller (solda), MidJourney (ortada) ve Dall-E 3 (sağda).

Ideogram AI, hem istenen estetiği hem de metni canlandırabildi. Ancak "the" yerine "thee" yazan bir yazım hatası vardı.

MidJourney hiçbir şekilde tutarlı bir metin oluşturamadı ve ayrıntılara sahip fütüristik bir android oluşturmaya odaklandı. Bütün kompozisyonun ana konusu budur. Şehir kesinlikle siberpunk değil.

Dall-E 3 ise ortada yer alıyor. Fütüristik robotu üretmeyi başardı, şehir siberpunktu ama tabelada "Ortaya Çık" kelimesi yoktu.

İlginçtir ki, Ideogram robotun şehirde olduğunu ve tabelayla ilişkilendirildiğini anlarken, Dall-E tabelanın şehir manzarasının bir parçası olduğunu varsaydı.

Uzun istemler ve mekansal yetenekler

Komut: Bir televizyonun üstüne tünemiş bir kedinin yanında "Ortaya Çık" yazan bir tabelanın olduğu gerçeküstü ve ilgi çekici bir sahne. Arka planda bir tarafta fütüristik bir android, diğer tarafta ise bir astronot duruyor. Odanın duvarları bir molekülün ve bir DNA zincirinin çarpıcı görüntüsüyle süslenmiştir.

Ideogram, Rekabeti Ortadan Kaldıran, MidJourney ve Dall-E 3'ten Daha İyi Performans Gösteren Yeni Bir Yapay Zeka Görüntü Oluşturucudur - PlatoBlockchain Veri Zekasının Şifresini Çözün. Dikey Arama. Ai.
Ideogram (üstte), MidJourney (sol altta) ve Dall-e 3 (sağ altta) içeren nesiller

İdeogram açık ara en iyi genel oluşturucuydu. Komut isteminin her bir bölümünü anladı, metni hiçbir yazım hatası olmadan oluşturdu, TV'nin üstünde kedi, yanındaki tabela, her iki tarafta android ve astronot olmak üzere her bir öğenin konumunu anladı ve hatta şunu anladı: arka planda bir molekül ve bir DNA zinciri olması gerekir.

MidJourney'in estetiği gerçeküstü değil, hiper gerçekçiydi. "Ortaya Çık" kelimesini üretti ancak bunu televizyona koydu ve işareti oluşturmadı. Kedi de televizyonun üstünde değil yanındadır. Android'i oluşturmadı ve arka plan istemini takip edemedi, bunun yerine kompozisyonun estetiğine daha iyi uyan bir arka plan oluşturdu ve genel sahnede konuya (kedi) daha fazla önem verdi.

Dall-E 3 karakteristik çizgi film tarzını korudu ve yönlendirmeyi tam olarak takip edemedi. MidJourney'den daha fazla mekansal anlayış ve hızlı uyum sağlar, ancak Ideogram'dan çok daha azdır. Ancak üslup açısından kaybediyor. Kediyi TV'nin üstünde oluşturdu ancak kedinin yanında Ortaya Çık işaretini oluşturamadı. Android'i oluşturmadı ve arka planı oluştururken komut istemini takip etmedi.

Sansür

Komut istemi: Ateşli, seksi bir kız.

İdeogramlı Nesiller (solda), MidJourney (ortada) ve Dall-e 3 (sağda)
İdeogramlı Nesiller (solda), MidJourney (ortada) ve Dall-e 3 (sağda)

Bilgi isteminde, bırakın özellikle cinsellik bir yana, nefret söylemi veya hakaret olarak yorumlanabilecek bir dil bile yer almıyor. Sonuçta, "ateşli, seksi bir kız" tamamen giyinik olabilir ve agresif bir şekilde cinselleştirilmeyebilir.

Ideogram AI, istemi anladı ve talimatlara uyan bir görüntü oluşturdu. Ancak ideogramın bir yapay zeka moderatörü var; bu moderatör, hemen sansürlenen bir nesile yol açan daha bariz kelimeler kullanıldığında tetikleniyor (örneğin cinsel organ için argo kelimeler veya çıplak, çıplak vb. gibi etiketler).

Bu arada hem MidJourney hem de Dall-E 3, bir NSFW nesline yol açmasa bile görüntüyü oluşturmayı başaramadı ve kelimeleri yasakladı.

İdeogram sansüre daha çok hedeflenmiş gibi görünüyor ve oluşturulan görüntüyü (NSFW veya başka şekilde şüpheli) uygulama tarafından çekilmeden önce görmek mümkün.

Ünlü kişiler ve telif hakkıyla korunan görseller

Komut: Bir duvarın önünde mutlu bir Joe Biden ve Vladimir Putin, üzerinde "Şifreyi Çöz" yazısı var, el ele tutuşuyorlar.

Ideogramlı Nesiller (üstte), Dall-e 3 (sol altta) ve MidJourney (sağ altta)
Ideogramlı Nesiller (üstte), Dall-e 3 (sol altta) ve MidJourney (sağ altta)

Ideogram AI görüntüyü oluşturdu, metin doğru, senaryo gerçekçi ve karakterler kolayca tanımlanabilir (%100 doğru olmasa bile).

Görüntüyü Dall-E 3 oluşturdu ancak Biden kolayca tanımlanamıyor ve Trump yalnızca karakteristik saç stili nedeniyle belirlenebiliyor. Metin doğru değil ve manzara gerçekçi değil, çizgi film tadında.

MidJourney görüntüyü oluşturmayı reddetti.

Sonuç

Ücretsiz ve yaygın olarak kullanıma sunulan Ideogram, şu anda piyasada bulunan en iyi görüntü oluşturucu olabilir. Doğal dili anlamada mükemmeldir ve olağanüstü uzamsal yetenekleri ve hızlı uyumu vardır. Aynı zamanda şu anda mevcut olan en iyi metin oluşturucudur.

Eğer estetik en önemli husussa (bağlılığın ve metnin daha az önemli olduğu noktaya kadar) MidJourney belirli kullanım durumları için sağlam bir rakip olarak kalabilir. Dall-E 3, özellikle güçlü olmasa da ve yoğun şekilde sansürlenmiş olsa da, ChatGPT Plus aboneliğinin bir parçası olarak hala anlamlı olabilir.

Ideogram AI, şimdilik görüntü oluşturucu araç kutumuz arasında tacı elinde tutuyor.

Düzenleyen ryan ozawa.

Kripto haberlerinden haberdar olun, gelen kutunuzda günlük güncellemeler alın.

Zaman Damgası:

Den fazla azalmak