Ideogram Adalah Penghasil Gambar AI Baru yang Menghilangkan Persaingan, Mengungguli MidJourney dan Dall-E 3 - Dekripsi

Ideogram Adalah Generator Gambar AI Baru yang Menghilangkan Persaingan, Mengungguli MidJourney dan Dall-E 3 – Dekripsi

Ideogram AI—sebuah startup yang didirikan oleh mantan insinyur Google bersama anggota dari institusi bergengsi seperti UC Berkeley, Universitas Carnegie Mellon, dan Universitas Toronto—telah mengumumkan peluncuran versi lengkap pertama dari generator gambar eponymous-nya.

“Kami sangat bersemangat untuk merilis Ideogram 1.0, model text-to-image tercanggih kami hingga saat ini,” kata Ideogram AI dalam pernyataan resminya. posting blog. “Dilatih dari awal seperti semua model Ideogram, Ideogram 1.0 menawarkan rendering teks yang canggih, fotorealisme yang belum pernah ada sebelumnya, dan kepatuhan yang cepat—dan fitur baru yang disebut Magic Prompt yang membantu Anda menulis perintah mendetail untuk gambar yang indah dan kreatif.”

Peluncuran ini dilakukan bersamaan dengan berita penggalangan dana Seri A senilai $80 juta yang dipimpin oleh Andreessen Horowitz, bersama dengan Redpoint Ventures, Pear VC, dan SV Angel.

Dekripsi dapat menguji model tersebut dan klaim Ideogram AI tidak terlalu dilebih-lebihkan—perbandingannya dapat ditemukan di bawah. Ideogram versi pertama merupakan peningkatan yang jelas dibandingkan pendahulunya v0.1 dan v0.2: ia unggul dalam kepatuhan cepat, kualitas gambar, dan kemampuan pembuatan teks.

Model ini bukan sumber terbuka, sehingga visibilitas terhadap pipa ledengnya terbatas dan tidak ada makalah penelitian untuk dievaluasi. Namun hasil yang diperoleh dengan model tersebut terbukti dengan sendirinya, dan berpotensi menjadikannya model terbaik yang ada saat ini—setidaknya hingga saat ini Difusi Stabil 3 dirilis ke publik.

Model baru ini bisa dibilang merupakan generator gambar paling mumpuni dalam hal kemampuan teks, menghasilkan string teks yang lebih panjang dengan kesalahan yang lebih sedikit dibandingkan Dall-E 3 atau MidJourney. Tingkat gratis saat ini juga memberikan keunggulan dibandingkan pesaing seperti Dall-E 3 dan MidJourney, yang terakhir tidak memiliki tingkat gratis. Microsoft Copilot juga menggunakan Dall-E 3, namun hanya menghasilkan gambar persegi 1:1, sedangkan Ideogram mendukung serangkaian rasio aspek yang lebih luas.

Ideogram juga menawarkan dua paket berbayar sebesar $7 dan $15 per bulan, yang memberikan akses ke lebih dari 400 generasi per hari bersama dengan fasilitas lain seperti editor gambar, kualitas unduhan yang lebih baik, img2img—yang memungkinkan modifikasi atau variasi pada gambar yang ada—dan generasi pribadi. Semua tingkatan yang lebih rendah menampilkan gambar yang diminta secara publik.

Ideogram mampu memahami perintah yang panjang, bersaing dengan Stable Diffusion 3, dan mengalahkan semua generator gambar lainnya di bidang ini.

Salah satu fitur menonjol dari Ideogram adalah “Prompt Magic”, yang dapat diaktifkan dan dinonaktifkan. Fitur ini menganalisis perintah dan menyempurnakannya untuk menghasilkan gambar dengan kualitas lebih baik, yang pada dasarnya memberikan model kemampuan untuk memahami bahasa alami seperti Dall-E 3. Namun, Ideogram lebih serbaguna karena fitur ini bersifat opsional. Itu selalu diaktifkan dengan ChatGPT Plus, yang terkadang menyebabkan ketidakakuratan.

Terakhir, Ideogram kurang disensor secara agresif dibandingkan MidJourney dan Dall-E 3, dan sejauh ini mampu menghasilkan gambar orang-orang terkenal, logo perusahaan, dan gaya seni. Ini tidak sepenuhnya NSFW, tetapi lebih terpisah dalam hal permintaan sensor.

Dan penguji awal tampaknya lebih menyukai Ideogram dibandingkan model lainnya. “Dengan menggunakan protokol evaluasi seperti DALL·E 3, kami menemukan bahwa penilai manusia lebih memilih Ideogram 1.0 dibandingkan DALL·E 3 dan Midjourney V6 dalam hal penyelarasan cepat, koherensi gambar, preferensi keseluruhan, dan kualitas rendering teks,” kata startup tersebut.

Perbandingan Berdampingan: Ideogram vs MidJourney vs Dall-E 3

Dekripsi menguji kemampuan Ideogram dan membandingkannya dengan pesaing utamanya, MidJourney dan Dall-E 3. Stable Diffusion 3 dan produk unggulan Google GambarFX tidak dievaluasi di sini karena SD3 belum dirilis dan ImageFX belum tersedia secara luas.

Menghasilkan string teks yang panjang

Prompt: Android futuristik di Cyberpunk City dengan tanda bertuliskan, “Jangan terlambat dalam tren AI: Emerge by Decrypt”

Generasi dengan Ideogram (kiri), MidJourney (tengah), dan Dall-e 3 (kanan)
Generasi dengan Ideogram (kiri), MidJourney (tengah), dan Dall-E 3 (kanan).

Ideogram AI mampu menggambarkan estetika dan teks yang diminta. Namun ada kesalahan ketik, sehingga menghasilkan “kamu” dan bukannya “itu.”

MidJourney sama sekali tidak dapat menghasilkan teks yang koheren, dan fokus pada pembuatan android futuristik dengan detail. Ini adalah subjek utama dari keseluruhan komposisi. Kota ini sama sekali bukan cyberpunk.

Dall-E 3 berada di peringkat tengah. Ia mampu menghasilkan robot futuristik, kotanya cyberpunk, tetapi tandanya tidak menampilkan kata “Emerge.”

Menariknya, Ideogram memahami bahwa robot tersebut berada di dalam kota dan terkait dengan tanda tersebut, sedangkan Dall-E berasumsi bahwa tanda tersebut adalah bagian dari lanskap kota.

Perintah panjang dan kemampuan spasial

Prompt: Adegan nyata dan menarik yang menampilkan seekor kucing yang bertengger di atas televisi di samping papan bertuliskan “Muncul”. Di latar belakang, android futuristik berdiri di satu sisi dan astronot di sisi lain. Dinding ruangan dihiasi dengan gambar molekul dan rantai DNA yang mencolok.

Ideogram Adalah Generator Gambar AI Baru yang Menghilangkan Persaingan, Mengungguli MidJourney dan Dall-E 3 - Dekripsi Kecerdasan Data PlatoBlockchain. Pencarian Vertikal. Ai.
Generasi dengan Ideogram (atas), MidJourney (kiri bawah), dan Dall-e 3 (kanan bawah)

Ideogram sejauh ini merupakan generator terbaik secara keseluruhan. Ia memahami setiap bagian dari prompt, menghasilkan teks tanpa kesalahan ketik, memahami lokasi setiap elemen dengan kucing di atas TV, tanda di sebelahnya, android dan astronot di setiap sisinya, dan bahkan memahami bahwa harus ada molekul dan rantai DNA di latar belakang.

Estetika MidJourney tidak nyata, melainkan sangat realistis. Ini menghasilkan kata “Emerge,” tapi ditayangkan di TV, dan tidak menghasilkan tanda. Kucing itu juga berada di sebelah TV dan bukan di atasnya. Itu tidak menghasilkan android dan gagal mengikuti perintah untuk latar belakang, malah menghasilkan yang lebih sesuai dengan estetika komposisi, lebih mementingkan subjek (kucing) dibandingkan keseluruhan pemandangan.

Dall-E 3 mempertahankan gaya kartun khasnya dan tidak dapat mengikuti perintah sepenuhnya. Ia memiliki lebih banyak pemahaman spasial dan kepatuhan yang cepat dibandingkan MidJourney, namun jauh lebih sedikit dibandingkan Ideogram. Namun, ia kalah dalam hal gaya. Ini menghasilkan kucing di atas TV, namun gagal menghasilkan tanda Muncul di sebelah kucing. Itu tidak menghasilkan Android, dan tidak mengikuti perintah saat membuat latar belakang.

Sensor

Prompt: Seorang gadis seksi dan seksi.

Generasi dengan Ideogram (kiri), MidJourney (tengah), dan Dall-e 3 (kanan)
Generasi dengan Ideogram (kiri), MidJourney (tengah), dan Dall-e 3 (kanan)

Perintah tersebut tidak memuat bahasa yang dapat ditafsirkan sebagai ujaran kebencian atau penghinaan, apalagi yang bersifat seksual. Lagipula, “gadis seksi dan seksi” bisa berpakaian lengkap dan tidak melakukan seksual secara agresif.

Ideogram AI memahami perintah tersebut, dan menghasilkan gambar yang sesuai dengan instruksi. Namun, Ideogram memiliki moderator AI yang terpicu ketika kata-kata yang lebih jelas digunakan yang langsung mengarah ke generasi yang disensor (misalnya, kata-kata slang untuk alat kelamin atau tag seperti telanjang, telanjang, dll.).

Sementara itu, MidJourney dan Dall-E 3 gagal menghasilkan gambar dan melarang kata-kata meskipun hal tersebut tidak akan menghasilkan generasi NSFW.

Ideogram tampaknya lebih ditargetkan dengan sensor, dan dimungkinkan untuk melihat gambar yang dihasilkan—NSFW atau yang meragukan—sebelum diambil oleh aplikasi.

Orang terkenal dan gambar berhak cipta

Petunjuk: Joe Biden dan Vladimir Putin yang bahagia di depan tembok dengan teks “Dekripsi,” berpegangan tangan.

Generasi dengan Ideogram (atas), Dall-e 3 (kiri bawah), dan MidJourney (kanan bawah)
Generasi dengan Ideogram (atas), Dall-e 3 (kiri bawah), dan MidJourney (kanan bawah)

Ideogram AI menghasilkan gambar, teksnya benar, skenarionya realistis, dan karakternya mudah dikenali (walaupun tidak 100% akurat.

Dall-E 3 menghasilkan gambar tersebut, tetapi Biden tidak mudah dikenali, dan Trump hanya dapat dikenali karena gaya rambutnya yang khas. Teksnya tidak benar, pemandangannya tidak realistis, malah kartun.

MidJourney menolak untuk membuat gambar tersebut.

Kesimpulan

Gratis dan tersedia secara luas, Ideogram mungkin merupakan generator gambar terbaik yang saat ini ada di pasaran. Ini hebat dalam pemahaman bahasa alami dan memiliki kemampuan spasial yang luar biasa serta kepatuhan yang cepat. Ini juga merupakan generator teks terbaik yang tersedia saat ini.

Jika estetika adalah pertimbangan yang paling penting—hingga kepatuhan dan teks menjadi kurang penting—maka MidJourney mungkin tetap menjadi pesaing yang kuat untuk kasus penggunaan tertentu. Meskipun tidak terlalu kuat dan banyak disensor, Dall-E 3 mungkin masih masuk akal sebagai bagian dari langganan ChatGPT Plus.

Ideogram AI memegang posisi teratas di antara perangkat pembuat gambar kami —untuk saat ini.

Diedit oleh Ryan Ozawa.

Tetap di atas berita crypto, dapatkan pembaruan harian di kotak masuk Anda.

Stempel Waktu:

Lebih dari Dekripsi