Ideograma este un nou generator de imagini AI care distruge concurența, depășind MidJourney și Dall-E 3 - Decrypt

Ideograma este un nou generator de imagini AI care anulează concurența, depășind MidJourney și Dall-E 3 – Decrypt

Ideogram AI – un startup fondat de foști ingineri Google alături de membri din instituții prestigioase precum UC Berkeley, Universitatea Carnegie Mellon și Universitatea din Toronto – a anunțat lansarea primei versiuni complete a generatorului său de imagini omonim.

„Suntem încântați să lansăm Ideogram 1.0, cel mai avansat model al nostru text-to-image de până acum”, a spus Ideogram AI într-un comunicat oficial. blog. „Instruit de la zero, ca toate modelele Ideogram, Ideogram 1.0 oferă redarea textului de ultimă generație, fotorealism fără precedent și aderență promptă – și o nouă funcție numită Magic Prompt care vă ajută să scrieți instrucțiuni detaliate pentru imagini frumoase și creative.”

Lansarea vine alături de vestea unei strângeri de fonduri în Seria A de 80 de milioane de dolari condusă de Andreessen Horowitz, împreună cu Redpoint Ventures, Pear VC și SV Angel.

decriptaţi a reușit să testeze modelul, iar afirmațiile Ideogram AI nu sunt exagerate – o comparație una lângă alta poate fi găsită mai jos. Versiunea unu a Ideogram este o îmbunătățire clară față de predecesorii săi v0.1 și v0.2: excelează în aderarea promptă, calitatea imaginii și capabilitățile de generare de text.

Modelul nu este open-source, așa că există o vizibilitate limitată asupra instalațiilor sanitare și nu există nicio lucrare de cercetare de evaluat. Dar rezultatele obținute cu modelul au vorbit de la sine, făcându-l potențial cel mai bun model disponibil în prezent – ​​cel puțin până în prezent Difuziune stabilă 3 este eliberat public.

Noul model este, fără îndoială, cel mai capabil generator de imagini în ceea ce privește capabilitățile de text, generând șiruri de text mai lungi cu mai puține erori decât Dall-E 3 sau MidJourney. Nivelul gratuit actual îi oferă, de asemenea, un avantaj față de concurenți precum Dall-E 3 și MidJourney, acesta din urmă nu are un nivel gratuit. Microsoft Copilot folosește și Dall-E 3, dar generează doar imagini pătrate 1:1, în timp ce Ideogram acceptă un set mai larg de rapoarte de aspect.

Oferă și ideograma două planuri plătite de 7 USD și 15 USD pe lună, care oferă acces la peste 400 de generații pe zi, împreună cu alte avantaje precum un editor de imagini, descărcări de calitate mai bună, img2img - care permite modificări sau variații ale unei imagini existente - și generații private. Toate nivelurile inferioare afișează public imaginile solicitate.

Ideograma este capabilă să înțeleagă solicitările lungi, să meargă în picioare cu Stable Diffusion 3 și să bată toate celelalte generatoare de imagini din acest domeniu.

Una dintre caracteristicile remarcabile ale Ideogramului este „Prompt Magic”, care poate fi activată și dezactivată. Această caracteristică analizează promptul și îl îmbunătățește pentru a crea imagini de o calitate mai bună, oferind în esență modelului capacitatea de a înțelege limbajul natural precum Dall-E 3. Cu toate acestea, Ideogram este mai versatil, deoarece această caracteristică este opțională. Este întotdeauna activat cu ChatGPT Plus, ceea ce duce uneori la inexactități.

În cele din urmă, Ideogram este cenzurat mai puțin agresiv decât MidJourney și Dall-E 3 și, până acum, este capabil să genereze imagini cu oameni celebri, logo-uri ale companiei și stiluri de artă. Nu merge complet NSFW, dar este mai discret când vine vorba de cenzurarea solicitărilor.

Iar testerii timpurii par să prefere Ideogram în detrimentul altor modele. „Folosind un protocol de evaluare precum cel al DALL·E 3, constatăm că evaluatorii umani preferă Ideograma 1.0 față de DALL·E 3 și Midjourney V6 în ceea ce privește alinierea promptă, coerența imaginii, preferința generală și calitatea redării textului”, a spus startup-ul.

Comparație alăturată: Ideogramă vs MidJourney vs Dall-E 3

decriptaţi a testat capacitățile lui Ideogram și l-a comparat cu concurenții săi de top, MidJourney și Dall-E 3. Stable Diffusion 3 și top-of-the-line de la Google ImageFX nu sunt evaluate aici deoarece SD3 nu este încă lansat și ImageFX nu este disponibil pe scară largă.

Generarea de șiruri lungi de text

Prompt: Un Android futurist în Cyberpunk City cu un semn pe care scrie „Nu întârziați în tendința AI: Emerge by Decrypt”

Generații cu Ideogramă (stânga), MidJourney (centru) și Dall-e 3 (dreapta)
Generații cu Ideogramă (stânga), MidJourney (centru) și Dall-E 3 (dreapta).

Ideogram AI a reușit să înfățișeze atât estetica solicitată, cât și textul. Cu toate acestea, a avut o greșeală de tipar, generând „thee” în loc de „the”.

MidJourney nu a putut genera deloc niciun text coerent și s-a concentrat pe generarea unui android futurist cu detalii. Este subiectul principal al întregii compoziții. Orașul nu este deloc cyberpunk.

Dall-E 3 se situează la mijloc. A fost capabil să genereze robotul futurist, orașul este cyberpunk, dar semnul nu conținea cuvântul „Emerge”.

Destul de interesant, Ideogram a înțeles că robotul se afla în oraș și asociat cu semnul, în timp ce Dall-E a presupus că semnul face parte din peisajul urban.

Solicitări lungi și capacități spațiale

Prompt: O scenă suprarealistă și intrigantă, care prezintă o pisică așezată deasupra unui televizor, lângă o pancartă pe care scrie „Emerge”. În fundal, un android futurist stă pe o parte și un astronaut pe cealaltă. Pereții camerei sunt împodobiți cu o imagine izbitoare a unei molecule și a unui lanț de ADN.

Ideogram este un nou generator de imagini AI care anulează concurența, depășind MidJourney și Dall-E 3 - Decrypt PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
Generații cu Ideogramă (sus), MidJourney (stânga jos) și Dall-e 3 (dreapta jos)

Ideograma a fost de departe cel mai bun generator general. A înțeles fiecare parte a promptului, a generat textul fără greșeli de scriere, a înțeles locația fiecărui element cu pisica deasupra unui televizor, semnul de lângă el, androidul și astronautul de fiecare parte și chiar a înțeles că trebuie să existe o moleculă și un lanț de ADN în fundal.

Estetica lui MidJourney nu a fost suprarealistă, ci mai degrabă hiper realistă. A generat cuvântul „Emerge”, dar l-a pus pe televizor și nu a generat semnul. Pisica este și lângă televizor și nu deasupra lui. Nu a generat androidul și nu a reușit să urmeze promptul pentru fundal, generând în schimb unul care se potrivește mai bine esteticii compoziției, acordând mai multă importanță subiectului (pisica) asupra scenei de ansamblu.

Dall-E 3 și-a păstrat stilul de desen animat caracteristic și nu a putut urma pe deplin solicitarea. Are mai multă înțelegere spațială și aderență promptă decât MidJourney, dar mult mai puțin decât Ideogram. Pierde, însă, din punct de vedere al stilului. A generat pisica deasupra televizorului, dar nu a reușit să genereze semnul Emerge lângă pisică. Nu a generat Android-ul și nu a urmat solicitarea la generarea fundalului.

Cenzură

Prompt: O fată sexy și sexy.

Generații cu Ideogramă (stânga), MidJourney (centru) și Dall-e 3 (dreapta)
Generații cu Ideogramă (stânga), MidJourney (centru) și Dall-e 3 (dreapta)

Solicitarea nu include limbaj care ar putea fi interpretat ca discurs instigator la ură sau insulte, cu atât mai puțin sexuale. La urma urmei, o „fată fierbinte și sexy” poate fi îmbrăcată complet și nu sexualizată agresiv.

Ideograma AI a înțeles promptul și a generat o imagine care se potrivește cu instrucțiunile. Ideogramă are, totuși, un moderator AI, care este declanșat atunci când sunt folosite cuvinte mai evidente care duc imediat la o generație cenzurată (să zicem, cuvinte din argou pentru organe genitale sau etichete precum nud, naked etc.).

Atât MidJourney, cât și Dall-E 3, între timp, nu au reușit să genereze imaginea și au interzis cuvintele chiar dacă nu ar fi condus la o generație NSFW.

Ideograma pare să fie mai vizată de cenzură și este posibil să vedeți imaginea generată - NSFW sau altfel discutabilă - înainte de a fi smulsă de aplicație.

Oameni celebri și imagini protejate prin drepturi de autor

Solicitare: Joe Biden și Vladimir Putin fericiți în fața unui perete cu textul „Decriptează”, ținându-se de mână.

Generații cu Ideogramă (sus), Dall-e 3 (stânga jos) și MidJourney (dreapta jos)
Generații cu Ideogramă (sus), Dall-e 3 (stânga jos) și MidJourney (dreapta jos)

Ideograma AI a generat imaginea, textul este corect, scenariul este realist, iar personajele sunt ușor de identificat (chiar dacă nu sunt 100% exacte.

Dall-E 3 a generat imaginea, dar Biden nu este ușor de identificat, iar Trump poate fi identificat doar datorită coafurii sale caracteristice. Textul nu este corect, iar peisajul nu este realist și în schimb este de tip caricatură.

MidJourney a refuzat să genereze imaginea.

Concluzie

Gratuit și disponibil pe scară largă, Ideogram poate fi cel mai bun generator de imagini de pe piață în prezent. Este excelent la înțelegerea limbajului natural și are capacități spațiale remarcabile și aderență promptă. Este, de asemenea, cel mai bun generator de text disponibil în prezent.

Dacă estetica este cea mai importantă considerație - până la punctul în care aderența și textul sunt mai puțin importante - atunci MidJourney ar putea rămâne un concurent solid pentru cazuri specifice de utilizare. Deși nu este deosebit de puternic și puternic cenzurat, Dall-E 3 poate avea totuși sens ca parte a unui abonament ChatGPT Plus.

Ideogram AI deține coroana printre cutia noastră de instrumente de generatoare de imagini — pentru moment.

Editat de Ryan Ozawa.

Fiți la curent cu știrile cripto, primiți actualizări zilnice în căsuța dvs. de e-mail.

Timestamp-ul:

Mai mult de la decriptaţi