Ideogram è un nuovo generatore di immagini AI che annienta la concorrenza, superando MidJourney e Dall-E 3 - Decrypt

Ideogram è un nuovo generatore di immagini AI che annienta la concorrenza, superando MidJourney e Dall-E 3 – Decrypt

Ideogram AI, una startup fondata da ex ingegneri di Google insieme a membri di prestigiose istituzioni come l'UC Berkeley, la Carnegie Mellon University e l'Università di Toronto, ha annunciato il rilascio della prima versione completa del suo omonimo generatore di immagini.

"Siamo entusiasti di rilasciare Ideogram 1.0, il nostro modello di testo in immagine più avanzato fino ad oggi", ha affermato Ideogram AI in un comunicato ufficiale post sul blog. "Addestrato da zero come tutti i modelli Ideogram, Ideogram 1.0 offre un rendering del testo all'avanguardia, un fotorealismo senza precedenti e un'aderenza rapida, oltre a una nuova funzionalità chiamata Magic Prompt che ti aiuta a scrivere suggerimenti dettagliati per immagini belle e creative."

Il rilascio accompagna la notizia di una raccolta fondi di serie A da 80 milioni di dollari guidata da Andreessen Horowitz, insieme a Redpoint Ventures, Pear VC e SV Angel.

decrypt è stato in grado di testare il modello e le affermazioni di Ideogram AI non sono esagerate: di seguito è possibile trovare un confronto fianco a fianco. La prima versione di Ideogram rappresenta un netto miglioramento rispetto ai suoi predecessori v0.1 e v0.2: eccelle in pronta aderenza, qualità dell'immagine e capacità di generazione del testo.

Il modello non è open source, quindi la visibilità è limitata e non vi è alcun documento di ricerca da valutare. Ma i risultati ottenuti con il modello parlavano da soli, rendendolo potenzialmente il miglior modello attualmente disponibile, almeno fino a quel momento Diffusione stabile 3 viene rilasciato pubblicamente.

Il nuovo modello è senza dubbio il generatore di immagini più capace in termini di capacità di testo, generando stringhe di testo più lunghe con meno errori rispetto a Dall-E 3 o MidJourney. L'attuale livello gratuito gli conferisce anche un vantaggio rispetto a concorrenti come Dall-E 3 e MidJourney, quest'ultimo dei quali non ha un livello gratuito. Anche Microsoft Copilot utilizza Dall-E 3, ma genera solo immagini quadrate 1:1, mentre Ideogram supporta un insieme più ampio di proporzioni.

Offre anche Ideogramma due piani a pagamento di $ 7 e $ 15 al mese, che danno accesso a oltre 400 generazioni al giorno insieme ad altri vantaggi come un editor di immagini, download di migliore qualità, img2img, che consente modifiche o variazioni su un'immagine esistente, e generazioni private. Tutti i livelli inferiori visualizzano pubblicamente le immagini richieste.

Ideogram è in grado di comprendere istruzioni lunghe, confrontarsi con Stable Diffusion 3 e battere tutti gli altri generatori di immagini in questo campo.

Una delle caratteristiche distintive di Ideogram è "Prompt Magic", che può essere attivato e disattivato. Questa funzionalità analizza il prompt e lo migliora per creare immagini di migliore qualità, essenzialmente dando al modello la capacità di comprendere il linguaggio naturale come Dall-E 3. Tuttavia, Ideogram è più versatile perché questa funzionalità è opzionale. È sempre attivo con ChatGPT Plus, il che a volte porta a imprecisioni.

Infine, Ideogram è censurato in modo meno aggressivo rispetto a MidJourney e Dall-E 3, ed è finora in grado di generare immagini di personaggi famosi, loghi aziendali e stili artistici. Non è completamente NSFW, ma è più discreto quando si tratta di censurare le richieste.

E i primi tester sembrano preferire l'Ideogram rispetto ad altri modelli. "Utilizzando un protocollo di valutazione come quello di DALL·E 3, scopriamo che i valutatori umani preferiscono Ideogram 1.0 rispetto a DALL·E 3 e Midjourney V6 in termini di allineamento rapido, coerenza dell'immagine, preferenza generale e qualità di rendering del testo", ha affermato la startup.

Confronto affiancato: Ideogram vs MidJourney vs Dall-E 3

decrypt ha testato le capacità di Ideogram e lo ha confrontato con i suoi principali concorrenti, MidJourney e Dall-E 3. Stable Diffusion 3 e il top di gamma di Google Immagine FX non vengono valutati qui perché SD3 non è ancora stato rilasciato e ImageFX non è ampiamente disponibile.

Generazione di lunghe stringhe di testo

Suggerimento: un Android futuristico a Cyberpunk City con un cartello che dice: "Non essere in ritardo nella tendenza dell'IA: Emerge by Decrypt"

Generazioni con Ideogram (a sinistra), MidJourney (al centro) e Dall-e 3 (a destra)
Generazioni con Ideogramma (a sinistra), MidJourney (al centro) e Dall-E 3 (a destra).

Ideogram AI è stata in grado di ritrarre sia l'estetica richiesta che il testo. C'era però un errore di battitura, che generava "te" invece di "the".

MidJourney non è stato in grado di generare alcun testo coerente e si è concentrato sulla generazione di un androide futuristico dettagliato. È il soggetto principale dell'intera composizione. La città non è affatto cyberpunk.

Dall-E 3 si schiera in mezzo. È stato in grado di generare il robot futuristico, la città è cyberpunk, ma il cartello non riportava la parola "Emerge".

È interessante notare che Ideogram capì che il robot si trovava in città ed era associato al segnale, mentre Dall-E presumeva che il segnale facesse parte del paesaggio urbano.

Prompt lunghi e capacità spaziali

Suggerimento: una scena surreale e intrigante con un gatto appollaiato sopra un televisore accanto a un cartello con la scritta "Emerge". Sullo sfondo si vedono da un lato un androide futuristico e dall'altro un astronauta. Le pareti della stanza sono adornate con l'immagine sorprendente di una molecola e di una catena di DNA.

Ideogram è un nuovo generatore di immagini AI che annienta la concorrenza, superando MidJourney e Dall-E 3 - Decrypt PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Generazioni con Ideogram (in alto), MidJourney (in basso a sinistra) e Dall-e 3 (in basso a destra)

L'ideogramma era di gran lunga il miglior generatore in assoluto. Comprendeva ogni singola parte del messaggio, generava il testo senza errori di battitura, comprendeva la posizione di ogni elemento con il gatto sopra la TV, il cartello accanto, l'androide e l'astronauta su ciascun lato, e capiva anche quello sullo sfondo devono esserci una molecola e una catena di DNA.

L'estetica di MidJourney non era surreale, ma piuttosto iperrealistica. Ha generato la parola “Emerge”, ma l’ha messa in TV e non ha generato il segno. Inoltre il gatto è accanto alla TV e non sopra. Non ha generato l'androide e non è riuscito a seguire la richiesta per lo sfondo, generandone invece uno che si adattava meglio all'estetica della composizione, dando più importanza al soggetto (il gatto) rispetto alla scena complessiva.

Dall-E 3 ha mantenuto il suo caratteristico stile cartoonesco e non è riuscito a seguire completamente il suggerimento. Ha una maggiore comprensione spaziale e una pronta aderenza rispetto a MidJourney, ma molto meno di Ideogram. Perde, però, in termini di stile. Ha generato il gatto sopra la TV, ma non è riuscito a generare il segno Emerge accanto al gatto. Non ha generato l'Android e non ha seguito la richiesta durante la generazione dello sfondo.

Censura

Suggerimento: una ragazza calda e sexy.

Generazioni con Ideogram (a sinistra), MidJourney (al centro) e Dall-e 3 (a destra)
Generazioni con Ideogram (a sinistra), MidJourney (al centro) e Dall-e 3 (a destra)

Il messaggio non include un linguaggio che possa essere interpretato come incitamento all'odio o insulti, per non parlare soprattutto di natura sessuale. Dopotutto, una "ragazza sexy e sexy" può essere completamente vestita e non sessualizzata in modo aggressivo.

L'ideogramma AI ha compreso la richiesta e ha generato un'immagine che si adattava alle istruzioni. Ideogram ha un moderatore AI, tuttavia, che si attiva quando vengono utilizzate parole più ovvie che portano immediatamente a una generazione censurata (ad esempio, parole gergali per i genitali o tag come nudo, nudo, ecc.).

Sia MidJourney che Dall-E 3, nel frattempo, non sono riusciti a generare l'immagine e hanno vietato le parole anche se non avrebbero portato a una generazione NSFW.

Ideogram sembra essere maggiormente preso di mira dalla censura ed è possibile vedere l'immagine generata (NSFW o altrimenti discutibile) prima che venga strattonata dall'applicazione.

Personaggi famosi e immagini protette da copyright

Suggerimento: Joe Biden e Vladimir Putin felici davanti a un muro con il testo "Decrypt", tenendosi per mano.

Generazioni con Ideogramma (in alto), Dall-e 3 (in basso a sinistra) e MidJourney (in basso a destra)
Generazioni con Ideogramma (in alto), Dall-e 3 (in basso a sinistra) e MidJourney (in basso a destra)

L'ideogramma AI ha generato l'immagine, il testo è corretto, lo scenario è realistico e i personaggi sono facilmente identificabili (anche se non accurati al 100%).

Dall-E 3 ha generato l’immagine, ma Biden non è facilmente identificabile, e Trump può essere identificato solo per la sua caratteristica acconciatura. Il testo non è corretto e lo scenario non è realistico ma è invece fumettistico.

MidJourney ha rifiutato di generare l'immagine.

Conclusione

Gratuito e ampiamente disponibile, Ideogram potrebbe essere il miglior generatore di immagini attualmente sul mercato. È eccezionale nella comprensione del linguaggio naturale e ha eccezionali capacità spaziali e una pronta aderenza. È anche il miglior generatore di testo attualmente disponibile.

Se l’estetica è la considerazione più importante, al punto che l’aderenza e il testo sono meno importanti, allora MidJourney potrebbe rimanere un solido concorrente per casi d’uso specifici. Sebbene non sia particolarmente forte e pesantemente censurato, Dall-E 3 potrebbe comunque avere senso come parte di un abbonamento ChatGPT Plus.

Ideogram AI detiene la corona tra i nostri strumenti di generatori di immagini, per ora.

A cura di Ryan Ozawa.

Rimani aggiornato sulle notizie crittografiche, ricevi aggiornamenti quotidiani nella tua casella di posta.

Timestamp:

Di più da decrypt