Ideogram est un nouveau générateur d'images IA qui anéantit la concurrence, surpassant MidJourney et Dall-E 3 - Décrypter

Ideogram est un nouveau générateur d'images IA qui anéantit la concurrence, surpassant MidJourney et Dall-E 3 – Décrypter

Ideogram AI, une startup fondée par d'anciens ingénieurs de Google aux côtés de membres d'institutions prestigieuses comme l'UC Berkeley, l'Université Carnegie Mellon et l'Université de Toronto, a annoncé la sortie de la première version complète de son générateur d'images éponyme.

"Nous sommes ravis de lancer Ideogram 1.0, notre modèle texte-image le plus avancé à ce jour", a déclaré Ideogram AI dans un communiqué officiel. blog récents. « Formé à partir de zéro, comme tous les modèles Ideogram, Ideogram 1.0 offre un rendu de texte de pointe, un photoréalisme sans précédent et une adhésion rapide, ainsi qu'une nouvelle fonctionnalité appelée Magic Prompt qui vous aide à rédiger des invites détaillées pour des images belles et créatives. »

Cette publication s'accompagne de l'annonce d'une collecte de fonds de série A de 80 millions de dollars menée par Andreessen Horowitz, aux côtés de Redpoint Ventures, Pear VC et SV Angel.

Décrypter a pu tester le modèle et les affirmations d'Ideogram AI ne sont pas extrêmement exagérées : une comparaison côte à côte peut être trouvée ci-dessous. La première version d'Ideogram constitue une nette amélioration par rapport à ses prédécesseurs v0.1 et v0.2 : elle excelle en termes d'adhésion rapide, de qualité d'image et de capacités de génération de texte.

Le modèle n'est pas open source, la visibilité sur sa plomberie est donc limitée et aucun document de recherche à évaluer. Mais les résultats obtenus avec ce modèle parlent d'eux-mêmes, en faisant potentiellement le meilleur modèle actuellement disponible, du moins jusqu'à ce que Diffusion stable 3 est rendu public.

Le nouveau modèle est sans doute le générateur d'images le plus performant en termes de capacités de texte, générant des chaînes de texte plus longues avec moins d'erreurs que Dall-E 3 ou MidJourney. Le niveau gratuit actuel lui donne également un avantage sur des concurrents comme Dall-E 3 et MidJourney, ce dernier n'ayant pas de niveau gratuit. Microsoft Copilot utilise également Dall-E 3, mais il ne génère que des images carrées 1:1, alors qu'Ideogram prend en charge un ensemble plus large de formats d'image.

Idéogramme propose également deux plans payés de 7 $ et 15 $ par mois, qui donnent accès à plus de 400 générations par jour ainsi que d'autres avantages comme un éditeur d'images, des téléchargements de meilleure qualité, img2img — qui permet des modifications ou des variations sur une image existante — et des générations privées. Tous les niveaux inférieurs affichent publiquement les images demandées.

Ideogram est capable de comprendre de longues invites, de rivaliser avec Stable Diffusion 3 et de battre tous les autres générateurs d'images dans ce domaine.

L'une des fonctionnalités les plus remarquables d'Ideogram est « Prompt Magic », qui peut être activée et désactivée. Cette fonctionnalité analyse l'invite et l'améliore pour créer des images de meilleure qualité, donnant essentiellement au modèle la capacité de comprendre le langage naturel comme Dall-E 3. Cependant, Ideogram est plus polyvalent car cette fonctionnalité est facultative. Il est toujours activé avec ChatGPT Plus, ce qui entraîne parfois des inexactitudes.

Enfin, Ideogram est moins agressivement censuré que MidJourney et Dall-E 3, et est jusqu'à présent capable de générer des images de personnes célèbres, de logos d'entreprise et de styles artistiques. Cela ne va pas entièrement vers NSFW, mais il est plus discret lorsqu'il s'agit de censurer les invites.

Et les premiers testeurs semblent préférer Ideogram aux autres modèles. "En utilisant un protocole d'évaluation comme celui de DALL·E 3, nous constatons que les évaluateurs humains préfèrent Ideogram 1.0 à DALL·E 3 et Midjourney V6 en termes d'alignement rapide, de cohérence d'image, de préférence globale et de qualité de rendu du texte", a déclaré la startup.

Comparaison côte à côte : Ideogram vs MidJourney vs Dall-E 3

Décrypter testé les capacités d'Ideogram et l'a comparé à ses principaux concurrents, MidJourney et Dall-E 3. Stable Diffusion 3 et le haut de gamme de Google ImageFX ne sont pas évalués ici car SD3 n'est pas encore publié et ImageFX n'est pas largement disponible.

Générer de longues chaînes de texte

Invite : un Android futuriste dans Cyberpunk City avec un panneau indiquant : "Ne soyez pas en retard dans la tendance de l'IA : Emerge by Decrypt"

Générations avec Ideogram (à gauche), MidJourney (au centre) et Dall-e 3 (à droite)
Générations avec Ideogram (à gauche), MidJourney (au centre) et Dall-E 3 (à droite).

Ideogram AI a été capable de représenter à la fois l’esthétique demandée et le texte. Il y avait cependant une faute de frappe, générant « toi » au lieu de « le ».

MidJourney n'a pas été en mesure de générer un texte cohérent et s'est concentré sur la génération d'un androïde futuriste avec des détails. C'est le sujet principal de toute la composition. La ville n’est pas du tout cyberpunk.

Dall-E 3 se situe au milieu. Il a réussi à générer le robot futuriste, la ville est cyberpunk, mais le panneau ne comportait pas le mot « Emerge ».

Chose intéressante, Ideogram a compris que le robot était dans la ville et associé au panneau, alors que Dall-E supposait que le panneau faisait partie du paysage urbain.

Invites longues et capacités spatiales

Invite : Une scène surréaliste et intrigante mettant en vedette un chat perché au sommet d'un téléviseur à côté d'un panneau indiquant "Emerge". En arrière-plan, un androïde futuriste se tient d’un côté et un astronaute de l’autre. Les murs de la pièce sont ornés d'une image saisissante d'une molécule et d'une chaîne d'ADN.

Ideogram est un nouveau générateur d'images IA qui anéantit la concurrence, surpassant MidJourney et Dall-E 3 - Decrypt PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
Générations avec Ideogram (en haut), MidJourney (en bas à gauche) et Dall-e 3 (en bas à droite)

Ideogram était de loin le meilleur générateur global. Il a compris chaque partie de l'invite, généré le texte sans fautes de frappe, compris l'emplacement de chaque élément avec le chat au-dessus d'un téléviseur, le panneau à côté, l'androïde et l'astronaute de chaque côté, et a même compris que il doit y avoir une molécule et une chaîne d'ADN en arrière-plan.

L'esthétique de MidJourney n'était pas surréaliste, mais plutôt hyper réaliste. Il a généré le mot « Emerge », mais l'a mis sur la télévision et n'a pas généré le signe. Le chat est également à côté de la télé et non pas dessus. Il n'a pas généré l'androïde et n'a pas suivi l'invite pour l'arrière-plan, générant à la place un message qui correspond mieux à l'esthétique de la composition, donnant plus d'importance au sujet (le chat) sur la scène globale.

Dall-E 3 a conservé son style de dessin animé caractéristique et n'a pas pu suivre pleinement l'invite. Il a plus de compréhension spatiale et une adhésion rapide que MidJourney, mais bien moins qu'Ideogram. Il y perd cependant en termes de style. Il a généré le chat au-dessus du téléviseur, mais n'a pas réussi à générer le signe Emerge à côté du chat. Il n'a pas généré l'Android et n'a pas suivi l'invite lors de la génération de l'arrière-plan.

Censure

Invite : une fille chaude et sexy.

Générations avec Ideogram (à gauche), MidJourney (au centre) et Dall-e 3 (à droite)
Générations avec Ideogram (à gauche), MidJourney (au centre) et Dall-e 3 (à droite)

L’invite n’inclut aucun langage qui pourrait être interprété comme un discours de haine ou des insultes, encore moins particulièrement sexuel. Après tout, une « fille chaude et sexy » peut être entièrement habillée et ne pas être sexualisée de manière agressive.

Ideogram AI a compris l'invite et a généré une image qui correspond aux instructions. Ideogram dispose cependant d'un modérateur IA, qui se déclenche lorsque des mots plus évidents sont utilisés et conduisent immédiatement à une génération censurée (par exemple, des mots d'argot pour les organes génitaux ou des tags comme nu, nu, etc.).

MidJourney et Dall-E 3, quant à eux, n'ont pas réussi à générer l'image et ont interdit les mots même s'ils n'auraient pas conduit à une génération NSFW.

Ideogram semble être davantage visé par la censure, et il est possible de voir l'image générée – NSFW ou autrement douteuse – avant qu'elle ne soit retirée par l'application.

Personnages célèbres et images protégées par le droit d'auteur

Invite : Joe Biden et Vladimir Poutine heureux devant un mur avec le texte « Décrypter », se tenant la main.

Générations avec Ideogram (en haut), Dall-e 3 (en bas à gauche) et MidJourney (en bas à droite)
Générations avec Ideogram (en haut), Dall-e 3 (en bas à gauche) et MidJourney (en bas à droite)

Ideogram AI a généré l'image, le texte est correct, le scénario est réaliste et les personnages sont facilement identifiables (même s'ils ne sont pas précis à 100 %).

Dall-E 3 a généré l’image, mais Biden n’est pas facilement identifiable, et Trump ne peut être identifié qu’en raison de sa coiffure caractéristique. Le texte n’est pas correct et le décor n’est pas réaliste mais ressemble plutôt à un dessin animé.

MidJourney a refusé de générer l'image.

Conclusion

Gratuit et largement disponible, Ideogram est peut-être le meilleur générateur d’images actuellement sur le marché. Il est excellent dans la compréhension du langage naturel et possède des capacités spatiales exceptionnelles et une adhésion rapide. C'est également le meilleur générateur de texte actuellement disponible.

Si l’esthétique est la considération la plus importante – au point où l’adhésion et le texte sont moins importants – alors MidJourney pourrait rester un concurrent sérieux pour des cas d’utilisation spécifiques. Bien qu'il ne soit pas particulièrement puissant et fortement censuré, Dall-E 3 peut toujours avoir du sens dans le cadre d'un abonnement ChatGPT Plus.

Ideogram AI détient la couronne parmi notre boîte à outils de générateurs d’images – pour l’instant.

Édité par Ryan Ozawa.

Restez au courant des actualités cryptographiques, recevez des mises à jour quotidiennes dans votre boîte de réception.

Horodatage:

Plus de Décrypter