Ideogram ist ein neuer KI-Bildgenerator, der die Konkurrenz auslöscht und MidJourney und Dall-E 3 – Decrypt übertrifft

Ideogram ist ein neuer KI-Bildgenerator, der die Konkurrenz auslöscht und MidJourney und Dall-E 3 – Decrypt übertrifft

Ideogram AI – ein Startup, das von ehemaligen Google-Ingenieuren zusammen mit Mitgliedern renommierter Institutionen wie der UC Berkeley, der Carnegie Mellon University und der University of Toronto gegründet wurde – hat die Veröffentlichung der ersten Vollversion seines gleichnamigen Bildgenerators angekündigt.

„Wir freuen uns, Ideogram 1.0 zu veröffentlichen, unser bisher fortschrittlichstes Text-zu-Bild-Modell“, sagte Ideogram AI in einer offiziellen Mitteilung Blog-Post. „Wie alle Ideogram-Modelle von Grund auf trainiert, bietet Ideogram 1.0 modernste Textwiedergabe, beispiellosen Fotorealismus und Prompt-Einhaltung – und eine neue Funktion namens Magic Prompt, die Ihnen hilft, detaillierte Prompts für schöne, kreative Bilder zu schreiben.“

Die Veröffentlichung geht einher mit der Nachricht einer 80-Millionen-Dollar-Spendenaktion der Serie A unter der Leitung von Andreessen Horowitz zusammen mit Redpoint Ventures, Pear VC und SV Angel.

Entschlüsseln konnte das Modell testen und die Behauptungen von Ideogram AI sind nicht allzu übertrieben – einen direkten Vergleich finden Sie unten. Version eins von Ideogram ist eine deutliche Verbesserung gegenüber seinen Vorgängern v0.1 und v0.2: Sie zeichnet sich durch schnelle Haftung, Bildqualität und Textgenerierungsfunktionen aus.

Das Modell ist nicht Open Source, daher besteht nur begrenzter Einblick in seine Funktionsweise und es gibt keine zu bewertende Forschungsarbeit. Aber die mit dem Modell erzielten Ergebnisse sprachen für sich und machten es möglicherweise zum besten derzeit verfügbaren Modell – zumindest bis dahin Stalldiffusion 3 wird öffentlich veröffentlicht.

Das neue Modell ist wohl der leistungsfähigste Bildgenerator in Bezug auf Textfunktionen und generiert längere Textzeichenfolgen mit weniger Fehlern als Dall-E 3 oder MidJourney. Das aktuelle kostenlose Kontingent verschafft ihm auch einen Vorteil gegenüber Konkurrenten wie Dall-E 3 und MidJourney, für die es kein kostenloses Kontingent gibt. Microsoft Copilot verwendet ebenfalls Dall-E 3, generiert jedoch nur quadratische 1:1-Bilder, während Ideogram einen breiteren Satz an Seitenverhältnissen unterstützt.

Ideogram bietet auch zwei bezahlte Pläne von 7 $ und 15 $ pro Monat, die Zugriff auf über 400 Generationen pro Tag sowie andere Vorteile wie einen Bildeditor, Downloads in besserer Qualität, img2img – das Änderungen oder Variationen an einem vorhandenen Bild ermöglicht – und private Generationen ermöglichen. Alle unteren Ebenen zeigen angeforderte Bilder öffentlich an.

Ideogram ist in der Lage, lange Eingabeaufforderungen zu verstehen, mit Stable Diffusion 3 mitzuhalten und alle anderen Bildgeneratoren in diesem Bereich zu schlagen.

Eine der herausragenden Funktionen von Ideogram ist „Prompt Magic“, das ein- und ausgeschaltet werden kann. Diese Funktion analysiert die Eingabeaufforderung und verbessert sie, um Bilder mit besserer Qualität zu erstellen, wodurch das Modell im Wesentlichen die Fähigkeit erhält, natürliche Sprache wie Dall-E 3 zu verstehen. Ideogram ist jedoch vielseitiger, da diese Funktion optional ist. Bei ChatGPT Plus ist es immer aktiviert, was manchmal zu Ungenauigkeiten führt.

Schließlich wird Ideogram weniger aggressiv zensiert als MidJourney und Dall-E 3 und ist bisher in der Lage, Bilder berühmter Personen, Firmenlogos und Kunststile zu generieren. Es entspricht nicht vollständig NSFW, ist aber diskreter, wenn es um die Zensur von Aufforderungen geht.

Und die ersten Tester scheinen Ideogram anderen Modellen vorzuziehen. „Anhand eines Bewertungsprotokolls wie dem von DALL·E 3 stellen wir fest, dass menschliche Bewerter Ideogram 1.0 gegenüber DALL·E 3 und Midjourney V6 in Bezug auf schnelle Ausrichtung, Bildkohärenz, Gesamtpräferenz und Textwiedergabequalität bevorzugen“, sagte das Startup.

Direkter Vergleich: Ideogram vs. MidJourney vs. Dall-E 3

Entschlüsseln testete die Fähigkeiten von Ideogram und verglich es mit seinen Top-Konkurrenten MidJourney und Dall-E 3. Stable Diffusion 3 und Googles Spitzenprodukt ImageFX werden hier nicht evaluiert, da SD3 noch nicht veröffentlicht ist und ImageFX nicht allgemein verfügbar ist.

Generieren langer Textfolgen

Aufforderung: Ein futuristisches Android in Cyberpunk City mit einem Schild mit der Aufschrift „Seien Sie nicht zu spät im KI-Trend: Emerge by Decrypt“

Generationen mit Ideogram (links), MidJourney (Mitte) und Dall-e 3 (rechts)
Generationen mit Ideogram (links), MidJourney (Mitte) und Dall-E 3 (rechts).

Ideogram AI konnte sowohl die gewünschte Ästhetik als auch den Text darstellen. Allerdings hatte es einen Tippfehler, da „thee“ anstelle von „the“ generiert wurde.

MidJourney konnte überhaupt keinen zusammenhängenden Text generieren und konzentrierte sich auf die Erstellung eines futuristischen Androiden mit Details. Es ist das Hauptthema der gesamten Komposition. Die Stadt ist überhaupt kein Cyberpunk.

Dall-E 3 liegt im Mittelfeld. Es gelang ihm, den futuristischen Roboter „Die Stadt ist Cyberpunk“ zu erzeugen, aber auf dem Schild stand nicht das Wort „Emerge“.

Interessanterweise verstand Ideogram, dass sich der Roboter in der Stadt befand und mit dem Schild in Verbindung gebracht wurde, während Dall-E davon ausging, dass das Schild Teil des Stadtbildes war.

Lange Eingabeaufforderungen und räumliche Fähigkeiten

Aufforderung: Eine surreale und faszinierende Szene mit einer Katze, die auf einem Fernseher neben einem Schild mit der Aufschrift „Emerge“ sitzt. Im Hintergrund steht auf der einen Seite ein futuristischer Android und auf der anderen ein Astronaut. Die Wände des Raumes sind mit einem eindrucksvollen Bild eines Moleküls und einer DNA-Kette geschmückt.

Ideogram ist ein neuer KI-Bildgenerator, der die Konkurrenz auslöscht und MidJourney und Dall-E 3 – Decrypt PlatoBlockchain Data Intelligence übertrifft. Vertikale Suche. Ai.
Generationen mit Ideogram (oben), MidJourney (unten links) und Dall-e 3 (unten rechts)

Ideogram war mit Abstand der beste Generator insgesamt. Es verstand jeden einzelnen Teil der Eingabeaufforderung, generierte den Text ohne Tippfehler, verstand die Position jedes Elements mit der Katze auf einem Fernseher, dem Schild daneben, dem Androiden und dem Astronauten auf jeder Seite und verstand sogar das Im Hintergrund müssen sich ein Molekül und eine DNA-Kette befinden.

Die Ästhetik von MidJourney war nicht surreal, sondern eher hyperrealistisch. Es erzeugte das Wort „Emerge“, brachte es aber auf den Fernseher und erzeugte nicht das Zeichen. Auch die Katze steht neben dem Fernseher und nicht darauf. Der Android wurde nicht generiert und die Eingabeaufforderung für den Hintergrund wurde nicht befolgt. Stattdessen wurde ein Hintergrund generiert, der besser zur Ästhetik der Komposition passte und dem Motiv (der Katze) mehr Bedeutung als der Gesamtszene einräumte.

Dall-E 3 behielt seinen charakteristischen Cartoon-Stil bei und konnte der Aufforderung nicht vollständig folgen. Es hat ein besseres räumliches Verständnis und eine schnellere Adhärenz als MidJourney, aber viel weniger als Ideogram. Es verliert jedoch an Stil. Es erzeugte die Katze oben auf dem Fernseher, konnte aber das Emerge-Schild neben der Katze nicht erzeugen. Der Android wurde nicht generiert und die Eingabeaufforderung beim Generieren des Hintergrunds wurde nicht befolgt.

Zensur

Aufforderung: Ein heißes, sexy Mädchen.

Generationen mit Ideogram (links), MidJourney (Mitte) und Dall-e 3 (rechts)
Generationen mit Ideogram (links), MidJourney (Mitte) und Dall-e 3 (rechts)

Die Aufforderung enthält keine Sprache, die als Hassrede oder Beleidigungen, geschweige denn als besonders sexuell, ausgelegt werden könnte. Schließlich kann ein „heißes, sexy Mädchen“ vollständig bekleidet und nicht aggressiv sexualisiert sein.

Ideogram AI verstand die Aufforderung und generierte ein Bild, das den Anweisungen entsprach. Ideogram verfügt jedoch über einen KI-Moderator, der ausgelöst wird, wenn offensichtlichere Wörter verwendet werden, die sofort zu einer zensierten Generation führen (z. B. umgangssprachliche Wörter für Genitalien oder Tags wie nackt, nackt usw.).

Sowohl MidJourney als auch Dall-E 3 schafften es unterdessen nicht, das Bild zu erzeugen und verbannten Wörter, selbst wenn sie nicht zu einer NSFW-Generation geführt hätten.

Ideogram scheint stärker von der Zensur betroffen zu sein, und es ist möglich, das generierte Bild – ob NSFW oder anderweitig fragwürdig – zu sehen, bevor es von der Anwendung entfernt wird.

Berühmte Personen und urheberrechtlich geschützte Bilder

Aufforderung: Ein glücklicher Joe Biden und Wladimir Putin vor einer Wand mit dem Text „Decrypt“ und halten sich an den Händen.

Generationen mit Ideogram (oben), Dall-e 3 (unten links) und MidJourney (unten rechts)
Generationen mit Ideogram (oben), Dall-e 3 (unten links) und MidJourney (unten rechts)

Ideogram AI hat das Bild generiert, der Text ist korrekt, das Szenario ist realistisch und die Zeichen sind leicht identifizierbar (auch wenn sie nicht 100 % genau sind).

Dall-E 3 hat das Bild erstellt, aber Biden ist nicht leicht zu identifizieren, und Trump kann nur aufgrund seiner charakteristischen Frisur identifiziert werden. Der Text ist nicht korrekt und die Szenerie ist nicht realistisch, sondern eher cartoonhaft.

MidJourney weigerte sich, das Bild zu erstellen.

Zusammenfassung

Ideogram ist kostenlos und von Anfang an weit verbreitet und möglicherweise der beste Bildgenerator, der derzeit auf dem Markt erhältlich ist. Es eignet sich hervorragend zum Verstehen natürlicher Sprache und verfügt über hervorragende räumliche Fähigkeiten und eine schnelle Sprachverständlichkeit. Es ist auch der beste derzeit verfügbare Textgenerator.

Wenn die Ästhetik der wichtigste Gesichtspunkt ist – bis hin zu dem Punkt, an dem Haftung und Text weniger wichtig sind –, könnte MidJourney für bestimmte Anwendungsfälle ein solider Konkurrent bleiben. Obwohl Dall-E 3 nicht besonders stark ist und stark zensiert wird, kann es als Teil eines ChatGPT Plus-Abonnements dennoch sinnvoll sein.

Ideogram AI hält die Krone in unserem Werkzeugkasten an Bildgeneratoren – vorerst.

Herausgegeben von Ryan Ozawa.

Bleiben Sie über Krypto-News auf dem Laufenden und erhalten Sie tägliche Updates in Ihrem Posteingang.

Zeitstempel:

Mehr von Entschlüsseln