Ideogram is een nieuwe AI-beeldgenerator die de concurrentie vernietigt en beter presteert dan MidJourney en Dall-E 3

Ideogram is een nieuwe AI-beeldgenerator die de concurrentie vernietigt en beter presteert dan MidJourney en Dall-E 3 – Decrypt

Ideogram AI – een startup opgericht door voormalige Google-ingenieurs samen met leden van prestigieuze instellingen als UC Berkeley, Carnegie Mellon University en de Universiteit van Toronto – heeft de release aangekondigd van de eerste volledige versie van de gelijknamige beeldgenerator.

“We zijn verheugd om Ideogram 1.0 uit te brengen, ons meest geavanceerde tekst-naar-beeld-model tot nu toe”, zei Ideogram AI in een officieel persbericht. blogpost. “Ideogram 1.0 is net als alle Ideogram-modellen helemaal opnieuw getraind en biedt ultramoderne tekstweergave, ongekend fotorealisme en snelle naleving – en een nieuwe functie genaamd Magic Prompt waarmee u gedetailleerde aanwijzingen voor prachtige, creatieve afbeeldingen kunt schrijven.”

De release komt naast het nieuws over een Series A-inzamelingsactie van $ 80 miljoen onder leiding van Andreessen Horowitz, samen met Redpoint Ventures, Pear VC en SV Angel.

decoderen kon het model testen en de beweringen van Ideogram AI zijn niet overdreven overdreven: een vergelijking naast elkaar vindt u hieronder. Versie één van Ideogram is een duidelijke verbetering ten opzichte van zijn voorgangers v0.1 en v0.2: het blinkt uit in snelle naleving, beeldkwaliteit en mogelijkheden voor het genereren van tekst.

Het model is niet open-source, dus er is beperkt zicht op de werking ervan en er is geen onderzoekspaper om te evalueren. Maar de resultaten die met het model werden verkregen spraken voor zich, waardoor het mogelijk het beste model is dat momenteel beschikbaar is – tenminste tot nu toe Stabiele verspreiding 3 wordt publiekelijk vrijgegeven.

Het nieuwe model is misschien wel de meest capabele beeldgenerator in termen van tekstmogelijkheden, en genereert langere tekstreeksen met minder fouten dan Dall-E 3 of MidJourney. Het huidige gratis niveau geeft het ook een voorsprong op concurrenten als Dall-E 3 en MidJourney, waarvan de laatste geen gratis niveau heeft. Microsoft Copilot maakt ook gebruik van Dall-E 3, maar genereert alleen vierkante 1:1-afbeeldingen, terwijl Ideogram een ​​bredere reeks beeldverhoudingen ondersteunt.

Ideogram biedt ook twee betaalde abonnementen van $ 7 en $ 15 per maand, die toegang geven tot meer dan 400 generaties per dag, samen met andere voordelen zoals een afbeeldingseditor, downloads van betere kwaliteit, img2img (waarmee wijzigingen of variaties op een bestaande afbeelding mogelijk zijn) en privégeneraties. Alle lagere niveaus geven de gevraagde afbeeldingen openbaar weer.

Ideogram is in staat lange prompts te begrijpen, van teen tot teen te gaan met Stable Diffusion 3 en alle andere beeldgeneratoren op dit gebied te verslaan.

Een van de opvallende kenmerken van Ideogram is ‘Prompt Magic’, die kan worden in- en uitgeschakeld. Deze functie analyseert de prompt en verbetert deze om afbeeldingen van betere kwaliteit te creëren, waardoor het model in wezen de mogelijkheid krijgt om natuurlijke taal zoals Dall-E 3 te begrijpen. Ideogram is echter veelzijdiger omdat deze functie optioneel is. Bij ChatGPT Plus staat het altijd aan, wat soms tot onnauwkeurigheden leidt.

Ten slotte wordt Ideogram minder agressief gecensureerd dan MidJourney en Dall-E 3, en is het tot nu toe in staat afbeeldingen van beroemde mensen, bedrijfslogo's en kunststijlen te genereren. Het gaat niet volledig NSFW, maar het is discreter als het gaat om het censureren van aanwijzingen.

En vroege testers lijken Ideogram te verkiezen boven andere modellen. “Met behulp van een evaluatieprotocol zoals dat van DALL·E 3 ontdekken we dat menselijke beoordelaars Ideogram 1.0 verkiezen boven DALL·E 3 en Midjourney V6 wat betreft snelle uitlijning, beeldcoherentie, algemene voorkeur en tekstweergavekwaliteit”, aldus de startup.

Vergelijking zij aan zij: Ideogram versus MidJourney versus Dall-E 3

decoderen testte de mogelijkheden van Ideogram en vergeleek het met zijn topconcurrenten, MidJourney en Dall-E 3. Stable Diffusion 3 en het topmodel van Google AfbeeldingFX worden hier niet geëvalueerd omdat SD3 nog niet is uitgebracht en ImageFX nog niet algemeen beschikbaar is.

Lange tekstreeksen genereren

Prompt: een futuristisch Android in Cyberpunk City met een bord met de tekst: “Wees niet te laat in de AI-trend: Emerge by Decrypt”

Generaties met Ideogram (links), MidJourney (midden) en Dall-e 3 (rechts)
Generaties met Ideogram (links), MidJourney (midden) en Dall-E 3 (rechts).

Ideogram AI kon zowel de gevraagde esthetiek als de tekst weergeven. Er zat echter een typefout in, waardoor 'u' werd gegenereerd in plaats van 'de'.

MidJourney kon helemaal geen samenhangende tekst genereren en concentreerde zich op het genereren van een futuristische Android met detail. Het is het hoofdonderwerp van de hele compositie. De stad is helemaal geen cyberpunk.

Dall-E 3 staat in het midden. Het was in staat om de futuristische robot te genereren, de stad is cyberpunk, maar op het bord stond niet het woord 'Emerge'.

Interessant genoeg begreep Ideogram dat de robot zich in de stad bevond en geassocieerd werd met het bord, terwijl Dall-E aannam dat het bord deel uitmaakte van het stadsbeeld.

Lange prompts en ruimtelijke mogelijkheden

Prompt: Een surrealistische en intrigerende scène met een kat die bovenop een televisie zit, naast een bord met de tekst 'Emerge'. Op de achtergrond staat aan de ene kant een futuristische androïde en aan de andere kant een astronaut. De muren van de kamer zijn versierd met een opvallende afbeelding van een molecuul en een DNA-keten.

Ideogram is een nieuwe AI-beeldgenerator die de concurrentie vernietigt en beter presteert dan MidJourney en Dall-E 3 - Decrypt PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Generaties met Ideogram (boven), MidJourney (linksonder) en Dall-e 3 (rechtsonder)

Ideogram was veruit de beste algemene generator. Het begreep elk onderdeel van de prompt, genereerde de tekst zonder typefouten, begreep de locatie van elk element met de kat bovenop een tv, het bord ernaast, de androïde en de astronaut aan elke kant, en begreep zelfs dat er moeten een molecuul en een DNA-keten op de achtergrond zijn.

De esthetiek van MidJourney was niet surrealistisch, maar eerder hyperrealistisch. Het genereerde het woord ‘Emerge’, maar zette het op de tv en genereerde niet het bord. De kat staat ook naast de tv en niet er bovenop. Het genereerde niet de Android en volgde de prompt voor de achtergrond niet, maar genereerde in plaats daarvan een achtergrond die beter paste bij de esthetiek van de compositie, waardoor meer belang werd gehecht aan het onderwerp (de kat) in de hele scène.

Dall-E 3 behield zijn karakteristieke cartoonachtige stijl en kon de prompt niet volledig volgen. Het heeft meer ruimtelijk begrip en snelle naleving dan MidJourney, maar veel minder dan Ideogram. Het verliest echter qua stijl. Het genereerde de kat bovenop de tv, maar slaagde er niet in om het Emerge-bord naast de kat te genereren. Het genereerde de Android niet en volgde de prompt niet bij het genereren van de achtergrond.

Censuur

Vraag: Een heet, sexy meisje.

Generaties met Ideogram (links), MidJourney (midden) en Dall-e 3 (rechts)
Generaties met Ideogram (links), MidJourney (midden) en Dall-e 3 (rechts)

De prompt bevat geen taal die kan worden geïnterpreteerd als haatzaaiende uitlatingen of beledigingen, laat staan ​​specifiek seksueel. Een ‘heet, sexy meisje’ kan immers volledig gekleed zijn en niet agressief geseksualiseerd.

Ideogram AI begreep de vraag en genereerde een afbeelding die aan de instructies voldeed. Ideogram heeft echter wel een AI-moderator die wordt geactiveerd wanneer er meer voor de hand liggende woorden worden gebruikt die onmiddellijk tot een gecensureerde generatie leiden (bijvoorbeeld jargonwoorden voor geslachtsdelen of tags zoals naakt, naakt, enz.).

Zowel MidJourney als Dall-E 3 slaagden er intussen niet in om het beeld te genereren en verboden woorden, zelfs als ze niet tot een NSFW-generatie zouden hebben geleid.

Ideogram lijkt meer gericht op censuur, en het is mogelijk om de gegenereerde afbeelding (NSFW of anderszins twijfelachtig) te zien voordat deze door de applicatie wordt gerukt.

Beroemde mensen en auteursrechtelijk beschermde afbeeldingen

Prompt: een gelukkige Joe Biden en Vladimir Poetin voor een muur met de tekst ‘Decrypt’, hand in hand.

Generaties met Ideogram (boven), Dall-e 3 (linksonder) en MidJourney (rechtsonder)
Generaties met Ideogram (boven), Dall-e 3 (linksonder) en MidJourney (rechtsonder)

Ideogram AI heeft de afbeelding gegenereerd, de tekst is correct, het scenario is realistisch en de karakters zijn gemakkelijk herkenbaar (ook al zijn ze niet 100% nauwkeurig).

Dall-E 3 genereerde het beeld, maar Biden is niet gemakkelijk te identificeren, en Trump kan alleen worden geïdentificeerd vanwege zijn karakteristieke kapsel. De tekst is niet correct en het landschap is niet realistisch en in plaats daarvan cartoonachtig.

MidJourney weigerde de afbeelding te genereren.

Conclusie

Gratis en overal verkrijgbaar, Ideogram is misschien wel de beste beeldgenerator die momenteel op de markt is. Het is uitstekend in het begrijpen van natuurlijke taal en heeft uitstekende ruimtelijke capaciteiten en snelle therapietrouw. Het is ook de beste tekstgenerator die momenteel beschikbaar is.

Als esthetiek de belangrijkste overweging is – tot het punt waarop naleving en tekst minder belangrijk zijn – dan kan MidJourney een solide concurrent blijven voor specifieke gebruiksscenario’s. Hoewel niet bijzonder sterk en zwaar gecensureerd, kan Dall-E 3 nog steeds zinvol zijn als onderdeel van een ChatGPT Plus-abonnement.

Ideogram AI bekleedt voorlopig de kroon onder onze gereedschapskist van beeldgeneratoren.

Bewerkt door Ryan Ozawa.

Blijf op de hoogte van cryptonieuws, ontvang dagelijkse updates in je inbox.

Tijdstempel:

Meer van decoderen