Ideogram är en ny AI-bildgenerator som utplånar konkurrensen, överträffar MidJourney och Dall-E 3 - Dekryptera

Ideogram är en ny AI-bildgenerator som utplånar konkurrensen, överträffar MidJourney och Dall-E 3 – Dekryptera

Ideogram AI – en startup som grundades av tidigare Google-ingenjörer tillsammans med medlemmar från prestigefyllda institutioner som UC Berkeley, Carnegie Mellon University och University of Toronto – har tillkännagivit lanseringen av den första fullständiga versionen av dess självbetitlade bildgenerator.

"Vi är glada över att släppa Ideogram 1.0, vår mest avancerade text-till-bild-modell hittills," sade Ideogram AI i en officiell blogginlägg. "Tränad från grunden som alla Ideogram-modeller erbjuder Ideogram 1.0 toppmodern textåtergivning, oöverträffad fotorealism och snabb efterlevnad – och en ny funktion som heter Magic Prompt som hjälper dig att skriva detaljerade uppmaningar för vackra, kreativa bilder."

Releasen kommer tillsammans med nyheterna om en insamling på 80 miljoner dollar i Serie A ledd av Andreessen Horowitz, tillsammans med Redpoint Ventures, Pear VC och SV Angel.

Avkryptera kunde testa modellen och Ideogram AI:s påståenden är inte helt överdrivna – en jämförelse sida vid sida kan hittas nedan. Version ett av Ideogram är en tydlig förbättring jämfört med sina v0.1 och v0.2 föregångare: den utmärker sig i omedelbar efterlevnad, bildkvalitet och textgenereringsmöjligheter.

Modellen är inte öppen källkod, så det finns begränsad insyn i dess VVS och ingen forskningsartikel att utvärdera. Men resultaten som erhölls med modellen talade för sig själva, vilket potentiellt gör den till den bästa modellen som finns tillgänglig för närvarande - åtminstone fram till Stabil diffusion 3 släpps offentligt.

Den nya modellen är utan tvekan den mest kapabla bildgeneratorn när det gäller textkapacitet, och genererar längre textsträngar med färre fel än Dall-E 3 eller MidJourney. Den nuvarande gratisnivån ger den också en fördel gentemot konkurrenter som Dall-E 3 och MidJourney, av vilka den senare inte har någon gratisnivå. Microsoft Copilot använder också Dall-E 3, men det genererar bara kvadratiska 1:1-bilder, medan Ideogram stöder en bredare uppsättning bildförhållanden.

Ideogram erbjuder också två betalda planer på $7 och $15 per månad, vilket ger tillgång till över 400 generationer per dag tillsammans med andra förmåner som en bildredigerare, bättre kvalitet på nedladdningar, img2img—som tillåter modifieringar eller variationer på en befintlig bild—och privata generationer. Alla lägre nivåer visar begärda bilder offentligt.

Ideogram kan förstå långa uppmaningar, gå tå till tå med Stable Diffusion 3 och slå alla andra bildgeneratorer inom detta område.

En av de utmärkande funktionerna i Ideogram är "Prompt Magic", som kan slås på och av. Den här funktionen analyserar prompten och förbättrar den för att skapa bilder av bättre kvalitet, vilket i huvudsak ger modellen förmågan att förstå naturligt språk som Dall-E 3. Ideogram är dock mer mångsidig eftersom den här funktionen är valfri. Den är alltid påslagen med ChatGPT Plus, vilket ibland leder till felaktigheter.

Slutligen är Ideogram mindre aggressivt censurerat än MidJourney och Dall-E 3, och kan hittills generera bilder av kända personer, företagslogotyper och konststilar. Det går inte helt NSFW, men det är mer diskret när det gäller att censurera uppmaningar.

Och tidiga testare verkar föredra Ideogram framför andra modeller. "Genom att använda ett utvärderingsprotokoll som det i DALL·E 3, finner vi att mänskliga bedömare föredrar Ideogram 1.0 framför DALL·E 3 och Midjourney V6 i snabb justering, bildkoherens, övergripande preferenser och textåtergivningskvalitet", sa startupen.

Jämförelse sida vid sida: Ideogram vs MidJourney vs Dall-E 3

Avkryptera testade Ideograms kapacitet och jämförde den med sina toppkonkurrenter, MidJourney och Dall-E 3. Stable Diffusion 3 och Googles top-of-the-line ImageFX utvärderas inte här eftersom SD3 inte har släppts ännu och ImageFX inte är allmänt tillgängligt.

Genererar långa textsträngar

Uppmaning: En futuristisk Android i Cyberpunk City med en skylt som lyder: "Kom inte sent i AI-trenden: Emerge by Decrypt"

Generationer med Ideogram (vänster), MidJourney (mitten) och Dall-e 3 (höger)
Generationer med Ideogram (vänster), MidJourney (mitten) och Dall-E 3 (höger).

Ideogram AI kunde skildra både den efterfrågade estetiken och texten. Det hade dock ett stavfel som genererade "dig" istället för "den."

MidJourney kunde inte generera någon sammanhängande text alls, och fokuserade på att generera en futuristisk android med detaljer. Det är huvudämnet i hela kompositionen. Staden är inte alls cyberpunk.

Dall-E 3 rankas i mitten. Den kunde generera den futuristiska roboten, staden är cyberpunk, men skylten innehöll inte ordet "Emerge."

Intressant nog förstod Ideogram att roboten var i staden och associerade med skylten, medan Dall-E antog att skylten var en del av stadsbilden.

Långa uppmaningar och rumslig kapacitet

Uppmaning: En overklig och spännande scen med en katt som sitter ovanpå en tv bredvid en skylt där det står "Uppkom". I bakgrunden står en futuristisk android på ena sidan och en astronaut på den andra. Rummets väggar pryds av en slående bild av en molekyl och en DNA-kedja.

Ideogram är en ny AI-bildgenerator som utplånar konkurrensen, överträffar MidJourney och Dall-E 3 - Dekryptera PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
Generationer med Ideogram (överst), MidJourney (nederst till vänster) och Dall-e 3 (nederst till höger)

Ideogram var den överlägset bästa generatorn. Den förstod varje enskild del av prompten, genererade texten utan stavfel, förstod platsen för varje element med katten ovanpå en TV, skylten bredvid den, androiden och astronauten på varje sida, och förstod till och med att det måste finnas en molekyl och en DNA-kedja i bakgrunden.

MidJourneys estetik var inte surrealistisk, utan snarare hyperrealistisk. Det genererade ordet "Emerge", men satte det på TV:n och genererade inte tecknet. Katten är också bredvid TV:n och inte ovanpå den. Den genererade inte androiden och misslyckades med att följa uppmaningen för bakgrunden, utan genererade istället en som bättre passade kompositionens estetik, vilket gav mer vikt åt motivet (katten) över den övergripande scenen.

Dall-E 3 behöll sin karaktäristiska tecknade stil och kunde inte följa uppmaningen helt. Den har mer rumslig förståelse och snabb efterlevnad än MidJourney, men mycket mindre än Ideogram. Det tappar dock stilmässigt. Det genererade katten ovanpå TV:n, men lyckades inte generera Emerge-tecknet bredvid katten. Den genererade inte androiden och följde inte uppmaningen när bakgrunden skapades.

Censur

Uppmaning: En het, sexig tjej.

Generationer med Ideogram (vänster), MidJourney (mitten) och Dall-e 3 (höger)
Generationer med Ideogram (vänster), MidJourney (mitten) och Dall-e 3 (höger)

Uppmaningen innehåller inte språk som kan tolkas som hatretorik eller förtal, än mindre särskilt sexuellt. När allt kommer omkring kan en "het, sexig tjej" vara fullt klädd och inte aggressivt sexualiserad.

Ideogram AI förstod uppmaningen och genererade en bild som passade instruktionerna. Ideogram har dock en AI-moderator som utlöses när mer uppenbara ord används som omedelbart leder till en censurerad generation (säg slangord för könsorgan eller taggar som naken, naken, etc.).

Både MidJourney och Dall-E 3 misslyckades med att skapa bilden och förbjöd ord även om de inte skulle ha lett till en NSFW-generation.

Ideogram verkar vara mer riktat mot censur, och det är möjligt att se den genererade bilden – NSFW eller på annat sätt tvivelaktig – innan den rycks av applikationen.

Kända personer och upphovsrättsskyddade bilder

Uppmaning: En glad Joe Biden och Vladimir Putin framför en vägg med texten "Dekryptera", som håller varandra i hand.

Generationer med Ideogram (överst), Dall-e 3 (nederst till vänster) och MidJourney (nederst till höger)
Generationer med Ideogram (överst), Dall-e 3 (nederst till vänster) och MidJourney (nederst till höger)

Ideogram AI genererade bilden, texten är korrekt, scenariot är realistiskt och karaktärerna är lätta att identifiera (även om de inte är 100 % korrekta.

Dall-E 3 genererade bilden, men Biden är inte lätt att identifiera, och Trump kan bara identifieras på grund av sin karakteristiska frisyr. Texten är inte korrekt, och sceneriet är inte realistiskt och istället är det tecknat.

MidJourney vägrade generera bilden.

Slutsats

Gratis och allmänt tillgänglig utanför porten, Ideogram kan vara den bästa bildgeneratorn på marknaden för närvarande. Det är bra på naturlig språkförståelse och har enastående rumslig förmåga och snabb efterlevnad. Det är också den bästa textgeneratorn som finns tillgänglig för närvarande.

Om estetik är det viktigaste övervägandet – till den grad att följsamhet och text är mindre viktigt – kan MidJourney förbli en solid konkurrent för specifika användningsfall. Även om det inte är särskilt starkt och hårt censurerat, kan Dall-E 3 fortfarande vara vettigt som en del av ett ChatGPT Plus-abonnemang.

Ideogram AI håller kronan bland vår verktygslåda av bildgeneratorer - för nu.

Redigerad av Ryan Ozawa.

Håll dig uppdaterad om kryptonyheter, få dagliga uppdateringar i din inkorg.

Tidsstämpel:

Mer från Avkryptera