Ideogram er en ny AI-billedgenerator, der udsletter konkurrencen, overgår MidJourney og Dall-E 3 - Dekrypter

Ideogram er en ny AI-billedgenerator, der udsletter konkurrencen, overgår MidJourney og Dall-E 3 – Dekrypter

Ideogram AI – en startup grundlagt af tidligere Google-ingeniører sammen med medlemmer fra prestigefyldte institutioner som UC Berkeley, Carnegie Mellon University og University of Toronto – har annonceret udgivelsen af ​​den første fulde version af sin eponyme billedgenerator.

"Vi er glade for at frigive Ideogram 1.0, vores mest avancerede tekst-til-billede-model til dato," sagde Ideogram AI i en officiel blogindlæg. "Uddannet fra bunden som alle Ideogram-modeller tilbyder Ideogram 1.0 avanceret tekstgengivelse, hidtil uset fotorealisme og hurtig overholdelse – og en ny funktion kaldet Magic Prompt, der hjælper dig med at skrive detaljerede meddelelser til smukke, kreative billeder."

Udgivelsen kommer sammen med nyheder om en serie A-indsamling på $80 millioner ledet af Andreessen Horowitz sammen med Redpoint Ventures, Pear VC og SV Angel.

Dekryptér var i stand til at teste modellen, og Ideogram AI's påstande er ikke vildt overvurderet - en side om side sammenligning kan findes nedenfor. Version 0.1 af Ideogram er en klar forbedring i forhold til dens v0.2 og vXNUMX forgængere: den udmærker sig ved hurtig overholdelse, billedkvalitet og tekstgenereringsmuligheder.

Modellen er ikke open source, så der er begrænset synlighed i dens VVS og intet forskningspapir at evaluere. Men resultaterne opnået med modellen talte for sig selv, hvilket potentielt gør den til den bedste model, der er tilgængelig i øjeblikket - i hvert fald indtil Stabil diffusion 3 er offentligt udgivet.

Den nye model er uden tvivl den mest kapable billedgenerator med hensyn til tekstegenskaber, og genererer længere tekststrenge med færre fejl end Dall-E 3 eller MidJourney. Det nuværende gratis niveau giver det også en fordel i forhold til konkurrenter som Dall-E 3 og MidJourney, hvoraf sidstnævnte ikke har noget gratis niveau. Microsoft Copilot bruger også Dall-E 3, men det genererer kun kvadratiske 1:1 billeder, hvorimod Ideogram understøtter et bredere sæt billedformater.

Ideogram tilbyder også to betalte planer på $7 og $15 pr. måned, som giver adgang til over 400 generationer om dagen sammen med andre frynsegoder som et billedredigeringsprogram, bedre kvalitet downloads, img2img - som tillader ændringer eller variationer på et eksisterende billede - og private generationer. Alle lavere niveauer viser anmodede billeder offentligt.

Ideogram er i stand til at forstå lange prompter, gå tå til tå med Stable Diffusion 3 og slå alle andre billedgeneratorer i dette felt.

En af de iøjnefaldende funktioner i Ideogram er "Prompt Magic", som kan slås til og fra. Denne funktion analyserer prompten og forbedrer den for at skabe billeder af bedre kvalitet, hvilket i det væsentlige giver modellen mulighed for at forstå naturligt sprog som Dall-E 3. Ideogram er dog mere alsidigt, fordi denne funktion er valgfri. Det er altid tændt med ChatGPT Plus, hvilket nogle gange fører til unøjagtigheder.

Endelig er Ideogram mindre aggressivt censureret end MidJourney og Dall-E 3, og er indtil videre i stand til at generere billeder af kendte personer, firmalogoer og kunststile. Det går ikke fuldt ud NSFW, men det er mere diskret, når det kommer til censurering af prompter.

Og tidlige testere ser ud til at foretrække Ideogram frem for andre modeller. "Ved at bruge en evalueringsprotokol som den i DALL·E 3, finder vi ud af, at menneskelige bedømmere foretrækker Ideogram 1.0 frem for DALL·E 3 og Midjourney V6 i hurtig justering, billedsammenhæng, overordnet præference og tekstgengivelseskvalitet," sagde opstarten.

Side om side sammenligning: Ideogram vs MidJourney vs Dall-E 3

Dekryptér testede Ideograms muligheder og sammenlignede det med dets topkonkurrenter, MidJourney og Dall-E 3. Stable Diffusion 3 og Googles top-of-the-line ImageFX bliver ikke evalueret her, fordi SD3 ikke er udgivet endnu, og ImageFX er ikke bredt tilgængeligt.

Generering af lange tekststrenge

Spørgsmål: En futuristisk Android i Cyberpunk City med et skilt, der læser: "Kom ikke for sent i AI-trenden: Emerge by Decrypt"

Generationer med Ideogram (venstre), MidJourney (i midten) og Dall-e 3 (højre)
Generationer med Ideogram (venstre), MidJourney (i midten) og Dall-E 3 (højre).

Ideogram AI var i stand til at skildre både den ønskede æstetik og teksten. Det havde dog en tastefejl, der genererede "dig" i stedet for "den."

MidJourney var slet ikke i stand til at generere nogen sammenhængende tekst og fokuserede på at generere en futuristisk android med detaljer. Det er hovedemnet i hele kompositionen. Byen er slet ikke cyberpunk.

Dall-E 3 rangerer i midten. Det var i stand til at generere den futuristiske robot, byen er cyberpunk, men skiltet indeholdt ikke ordet "Emerge."

Interessant nok forstod Ideogram, at robotten var i byen og forbundet med skiltet, hvorimod Dall-E antog, at skiltet var en del af bybilledet.

Lange prompter og rumlige muligheder

Spørgsmål: En surrealistisk og spændende scene med en kat, der sidder på toppen af ​​et fjernsyn ved siden af ​​et skilt, hvor der står "Dukke op". I baggrunden står en futuristisk android på den ene side og en astronaut på den anden. Rummets vægge er prydet med et slående billede af et molekyle og en DNA-kæde.

Ideogram Is A New AI Image Generator That Obliterates the Competition, Outperforming MidJourney and Dall-E 3 - Decrypt PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Generationer med Ideogram (øverst), MidJourney (nederst til venstre) og Dall-e 3 (nederst til højre)

Ideogram var langt den bedste overordnede generator. Den forstod hver enkelt del af prompten, genererede teksten uden tastefejl, forstod placeringen af ​​hvert element med katten oven på et tv, skiltet ved siden af, androiden og astronauten på hver side og forstod endda, at der skal være et molekyle og en DNA-kæde i baggrunden.

MidJourneys æstetik var ikke surrealistisk, men snarere hyperrealistisk. Det genererede ordet "Emerge", men satte det på tv'et og genererede ikke tegnet. Katten er også ved siden af ​​tv'et og ikke oven på det. Den genererede ikke androiden og fulgte ikke meddelelsen om baggrunden, og genererede i stedet en, der passede bedre til kompositionens æstetik, hvilket gav motivet (katten) større betydning i forhold til den overordnede scene.

Dall-E 3 beholdt sin karakteristiske tegneseriestil og kunne ikke følge prompten fuldt ud. Det har mere rumlig forståelse og hurtig overholdelse end MidJourney, men langt mindre end Ideogram. Den taber dog stilmæssigt. Det genererede katten oven på tv'et, men det lykkedes ikke at generere Emerge-tegnet ved siden af ​​katten. Det genererede ikke androiden og fulgte ikke prompten, da den genererede baggrunden.

Censur

Spørgsmål: En varm, sexet pige.

Generationer med Ideogram (venstre), MidJourney (i midten) og Dall-e 3 (højre)
Generationer med Ideogram (venstre), MidJourney (i midten) og Dall-e 3 (højre)

Prompten inkluderer ikke sprog, der kan opfattes som hadefulde ytringer eller bagtalelser, endsige især seksuelt. En "hot, sexet pige" kan trods alt være fuldt påklædt og ikke aggressivt seksualiseret.

Ideogram AI forstod prompten og genererede et billede, der passede til instruktionerne. Ideogram har dog en AI-moderator, der udløses, når der bruges mere åbenlyse ord, der umiddelbart fører til en censureret generation (f.eks. slangord for kønsorganer eller tags som nøgen, nøgen osv.).

Både MidJourney og Dall-E 3 formåede i mellemtiden ikke at generere billedet og forbød ord, selvom de ikke ville have ført til en NSFW-generation.

Ideogram ser ud til at være mere målrettet med censur, og det er muligt at se det genererede billede - NSFW eller på anden måde tvivlsomt - før det bliver rykket af applikationen.

Berømte personer og ophavsretligt beskyttede billeder

Spørgsmål: En glad Joe Biden og Vladimir Putin foran en væg med teksten "Dekrypter", der holder hinanden i hånden.

Generationer med Ideogram (øverst), Dall-e 3 (nederst til venstre) og MidJourney (nederst til højre)
Generationer med Ideogram (øverst), Dall-e 3 (nederst til venstre) og MidJourney (nederst til højre)

Ideogram AI genererede billedet, teksten er korrekt, scenariet er realistisk, og tegnene er lette at identificere (selvom de ikke er 100 % nøjagtige.

Dall-E 3 genererede billedet, men Biden er ikke let at identificere, og Trump kan kun identificeres på grund af hans karakteristiske frisure. Teksten er ikke korrekt, og sceneriet er ikke realistisk og i stedet tegneserieagtigt.

MidJourney nægtede at generere billedet.

Konklusion

Gratis og bredt tilgængelig uden for porten, Ideogram kan være den bedste billedgenerator på markedet i øjeblikket. Det er fantastisk til naturlig sprogforståelse og har fremragende rumlige egenskaber og hurtig overholdelse. Det er også den bedste tekstgenerator, der er tilgængelig i øjeblikket.

Hvis æstetik er den vigtigste overvejelse - til det punkt, hvor overholdelse og tekst er mindre vigtig - så kan MidJourney forblive en solid konkurrent til specifikke brugssager. Selvom det ikke er specielt stærkt og stærkt censureret, kan Dall-E 3 stadig give mening som en del af et ChatGPT Plus-abonnement.

Ideogram AI holder kronen blandt vores værktøjskasse af billedgeneratorer - indtil videre.

Redigeret af Ryan Ozawa.

Hold dig opdateret med kryptonyheder, få daglige opdateringer i din indbakke.

Tidsstempel:

Mere fra Dekryptér