Ideogram er en ny AI-bildegenerator som utsletter konkurransen, overgår MidJourney og Dall-E 3 - Dekrypter

Ideogram er en ny AI-bildegenerator som utsletter konkurransen, overgår MidJourney og Dall-E 3 – Dekrypter

Ideogram AI – en oppstart grunnlagt av tidligere Google-ingeniører sammen med medlemmer fra prestisjetunge institusjoner som UC Berkeley, Carnegie Mellon University og University of Toronto – har kunngjort utgivelsen av den første fullversjonen av sin eponyme bildegenerator.

"Vi er glade for å slippe Ideogram 1.0, vår mest avanserte tekst-til-bilde-modell til dags dato," sa Ideogram AI i en offisiell blogginnlegg. "Trent fra bunnen av som alle Ideogram-modeller, tilbyr Ideogram 1.0 toppmoderne tekstgjengivelse, enestående fotorealisme og umiddelbar overholdelse – og en ny funksjon kalt Magic Prompt som hjelper deg med å skrive detaljerte spørsmål for vakre, kreative bilder."

Utgivelsen kommer sammen med nyhetene om en 80 millioner dollars serie A-innsamling ledet av Andreessen Horowitz, sammen med Redpoint Ventures, Pear VC og SV Angel.

dekryptere var i stand til å teste modellen, og Ideogram AIs påstander er ikke voldsomt overvurdert – en side ved side sammenligning finner du nedenfor. Versjon én av Ideogram er en klar forbedring i forhold til sine v0.1 og v0.2 forgjengere: den utmerker seg i umiddelbar overholdelse, bildekvalitet og tekstgenereringsmuligheter.

Modellen er ikke åpen kildekode, så det er begrenset innsyn i rørleggerarbeidet og ingen forskningsoppgave å evaluere. Men resultatene oppnådd med modellen talte for seg selv, og potensielt gjør den til den beste modellen som er tilgjengelig for øyeblikket - i hvert fall frem til Stabil diffusjon 3 er offentlig utgitt.

Den nye modellen er uten tvil den mest kapable bildegeneratoren når det gjelder tekstfunksjoner, og genererer lengre tekststrenger med færre feil enn Dall-E 3 eller MidJourney. Det nåværende gratisnivået gir det også en fordel i forhold til konkurrenter som Dall-E 3 og MidJourney, hvor sistnevnte ikke har noe gratisnivå. Microsoft Copilot bruker også Dall-E 3, men den genererer bare kvadratiske 1:1-bilder, mens Ideogram støtter et bredere sett med sideforhold.

Ideogram tilbyr også to betalte planer på $7 og $15 per måned, som gir tilgang til over 400 generasjoner per dag sammen med andre fordeler som et bilderedigeringsprogram, bedre kvalitet på nedlastinger, img2img – som tillater endringer eller variasjoner på et eksisterende bilde – og private generasjoner. Alle lavere nivåer viser forespurte bilder offentlig.

Ideogram er i stand til å forstå lange spørsmål, gå tå til tå med Stable Diffusion 3, og slå alle andre bildegeneratorer i dette feltet.

En av de fremtredende funksjonene til Ideogram er "Prompt Magic", som kan slås av og på. Denne funksjonen analyserer ledeteksten og forbedrer den for å lage bilder av bedre kvalitet, noe som i hovedsak gir modellen muligheten til å forstå naturlig språk som Dall-E 3. Imidlertid er Ideogram mer allsidig fordi denne funksjonen er valgfri. Den er alltid slått på med ChatGPT Plus, noe som noen ganger fører til unøyaktigheter.

Endelig er Ideogram mindre aggressivt sensurert enn MidJourney og Dall-E 3, og er så langt i stand til å generere bilder av kjente personer, firmalogoer og kunststiler. Det går ikke fullt ut NSFW, men det er mer diskret når det gjelder sensurering av spørsmål.

Og tidlige testere ser ut til å foretrekke Ideogram fremfor andre modeller. "Ved å bruke en evalueringsprotokoll som den til DALL·E 3, finner vi at menneskelige vurderere foretrekker Ideogram 1.0 fremfor DALL·E 3 og Midjourney V6 i umiddelbar justering, bildekoherens, generell preferanse og tekstgjengivelseskvalitet," sa oppstarten.

Side ved side sammenligning: Ideogram vs MidJourney vs Dall-E 3

dekryptere testet Ideograms evner og sammenlignet det med toppkonkurrentene MidJourney og Dall-E 3. Stable Diffusion 3 og Googles top-of-the-line ImageFX blir ikke evaluert her fordi SD3 ikke er utgitt ennå og ImageFX er ikke allment tilgjengelig.

Generer lange tekststrenger

Spørsmål: En futuristisk Android i Cyberpunk City med et skilt som leser: «Ikke kom for sent i AI-trenden: Emerge by Decrypt»

Generasjoner med Ideogram (venstre), MidJourney (sentrum) og Dall-e 3 (høyre)
Generasjoner med Ideogram (venstre), MidJourney (i midten) og Dall-E 3 (høyre).

Ideogram AI var i stand til å skildre både den forespurte estetikken og teksten. Den hadde imidlertid en skrivefeil som genererte "deg" i stedet for "den."

MidJourney klarte ikke å generere noen sammenhengende tekst i det hele tatt, og fokuserte på å generere en futuristisk android med detaljer. Det er hovedemnet i hele komposisjonen. Byen er ikke cyberpunk i det hele tatt.

Dall-E 3 rangerer på midten. Den var i stand til å generere den futuristiske roboten, byen er cyberpunk, men skiltet inneholdt ikke ordet «Emerge».

Interessant nok forsto Ideogram at roboten var i byen og assosiert med skiltet, mens Dall-E antok at skiltet var en del av bybildet.

Lange spørsmål og romlige muligheter

Spørring: En surrealistisk og spennende scene med en katt som sitter på toppen av en TV ved siden av et skilt med teksten «Dukke opp». I bakgrunnen står en futuristisk android på den ene siden og en astronaut på den andre. Rommets vegger er utsmykket med et slående bilde av et molekyl og en DNA-kjede.

Ideogram er en ny AI-bildegenerator som utsletter konkurransen, overgår MidJourney og Dall-E 3 - Dekrypter PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Generasjoner med Ideogram (øverst), MidJourney (nederst til venstre) og Dall-e 3 (nederst til høyre)

Ideogram var den desidert beste generelle generatoren. Den forsto hver enkelt del av ledeteksten, genererte teksten uten skrivefeil, forsto plasseringen av hvert element med katten på toppen av en TV, skiltet ved siden av, androiden og astronauten på hver side, og forsto til og med at det må være et molekyl og en DNA-kjede i bakgrunnen.

MidJourneys estetikk var ikke surrealistisk, men snarere hyperrealistisk. Det genererte ordet «Emerge», men satte det på TV-en, og genererte ikke skiltet. Katten er også ved siden av TV-en og ikke oppå den. Den genererte ikke androiden og klarte ikke å følge oppfordringen til bakgrunnen, og genererte i stedet en som passet bedre til estetikken til komposisjonen, noe som ga mer betydning for motivet (katten) over den generelle scenen.

Dall-E 3 beholdt sin karakteristiske tegneseriestil og kunne ikke følge oppfordringen fullt ut. Den har mer romlig forståelse og rask overholdelse enn MidJourney, men mye mindre enn Ideogram. Den taper imidlertid stilmessig. Den genererte katten på toppen av TV-en, men klarte ikke å generere Emerge-tegnet ved siden av katten. Den genererte ikke androiden, og fulgte ikke ledeteksten da den genererte bakgrunnen.

Sensur

Spørsmål: En het, sexy jente.

Generasjoner med Ideogram (venstre), MidJourney (sentrum) og Dall-e 3 (høyre)
Generasjoner med Ideogram (venstre), MidJourney (sentrum) og Dall-e 3 (høyre)

Spørsmålet inkluderer ikke språk som kan tolkes som hatefulle ytringer eller sladder, enn si spesielt seksuelt. Tross alt kan en "hot, sexy jente" være fullt kledd og ikke aggressivt seksualisert.

Ideogram AI forsto ledeteksten og genererte et bilde som passet til instruksjonene. Ideogram har imidlertid en AI-moderator, som utløses når mer åpenbare ord brukes som umiddelbart fører til en sensurert generasjon (f.eks. slangord for kjønnsorganer eller tagger som naken, naken, etc.).

Både MidJourney og Dall-E 3 klarte i mellomtiden ikke å generere bildet og forbød ord selv om de ikke ville ha ført til en NSFW-generasjon.

Ideogram ser ut til å være mer målrettet med sensur, og det er mulig å se det genererte bildet – NSFW eller på annen måte tvilsomt – før det blir rykket av applikasjonen.

Kjente personer og opphavsrettsbeskyttede bilder

Spørring: En glad Joe Biden og Vladimir Putin foran en vegg med teksten «Dekrypter» og holder hender.

Generasjoner med Ideogram (øverst), Dall-e 3 (nederst til venstre) og MidJourney (nederst til høyre)
Generasjoner med Ideogram (øverst), Dall-e 3 (nederst til venstre) og MidJourney (nederst til høyre)

Ideogram AI genererte bildet, teksten er korrekt, scenariet er realistisk, og karakterene er lett identifiserbare (selv om de ikke er 100 % nøyaktige.

Dall-E 3 genererte bildet, men Biden er ikke lett identifiserbar, og Trump kan bare identifiseres på grunn av hans karakteristiske frisyre. Teksten er ikke korrekt, og sceneriet er ikke realistisk og i stedet tegneserieaktig.

MidJourney nektet å generere bildet.

konklusjonen

Gratis og allment tilgjengelig utenfor porten, kan Ideogram være den beste bildegeneratoren på markedet for øyeblikket. Den er god på naturlig språkforståelse og har enestående romlige evner og rask overholdelse. Det er også den beste tekstgeneratoren som er tilgjengelig for øyeblikket.

Hvis estetikk er det viktigste hensynet – til det punktet hvor overholdelse og tekst er mindre viktig – kan MidJourney forbli en solid konkurrent for spesifikke brukstilfeller. Selv om det ikke er spesielt sterkt og sterkt sensurert, kan Dall-E 3 fortsatt være fornuftig som en del av et ChatGPT Plus-abonnement.

Ideogram AI har kronen blant verktøykassen vår med bildegeneratorer – foreløpig.

Redigert av Ryan Ozawa.

Hold deg oppdatert på kryptonyheter, få daglige oppdateringer i innboksen din.

Tidstempel:

Mer fra dekryptere