Ideogram je nov generator slik z umetno inteligenco, ki izniči konkurenco in prekaša MidJourney in Dall-E 3 - Dešifriraj

Ideogram je nov generator slik z umetno inteligenco, ki izniči konkurenco in prekaša MidJourney in Dall-E 3 – Dešifriraj

Ideogram AI – startup, ki so ga ustanovili nekdanji Googlovi inženirji skupaj s člani iz prestižnih ustanov, kot so UC Berkeley, Univerza Carnegie Mellon in Univerza v Torontu – je napovedal izdajo prve polne različice svojega istoimenskega generatorja slik.

"Navdušeni smo, da izdamo Ideogram 1.0, naš najnaprednejši model besedila v sliko doslej," je Ideogram AI dejal v uradnem sporočilu. blog post. "Ideogram 1.0, kot vsi modeli Ideograma, ki je bil usposobljen iz nič, ponuja najsodobnejše upodabljanje besedila, fotorealizem brez primere in hitro prileganje - ter novo funkcijo, imenovano Magic Prompt, ki vam pomaga napisati podrobne pozive za čudovite, ustvarjalne slike."

Objava prihaja skupaj z novico o zbiranju sredstev serije A v vrednosti 80 milijonov dolarjev, ki ga vodi Andreessen Horowitz, skupaj z Redpoint Ventures, Pear VC in SV Angel.

Dešifriraj je lahko preizkusil model in trditve Ideogram AI niso preveč precenjene – vzporedno primerjavo lahko najdete spodaj. Prva različica Ideograma je očitna izboljšava v primerjavi s svojima predhodnikoma v0.1 in v0.2: odlikuje se po hitrem prileganju, kakovosti slike in zmožnosti generiranja besedila.

Model ni odprtokoden, zato je vpogled v njegovo napeljavo omejen in ni raziskovalnega dokumenta, ki bi ga bilo treba oceniti. Toda rezultati, dobljeni z modelom, so govorili sami zase, zaradi česar je potencialno najboljši model, ki je trenutno na voljo - vsaj do Stabilna difuzija 3 je javno objavljen.

Novi model je nedvomno najzmogljivejši generator slik v smislu besedilnih zmogljivosti, saj ustvarja daljše besedilne nize z manj napakami kot Dall-E 3 ali MidJourney. Trenutna brezplačna stopnja mu daje tudi prednost pred konkurenti, kot sta Dall-E 3 in MidJourney, od katerih slednji nima brezplačne stopnje. Microsoft Copilot uporablja tudi Dall-E 3, vendar ustvarja samo kvadratne slike 1:1, medtem ko Ideogram podpira širši nabor razmerij stranic.

Ideogram ponuja tudi dva plačana načrta 7 in 15 USD na mesec, kar omogoča dostop do več kot 400 generacij na dan skupaj z drugimi ugodnostmi, kot so urejevalnik slik, prenosi boljše kakovosti, img2img—ki omogoča spremembe ali različice obstoječe slike—in zasebne generacije. Vse nižje stopnje javno prikazujejo zahtevane slike.

Ideogram je sposoben razumeti dolge pozive, se premikati s Stable Diffusion 3 in premagati vse druge generatorje slik na tem področju.

Ena od izstopajočih funkcij Ideograma je »Prompt Magic«, ki jo je mogoče vklopiti in izklopiti. Ta funkcija analizira poziv in ga izboljša za ustvarjanje slik boljše kakovosti, kar v bistvu daje modelu možnost razumevanja naravnega jezika, kot je Dall-E 3. Vendar je Ideogram bolj vsestranski, ker je ta funkcija neobvezna. Vedno je vklopljen s ChatGPT Plus, kar včasih vodi do netočnosti.

Nazadnje je Ideogram manj agresivno cenzuriran kot MidJourney in Dall-E 3 in je do zdaj zmožen ustvarjati slike znanih oseb, logotipov podjetij in umetniških stilov. Ne deluje popolnoma NSFW, vendar je bolj diskreten, ko gre za cenzuriranje pozivov.

Zdi se, da imajo prvi preizkuševalci raje Ideogram kot druge modele. »Z uporabo ocenjevalnega protokola, kot je tisti iz DALL·E 3, smo ugotovili, da imajo človeški ocenjevalci raje Ideogram 1.0 kot DALL·E 3 in Midjourney V6 pri hitri poravnavi, skladnosti slike, splošnih preferencah in kakovosti upodabljanja besedila,« je povedal zagon.

Vzporedna primerjava: Ideogram proti MidJourney proti Dall-E 3

Dešifriraj je preizkusil zmožnosti Ideograma in ga primerjal z njegovima najboljšima konkurentoma, MidJourney in Dall-E 3. Stable Diffusion 3 in Googlov top-of-the-line ImageFX tukaj ne ocenjujemo, ker SD3 še ni izdan in ImageFX ni široko dostopen.

Ustvarjanje dolgih nizov besedila

Poziv: Futuristični Android v Cyberpunk Cityju z napisom »Ne zamujajte v trendu AI: Emerge by Decrypt«

Generacije z ideogramom (levo), MidJourney (na sredini) in Dall-e 3 (desno)
Generacije z ideogramom (levo), MidJourney (na sredini) in Dall-E 3 (desno).

Ideogram AI je lahko upodobil tako zahtevano estetiko kot besedilo. Imel pa je tipkarsko napako, ki je ustvarila "tebe" namesto "the."

MidJourney sploh ni mogel ustvariti nobenega koherentnega besedila in se je osredotočil na ustvarjanje futurističnega androida s podrobnostmi. To je glavna tema celotne kompozicije. Mesto sploh ni cyberpunk.

Dall-E 3 se uvršča v sredino. Lahko je ustvaril futurističnega robota, mesto je cyberpunk, vendar na znaku ni bilo besede »Emerge«.

Zanimivo je, da je Ideogram razumel, da je robot v mestu in povezan z znakom, medtem ko je Dall-E domneval, da je znak del mestne krajine.

Dolgi pozivi in ​​prostorske zmogljivosti

Poziv: nadrealističen in zanimiv prizor, ki prikazuje mačko, ki sedi na vrhu televizorja poleg znaka z napisom "Emerge." V ozadju na eni strani stoji futuristični android, na drugi pa astronavt. Stene sobe krasi osupljiva podoba molekule in verige DNK.

Ideogram je nov generator slik z umetno inteligenco, ki izniči konkurenco in prekaša MidJourney in Dall-E 3 – Dešifriraj podatkovno inteligenco PlatoBlockchain. Navpično iskanje. Ai.
Generacije z Ideogramom (zgoraj), MidJourney (spodaj levo) in Dall-e 3 (spodaj desno)

Ideogram je bil na splošno daleč najboljši generator. Razumel je vsak posamezen del poziva, ustvaril besedilo brez tipkarskih napak, razumel lokacijo vsakega elementa z mačko na vrhu televizorja, znakom poleg njega, androidom in astronavtom na vsaki strani in celo razumel, da v ozadju morata biti molekula in veriga DNK.

Estetika MidJourneyja ni bila nadrealistična, ampak precej hiperrealistična. Ustvaril je besedo »Emerge«, vendar jo je postavil na TV in ni ustvaril znaka. Tudi mačka je poleg televizorja in ne na njem. Ni ustvaril androida in ni sledil pozivu za ozadje, namesto tega je ustvaril tisto, ki se bolje prilega estetiki kompozicije, pri čemer je subjektu (mački) dal večji pomen kot celotnemu prizoru.

Dall-E 3 je ohranil svoj značilni risani slog in ni mogel v celoti slediti navodilom. Ima več prostorskega razumevanja in hitrega upoštevanja kot MidJourney, vendar veliko manj kot Ideogram. Izgublja pa v slogovnem smislu. Ustvaril je mačko na vrhu televizorja, vendar ni uspel ustvariti znaka Emerge poleg mačke. Ni ustvaril androida in ni sledil pozivu pri ustvarjanju ozadja.

cenzura

Poziv: vroče, seksi dekle.

Generacije z ideogramom (levo), MidJourney (na sredini) in Dall-e 3 (desno)
Generacije z ideogramom (levo), MidJourney (na sredini) in Dall-e 3 (desno)

Poziv ne vključuje jezika, ki bi ga lahko razlagali kot sovražni govor ali žaljivke, kaj šele spolne. Navsezadnje je lahko "vroče, seksi dekle" popolnoma oblečeno in ne agresivno seksualizirano.

Ideogram AI je razumel poziv in ustvaril sliko, ki ustreza navodilom. Ideogram pa ima moderator AI, ki se sproži, ko se uporabijo bolj očitne besede, ki takoj vodijo do cenzurirane generacije (recimo slengovske besede za genitalije ali oznake, kot so goli, goli itd.).

Tako MidJourney kot Dall-E 3 medtem nista uspela ustvariti slike in prepovedanih besed, čeprav ne bi vodila do generacije NSFW.

Zdi se, da je ideogram bolj ciljno usmerjen s cenzuro in mogoče je videti ustvarjeno sliko – NSFW ali kako drugače vprašljivo – preden jo aplikacija potegne.

Znani ljudje in avtorsko zaščitene slike

Poziv: srečna Joe Biden in Vladimir Putin pred zidom z besedilom »Dešifriraj«, držita se za roke.

Generacije z Ideogramom (zgoraj), Dall-e 3 (spodaj levo) in MidJourney (spodaj desno)
Generacije z Ideogramom (zgoraj), Dall-e 3 (spodaj levo) in MidJourney (spodaj desno)

Ideogram AI je ustvaril sliko, besedilo je pravilno, scenarij je realističen in znaki so zlahka prepoznavni (čeprav niso 100-odstotno natančni.

Dall-E 3 je ustvaril sliko, vendar Bidna ni zlahka prepoznati, Trumpa pa je mogoče prepoznati le zaradi njegove značilne pričeske. Besedilo ni pravilno, scenografija pa ni realistična in je namesto tega risana.

MidJourney ni hotel ustvariti slike.

zaključek

Ideogram je brezplačen in splošno dostopen, trenutno najboljši generator slik na trgu. Odličen je pri razumevanju naravnega jezika in ima izjemne prostorske zmogljivosti ter hitro oprijemanje. Je tudi najboljši generator besedila, ki je trenutno na voljo.

Če je estetika najpomembnejši dejavnik – do te mere, da sta spoštovanje in besedilo manj pomembna –, potem lahko MidJourney ostane dober tekmec za posebne primere uporabe. Čeprav ni posebej močan in močno cenzuriran, je Dall-E 3 morda še vedno smiseln kot del naročnine ChatGPT Plus.

Ideogram AI drži krono med našim orodjem generatorjev slik — za zdaj.

Uredil Ryan Ozawa.

Bodite na tekočem s kripto novicami, prejemajte dnevne posodobitve v svoj nabiralnik.

Časovni žig:

Več od Dešifriraj