Ideogramm on uus tehisintellekti kujutise generaator, mis kaotab konkurentsi, ületab MidJourney ja Dall-E 3 – dekrüpt

Ideogramm on uus tehisintellekti kujutise generaator, mis hävitab konkurentsi, ületab MidJourney ja Dall-E 3 – dekrüpt

Ideogram AI – idufirma, mille asutasid endised Google’i insenerid koos liikmetega sellistest mainekatest institutsioonidest nagu UC Berkeley, Carnegie Melloni ülikool ja Toronto ülikool – on teatanud oma samanimelise pildigeneraatori esimese täisversiooni väljalaskmisest.

"Meil on hea meel välja anda Ideogramm 1.0, meie seni kõige arenenum tekstist pildiks muutev mudel," ütles Ideogram AI ametnikule. blogi postitus. "Nullist väljaõpetatud nagu kõik Ideogrammi mudelid, pakub Ideogram 1.0 tipptasemel teksti renderdamist, enneolematut fotorealismi ja kiiret järgimist – ning uut funktsiooni nimega Magic Prompt, mis aitab teil kirjutada üksikasjalikke viipasid kaunite ja loominguliste piltide jaoks."

Väljaanne ilmub koos uudistega 80 miljoni dollari suurusest A-seeria rahakogumisest, mida juhib Andreessen Horowitz koos Redpoint Venturesi, Pear VC ja SV Angeliga.

Avaldage lahti sai mudelit testida ja Ideogram AI väited ei ole metsikult ülehinnatud – kõrvuti võrdluse leiate altpoolt. Ideogrammi esimene versioon on selle eelkäijatega võrreldes v0.1 ja v0.2 selge edasiminek: see paistab silma kiire järgimise, pildikvaliteedi ja teksti genereerimise võimalustega.

Mudel ei ole avatud lähtekoodiga, seega on selle torustiku nähtavus piiratud ja uurimistööd, mida hinnata, ei ole. Kuid mudeliga saadud tulemused rääkisid enda eest, muutes selle potentsiaalselt parimaks praegu saadaolevaks mudeliks – vähemalt seni Stabiilne difusioon 3 avaldatakse avalikult.

Uus mudel on tekstivõimaluste osas vaieldamatult kõige võimekam pildigeneraator, genereerides pikemaid tekstistringe vähemate vigadega kui Dall-E 3 või MidJourney. Praegune tasuta tase annab talle eelise ka selliste konkurentide ees nagu Dall-E 3 ja MidJourney, millest viimasel pole vaba taset. Microsoft Copilot kasutab ka Dall-E 3, kuid see genereerib ainult ruudukujulisi 1:1 pilte, samas kui Ideogram toetab laiemat kuvasuhte komplekti.

Ideogramm pakub ka kaks tasulist plaani 7 ja 15 dollarit kuus, mis annavad juurdepääsu üle 400 põlvkonnale päevas koos muude hüvedega, nagu pildiredaktor, parema kvaliteediga allalaadimised, img2img (mis võimaldab olemasolevat pilti muuta või varieerida) ja privaatsed põlvkonnad. Kõik madalamad tasemed kuvavad taotletud pilte avalikult.

Ideogramm on võimeline mõistma pikki viipasid, mõistma Stable Diffusion 3-ga ja võitma kõiki teisi pildigeneraatoreid selles valdkonnas.

Ideogrammi üks silmapaistvamaid funktsioone on "Prompt Magic", mida saab sisse ja välja lülitada. See funktsioon analüüsib viipa ja täiustab seda, et luua parema kvaliteediga pilte, mis annab mudelile põhimõtteliselt võimaluse mõista loomulikku keelt, nagu Dall-E 3. Ideogramm on aga mitmekülgsem, kuna see funktsioon on valikuline. See on alati ChatGPT Plusiga sisse lülitatud, mis mõnikord põhjustab ebatäpsusi.

Lõpuks on Ideogramm vähem agressiivselt tsenseeritud kui MidJourney ja Dall-E 3 ning on siiani võimeline looma kuulsate inimeste, ettevõtete logode ja kunstistiilide pilte. See ei lähe täielikult NSFW-sse, kuid tsenseerimisviipade osas on see diskreetsem.

Ja varased testijad näivad eelistavat Ideogrammi teistele mudelitele. "Kasutades sellist hindamisprotokolli nagu DALL·E 3, leiame, et hindajad eelistavad ideogrammi 1.0 DALL·E 3 ja Midjourney V6 asemel kiire joondamise, pildi sidususe, üldise eelistuse ja teksti renderdamise kvaliteedi osas," teatas startup.

Kõrvuti võrdlus: Ideogramm vs MidJourney vs Dall-E 3

Avaldage lahti testis Ideogrami võimalusi ja võrdles seda tippkonkurentide MidJourney ja Dall-E 3. Stable Diffusion 3 ja Google'i tipptasemel seadmetega. ImageFX siin ei hinnata, kuna SD3 pole veel välja antud ja ImageFX pole laialdaselt saadaval.

Pikkade tekstistringide genereerimine

Viip: Futuristlik Android Cyberpunk Citys, millel on silt: „Ära jää hiljaks tehisintellekti trendiga: Emerge by Decrypt”

Põlvkonnad ideogrammiga (vasakul), MidJourney (keskel) ja Dall-e 3 (paremal)
Põlvkonnad koos ideogrammiga (vasakul), MidJourney (keskel) ja Dall-E 3 (paremal).

Ideogramm AI suutis kujutada nii nõutud esteetikat kui ka teksti. Sellel oli aga kirjaviga, mis genereeris sõna "the" asemel "teie".

MidJourney ei suutnud luua ühtset teksti ja keskendus detailidega futuristliku androidi loomisele. See on kogu kompositsiooni põhiteema. Linn ei ole üldse küberpunk.

Dall-E 3 asub keskel. See suutis luua futuristliku roboti, linn on küberpunk, kuid sildil ei olnud sõna "Emerge".

Huvitaval kombel mõistis Ideogram, et robot oli linnas ja oli seotud märgiga, samas kui Dall-E eeldas, et silt on osa linnapildist.

Pikad viiped ja ruumilised võimalused

Viip: sürreaalne ja intrigeeriv stseen, kus kass istub televiisori otsas sildi "Emerge" kõrval. Taamal seisab ühel pool futuristlik android ja teisel pool astronaut. Ruumi seinu ehib silmatorkav kujutis molekulist ja DNA ahelast.

Ideogram Is A New AI Image Generator That Obliterates the Competition, Outperforming MidJourney and Dall-E 3 - Decrypt PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Põlvkonnad koos ideogrammiga (üleval), MidJourney (all vasakul) ja Dall-e 3 (all paremal)

Ideogramm oli ülekaalukalt parim üldine generaator. See sai aru igast viipa osast, genereeris teksti ilma kirjavigadeta, mõistis iga elemendi asukohta, kus kass oli televiisori peal, märk selle kõrval, android ja astronaut mõlemal küljel, ja isegi aru, et taustal peab olema molekul ja DNA ahel.

MidJourney esteetika ei olnud sürreaalne, vaid pigem hüperrealistlik. See genereeris sõna "Emerge", kuid pani selle telerisse ja märki ei genereerinud. Kass on ka teleka kõrval ja mitte selle peal. See ei genereerinud androidi ega järginud tausta viipasid, vaid genereeris selle asemel, mis sobis paremini kompositsiooni esteetikaga, andes subjektile (kassile) üldise stseeni jaoks suurema tähtsuse.

Dall-E 3 säilitas oma iseloomuliku koomiksistiili ega suutnud juhiseid täielikult järgida. Sellel on rohkem ruumimõistmist ja kiiret järgimist kui MidJourney, kuid palju vähem kui Ideogrammil. See kaotab aga stiili poolest. See genereeris kassi teleri peal, kuid ei suutnud luua kassi kõrval märki Emerge. See ei loonud androidi ega järginud tausta loomisel viipasid.

tsensuur

Viip: kuum, seksikas tüdruk.

Põlvkonnad ideogrammiga (vasakul), MidJourney (keskel) ja Dall-e 3 (paremal)
Põlvkonnad ideogrammiga (vasakul), MidJourney (keskel) ja Dall-e 3 (paremal)

Viip ei sisalda keelt, mida võiks tõlgendada vihakõne või solvamisena, rääkimata eriti seksuaalsest. Lõppude lõpuks võib "kuum, seksikas tüdruk" olla täielikult riides ja mitte agressiivselt seksualiseeritud.

Ideogramm AI mõistis viipa ja genereeris juhistele vastava pildi. Ideogrammil on aga tehisintellekti moderaator, mis käivitub, kui kasutatakse ilmsemaid sõnu, mis viivad koheselt tsenseeritud põlvkonnani (näiteks suguelundite slängisõnad või sildid nagu alasti, alasti jne).

Nii MidJourney kui ka Dall-E 3 ei suutnud vahepeal pilti luua ja keelasid sõnad isegi siis, kui need poleks viinud NSFW põlvkonnani.

Ideogramm näib olevat tsensuuriga rohkem sihitud ja genereeritud pilti – NSFW või muul moel küsitavat – on võimalik näha enne, kui rakendus selle ära tõmbab.

Kuulsad inimesed ja autoriõigustega kaitstud pildid

Viip: õnnelik Joe Biden ja Vladimir Putin seina ees, millel on tekst "Decrypt", hoides käest kinni.

Põlvkonnad koos ideogrammiga (üleval), Dall-e 3 (all vasakul) ja MidJourney (all paremal)
Põlvkonnad koos ideogrammiga (üleval), Dall-e 3 (all vasakul) ja MidJourney (all paremal)

Ideogramm AI genereeris pildi, tekst on õige, stsenaarium on realistlik ja tegelased on kergesti tuvastatavad (isegi kui mitte 100% täpsed.

Pildi genereeris Dall-E 3, kuid Bidenit ei ole lihtne tuvastada ja Trumpi saab tuvastada ainult tema iseloomuliku soengu tõttu. Tekst pole õige ja maastik ei ole realistlik ning on hoopis koomiksilik.

MidJourney keeldus pilti loomast.

Järeldus

Tasuta ja väljaspool väravat laialdaselt kättesaadav Ideogram võib olla praegu turul olev parim pildigeneraator. See mõistab suurepäraselt loomulikku keelt ning sellel on silmapaistvad ruumilised võimalused ja kiire järgimine. See on ka parim praegu saadaolev tekstigeneraator.

Kui esteetika on kõige olulisem, kuni punktini, kus järgimine ja tekst on vähem olulised, võib MidJourney jääda kindlaks konkurendiks teatud kasutusjuhtudel. Kuigi Dall-E 3 pole eriti tugev ja tugevalt tsenseeritud, võib see ChatGPT Plusi tellimuse osana siiski olla mõttekas.

Ideogramm AI on meie pildigeneraatorite tööriistakastis praegu esikohal.

Muutis Ryan Ozawa.

Olge kursis krüptouudistega, saate oma postkasti igapäevaseid värskendusi.

Ajatempel:

Veel alates Avaldage lahti