Az Ideogram egy új mesterséges intelligencia képgenerátor, amely felszámolja a versenyt, felülmúlja a MidJourney-t és a Dall-E 3-at - Decrypt

Az Ideogram egy új mesterséges intelligencia képgenerátor, amely felszámolja a versenyt, felülmúlja a MidJourney-t és a Dall-E 3-at – Decrypt

Az Ideogram AI – egy startup, amelyet a Google egykori mérnökei alapítottak olyan tekintélyes intézmények tagjai mellett, mint a UC Berkeley, a Carnegie Mellon Egyetem és a Torontói Egyetem – bejelentette névadó képgenerátora első teljes verziójának kiadását.

„Izgatottan várjuk, hogy kiadjuk az Ideogram 1.0-t, az eddigi legfejlettebb szöveg-kép-modellünket” – mondta az Ideogram AI egy hivatalos közleményében. blogbejegyzés. „A minden Ideogram modellhez hasonlóan a nulláról kiképzett Ideogram 1.0 a legmodernebb szövegmegjelenítést, példátlan fotorealizmust és azonnali tapadást kínál – és egy új funkciót, a Magic Promptot, amely segít részletes figyelmeztetések megírásában a gyönyörű, kreatív képekhez.”

A kiadás egy 80 millió dolláros Series A adománygyűjtés híre mellett érkezik, amelyet Andreessen Horowitz, valamint a Redpoint Ventures, a Pear VC és az SV Angel vezet.

visszafejtése sikerült tesztelni a modellt, és az Ideogram AI állításai nem túlzóak – az egymás melletti összehasonlítás alább található. Az Ideogram első verziója egyértelmű előrelépést jelent a v0.1-es és v0.2-es elődjeihez képest: kiemelkedik az azonnali tapadás, a képminőség és a szöveggenerálási képességek terén.

A modell nem nyílt forráskódú, ezért a vízvezeték-rendszere korlátozott, és nincs értékelhető kutatási dokumentum. De a modellel elért eredmények magukért beszéltek, és potenciálisan a jelenleg elérhető legjobb modellnek tekinthető – legalábbis addig Stabil diffúzió 3 nyilvánosan kiadják.

Az új modell vitathatatlanul a legtehetősebb képgenerátor a szöveges képességek tekintetében, hosszabb szövegláncokat generál kevesebb hibával, mint a Dall-E 3 vagy a MidJourney. A jelenlegi ingyenes szint szintén előnyt jelent az olyan versenytársakkal szemben, mint a Dall-E 3 és a MidJourney, amelyek közül az utóbbinak nincs szabad szintje. A Microsoft Copilot a Dall-E 3-at is használja, de csak négyzet alakú 1:1-es képeket hoz létre, míg az Ideogram a képarányok szélesebb készletét támogatja.

Ideogram is kínál két fizetett terv havi 7 és 15 dollár, amelyek több mint 400 nemzedékhez biztosítanak hozzáférést naponta, valamint olyan egyéb juttatásokat, mint a képszerkesztő, jobb minőségű letöltések, az img2img – amely lehetővé teszi egy meglévő kép módosítását vagy variációját – és privát generációkhoz. Minden alacsonyabb szint nyilvánosan jeleníti meg a kért képeket.

Az Ideogram képes megérteni a hosszú promptokat, a Stable Diffusion 3-mal lépésről lépésre halad, és felülmúlja az összes többi képgenerátort ezen a területen.

Az Ideogram egyik kiemelkedő funkciója a „Prompt Magic”, amely be- és kikapcsolható. Ez a funkció elemzi a promptot, és javítja azt, hogy jobb minőségű képeket hozzon létre, ami lényegében lehetővé teszi a modell számára, hogy megértse a természetes nyelvet, például a Dall-E 3-at. Az Ideogram azonban sokoldalúbb, mivel ez a funkció nem kötelező. Mindig be van kapcsolva a ChatGPT Plus-szal, ami néha pontatlanságokhoz vezet.

Végül az Ideogram kevésbé agresszív cenzúrázott, mint a MidJourney és a Dall-E 3, és eddig képes híres emberekről, céglogókról és művészeti stílusokról képeket generálni. Nem megy teljesen az NSFW-hez, de diszkrétebb, amikor cenzúrázni kell.

A korai tesztelők pedig úgy tűnik, az Ideogramot részesítik előnyben a többi modellel szemben. „A DALL·E 3-hoz hasonló kiértékelési protokollt használva azt találtuk, hogy az értékelők az Ideogram 1.0-t részesítik előnyben a DALL·E 3-mal és a Midjourney V6-tal szemben az azonnali igazítás, a képkoherencia, az általános preferenciák és a szövegmegjelenítési minőség tekintetében” – mondta a startup.

Egymás melletti összehasonlítás: Ideogram vs MidJourney vs Dall-E 3

visszafejtése tesztelte az Ideogram képességeit, és összehasonlította a legjobb versenytársaival, a MidJourney-vel és a Dall-E 3. Stable Diffusion 3-mal és a Google csúcstechnológiájával ImageFX itt nem értékelik, mert az SD3 még nem jelent meg, és az ImageFX nem elérhető széles körben.

Hosszú szövegláncok generálása

Üzenet: Futurisztikus Android a Cyberpunk Cityben, amelyen a következő felirat olvasható: „Ne késs el az AI-trendről: Emerge by Decrypt”

Generációk ideogrammal (balra), MidJourney (középen) és Dall-e 3 (jobbra)
Generációk Ideogrammal (balra), MidJourney-vel (középen) és Dall-E 3-mal (jobbra).

Az Ideogram AI mind a kért esztétikát, mind a szöveget képes volt megjeleníteni. Volt azonban egy elírási hiba, ami a „te” szót generálta a „the” helyett.

A MidJourney egyáltalán nem tudott koherens szöveget generálni, és egy futurisztikus android létrehozására összpontosított részletekkel. Ez az egész kompozíció fő témája. A város egyáltalán nem cyberpunk.

A Dall-E 3 középen áll. Képes volt létrehozni a futurisztikus robotot, a város cyberpunk, de a táblán nem szerepelt az „Emerge” szó.

Érdekes módon az Ideogram megértette, hogy a robot a városban van, és a táblához kapcsolódik, míg a Dall-E azt feltételezte, hogy a tábla a városkép része.

Hosszú promptok és térbeli képességek

Felszólítás: Szürreális és érdekfeszítő jelenet, amelyben egy macska a televízió tetején ül egy „Emerge” felirat mellett. A háttérben az egyik oldalon futurisztikus android, a másikon egy űrhajós áll. A szoba falait egy molekula és egy DNS-lánc feltűnő képe díszíti.

Ideogram Is A New AI Image Generator That Obliterates the Competition, Outperforming MidJourney and Dall-E 3 - Decrypt PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Generációk ideogrammal (fent), MidJourney-vel (balra lent) és Dall-e 3-mal (jobbra lent)

Az Ideogram messze a legjobb generátor volt. Megértette a prompt minden egyes részét, elgépelési hibák nélkül generálta a szöveget, megértette az egyes elemek helyét a macskával a tévé tetején, a mellette lévő táblával, mindkét oldalán az androiddal és az űrhajóssal, és még azt is megértette, hogy kell lennie egy molekulának és egy DNS-láncnak a háttérben.

A MidJourney esztétikája nem volt szürreális, inkább hiperrealisztikus. Ez generálta az „Emerge” szót, de feltette a tévére, és nem generálta a jelet. A macska is a tévé mellett van és nem a tetején. Nem generálta az androidot, és nem követte a háttérre vonatkozó utasítást, helyette olyat generált, amely jobban illeszkedik a kompozíció esztétikájához, nagyobb jelentőséget tulajdonítva a témának (a macskának) az általános jelenetnél.

A Dall-E 3 megőrizte jellegzetes rajzfilmes stílusát, és nem tudta maradéktalanul követni az utasításokat. Jobb a térbeli megértése és gyorsabb tapadása, mint a MidJourney, de sokkal kevésbé, mint az Ideogram. A stílust azonban elveszíti. Létrehozta a macskát a TV tetején, de nem sikerült létrehozni az Emerge jelet a macska mellett. Nem generálta az androidot, és nem követte az utasításokat a háttér generálásakor.

Cenzúra

Felszólítás: Egy dögös, szexi lány.

Generációk ideogrammal (balra), MidJourney (középen) és Dall-e 3 (jobbra)
Generációk ideogrammal (balra), MidJourney (középen) és Dall-e 3 (jobbra)

A felszólítás nem tartalmaz olyan nyelvezetet, amely gyűlöletbeszédnek vagy rágalmazásnak tekinthető, nem is beszélve különösen szexuális jellegű. Végül is egy „dögös, szexi lány” teljesen felöltözhető, és nem lehet agresszíven szexualizálni.

Az Ideogram AI megértette a felszólítást, és az utasításoknak megfelelő képet generált. Az ideogramnak azonban van egy mesterséges intelligencia-moderátora, amely akkor aktiválódik, ha nyilvánvalóbb szavakat használnak, amelyek azonnal cenzúrázott generációhoz vezetnek (mondjuk a nemi szervek szlengszavai vagy olyan címkék, mint a meztelenség, meztelenség stb.).

Eközben a MidJourney és a Dall-E 3 sem generálta a képet, és betiltotta a szavakat, még akkor is, ha azok nem vezettek volna NSFW generációhoz.

Úgy tűnik, hogy az Ideogram jobban megcélozza a cenzúrát, és még azelőtt látható a generált kép – NSFW vagy más módon megkérdőjelezhető –, mielőtt az alkalmazás megrántja.

Híres emberek és szerzői joggal védett képek

Felszólítás: Egy boldog Joe Biden és Vlagyimir Putyin egy fal előtt „Decrypt” felirattal, kézen fogva.

Nemzedékek Ideogrammal (fent), Dall-e 3-mal (balra lent) és MidJourney-vel (jobbra lent)
Nemzedékek Ideogrammal (fent), Dall-e 3-mal (balra lent) és MidJourney-vel (jobbra lent)

Az Ideogram AI generálta a képet, a szöveg helyes, a forgatókönyv valósághű, a karakterek pedig könnyen azonosíthatók (még ha nem is 100%-ig pontosak).

A Dall-E 3 generálta a képet, de Biden nem könnyen azonosítható, Trumpot pedig csak jellegzetes frizurája miatt lehet azonosítani. A szöveg nem helyes, a táj pedig nem valósághű, ehelyett karikatúraszerű.

A MidJourney nem volt hajlandó létrehozni a képet.

Következtetés

Az ingyenes és a kapun kívül széles körben elérhető Ideogram lehet a legjobb képgenerátor a piacon. Kiválóan érti a természetes nyelvet, kiváló térbeli képességekkel és gyors ragaszkodással rendelkezik. Ez a jelenleg elérhető legjobb szöveggenerátor is.

Ha az esztétika a legfontosabb szempont – addig a pontig, ahol a ragaszkodás és a szöveg kevésbé fontos –, akkor a MidJourney biztos versenytárs maradhat bizonyos felhasználási esetekben. Bár nem kifejezetten erős és erősen cenzúrázott, a Dall-E 3 még mindig értelmes lehet a ChatGPT Plus előfizetés részeként.

Az Ideogram AI a képgenerátorok eszköztárának a koronája – egyelőre.

Szerkesztette Ryan Ozawa.

Maradjon naprakész a kriptográfiai hírekkel, és napi frissítéseket kaphat a postaládájában.

Időbélyeg:

Még több visszafejtése