Ideogram — це новий генератор зображень зі штучним інтелектом, який усуває конкуренцію, перевершуючи MidJourney і Dall-E 3 - Decrypt

Ideogram — це новий генератор зображень штучного інтелекту, який усуває конкуренцію, перевершуючи MidJourney і Dall-E 3 — Decrypt

Ideogram AI — стартап, заснований колишніми інженерами Google разом із членами таких престижних установ, як Каліфорнійський університет у Берклі, Університет Карнегі-Меллона та Університет Торонто — оголосив про випуск першої повної версії свого однойменного генератора зображень.

«Ми раді випустити Ideogram 1.0, нашу найдосконалішу на сьогоднішній день модель перетворення тексту в зображення», — йдеться в офіційній заяві Ideogram AI. блог. «Навчений з нуля, як і всі моделі Ideogram, Ideogram 1.0 пропонує найсучасніше відтворення тексту, безпрецедентний фотореалізм і оперативне дотримання — і нову функцію під назвою Magic Prompt, яка допомагає вам писати детальні підказки для красивих, творчих зображень».

Реліз вийшов разом із новинами про збір коштів у розмірі 80 мільйонів доларів Серії А під керівництвом Андріссена Горовіца разом із Redpoint Ventures, Pear VC та SV Angel.

Розшифрувати зміг протестувати модель, і заяви Ideogram AI не є сильно перебільшеними — нижче можна знайти пліч-о-пліч порівняння. Перша версія Ideogram є явним удосконаленням у порівнянні з попередниками v0.1 і v0.2: вона вирізняється оперативним приєднанням, якістю зображення та можливостями створення тексту.

Модель не є відкритим вихідним кодом, тому видимість її сантехніки обмежена та немає наукової статті для оцінки. Але результати, отримані з цією моделлю, говорили самі за себе, потенційно зробивши її найкращою наявною на даний момент моделлю — принаймні до Стабільна дифузія 3 оприлюднено.

Нова модель, можливо, є найпотужнішим генератором зображень з точки зору текстових можливостей, генеруючи довші текстові рядки з меншою кількістю помилок, ніж Dall-E 3 або MidJourney. Поточний безкоштовний рівень також дає йому перевагу перед такими конкурентами, як Dall-E 3 і MidJourney, останній з яких не має безкоштовного рівня. Microsoft Copilot також використовує Dall-E 3, але він створює лише квадратні зображення 1:1, тоді як Ideogram підтримує ширший набір пропорцій.

Ідеограма також пропонує два платних плани 7 і 15 доларів США на місяць, що надає доступ до понад 400 поколінь на день, а також інші переваги, як-от редактор зображень, завантаження кращої якості, img2img, який дозволяє модифікувати або варіації існуючого зображення, і приватні покоління. Усі нижчі рівні відображають запрошені зображення публічно.

Ідеограма здатна розуміти довгі підказки, працювати з Stable Diffusion 3 і перемагати всі інші генератори зображень у цій галузі.

Однією з видатних функцій Ideogram є «Магія підказок», яку можна вмикати та вимикати. Ця функція аналізує підказку та покращує її для створення зображень кращої якості, по суті, даючи моделі можливість розуміти природну мову, як Dall-E 3. Однак Ideogram більш універсальний, оскільки ця функція необов’язкова. Він завжди ввімкнений у ChatGPT Plus, що іноді призводить до неточностей.

Нарешті, Ideogram піддається менш агресивній цензурі, ніж MidJourney і Dall-E 3, і поки що здатний генерувати зображення відомих людей, логотипи компаній і художні стилі. Це не повністю NSFW, але це більш дискретно, коли мова йде про цензуру підказок.

І перші тестувальники, здається, віддають перевагу Ideogram над іншими моделями. «Використовуючи протокол оцінки, подібний до протоколу DALL·E 3, ми виявили, що оцінювачі віддають перевагу Ideogram 1.0 перед DALL·E 3 і Midjourney V6 щодо швидкого вирівнювання, когерентності зображення, загальних переваг і якості відтворення тексту», — повідомили в стартапі.

Порівняння поруч: Ideogram проти MidJourney проти Dall-E 3

Розшифрувати перевірив можливості Ideogram і порівняв його з провідними конкурентами MidJourney і Dall-E 3. Stable Diffusion 3 і найкращий продукт Google ImageFX не оцінюються тут, оскільки SD3 ще не випущено, а ImageFX не є широко доступним.

Створення довгих рядків тексту

Підказка: футуристичний Android у Кіберпанк-Сіті з табличкою «Не запізнюйтесь у тренді AI: Emerge by Decrypt»

Покоління з ідеограмою (ліворуч), MidJourney (у центрі) та Dall-e 3 (праворуч)
Покоління з ідеограмою (ліворуч), MidJourney (у центрі) та Dall-E 3 (праворуч).

Ideogram AI зміг відобразити як запитувану естетику, так і текст. Однак у ньому була друкарська помилка, яка створила «thee» замість «the».

MidJourney взагалі не зміг створити зв’язний текст і зосередився на створенні футуристичного андроїда з деталями. Це головний предмет усієї композиції. Місто зовсім не кіберпанк.

Dall-E 3 займає середнє місце. Він зміг створити футуристичного робота, місто — кіберпанк, але на знаку не було слова «Emerge».

Цікаво, що Ideogram зрозумів, що робот знаходиться в місті та пов’язаний із знаком, тоді як Dall-E припустив, що знак є частиною міського пейзажу.

Довгі підказки та просторові можливості

Підказка: сюрреалістична та інтригуюча сцена з котом, що сидить на телевізорі поруч із табличкою з написом «Вийди». На задньому плані з одного боку стоїть футуристичний андроїд, а з іншого – астронавт. Стіни кімнати прикрашені вражаючим зображенням молекули та ланцюжка ДНК.

Ideogram Is A New AI Image Generator That Obliterates the Competition, Outperforming MidJourney and Dall-E 3 - Decrypt PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Покоління з ідеограмою (вгорі), MidJourney (унизу ліворуч) і Dall-e 3 (внизу праворуч)

Ідеограма на сьогоднішній день була найкращим генератором. Він зрозумів кожну частину підказки, згенерував текст без помилок, зрозумів розташування кожного елемента з котом на телевізорі, знаком поруч із ним, андроїдом і астронавтом з кожного боку, і навіть зрозумів, що має бути молекула і ланцюжок ДНК на тлі.

Естетика MidJourney була не сюрреалістичною, а скоріше гіперреалістичною. Він згенерував слово «Emerge», але показав його на телевізорі, а не згенерував знак. Кіт теж біля телевізора, а не на ньому. Він не згенерував андроїд і не виконав підказку щодо фону, створивши натомість фон, який краще відповідає естетиці композиції, надаючи більшого значення об’єкту (коту) над загальною сценою.

Dall-E 3 зберіг свій характерний мультяшний стиль і не міг повністю слідувати підказці. Він має більше просторового розуміння та швидкого дотримання, ніж MidJourney, але набагато менше, ніж Ideogram. Програє, однак, у плані стилю. Він створив кота на верхній частині телевізора, але не зміг створити знак Emerge поруч із котом. Він не генерував android і не дотримувався підказки під час генерації фону.

цензура

Підказка: гаряча, сексуальна дівчина.

Покоління з ідеограмою (ліворуч), MidJourney (у центрі) та Dall-e 3 (праворуч)
Покоління з ідеограмою (ліворуч), MidJourney (у центрі) та Dall-e 3 (праворуч)

Підказка не містить висловлювань, які можна було б розцінити як ворожі висловлювання чи образи, не кажучи вже про особливо сексуальні. Зрештою, «гаряча, сексуальна дівчина» може бути повністю одягнена і не агресивно сексуалізована.

Ideogram AI зрозумів підказку та створив зображення, яке відповідає інструкціям. Однак у ідеограми є модератор штучного інтелекту, який спрацьовує, коли використовуються більш очевидні слова, які негайно призводять до цензурної генерації (скажімо, сленгові слова для геніталій або теги, як-от оголений, голий тощо).

І MidJourney, і Dall-E 3, тим часом, не змогли створити зображення та заборонені слова, навіть якщо вони не призвели б до генерації NSFW.

Ідеограма, здається, більш націлена на цензуру, і можна побачити згенероване зображення (NSFW або інше сумнівне) до того, як його буде витягнуто програмою.

Відомі люди та захищені авторським правом зображення

Підказка: щасливі Джо Байден і Володимир Путін перед стіною з текстом «Розшифрувати», тримаючись за руки.

Покоління з ідеограмою (вгорі), Dall-e 3 (внизу ліворуч) і MidJourney (внизу праворуч)
Покоління з ідеограмою (вгорі), Dall-e 3 (внизу ліворуч) і MidJourney (внизу праворуч)

Ідеограма штучного інтелекту створила зображення, текст правильний, сценарій реалістичний, а персонажів легко ідентифікувати (навіть якщо вони не на 100% точні).

Dall-E 3 створив зображення, але Байдена нелегко впізнати, а Трампа можна впізнати лише завдяки його характерній зачісці. Текст неправильний, а декорації не реалістичні, а натомість мультяшні.

MidJourney відмовився створити зображення.

Висновок

Безкоштовний і широкодоступний Ideogram може бути найкращим генератором зображень на ринку. Він чудово розуміє природну мову, має надзвичайні просторові можливості та швидке дотримання. Це також найкращий текстовий генератор, доступний на даний момент.

Якщо естетика є найважливішим фактором — аж до такої міри, коли прихильність і текст менш важливі — тоді MidJourney може залишатися надійним конкурентом для конкретних випадків використання. Незважаючи на те, що Dall-E 3 не дуже сильний і піддається жорсткій цензурі, все ж може мати сенс як частина підписки ChatGPT Plus.

Ideogram AI тримає корону серед нашого інструментарію генераторів зображень — поки що.

За редакцією Раян Озава.

Будьте в курсі криптовалютних новин, отримуйте щоденні оновлення на свою поштову скриньку.

Часова мітка:

Більше від Розшифрувати