Ideogram — новый генератор изображений с искусственным интеллектом, который уничтожает конкурентов, превосходя MidJourney и Dall-E 3 — Расшифровать

Ideogram — новый генератор изображений с искусственным интеллектом, который уничтожает конкурентов, превосходя MidJourney и Dall-E 3 — Расшифруйте

Ideogram AI — стартап, основанный бывшими инженерами Google совместно с представителями престижных учреждений, таких как Калифорнийский университет в Беркли, Университет Карнеги-Меллона и Университет Торонто, — объявил о выпуске первой полной версии одноименного генератора изображений.

«Мы рады выпустить Ideogram 1.0, нашу самую совершенную модель преобразования текста в изображение на сегодняшний день», — говорится в официальном сообщении Ideogram AI. блоге. «Обученная с нуля, как и все модели Ideogram, Ideogram 1.0 предлагает современную визуализацию текста, беспрецедентный фотореализм и соблюдение подсказок, а также новую функцию под названием Magic Prompt, которая помогает вам писать подробные подсказки для красивых, креативных изображений».

Релиз сопровождается новостями о сборе средств серии A в размере 80 миллионов долларов, который возглавил Андриссен Горовиц вместе с Redpoint Ventures, Pear VC и SV Angel.

Decrypt смог протестировать модель, и заявления Ideogram AI не сильно преувеличены — параллельное сравнение можно найти ниже. Первая версия Ideogram представляет собой явное улучшение по сравнению со своими предшественниками v0.1 и v0.2: она превосходит быстроту выполнения, качество изображения и возможности генерации текста.

Модель не имеет открытого исходного кода, поэтому ее суть ограничена, и нет исследовательской работы, которую можно было бы оценить. Но результаты, полученные с помощью этой модели, говорили сами за себя, потенциально делая ее лучшей моделью, доступной в настоящее время — по крайней мере, до тех пор, пока Стабильная диффузия 3 публикуется публично.

Новая модель, возможно, является наиболее мощным генератором изображений с точки зрения текстовых возможностей: она генерирует более длинные текстовые строки с меньшим количеством ошибок, чем Dall-E 3 или MidJourney. Текущий уровень бесплатного пользования также дает ему преимущество перед такими конкурентами, как Dall-E 3 и MidJourney, у последнего нет уровня бесплатного пользования. Microsoft Copilot также использует Dall-E 3, но он генерирует только квадратные изображения с соотношением сторон 1:1, тогда как Ideogram поддерживает более широкий набор соотношений сторон.

Идеограмма также предлагает два платных плана стоимостью 7 и 15 долларов в месяц, что дает доступ к более чем 400 поколениям в день, а также к другим привилегиям, таким как редактор изображений, загрузка более высокого качества, img2img, который позволяет модифицировать или изменять существующее изображение, и частные поколения. Все нижние уровни публично отображают запрошенные изображения.

Ideogram способен понимать длинные подсказки, идти в ногу со Stable Diffusion 3 и превосходить все другие генераторы изображений в этой области.

Одна из выдающихся функций Ideogram — «Prompt Magic», которую можно включать и выключать. Эта функция анализирует подсказку и улучшает ее для создания изображений более высокого качества, по сути давая модели возможность понимать естественный язык, например Dall-E 3. Однако идеограмма более универсальна, поскольку эта функция является дополнительной. В ChatGPT Plus он всегда включен, что иногда приводит к неточностям.

Наконец, Ideogram подвергается менее жесткой цензуре, чем MidJourney и Dall-E 3, и на данный момент способен генерировать изображения известных людей, логотипы компаний и художественные стили. Он не полностью поддерживает NSFW, но более сдержан в вопросах цензуры.

И первые тестеры, похоже, предпочитают Ideogram другим моделям. «Используя протокол оценки, подобный протоколу DALL·E 3, мы обнаружили, что оценщики предпочитают Ideogram 1.0 DALL·E 3 и Midjourney V6 в плане быстрого выравнивания, согласованности изображений, общих предпочтений и качества рендеринга текста», – заявили в стартапе.

Сравнение бок о бок: Ideogram, MidJourney и Dall-E 3

Decrypt протестировал возможности Ideogram и сравнил его с лучшими конкурентами MidJourney и Dall-E 3. Stable Diffusion 3 и лучшим продуктом Google ИмиджFX здесь не оцениваются, поскольку SD3 еще не выпущен, а ImageFX широко не доступен.

Генерация длинных строк текста

Подсказка: футуристический Android в Киберпанк-сити с надписью «Не опаздывайте в тренде искусственного интеллекта: Emerge by Decrypt».

Поколения с идеограммой (слева), MidJourney (в центре) и Dall-e 3 (справа)
Поколения с идеограммой (слева), MidJourney (в центре) и Dall-E 3 (справа).

Идеограммный ИИ смог отобразить как запрошенную эстетику, так и текст. Однако в нем была опечатка, из-за которой вместо «the» возникло «thee».

MidJourney вообще не смогла сгенерировать какой-либо связный текст и сосредоточилась на создании футуристического андроида с детализацией. Это главный предмет всей композиции. Город вовсе не киберпанк.

Dall-E 3 занимает среднее место. Ему удалось создать футуристического робота, город выполнен в стиле киберпанк, но на вывеске не было слова «Появляйся».

Интересно, что Ideogram понял, что робот находится в городе и связан со знаком, тогда как Dall-E предположил, что знак является частью городского пейзажа.

Длинные подсказки и пространственные возможности

Подсказка: сюрреалистическая и интригующая сцена с кошкой, сидящей на телевизоре рядом с табличкой «Появляйся». На заднем плане с одной стороны стоит футуристический андроид, а с другой — космонавт. Стены комнаты украшены ярким изображением молекулы и цепочки ДНК.

Идеограмма — это новый генератор изображений искусственного интеллекта, который уничтожает конкурентов, превосходя MidJourney и Dall-E 3 — расшифровка данных PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Поколения с идеограммой (вверху), MidJourney (внизу слева) и Dall-e 3 (внизу справа)

Идеограмма была, безусловно, лучшим генератором. Он понимал каждую часть подсказки, генерировал текст без опечаток, понимал расположение каждого элемента: кота на телевизоре, знака рядом с ним, андроида и космонавта с каждой стороны, и даже понимал, что на заднем плане должна быть молекула и цепочка ДНК.

Эстетика MidJourney была не сюрреалистической, а скорее гиперреалистичной. Он сгенерировал слово «Появление», но показал его по телевизору, а не создал знак. Кот тоже рядом с телевизором, а не на нем. Он не создал андроид и не выполнил подсказку для фона, вместо этого создав тот, который лучше соответствует эстетике композиции, придавая большее значение объекту (коту) по сравнению с общей сценой.

Dall-E 3 сохранил свой характерный мультяшный стиль и не смог полностью следовать подсказке. У него больше пространственного понимания и быстрого выполнения действий, чем у MidJourney, но гораздо меньше, чем у Ideogram. Однако он проигрывает с точки зрения стиля. Он создал кота на вершине телевизора, но не смог создать знак «Появление» рядом с котом. Он не создал андроид и не выполнил подсказку при создании фона.

Цензура

Подсказка: горячая, сексуальная девушка.

Поколения с идеограммой (слева), MidJourney (в центре) и Dall-e 3 (справа)
Поколения с идеограммой (слева), MidJourney (в центре) и Dall-e 3 (справа)

В подсказке не содержатся выражения, которые можно было бы истолковать как разжигание ненависти или оскорбления, не говоря уже о том, что они имеют сексуальный характер. В конце концов, «горячая, сексуальная девушка» может быть полностью одета и не сексуализирована агрессивно.

Идеограммный ИИ понял подсказку и сгенерировал изображение, соответствующее инструкциям. Однако у идеограммы есть модератор ИИ, который срабатывает, когда используются более очевидные слова, которые немедленно приводят к цензуре (скажем, сленговые слова для обозначения гениталий или теги, такие как «обнаженный», «голый» и т. д.).

Между тем, и MidJourney, и Dall-E 3 не смогли сгенерировать изображение и запретить слова, даже если они не привели бы к созданию NSFW.

Идеограмма, похоже, более подвержена цензуре, и можно увидеть сгенерированное изображение (NSFW или другое сомнительное) до того, как оно будет извлечено приложением.

Известные люди и изображения, защищенные авторским правом

Подсказка: счастливые Джо Байден и Владимир Путин перед стеной с надписью «Расшифровать», держась за руки.

Поколения с идеограммой (вверху), Dall-e 3 (внизу слева) и MidJourney (внизу справа)
Поколения с идеограммой (вверху), Dall-e 3 (внизу слева) и MidJourney (внизу справа)

Идеограмма ИИ сгенерировала изображение, текст правильный, сценарий реалистичен, а персонажи легко распознаваемы (даже если не на 100 % точны).

Dall-E 3 создал изображение, но Байдена нелегко опознать, а Трампа можно идентифицировать только по его характерной прическе. Текст неверен, а декорации не реалистичны, а мультяшны.

MidJourney отказалась создать изображение.

Заключение

Бесплатная и широко доступная программа Ideogram, возможно, лучший генератор изображений на рынке в настоящее время. Он отлично понимает естественный язык, обладает выдающимися пространственными способностями и быстрой реакцией. Это также лучший текстовый генератор, доступный на данный момент.

Если эстетика является наиболее важным фактором (до такой степени, что соблюдение правил и текст менее важны), то MidJourney может оставаться серьезным конкурентом для конкретных случаев использования. Несмотря на то, что Dall-E 3 не особенно силен и подвергается жесткой цензуре, он все же может иметь смысл как часть подписки ChatGPT Plus.

Идеограммный искусственный интеллект на данный момент удерживает корону среди нашего набора инструментов генераторов изображений.

Под редакцией Райан Одзава.

Будьте в курсе крипто-новостей, получайте ежедневные обновления на свой почтовый ящик.

Отметка времени:

Больше от Decrypt