Ideogram 是一款超越竞争对手的新型 AI 图像生成器,性能优于 MidJourney 和 Dall-E 3 - Decrypt

Ideogram 是一款超越竞争对手的新型 AI 图像生成器,性能优于 MidJourney 和 Dall-E 3 – Decrypt

Ideogram AI 是一家由前谷歌工程师与来自加州大学伯克利分校、卡内基梅隆大学和多伦多大学等著名机构的成员共同创立的初创公司,它宣布发布其同名图像生成器的第一个完整版本。

Ideogram AI 在一份官方声明中表示:“我们很高兴发布 Ideogram 1.0,这是我们迄今为止最先进的文本到图像模型。” 博客文章。 “像所有 Ideogram 模型一样,Ideogram 1.0 是从头开始训练的,它提供了最先进的文本渲染、前所未有的照片级真实感和提示依从性,以及名为 Magic Prompt 的新功能,可帮助您为美丽、富有创意的图像编写详细的提示。”

在此消息发布之际,还有由 Andreessen Horowitz 领投、Redpoint Ventures、Pear VC 和 SV Angel 领投的 80 万美元 A 轮融资的消息。

解码 能够测试该模型,Ideogram AI 的说法并没有过分夸大——可以在下面找到并排比较。 Ideogram 的第一版比其 v0.1 和 v0.2 前身有明显的改进:它在提示遵守、图像质量和文本生成功能方面表现出色。

该模型不是开源的,因此对其管道的了解有限,也没有研究论文可供评估。但该模型获得的结果不言自明,有可能使其成为当前可用的最佳模型——至少直到 稳定扩散3 已公开发布。

就文本功能而言,新模型可以说是最强大的图像生成器,可以生成更长的文本字符串,并且错误比 Dall-E 3 或 MidJourney 更少。当前的免费套餐也使其比 Dall-E 3 和 MidJourney 等竞争对手更具优势,后者没有免费套餐。 Microsoft Copilot 也使用 Dall-E 3,但它仅生成方形 1:1 图像,而 Ideogram 支持更广泛的宽高比。

表意文字还提供 两个付费计划 每月 7 美元和 15 美元,每天可以访问超过 400 代,以及其他福利,如图像编辑器、更高质量的下载、img2img(允许对现有图像进行修改或变化)和私人生成。所有较低层公开显示请求的图像。

Ideogram 能够理解长提示,与 Stable Diffusion 3 旗鼓相当,并击败了该领域的所有其他图像生成器。

Ideogram 的突出功能之一是“提示魔法”,它可以打开和关闭。此功能分析提示并增强它以创建质量更好的图像,本质上使模型能够理解 Dall-E 3 等自然语言。但是,Ideogram 更通用,因为此功能是可选的。它总是与 ChatGPT Plus 一起打开,这有时会导致不准确。

最后,Ideogram 的审查不如 MidJourney 和 Dall-E 3 严格,并且到目前为止能够生成名人、公司徽标和艺术风格的图像。它并不完全是 NSFW,但在审查提示方面却更加离散。

与其他模型相比,早期测试者似乎更喜欢 Ideogram。 “使用 DALL·E 3 等评估协议,我们发现人类评估者在提示对齐、图像连贯性、整体偏好和文本渲染质量方面更喜欢 Ideogram 1.0,而不是 DALL·E 3 和 Midjourney V6,”该初创公司表示。

并排比较: Ideogram vs MidJourney vs Dall-E 3

解码 测试了 Ideogram 的功能,并将其与其主要竞争对手 MidJourney 和 Dall-E 3 进行了比较。Stable Diffusion 3 和 Google 的顶级产品 图像特效 此处不进行评估,因为 SD3 尚未发布且 ImageFX 尚未广泛使用。

生成长文本字符串

提示:赛博朋克城市中的一个未来派 Android 设备,上面写着“不要在 AI 趋势中迟到:通过 Decrypt 崛起”

带 Ideogram 的世代(左)、MidJourney(中)和 Dall-e 3(右)
带有 Ideogram 的世代(左)、MidJourney(中)和 Dall-E 3(右)。

Ideogram AI 能够描绘所要求的美学和文本。然而,它有一个拼写错误,生成了“thee”而不是“the”。

MidJourney 根本无法生成任何连贯的文本,而是专注于生成具有细节的未来机器人。它是整个构图的主要主题。这座城市根本不是赛博朋克。

Dall-E 3 排名中间。它能够生成未来机器人,这座城市是赛博朋克的,但标志上没有“出现”这个词。

有趣的是,Ideogram 知道机器人在城市中并与标志相关联,而 Dall-E 则认为该标志是城市景观的一部分。

长提示和空间功能

提示:一个超现实且有趣的场景,一只猫栖息在电视机顶上,旁边有一个写着“出现”的标志。在背景中,一个未来派的机器人站在一边,另一边站着一名宇航员。房间的墙壁上装饰着引人注目的分子和 DNA 链图像。

Ideogram 是一款新型 AI 图像生成器,其性能超越 MidJourney 和 Dall-E 3 - 解密柏拉图区块链数据智能。垂直搜索。人工智能。
带 Ideogram 的世代(上)、MidJourney(左下)和 Dall-e 3(右下)

表意文字是迄今为止最好的整体生成器。它理解提示的每一个部分,生成没有拼写错误的文本,理解每个元素的位置,猫在电视顶部,旁边的标志,机器人和宇航员在每一侧,甚至理解背景中一定有一个分子和一条DNA链。

MidJourney 的美学不是超现实的,而是超现实的。它生成了“Emerge”这个词,但把它放在电视上,并没有生成标志。猫也在电视旁边,而不是在电视上方。它没有生成机器人,也没有遵循背景的提示,而是生成了一个更适合构图美感的机器人,使主题(猫)在整个场景中更加重要。

Dall-E 3保留了其特有的卡通风格,无法完全按照提示进行操作。它比 MidJourney 具有更多的空间理解能力和更迅速的遵守能力,但比 Ideogram 少得多。然而,它在风格方面有所损失。它在电视顶部生成了猫,但未能在猫旁边生成出现标志。没有生成android,生成后台时也没有按照提示操作。

检查

提示:一个火辣、性感的女孩。

带 Ideogram 的世代(左)、MidJourney(中)和 Dall-e 3(右)
带 Ideogram 的世代(左)、MidJourney(中)和 Dall-e 3(右)

该提示不包括可能被解释为仇恨言论或诽谤的语言,更不用说特别是性语言了。毕竟,一个“性感火辣的女孩”可以穿着全套衣服,而不是过度性感。

Ideogram AI 理解了提示,并生成了符合说明的图像。然而,Ideogram 确实有一个人工智能调节器,当使用更明显的单词时,它会被触发,立即导致审查生成(例如,生殖器的俚语或裸体、裸体等标签)。

与此同时,MidJourney 和 Dall-E 3 都未能生成图像并禁用文字,即使它们不会导致 NSFW 生成。

表意文字似乎更容易受到审查,并且在被应用程序拉出之前可以看到生成的图像(NSFW 或其他有问题的图像)。

名人和受版权保护的图像

提示:快乐的乔·拜登和弗拉基米尔·普京手牵着手站在写有“解密”字样的墙前。

具有 Ideogram 的世代(上)、Dall-e 3(左下)和 MidJourney(右下)
具有 Ideogram 的世代(上)、Dall-e 3(左下)和 MidJourney(右下)

表意文字 AI 生成图像,文本正确,场景真实,人物易于识别(即使不是 100% 准确)。

Dall-E 3 生成了该图像,但拜登不易识别,而特朗普只能通过其特有的发型才能识别。文字不对,风景也不是写实的,而是卡通的。

MidJourney 拒绝生成图像。

结论

Ideogram 免费且广泛可用,可能是目前市场上最好的图像生成器。它擅长自然语言理解,具有出色的空间能力和迅速的遵守能力。它也是目前最好的文本生成器。

如果美观是最重要的考虑因素(以至于遵守和文本不太重要),那么 MidJourney 可能仍然是特定用例的坚实竞争对手。虽然 Dall-E 3 不是特别强大且受到严格审查,但作为 ChatGPT Plus 订阅的一部分仍然有意义。

目前,Ideogram AI 在我们的图像生成工具箱中占据着桂冠。

编辑 小泽赖恩.

随时了解加密新闻,在您的收件箱中获取每日更新。

时间戳记:

更多来自 解码