AI Art Generator Midjourney 创始人 David Holz 谈成像的未来

由柏拉图重新发布

关注： 0

专属采访 2008 年，David Holz 联合创办了一家名为 Leap Motion 的硬件外设公司。他一直经营到去年离开创建 Midjourey。

中途目前的形式是一个社交网络，用于从文本提示中创建 AI 生成的艺术——在输入提示中键入一个单词或短语，经过大约一分钟的计算，您将在屏幕上收到一个有趣或可能美妙的图像。它在某些方面类似于 OpenAI 的达尔-E 2.

天空和云彩的中途图像，使用文本提示“所有这些无用的美丽”。 来源：由中途

两者都是在大量图像上训练的大型 AI 模型的结果。但《中途》有自己鲜明的风格，从这个Twitter主题. 最近几天两者都进入了公共 beta 测试（尽管 DALL-E 2 的访问权限正在缓慢扩展）。

去年 OpenAI 发布后，使用文本输入从 AI 模型创建高质量图像的能力成为一项流行的活动 CLIP （对比语言-图像预训练），旨在评估生成的图像与文本描述的匹配程度。发布后，艺术家瑞恩默多克（Twitter 上的@advadnoun）发现这个过程可以逆转——通过提供文本输入，您可以在其他 AI 模型的帮助下获得图像输出。

之后，生成艺术社区开始了一段狂热的探索，发布 Python 代码，使用各种模型和技术创建图像。

“去年某个时候，我们看到人工智能的某些领域正在以非常有趣的方式取得进展，”霍尔兹在接受采访时解释说注册. “其中之一是人工智能理解语言的能力。”

Holz 指出了变压器（一种为 CLIP 提供信息的深度学习模型）和扩散模型（GAN 的替代品）等发展。 “真正让我印象深刻的是 CLIP 引导的扩散，”他说，由 Katherine Crawson（在 Twitter 上称为 @RiversHaveWings）开发。

不是刻板的佛罗里达人

Holz 在佛罗里达长大，高中时从事设计业务，学习数学和物理。他正在攻读应用数学博士学位，并于 2008 年休假开始 Leap Motion。第二年，他在马克斯普朗克研究所担任了一年的学生研究员，随后在美国宇航局兰利研究中心担任了两年的研究生研究员，从事激光雷达、火星任务和大气科学的研究。

“我当时想，我为什么要研究所有这些东西？” 他解释道。 “我只想做一件我关心的很酷的事情。”

因此，他专注于 Leap Motion，该公司开发了一种硬件设备来跟踪手部动作并将其用于设备输入。他经营公司十二年，离开时雇佣了大约 100 名员工。

他说，Midjourney 现在还很小。 “我们大概有 10 个人，”他解释道。 “我们是自筹资金的。我们没有投资者。我们并没有真正的经济动机。我们只是在这里工作，做我们热爱并享受乐趣的事情。我们正在从事许多不同的项目。”

Holz 表示，人工智能的技术方面及其改进程度相当容易预见。 “但这对人类的影响是如此难以想象，”他说。 “这里有一些东西是人类和技术的交汇点。为了真正弄清楚这是什么以及它应该是什么，我们真的需要做很多实验。”

前进的道路

人工智能图像技术的不确定性在 Midjourney 等工具与 Blender 等可下载的开源图形应用程序或 Adobe Photoshop 等本地安装的商业应用程序（在它成为云服务之前）之间的差异中显而易见。

Midjourney 存在于社会环境中。它的前端是聊天服务 Discord。新用户登录到 Discord 的 Midjourney 服务器，然后可以提交文本提示，以在任何各种新手频道中与众多其他用户一起生成图像。

该频道中所有用户的生成图像会在大约一分钟内浮出水面，这有助于强化社区的概念。那些决定升级到每月 10 美元或每月 30 美元订阅的用户可以在 Discord 应用程序中将文本作为私人直接消息提交给 Midjourney 机器人，并接收图像作为响应，而无需在公共场合与其他用户进行交互的屏幕滚动瀑布渠道。但是，默认情况下生成的图像仍可公开查看。

“死蝴蝶的生动集合”@images_ai, @ai_curio, ＃正午 pic.twitter.com/OFKRJtJq5w

——托马斯·克拉本（@ThomasClaburn） 2022 年 6 月 10 日

作为一款社交应用程序，Midjourney 遵守有关允许内容的规则——Blender 或其他本地安装的应用程序的用户不必担心这一点。 Midjourney 的服务条款规定：“没有成人内容或血腥内容。请避免制作视觉上令人震惊或令人不安的内容。我们将自动阻止一些文本输入。”

DALL-E 2 受到类似但更广泛的限制，如其内容政策.

“我认为，如果我们生活在一个没有社交媒体的世界里，那么我们就不需要任何限制，”Holz 说。 “......当 Photoshop 被发明时，实际上有媒体报道它，就像，'哦，你可以伪造任何东西，这有点可怕。' [但现在]，成为耸人听闻的人比以前更有利可图。”

“如今，任何人都可以成为耸人听闻的人，并且基本上可以从中获利，你知道，”霍尔兹说。 “所以它所做的就是为戏剧和耸人听闻创造了一个市场。这就是为什么我认为我们必须更加小心，因为在某些时候，人们会说，‘好吧，我可以拍这张照片，我认为最戏剧性、最冒犯和最恐怖的东西是什么？可以使？'”

没有简单的答案

Holz 允许社交平台可以采取一些措施来缓解这些问题，但表示没有简单的答案。 “不幸的是，除了作为一个社会来减少对耸人听闻的奖励之外，没有明确的方法来解决它，”他说。 “然而，我的印象是，没有人真正试图改变社交平台以减少轰动效应，因为这让他们现在赚钱。”

更重要的是，他说，因为 Midjourney 旨在成为 13 岁以上的任何人的社交空间，因此有必要制定反对极端或图形内容的规则。

“我们真的不希望为喜欢制作尸体或喜欢裸照的人提供分段空间，”Holz 解释说。 “我们只是不想处理这个问题。我们认为现阶段我们没有道德义务这样做。我们想要一个美丽的社交空间，让人们一起制作东西，基本上不会被冒犯，并感到安全。”

为此，该公司有大约 40 名版主密切关注用户创建的图像。

Midjourney 的社交方面最近开始提高图像质量。 Holz 表示，公司工程师最近推出了其软件的第三版，该软件首次结合了基于用户活动和响应的反馈循环。

“如果你看一下 v3 的东西，就会发现有很大的改进，”他说。 “它好得令人难以置信，我们实际上并没有在其中添加任何艺术。我们只是收集了有关用户喜欢哪些图像以及他们如何使用这些图像的数据。这实际上让它变得更好了。”

当被问及 Midjourney 技术堆栈时，Holz 表示反对。 “在某个时候，我们可能会专门针对我们正在使用的供应商发布新闻稿，”他说。 “我能说的是，我们拥有这些具有数十亿参数的大型 AI 模型。他们接受了数十亿张图像的训练。”

Holz 表示，用户每天都在制作数以百万计的图像，并且使用绿色能源计算提供商进行此操作——这并没有真正缩小主要云计算提供商的范围，因为他们都声称至少是碳中和的。

“每张图像都在进行 petaops，”他说，这个术语的意思是每秒 10^15 次操作。 “所以成千上万的数万亿次操作。我不知道究竟是 1000 还是 10 或 50。但制作图像需要 1000 次数万亿次操作。它可能是最昂贵的……如果你称 Midjourney 为一项服务——就像你称其为服务或产品——毫无疑问，在普通人使用如此多的计算之前从未有过一项服务。”

让我们衣食无忧

然而，Midjourney 并没有走上向付费级别推销免费服务带来的客户的道路，然后在上市或被收购之前吸引高薪企业客户。

“我们不像一家初创公司，筹集了大量资金，然后不确定他们的业务或产品是什么，并长期亏损，”Holz 说。 “我们就像一个自筹资金的研究实验室。我们可能会损失一些钱。我们没有其他人的 100 亿美元可以损失。老实说，我们已经盈利了，我们很好。”

“这是一个非常简单的商业模式，也就是说，人们喜欢使用它吗？然后，如果他们这样做，他们必须支付使用它的成本，因为原始成本实际上非常昂贵。然后我们在上面加上一个百分比，希望这足以养活我们。这就是我们正在做的事情。”

至于未来，扩展可能是一个问题。 Holz 表示，Midjourney 目前有数十万人在使用该服务，这需要大约 10,000 台服务器。

“如果有 10 万人试图使用这样的技术，”他说，“实际上电脑就不够了。世界上没有一百万台免费的服务器来做人工智能。我认为，在技术真正普及到每个想要使用它的人之前，世界上的计算机就会用完。”

人们用它做什么？好吧，如果您登录到 Midjourney 帐户，您可以通过社区供稿页。这是一个不断涌现的有趣的、通常令人吃惊的好图像。

小云屋2 ＃正午 #aiartcommunity pic.twitter.com/ul9WlJDMC6

— 诗意的 AI (@generated_paint) 2022 年 7 月 24 日

“大多数人只是玩得开心，”霍尔茨说。 “我认为这是最重要的事情，因为它实际上不是关于艺术，而是关于想象力。”

专业

但对于大约 30% 的用户来说，它是专业的。 Holz 说许多图形艺术家使用 Midjourney 作为他们概念开发工作流程的一部分。他们对一个想法产生一些变化，并将其呈现给客户，看看他们应该追求哪个方向。

“专业人士正在使用它来增强他们的创意或沟通过程，”Holz 解释说。 “然后很多人只是在玩它。”

可能有 20% 的人将 Midjourney 用于 Holz 所描述的艺术疗法。例如，在他们的狗死后创建狗图像。 “他们将其用作情感和智力反思工具，”他说。 “这真的很酷。”

Holz 不喜欢使用 Midjourney 制作假照片的想法。 “在编辑上使用它来制作假照片是非常危险的，”他说。 “没有人应该这样做。” 但他更愿意将 Midjourney 作为商业插图的来源，并指出《经济学人》刊登了一段中途图在六月的封面上。

“我们最近才允许人们将它用于商业用途，”Holz 说。 “很长一段时间，它只是非商业性的。所以我们正在做的一件事就是我们只是在观察它，人们在做什么，我们可能会决定我们对其中的一些不满意，然后我们将制定一条规则说你不能再把它仅仅用于那些事情了。”

Holz 说，他看到像 Midjourney 这样的 AI 工具让艺术家在他们的工作上做得更好，而不是让每个人都成为专业艺术家。 “使用这些工具的艺术家总是比使用这些工具的普通人更好。在某些时候，使用这些工具是否会有压力，因为你可以做出如此棒的东西？我想是的。但现在，我认为它还没有完全实现。但在接下来的两年里，情况会好得惊人。”

Midjourney 和 DALL-E 2 引起了人们对长期关注的更多关注，即从版权或特定许可下的作品创建的大型 AI 模型是否可以与版权法以及内容创作者自己对如何对待他们的作品的看法相协调。

美国，诉讼之地

在 Midjourney 输出方面，目前美国的判例否认授予 AI 生成图像版权的可能性。 XNUMX月，美国版权局审查委员会拒绝 [PDF] 第二个请求授予计算机生成的景观以“最近进入天堂”的版权，因为它是在没有人类作者身份的情况下创建的。

在电话采访中，圣克拉拉大学法律系教授泰勒·奥乔亚（Tyler Ochoa）告诉注册, “美国版权局表示，只要艺术家使用人工智能来协助他们创作作品，只要涉及一些人类创造力，这是[可接受的]。如果只是你输入文本，然后人工智能生成作品，那么根据现行法律，这显然不受版权保护。”

Midjourney 的服务条款规定“您拥有使用服务创建的所有资产”，但该公司要求用户获得版权许可才能复制使用该服务创建的内容——这是托管用户图像的必要预防措施，即使这些看起来令人怀疑简单地通过文本输入制作 Midjourney 图像具有任何版权可以传达或执行。

情况可能并非总是如此。奥乔亚说，他相信创造“最近进入天堂”的史蒂文泰勒可能想在法庭上挑战版权局拒绝基于人工智能的作者身份，尽管这还没有发生。

在受版权保护的材料上训练的 AI 模型也存在潜在的版权问题。 “问题是，将这些图像用于训练和人工智能是否合理，”奥乔亚说。 “而且我认为在这种情况下合理使用的理由相当充分。”

此外，那些生成与现有版权材料基本相似的图像的人可能会承担责任。 “如果你的训练集不够大，人工智能吐出的东西可能看起来很像它摄取的东西，”奥乔亚解释说，并指出问题在于这是否侵犯了版权。 “间接地，我认为很可能是这样。”

至于使用 Midjourney 生成的资产对客户的潜在法律风险，Ochoa 表示他认为这相当低。他解释说，如果人工智能模型的训练侵犯了版权，那是在客户参与之前完成的。 “因此，除非客户以某种方式赞助了 AI 的创建，否则我认为 [客户] 不会对任何侵犯训练集的行为负责，”他说。 “这是这里最有力的主张。因此，我认为客户在使用这些图像方面有着相当坚实的基础，假设它做得很好。”

Holz 承认法律情况不明确。

“目前，法律对这类事情并没有任何规定，”他说。 “据我所知，每个大型 AI 模型基本上都是根据互联网上的内容进行训练的。没关系，现在。没有专门的法律。也许在未来，会有。但这是一个新领域，就像 GPL 是一种围绕编程代码的新法律事物。它花了大约 20 或 30 年的时间才真正成为法律体系开始弄清楚的东西。”

Holz 说，他认为目前更重要的是了解有关各方对这项技术的看法。 “我们有很多艺术家使用我们的东西，我们不断地与他们核实，‘你觉得这还好吗？’”他说。

Holz 说，如果对现状有足够的不满，那么对于那些将工作投入培训模型的艺术家来说，未来可能值得考虑某种支付结构。但他观察到，目前很难评估贡献的程度。 “目前这类事情面临的挑战是，实际上并不清楚是什么让人工智能模型运作良好，”他说。 “如果我在里面放一张狗的照片，它实际上对 [AI 模型] 制作狗的照片有多大帮助。实际上并不清楚数据的哪些部分实际上赋予了[模型]什么能力。”

当被问及是什么赋予了 Midjourney 独特的美学时，Holz 说他无法真正将 Midjourney 所做的与 DALL-E 2 进行比较，但总的来说，人工智能研究人员倾向于得到他们优化的东西。如果他们输入“狗”这个词，那么他们可能想要一张狗的照片。

“对我们来说，当我们优化它时，我们希望它看起来很漂亮，而美丽并不一定意味着现实。 ......如果有的话，实际上我们确实将它与照片稍微偏离了一点。 ......我知道这项技术可以用作深度伪造的超级机器。而且我认为这个世界不需要更多的假照片。我真的不想成为世界上假照片的来源。”

“如果我们的东西做出看起来像照片的东西，我实际上会感到不舒服。这并不是说我们永远不会让人们做出更现实的事情。有一些合法的用例可以让事情看起来更真实。但是，我强烈认为，默认情况下，当有人使用我们的系统时，它不应该制作一张假照片。”

“但我确实认为这个世界需要更多的美。基本上，如果我创造的东西能让人们做出美丽的东西，世界上还有更多美丽的东西，这就是我默认想要的。” ®

时间戳记： 2022 年 8 月 1 日2022 年 8 月 1 日