生成式 IA 将如何颠覆当前十年的一切

由柏拉图重新发布

关注： 0

很多人会感到惊讶

In 最近几个月，Midjourney、DALL-E、Stable Diffusion、LaMDA 和 PaLM 等人工智能系统在图像和文本生成等多种领域取得了长足进步。这些系统的功能令人印象深刻：它们可以生成极具暗示性的图像，为广告创建有效的销售文案，等等——所有这些都来自于描述用户想要得到什么的纯粹“提示”。

所有这一切都是通过生成式人工智能完成的。

“生成式人工智能”是指由 深度神经网络 那个实现 大型语言模型 （法学硕士）为了 创建信息图 某种内容。这里我说“创造”，意思是它不是对已经存在的东西的复制，不是哲学意义上的（到底什么是“创造”？）。

大型新公司正在这个美丽的新世界中不断涌现，例如 Jasper，它提供了销售文案和广告图像的生成：Jasper 现在的估值超过 10 亿美元，一夜之间成为独角兽。

第一个真正产生影响的生成式人工智能平台是 GPT-3——几年前刚刚发布！此后，该领域的几家参与者（OpenAI、Google、StableDiffusion、Google、DeepMind 等）以惊人的速度发布了一系列版本，以至于很难跟上潮流。

但是，除了花一些时间使用 Midjourney 根据提示创建图像是多么有趣和奇妙之外，许多技术爱好者都很难理解这一生成式 IA 浪潮。

生成式 IA 是一个坚实的趋势，还是只是一种时尚？

我会去“稳固的趋势”因为它将在这十年的范围内改变数以千计的专业和休闲活动。让我从一个例子开始。

我是一个超级网球迷（至少在电视意义上）。但现场网球比赛需要几个小时才能结束，而且我还有其他活动和兴趣，所以我通常会观看重播或只观看一场比赛中最有趣的 4 分钟左右的精彩视频。

但是，如果我想要 4 或 10 分钟的视频而不是 15 分钟的视频怎么办？或者如果我想将每一分都包含在抢七局中？我目前运气不佳。

现在，让您的 Generative-IA 帽子发挥作用：Generative IA 体育视频生成器将创建一个视频 只为你 根据您非正式地放入文本提示中的规范，如下所示：

“15 年巴黎贝尔西拉法·纳达尔 (Rafa Nadal) 与汤米·保罗 (Tommy Paul) 比赛中最有趣的得分的约 2022 分钟视频，包括完整的抢七局（如果有）以及转换的每个破发点=

就是这样。您会获得一个指向您的个性化视频的链接，该视频不同于世界上其他任何人观看的视频。该视频服务与 DALL-E 和 Midjourney 一样经济可行。

研究不同于创新。前者关注已发表的原创成果，后者更多的是寻找如何从这些成果中建立业务：创新并不关心原创性，而是关心增长、防御性、投资回报等。

事情常常变得令人困惑，因为研究是由像谷歌这样的公司进行的，这些公司原则上是为了盈利——但他们知道自己的业务是高科技的，并且 没有研究技术就不高。因此，他们参与资助研究，并与学术界保持密切联系——他们的许多顶尖研究人员都是从学术界聘请的。作为一名研究员，我几年前受邀参加他们在山景城总部举行的教员峰会，他们为我安排了四季酒店的套房——不惜一切代价给学术界留下好印象！

但即使在研究和创新之间做出明确划分可能很困难，甚至是人为的，但这里的区别是至关重要的，因为就生成人工智能而言，两者将由不同的参与者开发，并且它们将相互关联软件堆栈中有两个不同的层 - 如 J. Currier 指出:

最底层的软件层是 深度学习模型，围绕大型语言模型 (LLM) 或等效内部表示的实现构建。模型提供了开发应用程序的基础构建块。
最顶层的软件层是 应用的区域 一种是建立在深度学习模型之上来完成特定任务，例如，从文本提示中输出图像。

这种两层架构将推动加速创新的新时代，因为一旦底层由谷歌、OpenAI 等大公司开发，小公司将提供应用层——当然，他们的利润也会减少到底层提供商。

目前，底层已经得到了迅速的改进——而且通常它是与顶层的应用程序一起分发的。例如，LaMDA 和 PaLM 提供开箱即用的对话功能，而 DALL-E 和 Midjourney 提供提示图像服务。但很快，底层开源替代方案的激增将使得仅开发顶层应用程序层并将其插入现有的底层成为可能。当然，说起来容易做起来难，但事实是底层比顶层复杂几个数量级。

我认为生成式 IA 将渗透到几乎每一项知识工作和休闲活动 因为它将提供工具来消除以前困难的活动的复杂性，并且因为它可以提供全新水平的个性化，我称之为“生成个性化”。

您可以从上面的体育视频示例中看到什么是“生成个性化”：每个用户都会获得一个全新且独特的精彩视频，而不仅仅是在两个或三个选项之间进行选择。

所有生成 IA 应用程序的累积影响很难夸大：

非专业人士已经可以使用 DALL-E、Midjourney 和 Stable Diffusion 等工具轻松创建图形，至少可以用于简单的功利目的，例如获取本文的标题图像。今年之前，我完全无法绘制自己的图像，博客专家建议不要浪费时间为自己的故事进行图形设计。
照片编辑用户不需要忍受艰难的学习曲线来掌握 Photoshop 或 Affinity Photo 的复杂工具集（我使用后者，它太复杂了，我必须查阅 YouTube 教程来学习如何进行大多数调整）。借助生成式人工智能，用户只需要求软件执行给定的转换，瞧！图像将得到修复。如果 Adobe 未能通过其工具提供生成式 AI，他们将被提供这些工具的新初创公司打乱，并重蹈百视达的覆辙。
PowerPoint 等演示工具不再像现在那样只提供模板，而是根据大纲想法生成并微调整个专业级演示文稿。目前，专业演讲和业余演讲之间的差异巨大，但这种情况不会再出现了。
文本写作将是一个由生成式人工智能工具高度增强的过程。许多形式的写作已经从 Grammarly 等复杂工具中获得帮助，但生成式人工智能将为作家提供全新水平的帮助，例如生成博客的完整第一个版本。写作将是人类和人工智能工具之间的协作过程。
任何供最终用户使用的软件都必须易于使用，并带有文本或语音提示。用户手册和教学视频将成为过去，一旦用户习惯了使用软件的新的简单方式，一切都必须提供它才能保持相关性。
语言学习将主要在语音助手的帮助下完成，语音助手将由——你猜对了——生成人工智能提供支持。语音助手就像个人语言教练一样，将利用其令人惊叹的自然语言对话功能（首次出现在谷歌的 LaMDA 等系统中）来指导人类语言学习者获取词汇和表达、提高发音等。语言教学语音助手并不是一个未来主义的幻想——它现在就具有经济意义。
甚至硬件产品（如汽车）也将拥有基于生成式人工智能对话的帮助系统。您是否尝试过执行复杂的操作，例如调整现代汽车的显示屏？不容易，我可以告诉你。您无需深入研究复杂的手册，只需要求语音助手获取说明或直接完成调整即可。

许多职业将面目全非。平面设计师已经感受到了这种颠覆的刺痛。整个职业将会消失，而其他职业将会被创造。强大的公司将会破产，新的公司将会占据主导地位，这取决于它们如何处理生成式人工智能带来的技术颠覆。

而这一切都将在这十年内发生。

我可能是错的，但在我看来，即使对于经验丰富的技术专家来说，预测当前图像和文本生成器的巨大能力也是很困难的：几年前，巨大的模型和训练集将变得不那么明显。导致能力的质的不同。

我什至可以说这是一个幸运的、几乎是随机的发现。但现在我们确实有了生成工具，大门向创新公司敞开，它们将快速开发一个又一个应用程序：这主要是找出可以从根本上改进的内容，并找到合适的商业模式来开展业务。生成式 IA 想法。

几年前，其他技术趋势，如自动驾驶汽车、虚拟现实或区块链，看起来很快就会占据主导地位，但自动驾驶技术一直受到立法障碍的限制，区块链受到经济低迷的打击，而虚拟现实采用受到硬件成本高的限制。相反，生成式人工智能尚未受到立法的限制（嘿，完善 PowerPoint 演示文稿或生成体育视频不是生死攸关的问题），并且不需要用户购买昂贵的硬件。

我们并不认为创意活动会这么快受到干扰。但他们确实是。

我们正在进入一个新的、有时甚至是奇怪的时代，人类的创造力与机器的新能力混合在一起，以至于很难区分它们。作为 J·柯里尔指出：

“今天和未来几年，这会让人感到惊讶，而且在很多方面都令人恐惧。因为那些从零到最初想法的创造性时刻总是让人感觉如此独特，因为它是如此神秘。”

生成 IA 将如何颠覆当前十年的一切从来源重新发布 https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 通过 https://towardsdatascience.com/feed

–>

时间戳记： 2022 年 11 月 10 日2022 年 11 月 11 日