深度学习领域专家的崛起

由柏拉图重新发布

关注： 0

Jeremy Howard 是人工智能研究员和联合创始人快速.ai，非专家学习人工智能和机器学习的平台。在创办 fast.ai 之前，他创立了多家公司——包括 FastMail 和 Enlitic，这是将深度学习应用于医疗领域的先驱——并且是机器学习竞赛平台 Kaggle 的总裁兼首席科学家。

在这次采访中，霍华德讨论了它对不同行业甚至全球地区的意义，因为没有来自专业研究实验室的博士学位的人可以构建和使用深度学习模型。在这个广泛的范围内的其他主题中，他分享了他对如何最好地跟上最先进技术、将工程作为一种新技能组合以及 Codex 等代码生成系统的优缺点的想法。

未来：在过去几年运行 fast.ai 之后，你看到让更多人熟悉深度学习的基本概念——与几年前拥有这些知识的人还是独角兽相比，你看到了什么影响？

杰里米霍华德： 当我们开始 fast.ai 时，基本上有五个重要的大学研究实验室致力于深度学习——唯一知道如何用深度学习做任何事情的人是曾经或曾经在这五个实验室工作的人. 总的来说，代码没有被发布，更不用说数据了。甚至论文也没有公布如何使其在实践中发挥作用的细节，部分原因是学术场所不太关心实际实施。它非常注重理论。

所以当我们开始的时候，这是一个非常投机的问题，“没有博士学位有可能做世界级的深度学习吗？”。我们现在知道答案是含; 我们在第一堂课中就证明了这一点。我们的第一批校友继续使用深度学习创造专利，使用深度学习建立公司，并使用深度学习在顶级场所发表文章。

我认为您的问题完全正确，即当领域专家成为有效的深度学习从业者时会发生什么？这就是我们看到最有趣的事情发生的地方。一般来说，最好的初创公司是由个人渴望抓挠的人创建的。他们曾经是招聘人员，所以他们正在做一个招聘初创公司，或者他们曾经是一名律师助理，所以他们正在做一个合法的初创公司，或者其他什么。他们就像，“哦，我讨厌我的工作。现在我了解了深度学习，我知道我几乎可以将整个事情自动化。”

我们的许多学生也在攻读或已经攻读博士学位，但不是数学或计算机科学；相反，他们在化学信息学、蛋白质组学、数据新闻或其他领域进行研究。我们经常发现他们能够将他们的研究提升到一个全新的水平。例如，我们第一次看到一些大型数据库和公共图书馆资料的数据语料库开始出现在互联网上。图书馆学领域的一些人现在正在做的事情是任何人都从未想过他们可以在这种规模上做任何事情。但突然之间，就像，“哦，我的上帝，看看当你将图书馆分析为事设立的区域办事处外，我们在美国也开设了办事处，以便我们为当地客户提供更多的支持。“

我在一个畜牧业会议上做了一个演讲，每个人都在谈论深度学习。对我来说，这是一个非常不明显的用法，但对他们来说，这是迄今为止最明显的用法。人们正在使用它来解决现实世界的问题，在现实世界的约束下使用现实世界的数据。

根据我过去几年的经验，深度学习似乎可以应用于几乎所有行业——而不是每周部分每周行业，但一些部分 几乎每个 的应用案例。

我们认识了一个人，他在疟疾诊断方面做了很多有趣的事情，正如你可以想象的那样，这并不是旧金山人们试图解决的首要问题。

似乎知识库的倒置——深度学习现在是领域专业知识的补充——可以改变理论和应用之间的平衡。

是的，你可以看到这种情况正在发生。深度学习时代早期的一件大事是谷歌大脑所做的工作，他们分析了大量的 YouTube 视频并发现猫是一个潜在因素在许多视频中。他们的模型学会了识别猫，因为它看到了很多猫。这是非常有趣的工作，但没有人离开并在此基础上建立公司。

人们认为的东西为建筑——同样有用，但在某些领域——比如谷歌和苹果的图像照片搜索很快就变得相当好，因为你实际上可以搜索照片中的东西。这真的很有帮助。这就是每个人都在研究的东西——要么是真正抽象的东西，要么是真正的第一世界问题。这并没有错，但是还有很多其他的事情需要处理。

因此，几年后，当我查看完成我们课程的人的人口统计数据时，我很兴奋，我发现美国以外最大的城市之一是拉各斯（尼日利亚的首都）。我认为这真的很棒，因为这是一个以前没有进行深度学习的社区。我在第一堂课上就问人们：“有人从非洲来吗？” 我认为有一个来自科特迪瓦的人不得不在他的图书馆里把东西刻录到 CD-ROM 上，因为他们没有足够的互联网连接。所以它真的增长得很快。

然后很高兴，因为我们开始让来自乌干达、肯尼亚和尼日利亚的一群人飞往旧金山亲自参加课程并相互了解。例如，我们认识了一个人，他在疟疾诊断方面做了很多有趣的事情，正如你可以想象的那样，这并不是旧金山人们试图解决的首要问题。

在我看来，在 16% 的互联网上训练 5 种不同的大型语言模型就像让 16 根水管进入你的房子，16 组电缆进入你的房子。

对于像你这样从深度学习项目出来的人来说，平均职业道路是怎样的？

它是如此多样化。与早期相比，它确实发生了很大变化，当时只是这种超级早期采用者的心态——那些主要是企业家或博士和早期博士后的人，他们只是喜欢前沿研究和尝试新事物。不再只是早期采用者，还有试图赶上或跟上其行业发展方式的人们。

如今，很多人会说，“哦，天哪，我觉得深度学习开始破坏我所在行业的专业知识。人们正在做一些我什至无法想象的深度学习，我不想错过。” 有些人看得更远一些，他们更像是，“好吧，在我的行业中没有人真正使用深度学习，但我无法想象这是一种那个行业不能会受到影响，所以我想成为第一个。”

有些人肯定对他们想要建立的公司有想法。

我们经常得到的另一件事是，公司派出一批研究或工程团队来完成课程，只是因为他们觉得这是他们应该拥有的企业能力。它对现在人们可以玩的在线 API 尤其有用—— 法典 or DALL-E 或其他任何东西——并有一种感觉，“哦，这有点像我在工作中所做的事情，但如果我能以这些方式对其进行调整，那就有点不同了。”

然而，这些模型也有一个不幸的副作用，也许是增加人们觉得人工智能创新只适用于大公司的倾向，而且超出了他们的能力范围。他们可能会选择成为技术的被动消费者，因为他们不相信自己有能力亲自构建比谷歌或 OpenAI 可能构建的更好的东西。

一个决定你是否喜欢电影的模型和一个可以生成俳句的模型将有 98% 相同。 . . 我们实际上需要在大量互联网上从头开始训练一个巨大的模型是非常非常罕见的。

即使是这样——如果你不能超越 OpenAI 或谷歌——肯定有一种方法可以利用他们所做的，通过 API 访问非常强大的模型，对吧？

首先要说的是 这不是真的，至少在一般意义上不是。现在人工智能训练有一定的分歧：有谷歌和 OpenAI 方面，这一切都是为了创建尽可能通用的模型，而且几乎总是，这些研究人员的目标是实现 AGI。我不评论这是好是坏。它肯定会为我们普通人带来有用的文物，所以没关系。

然而，有一条完全不同的道路，几乎我们所有的学生都走这条路，那就是：“我怎样才能以尽可能务实的方式解决社区中人们的现实问题？” 两种方法、两种数据集、两种技术之间的重叠比你想象的要少得多。

在我的世界里，基本上，我们从不从头开始训练模型。它总是微调。所以我们肯定会利用大人物的工作，但它始终是免费的、可下载的模型。诸如开源大型语言模型之类的东西大科学对此非常有帮助。

然而，他们可能会落后于大人物 6 到 12 个月，直到我们找到一些更民主的方式来做到这一点。 在我看来，在 16% 的互联网上训练 5 种不同的大型语言模型就像让 16 根水管进入你的房子，16 组电缆进入你的房子。 感觉它应该更像是一种公共事业。有竞争很好，但如果有更好的合作也很好，所以我们不必浪费时间做同样的事情。

所以，是的，为了我们的特定目的，我们最终会微调其他人建立的模型。这有点像人类基因组和猴子基因组几乎完全相同，除了这里和那里的百分之几，实际上产生了很大的不同。神经网络也是如此：一个决定你是否喜欢电影的模型和一个可以生成俳句的模型将有 98% 相同，因为其中大部分是关于理解世界，理解语言和东西. 我们实际上需要在大量互联网上从头开始训练一个巨大的模型是非常非常罕见的。

这就是为什么你绝对能够与 Google 和 OpenAI 竞争——因为它们甚至可能不会出现在你的领域。如果您正在尝试创建一些东西来自动化律师助理的工作，或帮助进行灾难恢复计划，或者在过去 100 年或其他任何时间里更好地理解性别语言，那么您不是在与 Google 竞争，而是在竞争与您所在领域的利基市场。

现在有一个重要的编码技能知道如何走得更快。 . . 非常善于提出正确的食典评论。 . . 对于很多人来说，这可能是比真正擅长编码更有价值、更直接的学习方法。

跟上 AI 领域的所有进步有多重要，尤其是在您以较小的规模使用它的情况下？

没有人能跟上所有的进步。你必须跟上一些进步，但我们现在正在使用的实际技术变化非常缓慢。 2017 年的 fast.ai 课程和 2018 年的 fast.ai 课程之间的差异很大，而 2018 年和 2019 年的课程之间的差异很大——ISH. 如今，在几年的时间里，变化很小。

我们认为非常重要的事情，比如变压器架构例如，实际上已经有几年了，主要只是一堆夹在中间的、普通的前馈神经网络层，还有一些点积. 很好，但是对于想要理解它的人来说，已经理解了网络, 经常性网和基本多层感知器，这就像几个小时的工作。

过去几年发生的一件大事是，越来越多的人开始了解如何有效训练模型的实际方面。比如最近的 DeepMind 发表了一篇论文这基本上表明所有语言模型的效率都大大低于应有的效率，实际上是因为它们没有做一些基本的事情。 Facebook——具体来说，一位 Facebook 实习生是该论文的主要作者——构建了一个名为卷积神经网络，这基本上是在说，“如果我们采用一个普通的卷积神经网络并进行每个人都知道的明显调整，就会发生这种情况。” 它们基本上是现在最先进的图像模型。

所以，是的，了解如何构建良好的深度学习模型的基础知识并不像看起来那么难。而且您当然不必阅读该领域的每篇论文。特别是在这一点上，现在事情进展得这么快。

但我确实认为有一个广泛的了解是有用的，而不仅仅是你自己的特殊领域。假设你是一名计算机视觉专家，擅长 NLP、协同过滤和表格分析也会有很大帮助——反之亦然，因为这些群体之间几乎没有足够的异花授粉。有时，有人会偷看另一个领域，窃取它的一些想法，然后得出一个突破性的结果。

这正是我所做的超低频拟合四五年前。我说，“让我们将所有基本的计算机视觉迁移学习技术应用到 NLP 中”，并获得了数英里的最先进的结果。 OpenAI 的研究人员做了类似的事情，但是用变压器替换了我的 RNN 并将其放大，结果变成了 GPT. 我们都知道那是怎么回事。

了解如何构建良好的深度学习模型的基础知识并不像看起来那么难。而且您当然不必阅读该领域的每篇论文。

你提到我们在过去的三到六个月里看到了人工智能的阶梯式转变。你能详细说明一下吗？

我实际上称它为钩而不是 阶跃函数. 我认为我们处于指数曲线上，并且不时地，您会注意到事情似乎确实以一种明显的方式加速了。我们必须要做的是，在非常大的文本和图像语料库上训练的预训练模型现在可以以相当一般的方式完成非常令人印象深刻的一次性或少量的事情，部分原因是在过去几个月里人们变得更好了在了解即时工程. 从本质上讲，知道如何提出正确的问题——“解释你的推理”一步一步的提示。

我们发现这些模型实际上能够做很多学者一直告诉我们的事情，这些事情在对世界的组合理解和能够展示逐步推理方面是不可能的。很多人一直在说，“哦，你必须使用符号技术；神经网络和深度学习永远不会到达那里。” 好吧，事实证明他们确实如此。我想当我们都可以看到它可以做人们声称它永远做不到的事情时， 这让我们更加大胆地尝试与他们一起做更多事情.

这让我想起了我第一次在互联网上看到一个视频，我记得给我妈妈看了，因为那是一个物理治疗视频，她是一个物理治疗师。这是一段关于肩部关节活动练习的视频，我认为它是 128 x 128 像素。它是黑白的，高度压缩的，大约 3 或 4 秒长。我非常兴奋，我对妈妈说：“哇，看看这个：互联网上的视频！” 当然，她一点也不兴奋。她说：“那有什么用？这是我见过的最无意义的事情。”

当然，我在想有一天这将是一千乘一千像素，每秒 60 帧，全彩色，漂亮的视频。证据就在那里，现在它只是等待其余的赶上来。

所以我认为，当人们在早期看到深度学习中真正低质量的图像时，并没有太多的兴奋，因为大多数人没有意识到技术可以像这样扩展。既然我们实际上可以制作出高质量的全彩色图像，看起来比我们几乎任何人的照片或照片都要好，人们就不需要任何想象力了。他们只能看到现在正在做的事情令人印象深刻。我认为这有很大的不同。

我觉得 HCI 是我见过的几乎所有深度学习项目中最大的缺失部分。 . . 如果我从事人机交互，我希望我的整个领域都专注于我们如何与深度学习算法交互的问题.

即时工程的想法——如果不是作为一个全新的职业，但至少作为一种新的技能组合——真的很有趣，实际上。

是的，而且我对此很害怕。例如，DALL-E 并不真正知道如何正确地编写文本，这不是问题，只是它喜欢在所有血腥图像中放置文本。所以总是有这些随机符号，我一辈子都想不出如何想出一个没有文字的提示。然后有时，我会在这里或那里随机更改一个单词，突然之间，他们都没有文字了。这有一些技巧，我还没有完全弄清楚。

此外，例如，现在有一个重要的编码技能，知道如何更快——特别是，如果你不是一个特别好的编码器——非常善于提出正确的 Codex 评论让它为你生成东西. 并且知道它容易犯什么样的错误，它擅长和不擅长什么样的事情，并且知道如何让它为它刚刚为你构建的东西创建测试。

对于很多人来说，这可能是比真正擅长编码更有价值、更直接的学习方法。

特别是在 Codex 上，您对机器生成代码的想法有何看法？

I 写了一篇博文实际上，当 GitHub Copilot 出现时，它就在上面。当时，我想，“哇，这真的很酷，令人印象深刻，但我不太确定它有多大用处。” 我仍然不确定。

一个主要原因是我认为我们都知道深度学习模型不知道它们是对是错。 自从我审查了它的第一个版本以来，Codex 已经改进了很多，但它仍然写了很多错误的代码。此外，它会编写冗长的代码，因为它正在生成代码。对我来说，将普通代码写成我喜欢并且我知道是正确的代码比从头开始编写要慢得多——至少在我熟悉的语言中是这样。

但我觉得这里有一个完整的人机界面 (HCI) 问题，而且 我觉得 HCI 是我见过的几乎所有深度学习项目中最大的缺失部分: 这些东西几乎从来没有完全取代人类。因此，我们正在努力一起有了这些算法。 如果我从事人机交互，我希望我的整个领域都专注于我们如何与深度学习算法交互的问题. 因为我们已经有几十年的时间学习如何与图形用户界面、命令行界面和 Web 界面交互，但这是完全不同的事情。

而且我不知道作为一名程序员，我如何最好地与 Codex 之类的东西进行交互。我敢打赌，每个领域都有非常强大的方法可以做到这一点——创建接口和绑定数据、构建算法等等——但我不知道这些东西是什么。

21 年 2022 月 XNUMX 日发布

正如那些建造它的人所说的那样，技术、创新和未来。

感谢您的注册。

检查您的收件箱以获取欢迎信息。

时间戳记： 2022 年 7 月 21 日2022 年 7 月 21 日

时间戳记： 2022 年 9 月 13 日

什么是超级应用程序？

源群集：

安德森霍洛维茨

源节点： 1773486

时间戳记： 2022 年 12 月 16 日

介绍 a16z Growth 的增长指标指南

源群集：

安德森霍洛维茨

源节点： 1772641

时间戳记： 2022 年 12 月 14 日

深度学习领域专家的崛起

由柏拉图重新发布

感谢您的注册。

更多来自安德森霍洛维茨

Can't Be Evil NFT 许可证

为什么区块链性能难以衡量

致电 SEC：将加密资产视为客户至上

数据：资产相关性（以及湾区住房案例）更新（2022 年）

新的学习经济：是时候建立教育了

SBC 22：2022 年区块链科学的现场笔记

我们的城市存在 API 问题。初创公司可以解决它。

什么是超级应用程序？

介绍 a16z Growth 的增长指标指南

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

感谢您的注册。

更多来自 安德森霍洛维茨

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

更多来自安德森霍洛维茨