IBM 的类脑模拟芯片旨在让人工智能更具可持续性

IBM 的类脑模拟芯片旨在让人工智能更具可持续性

ChatGPT, DALL-E, 稳定扩散,以及其他生成式人工智能已经席卷了世界。 他们创造了神话般的诗歌和图像。 它们正在渗透到我们世界的每一个角落,从营销到撰写法律摘要和药物发现。 他们似乎是人机思维融合成功故事的典范。

但在幕后,事情看起来并不那么美好。 这些系统消耗大量能源,需要数据中心排放数千吨碳,这进一步加剧了本已不稳定的气候,并消耗了数十亿美元。 随着神经网络变得更加复杂和广泛使用,能源消耗可能会进一步飙升。

关于生成式人工智能已经有大量的墨水了 碳足迹。 它的能源需求可能是其衰落的原因,阻碍其进一步增长。 使用当前的硬件,生成式人工智能“如果继续依赖标准计算硬件,预计很快就会陷入停滞”。 说过 英特尔实验室的 Hechen Wang 博士。

现在是我们构建可持续人工智能的时候了。

这一周, 一项研究 IBM 朝着这个方向迈出了实际的一步。 他们制造了一款 14 纳米模拟芯片,内含 35 万个存储单元。 与当前的芯片不同,计算直接在这些单元内进行,无需来回传输数据,从而节省能源。

Wang 表示,数据传输会使能耗增加 3 至 10,000 倍,超出实际计算所需的能耗。

该芯片在应对两项语音识别任务时效率很高。 其中之一是 Google Speech Commands,虽小但很实用。 在这里,速度是关键。 另一个是 Librispeech,它是一个庞大的系统,可以帮助将语音转录为文本,这对芯片处理大量数据的能力造成了很大的考验。

当与传统计算机进行比较时,该芯片的性能同样准确,但完成工作的速度更快,能耗也低得多,使用的能量还不到某些任务通常所需能量的十分之一。

该团队表示,“据我们所知,这是模拟芯片在商业相关模型上首次展示商业相关精度水平……具有效率和大规模并行性”。

聪明的字节

这并不是第一款模拟芯片。 然而,它将神经形态计算的想法推向了实用领域——有一天,这种芯片可以为你的手机、智能家居和其他设备提供动力,其效率接近大脑的效率。

嗯什么? 让我们备份一下。

当前的计算机是建立在 冯·诺依曼建筑。 把它想象成一栋有多个房间的房子。 一是中央处理单元(CPU),分析数据。 另一个存储内存。

对于每次计算,计算机都需要在这两个房间之间来回传输数据,这需要时间和精力,并且降低了效率。

相比之下,大脑将计算和记忆结合到一个单间公寓中。 它的蘑菇状连接点(称为突触)都形成神经网络并在同一位置存储记忆。 突触非常灵活,可以根据存储的记忆和新的学习内容调整它们与其他神经元的连接强度(一种称为“权重”的属性)。 我们的大脑通过调整这些突触权重来快速适应不断变化的环境。

IBM 一直走在设计的最前沿 模拟芯片 模仿的 脑计算。 突破 来了2016,当时他们推出了一种基于可擦写 CD 中常见的令人着迷的材料的芯片。 当通电时,这种材料会改变其物理状态和形状,从粘稠的汤变成晶体状结构,类似于数字 0 和 1。

关键是:芯片也可以以混合状态存在。 换句话说,与生物突触类似,人工突触可以编码无数不同的权重(而不仅仅是二进制),使其能够累积多次计算,而无需移动任何一位数据。

杰基尔和海德

这项新研究建立在之前的工作基础上,还使用了相变材料。 基本组件是“内存块”。 每个网格结构中都挤满了数千种相变材料。 这些图块很容易相互通信。

每个块都由可编程本地控制器控制,允许团队精确地调整组件(类似于神经元)。 该芯片还按顺序存储数百条命令,创建了一个黑匣子,使他们能够深入挖掘并分析其性能。

总体而言,该芯片包含 35 万个相变存储结构。 连接数量达到 45 万个突触——与人脑相差甚远,但在 14 纳米芯片上却非常令人印象深刻。

IBM 的类脑模拟芯片旨在使 AI 更具可持续性 PlatoBlockchain 数据智能。垂直搜索。人工智能。
研究人员手中的 14 纳米模拟 AI 芯片。 图片来源: IBM 的 Ryan Lavine

这些令人头脑麻木的数字给人工智能芯片的初始化带来了一个问题:需要寻找的参数太多了。 该团队通过相当于人工智能幼儿园的方式解决了这个问题,在计算开始之前对突触权重进行预编程。 (这有点像在烹饪之前给新的铸铁锅调味。)

未参与这项研究的王解释道,他们“根据硬件的优点和局限性来定制网络训练技术”,然后设置权重以获得最佳结果。

成功了。 在一项初步测试中,该芯片每瓦功率每秒可轻松完成 12.4 万亿次操作。 Wang 表示,其能耗“比最强大的 CPU 和 GPU 高出数十倍甚至数百倍”。

该芯片仅用内存块中的几个经典硬件组件就实现了深度神经网络的核心计算过程。 相比之下,传统计算机需要数百或数千个晶体管(执行计算的基本单元)。

全城传颂

该团队接下来向该芯片挑战两项语音识别任务。 每一个都强调芯片的不同方面。

第一个测试是面对相对较小的数据库时的速度。 使用 谷歌语音命令 在数据库中,该任务要求 AI 芯片在数千人讲 12 个简短单词的大约 65,000 个剪辑中识别出 30 个关键词(“小”在深度学习领域是相对的)。 当使用公认的基准时——MLPerf— 芯片的性能提高了七倍 比之前的工作.

该芯片在面对大型数据库的挑战时也表现出色, 书本演讲。 该语料库包含 1,000 多个小时的英语语音朗读内容,通常用于训练 AI 进行语音解析和自动语音转文本转录。

总体而言,该团队使用 45 个芯片,利用来自 140 亿个相变设备的数据,最终编码了超过 14 万个权重。 与传统硬件相比,该芯片的能效大约提高了 550 倍——每瓦能耗每秒处理近 9 个样本——错误率略高于 XNUMX%。

尽管令人印象深刻,但模拟芯片仍处于起步阶段。 王说,它们显示出“解决与人工智能相关的可持续性问题的巨大前景”,但前进的道路还需要清除更多障碍。

其中一个因素是精细存储技术本身及其周围组件的设计,即芯片的布局方式。 IBM 的新芯片尚未包含所需的所有元件。 下一个关键步骤是将所有内容集成到单个芯片上,同时保持其功效。

在软件方面,我们还需要专门针对模拟芯片定制的算法,以及能够轻松将代码翻译成机器可以理解的语言的软件。 随着这些芯片在商业上的可行性越来越高,开发专用应用程序将使模拟芯片未来的梦​​想永存。

Wang 表示:“我们花了几十年的时间才塑造出 CPU 和 GPU 能够如此成功运行的计算生态系统。” “为模拟人工智能建立同样的环境可能需要数年时间。”

图片来源: IBM 的 Ryan Lavine

时间戳记:

更多来自 奇异枢纽