用于 Exaflop AI 超级计算机的 13 个晶圆级芯片 PlatoBlockchain 数据智能。 垂直搜索。 人工智能。

用于 Exaflop AI 超级计算机的 13 个晶圆级芯片

Cerebras Systems 是加速人工智能 (AI) 计算的先驱,今天推出了 Andromeda, 拥有 13.5 万核的人工智能超级计算机,现已投入使用并用于商业和学术工作。 Andromeda 由 16 个 Cerebras CS-2 系统组成的集群构建,并利用 Cerebras MemoryX 和 SwarmX 技术,以 1 位半精度提供超过 120 Exaflops 的 AI 计算能力和 16 Petaflops 的密集计算能力。它是唯一一款仅依靠简单数据并行性就能够在大型语言模型工作负载上展示近乎完美线性扩展的人工智能超级计算机。

YouTube视频播放器

YouTube视频播放器

YouTube视频播放器

Andromeda 拥有 13.5 万个 AI 优化计算核心,由 18,176 个第三代 AMD EPYC™ 处理器提供支持,其核心数比 3 个 Nvidia A1,953 GPU 还要多,是世界上最大的超级计算机 Frontier(拥有 100 万个核心)的 1.6 倍。与任何已知的基于 GPU 的集群不同,Andromeda 通过跨 GPT 级大型语言模型(包括 GPT-8.7、GPT-J 和 GPT-NeoX)的简单数据并行性提供近乎完美的扩展。

用于 Exaflop AI 超级计算机的 13 个晶圆级芯片 PlatoBlockchain 数据智能。 垂直搜索。 人工智能。

用于 Exaflop AI 超级计算机的 13 个晶圆级芯片 PlatoBlockchain 数据智能。 垂直搜索。 人工智能。

近乎完美的缩放意味着随着使用额外的 CS-2,训练时间会以近乎完美的比例减少。这包括具有非常大序列长度的大型语言模型,这是 GPU 上不可能完成的任务。事实上,Andromeda 的第一批用户之一演示了 GPU 不可能完成的工作,他在 GPT-J 上实现了近乎完美的缩放,达到 2.5 亿个参数和 25 亿个长序列长度的参数(MSL 为 10,240)。用户尝试在 Polaris(一个 2,000 个 Nvidia A100 集群)上执行相同的工作,但由于 GPU 内存和内存带宽限制,GPU 无法执行该工作。

用于 Exaflop AI 超级计算机的 13 个晶圆级芯片 PlatoBlockchain 数据智能。 垂直搜索。 人工智能。

用于 Exaflop AI 超级计算机的 13 个晶圆级芯片 PlatoBlockchain 数据智能。 垂直搜索。 人工智能。

为 Cerebras CS-2 系统提供动力的晶圆级引擎 (WSE-2) 是迄今为止最大的芯片。 WSE-2 比最大的 GPU 大 56 倍,计算核心增加 123 倍,高性能片上内存增加 1000 倍。它是迄今为止生产的唯一晶圆级处理器,包含 2.6 万亿个晶体管、850,000 个 AI 优化核心和 40 GB 高性能晶圆内存,所有这些都可以加速您的 AI 工作。

单芯片集群规模

与具有少量片上高速缓存和有限通信带宽的传统设备不同,WSE-2 具有 40GB 片上 SRAM,均匀分布在芯片的整个表面上,为每个内核提供单时钟周期访问高速内存,带宽高达 20PB/s。与领先的 GPU 相比,容量提高了 1,000 倍,带宽提高了 9,800 倍。

高带宽、低延迟
WSE-2 晶圆上互连消除了通过电线和电缆连接数百个小型设备所带来的通信速度减慢和效率低下的问题。它在内核之间提供惊人的 220 Pb/s 互连带宽。这是图形处理器之间提供的带宽的 45,000 倍以上。其结果是,您的深度学习工作执行速度更快、效率更高,而功耗仅为传统 GPU 集群的一小部分。

Brian Wang 是一位未来主义思想领袖,也是一位每月拥有 1 万读者的热门科学博主。 他的博客 Nextbigfuture.com 在科学新闻博客中排名第一。 它涵盖了许多颠覆性技术和趋势,包括空间、机器人、人工智能、医学、抗衰老生物技术和纳米技术。

他以识别尖端技术而闻名,目前是一家初创公司的联合创始人,并为高潜力的早期公司筹集资金。 他是深度技术投资的分配研究负责人,也是 Space Angels 的天使投资人。

他经常在公司发表演讲,曾是 TEDx 演讲者、奇点大学演讲者和众多广播和播客采访的嘉宾。 他对公开演讲和咨询活动持开放态度。

时间戳记:

更多来自 下一个大期货