この AI スーパーコンピューターには 13.5 万コアがあり、わずか XNUMX 日で構築されました PlatoBlockchain Data Intelligence。垂直検索。あい。

この AI スーパーコンピューターは 13.5 万コアを持ち、わずか XNUMX 日で構築されました

人工知能は涙を流しています。 機械は話したり、書いたり、ゲームをしたり、オリジナルの画像、ビデオ、音楽を生成したりできます。 しかし、AI の能力が向上するにつれて、そのアルゴリズムも向上しています。

XNUMX 年前、機械学習アルゴリズム 数千万の内部接続に依存、またはパラメーター。 今日のアルゴリズムは定期的に数千億に達し、 何兆ものパラメータ. 研究者によると、スケールアップしてもパフォーマンスは向上し、数十兆ものパラメータを持つモデルがすぐに登場する可能性があります。

それほど大きなモデルをトレーニングするには、強力なコンピューターが必要です。 2010 年代初頭の AI は少数のグラフィックス プロセッシング ユニット (AI に不可欠な並列処理に優れたコンピューター チップ) で実行されていましたが、コンピューティングのニーズ 指数関数的に成長した、および最上位のモデルでは現在、数百または数千が必要です。 オープンAI、 Microsoft, Meta、および他の人たちは、タスクを処理するための専用のスーパーコンピューターを構築しており、これらの AI マシンは地球上で最速にランクされていると述べています。

しかし、GPU が AI のスケーリングに不可欠であったとしても (たとえば、Nvidia の A100 は AI クラスターで最も高速で最も一般的に使用されているチップの XNUMX つです)、AI 用に特別に設計されたより奇妙な代替品が近年登場しています。

Cerebras は、そのような代替手段の XNUMX つを提供します。

AIの食事を作る

ディナー プレートのサイズ (一辺約 8.5 インチ) の同社の Wafer Scale Engine は、 世界最大のシリコンチップ、2.6 兆個のトランジスタと 850,000 個のコアが 2 枚のシリコン ウェーハにエッチングされています。 各 Wafer Scale Engine は、同社の CS-XNUMX コンピュータの心臓部として機能します。

単体ではCS-2は獣ですが、昨年 セレブラスが計画を発表 CS-2 を MemoryX と呼ばれる外部メモリ システムと SwarmX と呼ばれる CS-2 を接続するシステムと一緒にリンクします。 同社によると、この新しい技術は最大 192 個のチップをリンクし、現在の最大かつ最先端の AI よりも XNUMX 桁大きいモデルをトレーニングできるという。

Cerebras の CEO 兼共同設立者である Andrew Feldman は、次のように述べています。

当時、これはすべて理論上のものでした。 しかし先週、 会社発表 彼らは 16 台の CS-2 をリンクして、世界クラスの AI スーパーコンピューターを構築しました。

アンドロメダに会う

Andromeda と呼ばれる新しいマシンには、13.5 ビットの半精度で 16 エクサフロップ (XNUMX 秒あたり XNUMX 京の操作) を超える速度が可能な XNUMX 万個のコアがあります。 Andromeda は、コアに独自のチップがあるため、従来の CPU や GPU で動作するスーパーコンピューターと簡単に比較することはできませんが、 フェルドマンは言った HPCワイヤー アンドロメダは、アルゴンヌ国立研究所のポラリス スーパーコンピューターとほぼ同等です。 世界で17番目に速い、最新の Top500 リストによると。

パフォーマンスに加えて、Andromeda の迅速なビルド時間、コスト、およびフットプリントは注目に値します。 アルゴンヌ Polarisのインストールを開始しました 2021年夏、スーパーコンピューター 約XNUMX年ぶりにライブへ. それは 40 のラックを占有し、ファイリング キャビネットのような筐体にスーパーコンピューターのコンポーネントが収納されています。 比較すると、アンドロメダは 35 万ドルの費用がかかりました。 組み立てにわずかXNUMX日、わずか 16 ラックしか使用しません。

Cerebras は、OpenAI の大規模言語モデル GPT-3 の 2 つのバージョンと、Eleuther AI のオープンソース GPT-J および GPT-NeoX をトレーニングすることによって、システムをテストしました。 Cerebras 氏によると、おそらく最も重要な発見は、Andromeda が大規模言語モデルの AI ワークロードの「ほぼ完全な線形スケーリング」を実証したことです。 つまり、CS-XNUMX が追加されると、トレーニング時間は比例して減少します。

通常、同社によると、チップを追加すると、パフォーマンスの向上は減少します。 一方、Cerebras の WSE チップは、850,000 個のコアが同じシリコン上で互いに接続されているため、より効率的にスケーリングできることが証明される可能性があります。 さらに、各コアのすぐ隣にメモリ モジュールがあります。 まとめると、このチップは、コアとメモリの間でデータをやり取りするのにかかる時間を大幅に削減します。

「線形スケーリングとは、XNUMX つのシステムから XNUMX つのシステムに移行すると、作業が完了するまでの時間が半分になることを意味します。 これは、コンピューティングでは非常に珍しい特性です」と Feldman 氏は語っています。 HPCワイヤー. そして、16 の接続されたシステムを超えて拡張できると彼は言いました。

Cerebras 自身のテストを超えて、線形スケーリングの結果は、研究者がアンドロメダを使用して Covid-3 ゲノムの長いシーケンスで GPT-19-XL 大規模言語アルゴリズムをトレーニングするアルゴンヌ国立研究所での作業中にも実証されました。

もちろん、システムは 16 台の CS-2 を超えて拡張される可能性がありますが、直線的な拡張がどの程度維持されるかはまだわかりません。 また、Cerebras が他の AI チップとどのように対決するかはまだわかっていません。 Nvidia や Intel などの AI チップ メーカーが 定期的な第三者ベンチマークへの参加 MLperf などによって。 Cerebras はまだ参加していません。

予備のスペース

それでも、このアプローチはスーパーコンピューティングの世界で独自のニッチを切り開いているように見え、大規模言語 AI での継続的なスケーリングは主要なユース ケースです。 さすが、フェルドマン 言われ ワイヤード 昨年 同社はすでに、大規模言語モデルのリーダーである OpenAI のエンジニアと話をしていました。 (OpenAI の創設者である Sam Altman も Cerebras の投資家です。)

2020 年のリリースで、OpenAI の大規模言語モデル GPT-3 は、パフォーマンスとサイズの両面でゲームを変えました。 175 億個のパラメーターがあり、当時最大の AI モデルであり、その能力で研究者を驚かせました。 それ以来、言語モデルは何兆ものパラメーターに達しており、より大きなモデルが登場する可能性があります。 噂があります—これまでのところ、OpenAI はそれほど遠くない将来に GPT-4 をリリースし、GPT-3 からのもう XNUMX つの飛躍となるでしょう。 (その数については、しばらく様子を見る必要があります。)

とはいえ、その機能にもかかわらず、大規模な言語モデルは完璧ではなく、普遍的に愛されているわけでもありません。 彼らの欠点には、誤った、偏った、攻撃的な出力が含まれます。 科学テキストで訓練されたメタのギャラクティカは、 最近の例. データセットは、オープン インターネットでのトレーニングよりも毒性が少ないと思われるかもしれませんが、モデルは簡単に誘発されて有害で不正確なテキストを生成し、わずか XNUMX 日で削除されました。 研究者が言語 AI の欠点を解決できるかどうかは不明のままです。

しかし、収穫逓減が始まるまで、スケールアップは続く可能性が高いようです。

画像のクレジット: セレブラス

タイムスタンプ:

より多くの 特異点ハブ