Copilot が今のところ AI PC 上でローカルにのみ実行される理由

Copilot が今のところ AI PC 上でローカルにのみ実行される理由

なぜ Copilot は現時点では AI PC 上でローカルにのみ実行されるのか PlatoBlockchain Data Intelligence。垂直検索。あい。

コメント AI PC を構成するものと構成しないものに関する Microsoft の定義が具体化しつつあります。最新バージョンの Windows、専用の Copilot キー、および 40 秒あたり少なくとも XNUMX 兆回の操作が可能な NPU を使用すると、まもなく Microsoft Copilot をローカル (つまり自分のマシン上) で実行できるようになります。

レドモンド 必要条件 Windows 上の AI モデルは、AI PC カテゴリの最も強力なチアリーダーの 1 つである Intel によって、チップ巨人のイベント中に公式に発表されました。 AIサミット 今週は台北です。

大規模言語モデル (LLM) をローカルで実行すると、いくつかの本質的な利点があります。リモート データセンターとの間でクエリを送受信する必要がないため、エンド ユーザーのレイテンシーが短縮され、応答時間が向上し、理論的にはプライバシーが向上するはずです。一方、Microsoft にとっては、より多くの AI ワークロードを顧客のデバイスに移すことで、次の OpenAI モデルのトレーニングを支援したり、クラウド API として提供したりするなど、他のタスクに自社のリソースを解放できます。

Microsoft は、最終的には Windows AI PC の NPU (ニューラル処理ユニット) 上で Copilot LLM を完全に実行したいと考えています。 どうやらコメント サミットでインテル幹部らによって発表された。 x86 の猛者が、そのシリコンが自宅やオフィスで Redmond の製品を実行するのに十分強力であると皆に納得させるために、その路線を推進しているのは想像できます。

Azure のへその緒から Copilot を取り外すというアイデアは一部の人にとっては魅力的かもしれませんが、誰もがそのファンではないようです。 クリッピーの化身 そして、近い将来、少なくともある程度の処理はほぼ確実にクラウドで行われるでしょう。

Intel 幹部も同様のことを述べています。ハードウェアが高速化すると、Copilot のより多くの「要素」をローカルで実行できるようになります。言い換えれば、少なくとも一部の機能については引き続きネットワーク接続に依存し、残りの機能は AI PC が自動的に処理します。

その理由はそれほど驚くべきことではないでしょう。これらの AI PC のリソースは有限であり、Copilot を駆動するモデル (OpenAI の GPT-4) は巨大です。 Microsoft が使用しているバージョンがどのくらいの大きさであるかは正確にはわかりませんが、 見積もり 完全な GPT-4 モデルには約 1.7 兆 4 億のパラメーターが含まれます。量子化を行ったり、モデルを INT900 で実行したりした場合でも、約 XNUMXGB のメモリが必要になります。

それがうまくいくと私たちが考える方法

GPT-4 はいわゆる専門家混合モデルです。一言で言えば、これは実際に、クエリのルーティング先となる多数の小規模で特殊な事前トレーニング済みモデルから組み立てられていることを意味します。テキスト生成、要約、コード作成などのために複数のモデルを最適化することで、タスクを完了するためにモデル全体を実行する必要がなくなるため、推論のパフォーマンスを向上させることができます。

インテルがローカルで実行する Copilot 機能を説明するために「エレメント」という用語を使用していることは、これらの専門家の一部が、ラップトップ ハードウェアで実行できる小型で機敏なモデルに置き換えられる可能性があることを示唆しています。以前に検討したように、既存の個人用ハードウェアは、Mistral や Meta などの小規模な AI モデルを実行するのに十分な能力があります。

偶然ですが、マイクロソフトは最近、 ポンプ フランスのミニモデルビルダーMistral AIに15万ユーロ(16.3万ドル)を出資し、その作品をAzureの顧客が利用できるようにする計画がある。 Mistral-7B のパラメータのサイズはわずか 7 億個で、AI PC のメモリに快適に収まるほど十分小さいのは確かで、4 ビット量子化を使用する場合は 4GB 近くのメモリが必要です。

そしてそれは汎用モデル用です。おそらく、アプリケーション (Visual Studio Code など) が起動され、アクティブな Github Copilot サブスクリプションが検出された場合にのみメモリに読み込まれる、ソース コード生成用に調整されたさらに小さなモデルでも問題なく使用できるでしょう。 Copilot は単なるチャットボットではないことを忘れないでください。これは、Microsoft の OS およびソフトウェア ライブラリに組み込まれている一連の AI 機能です。

レドモンドは、AI PC の仕様にどれだけのメモリが必要かについては明らかにしていませんが、私たちの経験では、 ローカルLLM, 高速な DDR16 は 5GB あれば十分です。

Microsoft が最終的にどのようなルートを取るにせよ、ローカル モデルとリモート モデルを組み合わせると、興味深い動作が起こる可能性があります。これらのローカル モデルがどのような状況で引き継がれるかはまだわかりませんが、Microsoft の Windows デバイス担当幹部 Pavan Davuluri は、その組み合わせが動的になる可能性があることを示唆しています。

同氏はAMDのAdvancing AIのステージ上で、「クラウドとクライアントの間で負​​荷をシフトして、両方の世界で最高のコンピューティングを提供できるようにしたいと考えている」と語った。 イベント 12月中。 「これは、クラウドの力によるプライバシー、応答性、遅延の強化、高性能モデル、大規模なデータセット、クロスプラットフォーム推論など、ローカル コンピューティングの利点を組み合わせたものです。」

そのため、Microsoft がローカル AI をどのように使用するかについては、いくつかのシナリオが考えられます。 1 つ目は、Microsoft サーバーから作業をオフロードし、応答時間を短縮することです。ハードウェアが改良されるにつれて、より多くの Copilot 機能がクラウドからユーザーのデバイスにプッシュされる可能性があります。

2 つ目は、ネットワーク中断の場合のフォールバックとして使用することです。 AI PC は、ネットから切り離されても完全に停止するのではなく、ただ愚かになるだけであると想像できます。

ハードウェアの制約

オフグリッド マニフェストの草案を作成する分割脳型 AI PC に興奮しすぎる前に、現時点ではハードウェア要件を満たすマシンは存在しません。また、Copilot キーがないためではありません。

問題は、NPU が x86 シリコンではまだ比較的新しく、存在するものは十分に強力ではないということです。 AMD は、2023 年初めにモバイル プロセッサに NPU を追加した最初の企業の XNUMX つであり、 Ryzen 7040 シリーズチップ。

このラインナップは、12 月に House of Zen の Advancing AI イベント中にクロック バンプを受けました。 AMD はまた、NPU をデスクトップにも導入しました。 8000G APU 今年1月のCESで。

Intel は、専用の AI アクセラレータ ブロックを、 流星湖 12月下旬にマイクロプロセッサ部品を出荷。これらの Core Ultra チップは、Intel の Movidius ビジョン プロセッシング ユニット (VPU) から派生した NPU を備えています。 デモ 昨年のイノベーション イベントではさまざまなワークロードを実行しました。

残念ながら、チップは 10 秒あたり 16 ~ 4 兆回 (通常は INT40) の演算しか実行できず、Microsoft の XNUMX TOPS 仕様をはるかに下回っています。これは、市場にあるいわゆる AI PC のほとんどが要件を満たさないことを意味します。違いを補うために GPU に依存しないわけにはいきません。

Intel と AMD はそれぞれ、Lunar Lake と Strix Point シリコンを搭載した、より高性能なチップを搭載しています。しかし、短期的にはクアルコムが市場を追い詰めることになりそうだ。

クアルコムのSnapdragon X Eliteを搭載したノートブック モバイルプロセッサ は 2024 年半ばに発売される予定で、45 TOPS の能力を持つ NPU を搭載します。クアルコムによれば、4.6テラFLOPSのFP32パフォーマンスが可能なAdreno GPUと組み合わせることで、この部品はデバイス上で最大13億パラメータまでのAIモデルを実行でき、より小規模な30億パラメータのLLMを実行する際には毎秒7トークンを生成できるようになるという。

より高性能な NPU と大容量のメモリ ストアを備えた PC が登場し、小型モデルの機能が向上するにつれて、ハードウェアが処理できるようになれば、Microsoft はより多くの機能をローカル デバイスにオフロードし始めるのではないかと考えられます。 ®

タイムスタンプ:

より多くの 登録