AI では、PlatoBlockchain Data Intelligence のより大きなハードウェアとソフトウェアの全体像を把握する必要があります。垂直検索。あい。

AI では、ハードウェアとソフトウェアの全体像を把握する必要があります

スポンサー機能 研究者がグラフィカル プロセッシング ユニットを使用して主要な AI 操作を劇的に加速できることを実証して、テクノロジーの世界を魅了してから XNUMX 年になります。

その実現は、企業の想像力をつかみ続けています。 IDC は、インフラストラクチャに関しては、GPU で高速化されたコンピューティングと HPC のようなスケールアップが、AI インフラストラクチャの構築を検討している技術リーダーやアーキテクトにとって最も重要な考慮事項の XNUMX つであると報告しています。

しかし、AI を現実世界の問題に適用することに成功した組織の多くは、実験やパイロットの段階を超えるのに苦労しています。 IDC の 2021 年の調査 AI プロジェクトを本番環境に移行したのは回答者の XNUMX 分の XNUMX 未満で、「本番環境の成熟段階」に達したのは XNUMX 分の XNUMX にすぎませんでした。

引用されたハードルには、データの処理と準備、およびエンタープライズ規模で AI をサポートするためのインフラストラクチャの強化に関する問題が含まれます。 企業は「目的に合わせて適切な規模のインフラストラクチャ」に投資する必要があると IDC は述べています。

ここでAIの問題は何ですか?

では、これらの組織は AI のどこで間違っているのでしょうか? 要因の XNUMX つは、技術リーダーや AI スペシャリストが、他のコンピューティング エンジン、特に由緒ある CPU と比較して GPU に注意を払いすぎている一方で、より広範な AI パイプラインを全体的に見ていないことにあるかもしれません。

最終的には、CPU、GPU、ASIC のバッキングの問題ではないからです。 むしろ、アイデアやデータ、モデルの構築からデプロイや推論に至る AI パイプラインを構築するための最適な方法を見つけることです。 これは、異なるプロセッサ アーキテクチャのそれぞれの長所を評価して、適切なコンピューティング エンジンを適切なタイミングで適用できるようにすることを意味します。

Intel のデータセンター AI 戦略および実行担当シニア ディレクターである Shardul Brahmbhatt 氏は、次のように説明しています。 GPU は、メディア ストリーミング、ゲーム、AI ワークロードなどの並列計算に使用されています。」

そのため、ハイパースケーラーやその他のクラウド プレーヤーが AI に注意を向けるにつれて、これらの同じ強みをさまざまなタスクに活用していることが明らかになりました。

並列計算に関する GPU の機能により、たとえば AI アルゴリズムのトレーニングに非常に適しています。 一方、CPU は、低バッチ、低レイテンシのリアルタイム推論、およびこれらのアルゴリズムを使用してライブ データを分析し、結果と予測を提供する場合に有利です。

Brahmbhatt 氏は次のように説明しています。 そして、そのバッチ推論も、GPU や ASIC を通じて行われているものです。」

パイプラインを見下ろす

しかし、AI パイプラインは、トレーニングと推論にとどまりません。 パイプラインの左側では、データを前処理し、アルゴリズムを開発する必要があります。 ここでは、ジェネラリスト CPU が重要な役割を果たします。

実際、Intel によると、GPU は AI パイプライン全体の総プロセッサ アクティビティの比較的小さな割合を占めており、CPU 駆動の「データ ステージ」ワークロードは全体の XNUMX 分の XNUMX を占めています (ソリューション ブリーフを読むことができます – Intel CPU テクノロジーによる推論の最適化 ここに)。

Brahmbhatt 氏は、CPU アーキテクチャには、プログラミング可能性など、他にも利点があることを思い出させてくれます。

「CPU は非常に広く使用されているため、利用可能な開発者とアプリケーションの既存のエコシステムに加えて、汎用コンピューティングの使いやすさとプログラマビリティを提供するツールが既に存在します」と彼は言います。

「第二に、CPU はより大きなメモリ空間へのアクセスを高速化します。 そして XNUMX つ目は、並列計算が多い GPU と比べて非構造計算が多いということです。 これらの理由から、CPU は GPU にフィードするデータ ムーバーとして動作し、それによってレコメンダー システム モデルや、グラフ ニューラル ネットワークのような進化する作業負荷を支援します。」

AI開発のオープンプラン

では、オンプレミス、クラウド、または両方にまたがる AI 開発パイプラインを計画するとき、CPU と GPU のそれぞれの役割をどのように捉えるべきでしょうか?

GPU は、CPU から演算をオフロードする高速化の方法を提供したため、AI 開発に革命をもたらしました。 しかし、これが特定の仕事にとって最も賢明な選択肢であるということにはなりません。

Intel プラットフォーム アーキテクトの Sharath Raghava 氏は次のように説明しています。 ベクトル計算は並列化可能です。 AI ワークロードを効率的に実行するには、ベクトル計算のサイズ、オフロード レイテンシ、並列化可能性、およびその他の多くの要因を考慮して、CPU と GPU の機能を活用できます。」 しかし、「より小さな」タスクの場合、オフロードの「コスト」が過剰になり、GPU やアクセラレータで実行する意味がないかもしれない、と彼は続けます。

CPU は、AI ジョブをより迅速に完了できるようにする他のシステム コンポーネントとの緊密な統合からも恩恵を受けることができます。 AI の導入から最大の価値を得るには、モデル自体を実行するだけでは不十分です。求められる洞察は、効率的な前処理、推論、および後処理操作に依存します。 前処理では、推論を生成するためにデータが供給される前に、トレーニング済みモデルの入力期待に一致するようにデータを準備する必要があります。 有用な情報は、後処理段階で推論結果から抽出されます。

たとえば、データセンターの侵入検知システム (IDS) について考える場合、モデルの出力に基づいて行動し、サイバー攻撃による損害をタイムリーに保護および防止することが重要です。 また、通常、前処理と後処理のステップは、ホスト システムの CPU で実行すると、残りのアーキテクチャ エコシステムとより緊密に統合されるため、より効率的になります。

スターター オーダーでのパフォーマンス ブースト

では、それは GPU アクセラレーションの利点を完全に放棄することを意味するのでしょうか? 必ずしも。 Intel は、数年前から Xeon Scalable CPU に AI アクセラレーションを組み込んでいます。 この範囲には、ディープ ラーニング モデルでの高性能推論のためのディープ ラーニング ブーストが既に含まれており、Intel の Advanced Vector Extensions 512 (AVX 512) と Vector Neural Network Extensions (VNNI) は INT8 推論パフォーマンスを高速化します。 しかし、DL Boost はブレイン浮動小数点形式 (BF16) も使用して、高レベルの精度を必要としないトレーニング ワークロードのパフォーマンスを向上させます。

Intel の次期 Xeon Scalable 第 8 世代 CPU には、高度な行列乗算 (AMX) が追加されます。 これにより、Intel の計算によると、以前のプロセッサに実装された AVX-512 VNNI x86 拡張機能よりもさらに 4 倍高速化され、第 XNUMX 世代 Intel Xeon スケーラブル プロセッサが「GPU のようにトレーニング ワークロードと DL アルゴリズムを処理」できるようになります。 しかし、これらの同じアクセラレーターは、AI および AI 以外のワークロードの一般的な CPU コンピューティングにも適用できます。

これは、Intel が AI パイプラインが最初から最後まで x86 であることを期待しているという意味ではありません。 並列化の恩恵を受けるトレーニング ワークロードを完全にオフロードすることが理にかなっている場合、Intel は Habana Gaudi AI Training Processor を提供します。 ベンチマーク テストでは、後者が Amazon EC2 DL1 インスタンスを強化し、クラウドでホストされている同等の Nvidia GPU ベースのトレーニング インスタンスよりも最大 40% 優れた価格性能比を実現できることが示唆されています。

同時に、インテルのデータセンター GPU フレックス シリーズは、AI 推論などの並列化の恩恵を受けるワークロードと操作を対象としており、さまざまな実装が「より軽量」でより複雑な AI モデルに売り込まれています。 Ponte Vecchio (PVC) というコードネームの別のインテル® データセンター GPU は、まもなくアルゴンヌ国立研究所の Aurora スーパーコンピューターに電力を供給し始めます。

端から端まで行くことはできますか?

潜在的に、インテルのシリコンは AI パイプライン全体を支えながら、異なる計算エンジン間で不必要にデータをオフロードする必要性を最小限に抑えることができます。 GPU であれ CPU であれ、同社のプロセッサは、OneAPI プログラムを通じて Intel の最適化を備えたオープンソースのツールとフレームワークに基づく共通のソフトウェア モデルもサポートしています。

Brahmbhatt 氏は、コミュニティとオープン ソースに基づく x86 ソフトウェア エコシステムの構築における Intel の遺産を、もう XNUMX つの利点として挙げています。 「インテルの哲学は…『エコシステムに採用を後押しさせる』というものです。 そして、エコシステムに対して公正かつオープンであることを保証する必要があり、私たちの秘密のソースをエコシステムに提供します。」

「基本的に、開発者が AI 用の CPU と GPU の間の IP の根本的な違いについて心配する必要がないことを確認するために、共通のソフトウェア スタックを使用しています。」

共通のソフトウェア スタックと、適切なタスクに適切なコンピューティング エンジンを使用することに重点を置くことの組み合わせは、企業ではさらに重要です。 企業は、クラウドかオンプレミスかにかかわらず、最も差し迫った問題のいくつかを解決するために AI に依存しています。 ただし、混合ワークロードでは、アクセラレータ上にあるカーネルに含まれていないコードを実行するために、システム スタックのメンテナンスと管理だけでなく、フル機能のソフトウェアが必要です。

そのため、「AI をエンタープライズ規模にするにはどうすればよいか」という質問に答える場合、その答えは、全体像を見て、自由に使えるハードウェアとソフトウェア キットの完全な補完物を確実に使用できるようにすることにかかっている可能性があります。

インテルが後援。

タイムスタンプ:

より多くの 登録