このゲスト投稿は、ThirdAI の Vihan Lakshman、Tharun Medini、Anshumali Shrivastava によって書かれています。
大規模ディープラーニングは、近年、幅広い分野で革命的な進歩をもたらしています。人工知能におけるこの驚くべき進歩は依然として注目に値しますが、GPU などの特殊なハードウェアが必要なため、これらのモデルのトレーニングに必要な財務コストとエネルギー消費が重大なボトルネックとして浮上しています。従来、適度なサイズのニューラル モデルであっても、トレーニングには高価なハードウェア アクセラレータが必要であったため、このテクノロジーを最大限に活用するための経済的余裕のある組織の数は限られていました。
2021 年に設立された ThirdAI Corp. は、深層学習の経済性を根本的に変えるアルゴリズムとソフトウェアの革新を通じて人工知能テクノロジーを民主化するという使命に特化したスタートアップです。私たちは、として知られるスパース深層学習エンジンを開発しました。 BOLTこれは、GPU などの高価でエネルギーを大量に消費するアクセラレータではなく、標準の CPU ハードウェア上でモデルをトレーニングおよびデプロイするために特別に設計されています。当社のお客様の多くは、 強い満足感を報告 ThirdAI の機能により、コスト効率の高い CPU インフラストラクチャ上で重大なビジネス上の問題に対して深層学習モデルをトレーニングおよびデプロイできます。
この投稿では、ThirdAI の独自の CPU ベースの深層学習エンジンのニューラル ネットワーク トレーニングを加速する AWS Graviton3 プロセッサの可能性を調査します。
高性能CPUのメリット
ThirdAI では、特定の入力に対してニューロンのサブセットのみをアクティブにする独自の動的スパース アルゴリズムを通じて、CPU での効率的なニューラル ネットワーク トレーニングでこれらのブレークスルーを達成し (次の図を参照)、それによって完全な密な計算の必要性を回避します。スパース ニューラル ネットワーク トレーニングに対する他のアプローチとは異なり、ThirdAI は 局所性依存ハッシュ 以下の太線で示すように、特定の入力に対してニューロンを動的に選択します。場合によっては、 スパース CPU ベースのモデル GPU 上の同等の高密度アーキテクチャよりも高速にトレーニングできます。
私たちのターゲット顧客の多くがクラウドで運用しており、その中でも大部分が AWS を使用していることを考えると、Amazon のシリコン革新による価格パフォーマンスの大幅な向上が当社独自のワークロードに反映されるかどうかを確認するために、AWS Graviton3 プロセッサを試してみることに興奮しました。スパース ニューラル ネットワーク トレーニングの削減により、顧客はさらに節約できます。研究コミュニティと AWS Graviton チームは両方とも、加速において刺激的な進歩をもたらしましたが、 ニューラルネットワーク推論 CPU インスタンス上で、私たちの知る限り、ThirdAI は、CPU 上でニューラル モデルを効率的にトレーニングする方法を真剣に研究した最初の企業です。
結果に示されているように、いくつかの代表的なモデリング ワークロードにおいて、AWS Graviton3 を使用すると、同等の Intel インスタンスや NVIDIA インスタンスと比べてトレーニングが大幅に高速化することが観察されました。
インスタンスタイプ
評価では、Intel の Ice Lake プロセッサを搭載した c6i.8xlarge マシンと AWS Graviton7 を搭載した c8g.3xlarge という XNUMX つの同等の AWS CPU インスタンスを検討しました。次の表は、各インスタンスの詳細をまとめたものです。
インスタンス | vCPU | RAM(GB) | プロセッサ | オンデマンド価格 (us-east-1) |
c7g.8xlarge | 32 | 64 | AWS グラビトン 3 | $ 1.1562 /時 |
c6i.8xlarge | 32 | 64 | インテルアイスレイク | $ 1.36 /時 |
g5g.8xlarge (GPU) | 32 | 64、16 GB GPU メモリ搭載 | 2 つの NVIDIA T1G GPU を搭載した AWS Graviton4 プロセッサ | $ 1.3720 /時 |
評価 1: 極端な分類
最初の評価では、検索と推奨における多くの実用的なアプリケーションを備えた、ますます人気が高まっている機械学習 (ML) パラダイムである極端なマルチラベル分類 (XMC) の問題に焦点を当てます ( Amazon)。私たちの評価では、一般の人々に焦点を当てています Amazon-670K 製品推奨タスクは、入力製品が与えられると、670,000 を超えるアイテムのコレクションから類似の製品を識別します。
この実験では、前述のハードウェア選択 (Intel Ice Lake、AWS Graviton2.11、NVIDIA T2.0G GPU) で、ThirdAI の BOLT エンジンを TensorFlow 3 および PyTorch 4 に対してベンチマークします。 Intel と AWS Graviton での実験には、AWS Deep Learning AMI (Ubuntu 18.04) バージョン 59.0 を使用します。 GPU の評価には、 NVIDIA GPU に最適化された Arm64 AMI、AWS Marketplace から入手できます。この評価には、 スライドモデルのアーキテクチャこれにより、この極端な分類タスクでの競争力のあるパフォーマンスと、CPU での強力なトレーニング パフォーマンスの両方が達成されます。 TensorFlow と PyTorch の比較では、高密度行列乗算を備えた SLIDE 多層パーセプトロン (MLP) アーキテクチャの類似バージョンを実装します。固定バッチ サイズ 256、学習率 0.001 で、各モデルを 33.6 エポック (トレーニング データセットのフル パス) トレーニングします。すべてのモデルが同じ XNUMX% のテスト精度を達成していることがわかりました。
次のグラフは、Amazon2.11k 極限分類ベンチマークにおける ThirdAI の BOLT のトレーニング時間を TensorFlow 2.0 および PyTorch 670 と比較したものです。すべてのモデルが同じテスト精度を実現します。 AWS Graviton3 は、カスタマイズの必要がなく、すぐに使用できる BOLT のパフォーマンスを大幅に (約 40%) 高速化することがわかりました。 AWS Graviton3 上の ThirdAI の BOLT も、GPU でトレーニングされた TensorFlow または PyTorch モデルよりも大幅に高速なトレーニングを実現します。 BOLT は CPU 上で実行するように設計されているため、NVIDIA GPU ベンチマークには ThirdAI の結果がないことに注意してください。トレーニング時間が法外に長いため、TensorFlow および PyTorch CPU ベンチマークは含めていません。
次の表は、各プロセッサ/専用プロセッサ (GPU) のトレーニング時間とテスト精度をまとめたものです。
プロセッサ | エンジン | トレーニング時間(秒) | 試験精度 |
インテル Ice Lake (c6i.8xlarge) | BOLT | 1470 | 33.6 |
AWS Graviton3 (c7g.8xlarge) | BOLT | 935 | 33.6 |
NVIDIA T4G (g5g.8xlarge) | TensorFlow | 7550 | 33.6 |
NVIDIA T4G (g5g.8xlarge) | パイトーチ | 5130 | 33.6 |
評価 2: Yelp Polarity 感情分析
2 回目の評価では、人気のあるものに焦点を当てます。 Yelpの極性 感情分析ベンチマーク。レビューを肯定的または否定的に分類します。この評価では、ThirdAI の ユニバーサルディープトランスフォーマー (UDT) 微調整されたモデルに対する 蒸留BERT network は、推論レイテンシーを削減しながら、ほぼ最先端のパフォーマンスを実現する、圧縮済みの事前トレーニング済み言語モデルです。 CPU 上で DistilBERT モデルを微調整するには法外に長い時間がかかるため (少なくとも数日)、GPU 上で微調整された DistilBERT に対して ThirdAI の CPU ベースのモデルをベンチマークします。データの単一パス (256 エポック) に対してバッチ サイズ XNUMX ですべてのモデルをトレーニングします。 BOLT ではデータのパスを追加することでわずかに高い精度を達成できることに注意してください。ただし、一貫性を保つために、この評価では XNUMX つのパスに制限しています。
次の図に示すように、AWS Graviton3 は、ThirdAI の UDT モデル トレーニングを再び大幅に高速化します。さらに、UDT は、GPU を必要とせずに、わずかなトレーニング時間で DistilBERT と同等のテスト精度を達成できます。最近の取り組みもあることに注目してください。 微調整の最適化 CPU 上の Yelp 極性。ただし、私たちのモデルは依然として大幅な効率向上を実現し、GPU などのハードウェア アクセラレータの使用を必要とする多額の事前トレーニングのコストを回避します。
次の表は、トレーニング時間、テスト精度、推論レイテンシをまとめたものです。
プロセッサ | エンジン | モデル | トレーニング時間(秒) | 試験精度 | 推論遅延 (ミリ秒) |
インテル Icelake (c6i.8xlarge) | BOLT | UDT | 47 | 93.2 | <1 |
Graviton3 (c7g.8xlarge) | BOLT | UDT | 29 | 92.9 | <1 |
T4G GPU (g5g.8xlarge) | TensorFlow | 蒸留BERT | 4200 | 93.3 | 8.7 |
T4G GPU (g5g.8xlarge) | パイトーチ | 蒸留BERT | 3780 | 93.4 | 8.3 |
評価 3: 複数クラスのテキスト分類 (DBPedia)
最終的な評価では、複数クラスのテキスト分類の問題に焦点を当てます。これには、3 つ以上の出力クラスのセットから特定の入力テキストにラベルを割り当てることが含まれます。私たちは次のことに重点を置いています DBペディア ベンチマークは、14 の可能な出力クラスで構成されます。繰り返しになりますが、AWS Graviton3 は同等の Intel インスタンスと比べて UDT パフォーマンスを約 40% 高速化していることがわかります。また、BOLT は、ミリ秒未満のレイテンシーを達成しながら、GPU で微調整された DistilBERT トランスフォーマー ベースのモデルと同等の結果を達成していることもわかります。
次の表は、トレーニング時間、テスト精度、推論レイテンシをまとめたものです。
プロセッサ | エンジン | モデル | トレーニング時間(秒) | 試験精度 | 推論遅延 (ミリ秒) |
インテル Icelake (c6i.8xlarge) | BOLT | UDT | 23 | 98.23 | <1 |
Graviton3 (c7g.8xlarge) | BOLT | UDT | 14 | 98.10 | <1 |
T4G GPU (g5g.8xlarge) | TensorFlow | 蒸留BERT | 4320 | 99.23 | 8.6 |
T4G GPU (g5g.8xlarge) | パイトーチ | 蒸留BERT | 3480 | 99.29 | 8 |
AWS Graviton で ThirdAI を使ってみる
当社は、AWS Graviton3 を含むすべての主要な CPU アーキテクチャと互換性を持つように BOLT ソフトウェアを設計しました。実際、AWS Graviton3 で実行するためにコードをカスタマイズする必要はありませんでした。したがって、追加の労力を必要とせずに、ThirdAI を使用してモデルのトレーニングと AWS Graviton3 へのデプロイを行うことができます。さらに、最近の記事で詳しく説明したように、 研究白書では、スパース モデルに関連付けられた特殊なハイパーパラメータを自動的に調整する一連の新しい数学的手法を開発し、モデルが箱から出してすぐに適切に動作できるようにしました。
また、私たちのモデルは主に、大規模で高次元の出力空間と非常に低い推論レイテンシーの要件を特徴とする検索、推奨、および自然言語処理のタスクに適していることにも注意してください。私たちは、コンピューター ビジョンなどの追加のドメインにメソッドを拡張することに積極的に取り組んでいますが、現時点では効率の向上がすべての ML ドメインに反映されるわけではないことに注意してください。
まとめ
この投稿では、ThirdAI の独自の CPU ベースの深層学習エンジンのニューラル ネットワーク トレーニングを加速する AWS Graviton3 プロセッサの可能性を調査しました。検索、テキスト分類、および推奨ベンチマークに関するベンチマークは、AWS Graviton3 が、同等の x30 インスタンスと比較して、ThirdAI のモデルトレーニング ワークロードを 40 ~ 86% 高速化し、価格パフォーマンスが 50% 近く向上することを示唆しています。さらに、AWS Graviton3 インスタンスは、類似の Intel や NVIDIA マシンよりも低コストで利用でき、トレーニングと推論にかかる時間を短縮できるため、低コストを使用することで AWS の従量課金制使用モデルの価値をさらに引き出すことができます。マシンの使用時間を短縮します。
私たちは AWS Graviton3 の価格とパフォーマンスの節約に非常に興奮しており、これらの改善点をお客様に提供して、お客様が低コストの CPU でパフォーマンスが向上し、より高速な ML トレーニングと推論を楽しめるようにしていきたいと考えています。私たち自身も AWS の顧客として、AWS Graviton3 によってモデルを実験できる速度に満足しており、今後も AWS の最先端のシリコンイノベーションを使用することを楽しみにしています。 グラビトン技術ガイド Graviton で実行する ML ワークロードを評価する際に検討するのに適したリソースです。 Graviton t4g インスタンスを試すこともできます 無料試用.
この投稿の内容と意見はサードパーティの作成者によるものであり、AWS はこの投稿の内容や正確性について責任を負いません。ブログの執筆時点では最新のインスタンスは c6i であったため、比較は c6i インスタンスで行われました。
著者について
ヴィハン・ラクシュマン – Vihan Lakshman は、ThirdAI Corp. の研究員で、リソース効率の高いディープ ラーニング システムの開発に注力しています。 ThirdAI に入社する前は、Amazon で応用科学者として働き、スタンフォード大学で学士号と修士号を取得しました。ヴィハン氏は、国立科学財団の研究フェローシップの受賞者でもあります。
タルン・メディニ – Tharun Medini は、ThirdAI Corp. の共同創設者兼 CTO です。ライス大学で「検索と情報取得のためのハッシュ アルゴリズム」の博士号を取得しました。 ThirdAI に入社する前は、Tharun は Amazon と Target で働いていました。タルンは、その研究に対して、ケン・ケネディ研究所BPフェローシップ、アメリカ・インディアン技術者協会奨学金、ライス大学大学院フェローシップなど、数多くの賞を受賞しています。
アンシュマリ・シュリヴァスタヴァ – アンシュマリ・シュリヴァスタヴァは、ライス大学コンピューターサイエンス学部の准教授です。彼はまた、ソフトウェア イノベーションを通じて AI を汎用ハードウェアに普及させている会社、ThirdAI Corp の創設者兼 CEO でもあります。彼の幅広い研究対象には、リソースを節約した深層学習のための確率的アルゴリズムが含まれます。 2018年、サイエンスニュースは彼を10歳未満の注目すべき科学者トップ40の2014人に挙げた。彼は、米国科学財団キャリア賞、空軍科学研究局から若手研究者賞、Amazon から機械学習研究賞、Adobe からデータ サイエンス研究賞を受賞しています。彼は、NIPS 2022 および MLSys 2019 での最優秀論文賞、SIGMOD XNUMX での最も再現性の高い論文賞など、数多くの論文賞を受賞しています。CPU 上の効率的な機械学習テクノロジに関する彼の研究は、ウォール ストリート ジャーナル、ニューヨークタイムズ、TechCrunch、NDTVなど
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/accelerating-large-scale-neural-network-training-on-cpus-with-thirdai-and-aws-graviton/
- :持っている
- :は
- :not
- 000
- 001
- 1
- 11
- 14
- 16
- 2014
- 2018
- 2019
- 2021
- 2022
- 33
- 385
- 40
- 7
- a
- 能力
- できる
- 加速する
- 加速する
- 加速している
- 加速器
- 精度
- 達成する
- 達成
- 達成する
- 達成する
- 活性化する
- 積極的に
- 添加
- NEW
- Adobe
- 進歩
- 利点
- 再び
- に対して
- AI
- 空気
- 空軍
- アルゴリズムの
- アルゴリズム
- すべて
- 許可
- ことができます
- また
- しかし
- Amazon
- Amazon Webサービス
- アメリカ
- 間で
- an
- 分析
- および
- どれか
- 適用された
- アプローチ
- 約
- 建築
- アーキテクチャ
- です
- 配列
- 人工の
- 人工知能
- AS
- 仲間
- 関連する
- At
- 著者
- 自動的に
- 利用できます
- 避ける
- 賞
- 賞を受賞
- 知って
- AWS
- AWS Marketplace
- バー
- BE
- なぜなら
- き
- 以下
- ベンチマーク
- ベンチマーク
- 利点
- BEST
- ブログ
- 大胆な
- ボルト
- 両言語で
- ボトルネック
- ボックス
- BP
- ブレークスルー
- 広い
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 缶
- キャリア
- 例
- 最高経営責任者(CEO)
- 一定
- 変化する
- チャート
- 選択肢
- クラス
- 分類
- 共同創設者
- コード
- コレクション
- 商品
- コミュニティ
- 会社
- 匹敵します
- 比較します
- 比較
- 比較
- 比較
- 互換性
- 競争力のある
- 計算
- コンピュータ
- コンピュータサイエンス
- Computer Vision
- 検討
- 見なさ
- からなる
- 消費
- コンテンツ
- コープ
- 費用
- コスト効率の良い
- 高額で
- コスト
- カバー
- 重大な
- CTO
- 電流プローブ
- Customers
- 最先端
- データ
- データサイエンス
- 日
- 専用の
- 深いです
- 深い学習
- 喜んで
- 配信
- 民主化
- 部門
- 展開します
- 展開する
- 展開
- 設計
- 詳細な
- 細部
- 発展した
- 開発
- DID
- do
- ドメイン
- 行われ
- 原因
- ダイナミック
- 動的に
- 各
- Economics
- 効率
- 効率的な
- 効率良く
- 努力
- 登場
- enable
- エネルギー
- エネルギー消費
- エンジン
- エンジニア
- 楽しみます
- 時代
- エポック
- 等
- 評価します
- 評価
- さらに
- 興奮した
- エキサイティング
- 実験
- 実験
- 延伸
- 極端な
- 非常に
- 実際
- 速いです
- 特徴
- フィールズ
- フィギュア
- ファイナル
- ファイナンシャル
- 名
- 五
- 固定の
- フォーカス
- 焦点を当て
- フォロー中
- 強
- フォワード
- Foundation
- AIとMoku
- 創設者兼最高経営責任者(CEO)
- 分数
- から
- フル
- 根本的に
- さらに
- さらに
- 利益
- GIF
- 与えられた
- 行く
- 良い
- GPU
- GPU
- 卒業生
- 大きい
- ゲスト
- ゲストのポスト
- Hardware
- 持ってる
- he
- それゆえ
- ハイパフォーマンス
- より高い
- 彼に
- 彼の
- 認定条件
- How To
- しかしながら
- HTTP
- HTTPS
- ICE
- 識別する
- if
- 直ちに
- 実装する
- 印象的
- 改善されました
- 改善
- 改善
- in
- include
- 含めて
- ますます
- インディアン
- 情報
- インフラ
- 革新的手法
- イノベーション
- 機関
- インテル
- インテリジェンス
- 利益
- 調べる
- 関与
- リーディングシート
- ジャーナル
- JPG
- 知識
- 既知の
- ラベル
- 湖
- 言語
- 大
- 大規模
- レイテンシ
- 学習
- 最低
- ような
- 制限
- ライン
- 長い
- 長い時間
- 見て
- ロー
- 低コストの
- 下側
- 機械
- 機械学習
- マシン
- 主要な
- 大多数
- make
- 多くの
- 市場
- マスターの
- 数学的
- マトリックス
- 手段
- メソッド
- ミッション
- ML
- モデリング
- モデル
- 他には?
- 最も
- MS
- 掛け算
- 名前付き
- 国民
- 国立科学
- ナチュラル
- 自然言語処理
- ほぼ
- 必要
- 負
- ネットワーク
- ニューラル
- ニューラルネットワーク
- ニューロン
- 新作
- ニューヨーク
- ニューヨーク·タイムズ紙
- ニュース
- いいえ
- 注意
- 小説
- 数
- 多数の
- Nvidia
- 観察する
- of
- Office
- on
- ONE
- の
- 操作する
- 意見
- 反対した
- or
- 組織
- その他
- 私たちの
- 自分自身
- でる
- 出力
- が
- 紙素材
- パラダイム
- パス
- パス
- パフォーマンス
- 博士号
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 人気
- 正の
- 可能
- ポスト
- 潜在的な
- パワード
- 実用的
- 精度
- ブランド
- 主に
- 事前の
- 問題
- 問題
- 処理
- プロセッサ
- プロセッサ
- 生産された
- プロダクト
- 製品
- 東京大学大学院海洋学研究室教授
- 進捗
- 所有権
- 提供します
- 公共
- パイトーチ
- レート
- 最近
- 最近
- おすすめ
- 提言
- 電話代などの費用を削減
- 残っている
- 顕著
- 代表者
- の提出が必要です
- 要件
- 必要
- 研究
- リソースを追加する。
- 責任
- 制限する
- 結果
- 結果
- レビュー
- 革新的な
- 米
- 大体
- ラン
- s
- 同じ
- 貯蓄
- 科学
- 科学財団
- 科学的な
- 科学者
- 科学者たち
- を検索
- 二番
- select
- 選択
- 感情
- 真剣に
- サービス
- セッションに
- いくつかの
- 表示
- 示す
- 重要
- シリコン
- 同様の
- サイズ
- 大きさの
- スライド
- So
- 社会
- ソフトウェア
- スペース
- 専門の
- 特に
- スピード
- 標準
- スタンフォード
- スタンフォード大学
- 開始
- スタートアップ
- まだ
- ストリート
- 強い
- 勉強
- 見事な
- かなりの
- そのような
- 示唆する
- システム
- テーブル
- 取る
- ターゲット
- 仕事
- タスク
- チーム
- TechCrunchの
- 技術的
- テクニック
- テクノロジー
- テクノロジー
- テンソルフロー
- test
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- テキスト分類
- より
- それ
- そこ。
- それによって
- したがって、
- ボーマン
- 彼ら
- サードパーティ
- この
- それらの
- 介して
- 時間
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- 伝統的に
- トレーニング
- 訓練された
- トレーニング
- トランスフォーマー
- 翻訳する
- 試します
- 曲
- 2
- 一般的に
- Ubuntu
- 下
- ユニーク
- 大学
- 異なり、
- アンロック
- us
- 使用法
- つかいます
- 使用されます
- 値
- 広大な
- バージョン
- 非常に
- 、
- ビジョン
- vs
- 壁
- ウォール街
- ウォールストリートジャーナル
- ました
- よく見る
- we
- ウェブ
- Webサービス
- WELL
- した
- which
- while
- Wikipedia
- 意志
- 無し
- 勝った
- 仕事
- 働いていました
- ワーキング
- でしょう
- 書き込み
- 書かれた
- ヨーク
- You
- 若い
- あなたの
- ゼファーネット