機械学習 (ML) エンジニアは従来、モデルのトレーニングと導入のコストとパフォーマンスのバランスをとることに重点を置いてきました。 持続可能性 (エネルギー効率) が顧客にとってますます追加の目標となっています。 ML モデルをトレーニングし、トレーニングされたモデルを使用して予測 (推論) を行うのは、非常にエネルギーを消費するタスクになる可能性があるため、これは重要です。 さらに、私たちの周囲ではますます多くのアプリケーションに ML が組み込まれており、ML を活用した新しいアプリケーションが毎日考案されています。 よくある例は、最先端の大規模言語モデル (LMM) を搭載した OpenAI の ChatGPT です。 参考のため、 GPT-3、前世代の LLM には 175 億のパラメータがあり、数千の高速プロセッサのクラスタ上で数か月にわたるノンストップのトレーニングが必要です。 の カーボントラッカーの研究 GPT-3 をゼロからトレーニングすると、特殊なハードウェア アクセラレータのクラスターを使用して、最大 85 トンの CO2 が排出される可能性があると推定されています。
AWS には、ML 実践者がワークロードの環境への影響を軽減できるようにする方法がいくつかあります。 XNUMX つの方法は、提供することです。 持続可能性を実現する AI/ML ワークロードの設計に関する規範的なガイダンス。 もう XNUMX つの方法は、次のようなマネージド ML トレーニングおよびオーケストレーション サービスを提供することです。 Amazon SageMakerスタジオは、使用されていないときに ML リソースを自動的に破棄およびスケールアップし、コストとリソースを節約するすぐに使用できるツールのホストを提供します。 もう XNUMX つの主要な要因は、 エネルギー効率が高く、高性能な専用アクセラレータ ML モデルのトレーニングとデプロイに使用します。
この投稿の焦点は、持続可能な ML の手段としてのハードウェアにあります。 AWS が実施した最近のパフォーマンスと消費電力の実験結果を紹介します。これは、他の推論とトレーニングに最適化された高速化されたディープ ラーニング ワークロードを移行する際に期待できるエネルギー効率の利点を定量化します。 アマゾン エラスティック コンピューティング クラウド (Amazon EC2) インスタンスから AWSインフェレンティア および AWS トレーニング。 インフェレンティアとトレイニウムは、 AWS は最近、専用アクセラレータのポートフォリオに追加しました Amazon によって特別に設計された アンナプルナラボ ML 推論とトレーニングのワークロード向け。
持続可能な ML のための AWS Inferentia と AWS Trainium
実際のアプリケーションにおける AWS Inferentia と AWS Trainium の潜在的なエネルギー節約の現実的な数値を提供するために、私たちはいくつかの消費電力ベンチマーク実験を実施しました。 これらのベンチマークは、次の主要な基準を念頭に置いて設計されました。
- まず、ML アクセラレータだけでなく、コンピューティング、メモリ、ネットワークなどのテスト ワークロードに起因する直接的なエネルギー消費を確実に捕捉したいと考えました。 したがって、テスト設定では、そのレベルでの消費電力を測定しました。
- 次に、トレーニングと推論のワークロードを実行するときに、すべてのインスタンスがそれぞれの物理ハードウェア制限で動作していることを確認し、比較可能性を確保するためにその制限に達した後にのみ測定を行いました。
- 最後に、この投稿で報告したエネルギー節約が実際の現実のアプリケーションで達成できることを確認したいと思いました。 したがって、ベンチマークとテストには、顧客からインスピレーションを得た一般的な ML ユースケースを使用しました。
結果は次のセクションで報告されます。
推論実験:LayoutLMによるリアルタイム文書理解
トレーニングとは対照的に、推論は、完了ポイントが定義されていない継続的で無制限のワークロードです。 したがって、ML ワークロードの生涯リソース消費量の大部分を占めます。 推論を正しく行うことは、ML ライフサイクル全体にわたって高性能、低コスト、持続可能性 (エネルギー効率の向上) を達成するための鍵となります。 推論タスクの場合、顧客は通常、取り込み需要に対応するために特定の推論速度を達成することに関心があります。
この投稿で紹介する実験は、銀行や保険などの業界で一般的なアプリケーション (請求や申請フォームの処理など) であるリアルタイムの文書理解のユースケースからインスピレーションを得ています。 具体的には、 レイアウトLM、ドキュメント画像処理と情報抽出に使用される事前トレーニング済みの変換モデル。 目標 SLA を 1,000,000 時間あたり XNUMX 回の推論に設定し、これは多くの場合リアルタイムとみなされる値であり、この要件を満たすことができる XNUMX つのハードウェア構成を指定します。 Amazon EC2 Inf1インスタンス、AWS Inferentia を特徴とするもの、および推論タスク用に最適化された同等の高速化された EC2 インスタンスを使用するもの。 実験全体を通じて、両方のハードウェア構成の推論パフォーマンス、コスト、エネルギー効率を測定するためにいくつかの指標を追跡します。 結果を次の図に示します。
AWS Inferentia は、6.3 倍高い推論スループットを実現します。 その結果、Inferentia を使用すると、同じリアルタイムの LayoutLM ベースのドキュメント理解ワークロードをより少ないインスタンス (6 つの AWS Inferentia インスタンスと他の推論に最適化された高速化された EC33 インスタンス 2 個、82% の削減に相当) で実行でき、使用量も少なくなります。プロセスのエネルギーの 92 分の 2 (-25%) を削減しながら、推論あたりのコストを大幅に削減します (91 万回の推論あたり XNUMX 米ドルと XNUMX 米ドル、XNUMX% のコスト削減に相当)。
学習実験: BERT Large をゼロから学習
推論とは対照的に、トレーニングは反復頻度がはるかに低い有限のプロセスです。 ML エンジニアは通常、コストを管理しながらトレーニング時間を短縮するために、クラスターの高いパフォーマンスに関心を持っています。 エネルギー効率は二次的な (しかし増大している) 懸念事項です。 AWS Trainium を使用すると、トレードオフの決定はありません。ML エンジニアは、コストを最適化し、環境への影響を軽減しながら、高いトレーニングパフォーマンスの恩恵を受けることができます。
これを説明するために、以下を選択します。 バート ラージは、チャットボット ベースの質問応答や会話の応答予測などの自然言語理解のユースケースに使用される一般的な言語モデルです。 パフォーマンスの高い BERT Large モデルを最初からトレーニングするには、通常、450 億 16 万のシーケンスを処理する必要があります。 450 つのクラスター構成を比較します。それぞれのクラスター構成は 2 インスタンスの固定サイズで、BERT Large を最初から (XNUMX 億 XNUMX 万シーケンス処理) XNUMX 日以内にトレーニングできます。 XNUMX つ目は、従来の高速化された ECXNUMX インスタンスを使用します。 XNUMX 番目のセットアップでは、 Amazon EC2 Trn1 インスタンス AWS Trainium を特集します。 繰り返しますが、トレーニングのパフォーマンス、コスト、環境への影響 (エネルギー効率) の観点から両方の構成をベンチマークします。 結果を次の図に示します。
実験では、AWS Trainium ベースのインスタンスは、2 時間あたりに処理されるシーケンスの点で、同等のトレーニングに最適化された高速化された EC1.7 インスタンスのパフォーマンスを 43 倍上回り、総トレーニング時間を 2.3% 削減しました (同等の高速化された EC4 インスタンスの 2 時間に対して 29 時間)。 。 その結果、Trainium ベースのインスタンス クラスターを使用する場合、BERT Large を最初からトレーニングする場合の総エネルギー消費量は、同等の高速化された EC2 インスタンスの同じサイズのクラスターと比較して約 62% 低くなります。 繰り返しますが、これらのパフォーマンスとエネルギー効率の利点には、大幅なコストの改善も伴います。BERT ML ワークロードのトレーニングにかかるコストは、Trainium インスタンスでは約 787% 削減されます (フル トレーニング実行あたり 2091 米ドルと XNUMX 米ドル)。
ML 専用の AWS アクセラレータの使用を開始する
ここで行われる実験はすべて自然言語処理 (NLP) ドメインの標準モデルを使用していますが、AWS Inferentia と AWS Trainium は、LLM や最も困難なモデルを含む他の多くの複雑なモデル アーキテクチャでも優れています。 generative AI ユーザーが構築しているアーキテクチャ (GPT-3 など)。 これらのアクセラレータは、10 億を超えるパラメータを持つモデルや、安定拡散などのコンピュータ ビジョン モデルで特に優れた性能を発揮します (「 モデル アーキテクチャ適合ガイドライン 詳細については)。 実際、当社の顧客の多くはすでに Inferentia と Trainium をさまざまな用途に使用しています。 ML のユースケース.
AWS Inferentia および AWS Trainium ベースのインスタンスでエンドツーエンドのディープ ラーニング ワークロードを実行するには、次を使用できます。 AWS ニューロン。 Neuron は、TensorFlow や PyTorch などの最も人気のある ML フレームワークにネイティブに統合される深層学習コンパイラー、ランタイム、ツールを含むエンドツーエンドのソフトウェア開発キット (SDK) です。 Neuron SDK を使用すると、既存の TensorFlow または PyTorch 深層学習 ML ワークロードを Inferentia および Trainium に簡単に移植し、同じよく知られた ML フレームワークを使用して新しいモデルの構築を開始できます。 セットアップを簡単にするには、次のいずれかを使用してください。 ディープラーニング用の Amazon Machine Image (AMI)、これには、必要なパッケージと依存関係の多くが付属しています。 さらに簡単: Inferentia と Trainium で TensorFlow と PyTorch をネイティブにサポートする Amazon SageMaker Studio を使用できます ( aws-samples GitHub リポジトリ たとえば)。
最後に XNUMX つ注意してください: Inferentia と Trainium は深層学習ワークロード専用に構築されていますが、多くのそれほど複雑ではない ML アルゴリズムは CPU ベースのインスタンスで適切に実行できます (たとえば、 XGBoost と LightGBM そして、さえ 一部の CNN)。 このような場合、への移行 AWS グラビトン 3 ML ワークロードが環境に与える影響を大幅に軽減できる可能性があります。 AWS Graviton ベースのインスタンスは、同等の高速化された EC60 インスタンスと比べて、同じパフォーマンスを得るために使用するエネルギーが最大 2% 少なくなります。
まとめ
持続可能かつエネルギー効率の高い方法で ML ワークロードを実行すると、パフォーマンスやコストが犠牲になるという誤解がよくあります。 機械学習専用の AWS アクセラレータを使用すると、ML エンジニアはそのようなトレードオフを行う必要がありません。 代わりに、AWS Inferentia や AWS Trainium などの高度に専門化された専用ディープラーニング ハードウェアでディープラーニング ワークロードを実行できます。このハードウェアは、同等の高速化された EC2 インスタンス タイプを大幅に上回り、コストの削減、パフォーマンスの向上、エネルギー効率の向上を実現します。 90% — すべて同時に。 Inferentia と Trainium で ML ワークロードの実行を開始するには、 AWS Neuron のドキュメント または、いずれかの サンプルノートブック。 AWS re:Invent 2022 の講演もご覧いただけます。 サステナビリティとAWSシリコン(SUS206)、この投稿で説明したトピックの多くをカバーしています。
著者について
カーステン・シュロアー AWS のソリューションアーキテクトです。 データとテクノロジーを活用して IT インフラストラクチャの持続可能性を推進し、それぞれの業界で持続可能な運用を可能にするデータ駆動型ソリューションを構築する顧客をサポートしています。 Karsten は、応用機械学習と運用管理の博士号を取得した後、AWS に入社しました。 彼は社会的課題に対するテクノロジーを活用したソリューションに本当に情熱を持っており、これらのソリューションの基礎となる手法やアプリケーション アーキテクチャを深く掘り下げるのが大好きです。
カムラン・カーン は、AWS Annapurna Labs のシニア テクニカル プロダクト マネージャーです。 彼は AI/ML の顧客と緊密に連携して、Amazon の Annapurna Labs から生まれる AWS 専用シリコンのイノベーションのロードマップを形成しています。 彼が特に重点を置いているのは、AWS Trainium や AWS Inferentia などの高速ディープラーニング チップです。 カムランは半導体業界で 18 年の経験があります。 Kamran は、開発者が ML の目標を達成できるよう支援してきた XNUMX 年以上の経験があります。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- EVMファイナンス。 分散型金融のための統一インターフェイス。 こちらからアクセスしてください。
- クォンタムメディアグループ。 IR/PR増幅。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 データ インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/reduce-energy-consumption-of-your-machine-learning-workloads-by-up-to-90-with-aws-purpose-built-accelerators/
- :持っている
- :は
- :not
- $UP
- 000
- 1
- 10
- 100
- 16
- 2022
- 25
- 7
- a
- 私たちについて
- 加速された
- 加速器
- 加速器
- 達成する
- 達成
- 達成する
- 添加
- NEW
- 後
- 再び
- AI / ML
- アルゴリズム
- すべて
- 沿って
- 既に
- また
- Amazon
- Amazon EC2
- アマゾンセージメーカー
- Amazon SageMakerスタジオ
- Amazon Webサービス
- an
- および
- 別の
- 申し込み
- 適用された
- 約
- 建築
- です
- ARM
- 周りに
- AS
- At
- 自動的に
- AWS
- AWSインフェレンティア
- AWS re:Invent
- バンキング
- BE
- なぜなら
- になる
- になる
- ベンチマーク
- ベンチマーク
- ベンチマーク
- 恩恵
- 利点
- より良いです
- の間に
- 10億
- 両言語で
- ビルド
- 建物
- 内蔵
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 缶
- できる
- 捕捉した
- 場合
- 例
- 一定
- 課題
- 挑戦
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- チェック
- チップ
- クレーム
- 密接に
- クラスタ
- 来ます
- 到来
- コマンドと
- 匹敵します
- 比較します
- 比べ
- 完成
- 複雑な
- 計算
- コンピュータ
- Computer Vision
- 想像
- 懸念
- 実施
- 見なさ
- 消費
- 連続的な
- コントロール
- 会話
- 費用
- コスト削減
- 可能性
- カバー
- 基準
- Customers
- 切断
- データ
- データ駆動型の
- 中
- 十年
- 決定
- 深いです
- 深い学習
- 定義済みの
- 配信する
- 提供します
- 需要
- 展開する
- 展開
- 設計
- 細部
- 開発者
- 開発
- 直接
- 議論する
- do
- ドキュメント
- そうではありません
- ドメイン
- ドント
- ダウン
- ドロー
- ドライブ
- 各
- 前
- 容易
- 簡単に
- 効率
- 効率的な
- enable
- イネイブラー
- 有効にする
- 端から端まで
- エネルギー
- エネルギー消費
- エンジニア
- 確保
- 環境の
- 同等の
- 見積もり
- さらに
- あらゆる
- 毎日
- 例
- Excel
- 既存の
- 期待する
- 体験
- 実験
- 実験
- 要因
- ファッション
- 特色
- より少ない
- フィギュア
- ファイナル
- 名
- フィット
- 固定の
- フォーカス
- 焦点を当て
- フォロー中
- フォーム
- フレームワーク
- 頻繁に
- から
- フル
- 世代
- 受け
- GitHubの
- 目標
- 成長
- ガイダンス
- Hardware
- 持ってる
- he
- 助け
- こちら
- ハイ
- ハイパフォーマンス
- より高い
- 非常に
- 彼の
- host
- 時間
- HTML
- HTTP
- HTTPS
- 画像
- 画像
- 影響
- 重要
- 改善
- in
- 含ま
- 含めて
- ますます
- インジケータ
- 産業
- 産業を変えます
- 情報
- 情報抽出
- インフラ
- イノベーション
- インスピレーションある
- を取得する必要がある者
- 保険
- 統合された
- 興味がある
- に
- IT
- ITS
- 参加した
- ただ
- キープ
- 保管
- キー
- キット(SDK)
- ラボ
- 言語
- 大
- 学習
- less
- レベル
- 活用
- wifecycwe
- 一生
- ような
- LIMIT
- 制限
- で
- ロー
- 下側
- 機械
- 機械学習
- 主要な
- make
- 作る
- マネージド
- 管理
- マネージャー
- 多くの
- 五月..
- 手段
- だけど
- 測定結果
- ご相談
- メモリ
- メソッド
- メトリック
- 移行中
- 移行
- 百万
- マインド
- ML
- モデル
- ヶ月
- 他には?
- 最も
- 一番人気
- ずっと
- ナチュラル
- 自然言語処理
- ネットワーク
- 新作
- NLP
- いいえ
- 番号
- 客観
- of
- 提供すること
- 頻繁に
- on
- ONE
- の
- オペレーティング
- 業務執行統括
- 反対した
- 最適化
- 最適化
- or
- 編成
- その他
- 私たちの
- でる
- 優れた性能
- が
- パッケージ
- パラメータ
- 特に
- 情熱的な
- 実行する
- パフォーマンス
- 物理的な
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- 人気
- ポートフォリオ
- 部分
- ポスト
- 潜在的な
- 電力
- パワード
- 実用的
- 予測
- 予測
- 現在
- PLM platform.
- プロセス
- 処理済み
- 処理
- プロセッサ
- プロダクト
- プロダクトマネージャー
- 提供します
- は、大阪で
- 提供
- 目的
- パイトーチ
- 質問
- レート
- RE
- 達した
- リアル
- 現実の世界
- への
- 現実的な
- 最近
- 減らします
- 縮小
- 削減
- 繰り返される
- 報告
- の提出が必要です
- 要件
- 必要
- リソースを追加する。
- リソース
- それらの
- 応答
- 結果
- 結果
- 右
- ロードマップ
- ラン
- ランニング
- 犠牲にする
- セージメーカー
- 同じ
- 貯蓄
- 秤
- スクラッチ
- SDDK
- 二番
- 二次
- セクション
- 半導体
- サービス
- セッションに
- いくつかの
- 形状
- 示す
- 重要
- 著しく
- シリコン
- サイズ
- 社会的
- ソフトウェア
- ソフトウェア開発
- ソフトウェア開発キット
- ソリューション
- 専門の
- 特定の
- 特に
- スピン
- 安定した
- 標準
- start
- 開始
- 最先端の
- 研究
- 研究
- そのような
- サポート
- 3つの柱
- 持続可能な
- Talk
- ターゲット
- タスク
- 技術的
- テクノロジー
- テンソルフロー
- 条件
- test
- テスト
- より
- それ
- アプリ環境に合わせて
- その後
- そこ。
- したがって、
- ボーマン
- 彼ら
- この
- 数千
- 介して
- 全体
- スループット
- 時間
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- トーン
- 取った
- 豊富なツール群
- トピック
- トータル
- 追跡する
- 伝統的な
- 伝統的に
- トレーニング
- 訓練された
- トレーニング
- トランス
- 真に
- 2
- 一般的に
- 下
- 下地
- 理解する
- us
- USD
- つかいます
- 使用事例
- 中古
- users
- 使用されます
- 通常
- 値
- 多様
- 対
- 垂直
- ビジョン
- vs
- wanted
- ました
- よく見る
- 仕方..
- 方法
- we
- ウェブ
- Webサービス
- WELL
- 周知
- した
- いつ
- which
- while
- ワイド
- 作品
- 年
- まだ
- You
- あなたの
- ゼファーネット