AWS 専用アクセラレータを使用して、機械学習ワークロードのエネルギー消費を最大 90% 削減 | アマゾン ウェブ サービス

AWS 専用アクセラレータを使用して、機械学習ワークロードのエネルギー消費を最大 90% 削減 | アマゾン ウェブ サービス

機械学習 (ML) エンジニアは従来、モデルのトレーニングと導入のコストとパフォーマンスのバランスをとることに重点を置いてきました。 持続可能性 (エネルギー効率) が顧客にとってますます追加の目標となっています。 ML モデルをトレーニングし、トレーニングされたモデルを使用して予測 (推論) を行うのは、非常にエネルギーを消費するタスクになる可能性があるため、これは重要です。 さらに、私たちの周囲ではますます多くのアプリケーションに ML が組み込まれており、ML を活用した新しいアプリケーションが毎日考案されています。 よくある例は、最先端の大規模言語モデル (LMM) を搭載した OpenAI の ChatGPT です。 参考のため、 GPT-3、前世代の LLM には 175 億のパラメータがあり、数千の高速プロセッサのクラスタ上で数か月にわたるノンストップのトレーニングが必要です。 の カーボントラッカーの研究 GPT-3 をゼロからトレーニングすると、特殊なハードウェア アクセラレータのクラスターを使用して、最大 85 トンの CO2 が排出される可能性があると推定されています。

AWS には、ML 実践者がワークロードの環境への影響を軽減できるようにする方法がいくつかあります。 XNUMX つの方法は、提供することです。 持続可能性を実現する AI/ML ワークロードの設計に関する規範的なガイダンス。 もう XNUMX つの方法は、次のようなマネージド ML トレーニングおよびオーケストレーション サービスを提供することです。 Amazon SageMakerスタジオは、使用されていないときに ML リソースを自動的に破棄およびスケールアップし、コストとリソースを節約するすぐに使用できるツールのホストを提供します。 もう XNUMX つの主要な要因は、 エネルギー効率が高く、高性能な専用アクセラレータ ML モデルのトレーニングとデプロイに使用します。

この投稿の焦点は、持続可能な ML の手段としてのハードウェアにあります。 AWS が実施した最近のパフォーマンスと消費電力の実験結果を紹介します。これは、他の推論とトレーニングに最適化された高速化されたディープ ラーニング ワークロードを移行する際に期待できるエネルギー効率の利点を定量化します。 アマゾン エラスティック コンピューティング クラウド (Amazon EC2) インスタンスから AWSインフェレンティア および AWS トレーニング。 インフェレンティアとトレイニウムは、 AWS は最近、専用アクセラレータのポートフォリオに追加しました Amazon によって特別に設計された アンナプルナラボ ML 推論とトレーニングのワークロード向け。

持続可能な ML のための AWS Inferentia と AWS Trainium

実際のアプリケーションにおける AWS Inferentia と AWS Trainium の潜在的なエネルギー節約の現実的な数値を提供するために、私たちはいくつかの消費電力ベンチマーク実験を実施しました。 これらのベンチマークは、次の主要な基準を念頭に置いて設計されました。

  • まず、ML アクセラレータだけでなく、コンピューティング、メモリ、ネットワークなどのテスト ワークロードに起因する直接的なエネルギー消費を確実に捕捉したいと考えました。 したがって、テスト設定では、そのレベルでの消費電力を測定しました。
  • 次に、トレーニングと推論のワークロードを実行するときに、すべてのインスタンスがそれぞれの物理ハードウェア制限で動作していることを確認し、比較可能性を確保するためにその制限に達した後にのみ測定を行いました。
  • 最後に、この投稿で報告したエネルギー節約が実際の現実のアプリケーションで達成できることを確認したいと思いました。 したがって、ベンチマークとテストには、顧客からインスピレーションを得た一般的な ML ユースケースを使用しました。

結果は次のセクションで報告されます。

推論実験:LayoutLMによるリアルタイム文書理解

トレーニングとは対照的に、推論は、完了ポイントが定義されていない継続的で無制限のワークロードです。 したがって、ML ワークロードの生涯リソース消費量の大部分を占めます。 推論を正しく行うことは、ML ライフサイクル全体にわたって高性能、低コスト、持続可能性 (エネルギー効率の向上) を達成するための鍵となります。 推論タスクの場合、顧客は通常、取り込み需要に対応するために特定の推論速度を達成することに関心があります。

この投稿で紹介する実験は、銀行や保険などの業界で一般的なアプリケーション (請求や申請フォームの処理など) であるリアルタイムの文書理解のユースケースからインスピレーションを得ています。 具体的には、 レイアウトLM、ドキュメント画像処理と情報抽出に使用される事前トレーニング済みの変換モデル。 目標 SLA を 1,000,000 時間あたり XNUMX 回の推論に設定し、これは多くの場合リアルタイムとみなされる値であり、この要件を満たすことができる XNUMX つのハードウェア構成を指定します。 Amazon EC2 Inf1インスタンス、AWS Inferentia を特徴とするもの、および推論タスク用に最適化された同等の高速化された EC2 インスタンスを使用するもの。 実験全体を通じて、両方のハードウェア構成の推論パフォーマンス、コスト、エネルギー効率を測定するためにいくつかの指標を追跡します。 結果を次の図に示します。

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

推論ベンチマークのパフォーマンス、コスト、エネルギー効率の結果

AWS Inferentia は、6.3 倍高い推論スループットを実現します。 その結果、Inferentia を使用すると、同じリアルタイムの LayoutLM ベースのドキュメント理解ワークロードをより少ないインスタンス (6 つの AWS Inferentia インスタンスと他の推論に最適化された高速化された EC33 インスタンス 2 個、82% の削減に相当) で実行でき、使用量も少なくなります。プロセスのエネルギーの 92 分の 2 (-25%) を削減しながら、推論あたりのコストを大幅に削減します (91 万回の推論あたり XNUMX 米ドルと XNUMX 米ドル、XNUMX% のコスト削減に相当)。

学習実験: BERT Large をゼロから学習

推論とは対照的に、トレーニングは反復頻度がはるかに低い有限のプロセスです。 ML エンジニアは通常、コストを管理しながらトレーニング時間を短縮するために、クラスターの高いパフォーマンスに関心を持っています。 エネルギー効率は二次的な (しかし増大している) 懸念事項です。 AWS Trainium を使用すると、トレードオフの決定はありません。ML エンジニアは、コストを最適化し、環境への影響を軽減しながら、高いトレーニングパフォーマンスの恩恵を受けることができます。

これを説明するために、以下を選択します。 バート ラージは、チャットボット ベースの質問応答や会話の応答予測などの自然言語理解のユースケースに使用される一般的な言語モデルです。 パフォーマンスの高い BERT Large モデルを最初からトレーニングするには、通常、450 億 16 万のシーケンスを処理する必要があります。 450 つのクラスター構成を比較します。それぞれのクラスター構成は 2 インスタンスの固定サイズで、BERT Large を最初から (XNUMX 億 XNUMX 万シーケンス処理) XNUMX 日以内にトレーニングできます。 XNUMX つ目は、従来の高速化された ECXNUMX インスタンスを使用します。 XNUMX 番目のセットアップでは、 Amazon EC2 Trn1 インスタンス AWS Trainium を特集します。 繰り返しますが、トレーニングのパフォーマンス、コスト、環境への影響 (エネルギー効率) の観点から両方の構成をベンチマークします。 結果を次の図に示します。

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

トレーニングベンチマークのパフォーマンス、コスト、エネルギー効率の結果

実験では、AWS Trainium ベースのインスタンスは、2 時間あたりに処理されるシーケンスの点で、同等のトレーニングに最適化された高速化された EC1.7 インスタンスのパフォーマンスを 43 倍上回り、総トレーニング時間を 2.3% 削減しました (同等の高速化された EC4 インスタンスの 2 時間に対して 29 時間)。 。 その結果、Trainium ベースのインスタンス クラスターを使用する場合、BERT Large を最初からトレーニングする場合の総エネルギー消費量は、同等の高速化された EC2 インスタンスの同じサイズのクラスターと比較して約 62% 低くなります。 繰り返しますが、これらのパフォーマンスとエネルギー効率の利点には、大幅なコストの改善も伴います。BERT ML ワークロードのトレーニングにかかる​​コストは、Trainium インスタンスでは約 787% 削減されます (フル トレーニング実行あたり 2091 米ドルと XNUMX 米ドル)。

ML 専用の AWS アクセラレータの使用を開始する

ここで行われる実験はすべて自然言語処理 (NLP) ドメインの標準モデルを使用していますが、AWS Inferentia と AWS Trainium は、LLM や最も困難なモデルを含む他の多くの複雑なモデル アーキテクチャでも優れています。 generative AI ユーザーが構築しているアーキテクチャ (GPT-3 など)。 これらのアクセラレータは、10 億を超えるパラメータを持つモデルや、安定拡散などのコンピュータ ビジョン モデルで特に優れた性能を発揮します (「 モデル アーキテクチャ適合ガイドライン 詳細については)。 実際、当社の顧客の多くはすでに Inferentia と Trainium をさまざまな用途に使用しています。 ML のユースケース.

AWS Inferentia および AWS Trainium ベースのインスタンスでエンドツーエンドのディープ ラーニング ワークロードを実行するには、次を使用できます。 AWS ニューロン。 Neuron は、TensorFlow や PyTorch などの最も人気のある ML フレームワークにネイティブに統合される深層学習コンパイラー、ランタイム、ツールを含むエンドツーエンドのソフトウェア開発キット (SDK) です。 Neuron SDK を使用すると、既存の TensorFlow または PyTorch 深層学習 ML ワークロードを Inferentia および Trainium に簡単に移植し、同じよく知られた ML フレームワークを使用して新しいモデルの構築を開始できます。 セットアップを簡単にするには、次のいずれかを使用してください。 ディープラーニング用の Amazon Machine Image (AMI)、これには、必要なパッケージと依存関係の多くが付属しています。 さらに簡単: Inferentia と Trainium で TensorFlow と PyTorch をネイティブにサポートする Amazon SageMaker Studio を使用できます ( aws-samples GitHub リポジトリ たとえば)。

最後に XNUMX つ注意してください: Inferentia と Trainium は深層学習ワークロード専用に構築されていますが、多くのそれほど複雑ではない ML アルゴリズムは CPU ベースのインスタンスで適切に実行できます (たとえば、 XGBoost と LightGBM そして、さえ 一部の CNN)。 このような場合、への移行 AWS グラビトン 3 ML ワークロードが環境に与える影響を大幅に軽減できる可能性があります。 AWS Graviton ベースのインスタンスは、同等の高速化された EC60 インスタンスと比べて、同じパフォーマンスを得るために使用するエネルギーが最大 2% 少なくなります。

まとめ

持続可能かつエネルギー効率の高い方法で ML ワークロードを実行すると、パフォーマンスやコストが犠牲になるという誤解がよくあります。 機械学習専用の AWS アクセラレータを使用すると、ML エンジニアはそのようなトレードオフを行う必要がありません。 代わりに、AWS Inferentia や AWS Trainium などの高度に専門化された専用ディープラーニング ハードウェアでディープラーニング ワークロードを実行できます。このハードウェアは、同等の高速化された EC2 インスタンス タイプを大幅に上回り、コストの削減、パフォーマンスの向上、エネルギー効率の向上を実現します。 90% — すべて同時に。 Inferentia と Trainium で ML ワークロードの実行を開始するには、 AWS Neuron のドキュメント または、いずれかの サンプルノートブック。 AWS re:Invent 2022 の講演もご覧いただけます。 サステナビリティとAWSシリコン(SUS206)、この投稿で説明したトピックの多くをカバーしています。


著者について

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.カーステン・シュロアー AWS のソリューションアーキテクトです。 データとテクノロジーを活用して IT インフラストラクチャの持続可能性を推進し、それぞれの業界で持続可能な運用を可能にするデータ駆動型ソリューションを構築する顧客をサポートしています。 Karsten は、応用機械学習と運用管理の博士号を取得した後、AWS に入社しました。 彼は社会的課題に対するテクノロジーを活用したソリューションに本当に情熱を持っており、これらのソリューションの基礎となる手法やアプリケーション アーキテクチャを深く掘り下げるのが大好きです。

Reduce energy consumption of your machine learning workloads by up to 90% with AWS purpose-built accelerators | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.カムラン・カーン は、AW​​S Annapurna Labs のシニア テクニカル プロダクト マネージャーです。 彼は AI/ML の顧客と緊密に連携して、Amazon の Annapurna Labs から生まれる AWS 専用シリコンのイノベーションのロードマップを形成しています。 彼が特に重点を置いているのは、AWS Trainium や AWS Inferentia などの高速ディープラーニング チップです。 カムランは半導体業界で 18 年の経験があります。 Kamran は、開発者が ML の目標を達成できるよう支援してきた XNUMX 年以上の経験があります。

タイムスタンプ:

より多くの AWS機械学習