MantiumがAmazonSageMakerでDeepSpeedを使用して低レイテンシのGPT-J推論を実現する方法

プラトン再発行

フォロワー： 0

マンティウムは、AIアプリケーションを構築し、それらを大規模に管理するためのグローバルクラウドプラットフォームプロバイダーです。 Mantiumのエンドツーエンドの開発プラットフォームにより、あらゆる規模の企業や企業が、従来可能であったものよりも迅速かつ簡単にAIアプリケーションと自動化を構築できます。 Mantiumを使用すると、技術チームと非技術チームは、すべてローコードアプローチで、AIアプリケーションのプロトタイプ作成、開発、テスト、および展開を行うことができます。 Mantiumは、自動ロギング、モニタリング、および安全機能を通じて、ソフトウェアとDevOpsエンジニアが車輪の再発明に時間を費やすことから解放します。大まかに言えば、Mantiumは以下を提供します。

最先端のAI –シンプルなUIまたはAPIを使用して、オープンソースおよびプライベートの大規模言語モデルを幅広く選択して実験および開発します。
AIプロセスの自動化 –増え続ける統合ライブラリとMantiumのグラフィカルAI Builderを使用して、AI駆動型アプリケーションを簡単に構築できます。
迅速な展開 –ワンクリック展開で、生産タイムラインを数か月から数週間、さらには数日に短縮します。この機能は、AIアプリケーションをワンクリックで共有可能なWebアプリに変えます。
安全性と規制 –安全性とガバナンスポリシーへの準拠、およびヒューマンインザループプロセスのサポートを確保します。

Mantium AI Builderを使用すると、外部API、ロジック操作、およびAIモデルを統合する高度なワークフローを開発できます。次のスクリーンショットは、Mantium AIアプリの例を示しています。このアプリは、Twilio入力、ガバナンスポリシー、AIブロック（GPT-Jなどのオープンソースモデルに依存できます）、およびTwilio出力をチェーンします。

このアプリをサポートするために、Mantiumは、Open AI、Co：here、AI21などのAIプロバイダーからのモデルAPIだけでなく、最先端のオープンソースモデルへの包括的で統一されたアクセスを提供します。 Mantiumでは、誰もが所有する最新のAIアプリケーションをエンドツーエンドで構築できるはずだと考えており、パフォーマンスが最適化されたオープンソースモデルへのノーコードおよびローコードアクセスを提供することでこれをサポートしています。

たとえば、MantiumのコアオープンソースモデルのXNUMXつは GPT-J、によって開発された最先端の自然言語処理（NLP）モデルエレウテライ。 6億のパラメーターを持つGPT-Jは、最大かつ最高のパフォーマンスを発揮するオープンソースのテキスト生成モデルのXNUMXつです。 Mantiumユーザーは、MantiumのAIBuilderを介してGPT-JをAIアプリケーションに統合できます。 GPT-Jの場合、これには プロンプト （モデルが実行する必要があることの自然言語表現）およびいくつかのオプションのパラメーターの構成。

たとえば、次のスクリーンショットは、説明と感情予測を生成する感情分析プロンプトの簡略化されたデモンストレーションを示しています。この例では、著者は「食べ物は素晴らしかった」と彼らの「サービスは並外れたものだった」と書いています。したがって、このテキストは前向きな感情を表しています。

ただし、オープンソースモデルの課題のXNUMXつは、製品グレードのパフォーマンス向けに設計されていることはめったにないことです。 GPT-Jのような大型モデルの場合、これにより、ユースケースによっては、本番環境での展開が非現実的であり、実行不可能になる可能性があります。

ユーザーがクラス最高のパフォーマンスにアクセスできるようにするために、コアモデルのレイテンシを短縮する方法を常に模索しています。この投稿では、DeepSpeedの推論エンジンを使用してGPT-Jの推論速度を約116％向上させる、推論最適化実験の結果について説明します。また、DeepSpeedを使用したGPT-JのHuggingFaceTransformers実装をどのように展開したかについても説明します。アマゾンセージメーカー推論エンドポイント。

GPT-Jモデルの概要

GPT-Jは、生成型の事前トレーニング済み（GPT）言語モデルであり、そのアーキテクチャーに関しては、OpenAIのGPT-3のような人気のあるプライベートな大規模言語モデルに匹敵します。前述のように、フィードフォワードブロックと自己注意ブロックで構成される約6億のパラメーターと28のレイヤーで構成されます。それが最初にリリースされたとき、GPT-Jは使用した最初の大きな言語モデルのXNUMXつでしたロータリー埋め込み、絶対位置エンコーダと相対位置エンコーダを統合する新しい位置エンコーディング戦略。また、高密度層とフィードフォワード層が単一の層に結合される革新的な並列化戦略を採用しているため、通信のオーバーヘッドが最小限に抑えられます。

GPT-Jは、今日の基準ではそれほど大きくはないかもしれませんが（大規模なモデルは通常、100億を超えるパラメーターで構成されています）、それでも優れたパフォーマンスを発揮し、迅速なエンジニアリングまたは最小限の微調整で、多くの問題を解決できます。さらに、その比較的控えめなサイズは、より大きなモデルよりも迅速かつはるかに低コストで展開できることを意味します。

そうは言っても、GPT-Jはまだかなり大きいです。たとえば、フルウェイトアップデートとAdamオプティマイザーを使用してFP32でGPT-Jをトレーニングするには、200 GBを超えるメモリが必要です。モデルパラメーター用に24GB、勾配用に24 GB、Adamの24乗勾配用に24 GB、オプティマイザー状態用に16 GB、トレーニングバッチをロードし、アクティベーションを保存するための追加のメモリ要件。もちろん、FP100でのトレーニングは、これらのメモリ要件をほぼ半分に削減しますが、XNUMX GBを超えるメモリフットプリントには、革新的なトレーニング戦略が必要です。たとえば、SageMakerと共同で、MantiumのNLPチームはワークフロー SageMaker分散モデル並列ライブラリを使用したGPT-Jのトレーニング（微調整）用。

対照的に、推論にGPT-Jを提供すると、メモリ要件がはるかに低くなります。FP16では、モデルの重みが13 GB未満であるため、単一の16GBGPUで推論を簡単に実行できます。ただし、HuggingFaceTransformersなどのGPT-Jのすぐに使用可能な実装による推論実装私たちが使用するものは、比較的遅いです。応答性の高いテキスト生成を必要とするユースケースをサポートするために、GPT-Jの推論レイテンシの削減に重点を置いています。

GPT-Jの応答待ち時間の課題

応答待ち時間は、最新のテキスト生成を強化するGPT-Jなどの生成型事前トレーニング済みトランスフォーマー（GPT）の主要な障害です。 GPTモデルは、一連の推論ステップを通じてテキストを生成します。各推論ステップで、モデルは入力としてテキストを与えられ、この入力を条件として、モデルはその語彙から単語をサンプリングしてテキストに追加します。たとえば、「傘が必要だから」という一連のトークンを考えると、次のトークンの可能性が高いのは「雨が降っている」ということです。ただし、「晴れ」または「バインド」の場合もあります。これは、「雨が降り始めるので傘が必要です」などのテキストシーケンスへの最初のステップになる可能性があります。

このようなシナリオでは、GPTモデルをデプロイする際にいくつかの興味深い課題が発生します。これは、実際のユースケースには数十、数百、さらには数千の推論ステップが含まれる場合があるためです。たとえば、1,000トークンの応答を生成するには、1,000の推論ステップが必要です。したがって、モデルは単独で十分に速いように見える推論速度を提供する可能性がありますが、長いテキストが生成されると、待ち時間が許容できないレベルに達するのは簡単です。 V280 GPUでは、推論ステップごとに100ミリ秒の平均遅延が観察されました。これは6.7億のパラメーターモデルでは速いように見えるかもしれませんが、このようなレイテンシーでは、30トークンの応答を生成するのに約500秒かかります。これは、ユーザーエクスペリエンスの観点からは理想的ではありません。

DeepSpeed推論による推論速度の最適化

ディープスピードは、Microsoftによって開発されたオープンソースの深層学習最適化ライブラリです。これは主に大規模モデルのトレーニングの最適化に焦点を当てていますが、DeepSpeedは、BERT、Megatron、GPT-Neo、GPT2、GPT-Jなどのモデルの選択セットをサポートする推論最適化フレームワークも提供します。 DeepSpeed Inferenceは、モデルの並列処理、推論に最適化されたCUDAカーネル、および量子化の組み合わせにより、大規模なTransformerベースのアーキテクチャで高性能の推論を容易にします。

GPT-Jで推論速度を上げるために、DeepSpeedの推論エンジンを使用して、最適化されたCUDAカーネルをHugging FaceTransformersGPT-J実装に注入します。

DeepSpeedの推論エンジンの速度の利点を評価するために、さまざまな構成でGPT-Jの時間を計測する一連の遅延テストを実施しました。具体的には、DeepSpeedを使用するかどうか、ハードウェア、出力シーケンスの長さ、入力シーケンスの長さを変更しました。どちらも推論速度に影響するため、出力と入力の両方のシーケンス長に焦点を当てました。 50トークンの出力シーケンスを生成するには、モデルは50の推論ステップを実行する必要があります。さらに、推論ステップの実行に必要な時間は、入力シーケンスのサイズによって異なります。入力が大きいほど、処理時間が長くなります。出力シーケンスサイズの影響は入力シーケンスサイズの影響よりもはるかに大きくなりますが、それでも両方の要因を考慮する必要があります。

私たちの実験では、次の設計を使用しました。

DeepSpeed推論エンジン - オンオフ
Hardware – T4（ml.g4dn.2xlarge）、V100（ml.p3.2xlarge）
入力シーケンスの長さ – 50、200、500、1000
出力シーケンスの長さ – 50、100、150、200

合計で、この設計にはこれら64つの要素の20の組み合わせがあり、組み合わせごとにXNUMXの遅延テストを実行しました。各テストは、事前に初期化されたSageMaker推論エンドポイントで実行され、レイテンシテストがAPI交換や前処理を含む本番時間を反映していることを確認しました。

私たちのテストは、DeepSpeedのGPT-J推論エンジンがベースラインのHugging FaceTransformersPyTorch実装よりも大幅に高速であることを示しています。次の図は、ml.g4dn.2xlargeおよびml.p3.2xlargeSageMaker推論エンドポイントでのDeepSpeedアクセラレーションがある場合とない場合のGPT-Jの平均テキスト生成レイテンシを示しています。

4 GB NVIDIA T2 GPUを搭載したml.g16dn.4xlargeインスタンスでは、平均遅延が約24％減少することが観察されました[標準偏差（SD）=0.05]。これは、12.5秒あたりの平均0.91（SD = 16.5）トークンから2.13秒あたりの平均3.2（SD = 100）トークンへの増加に対応しました。特に、DeepSpeedの加速効果は、NVIDIAV53GPUを搭載したml.p07xlargeインスタンスでさらに強力でした。そのハードウェアでは、21.9％（SD = .1.97）の平均遅延の削減が見られました。 47.5秒あたりのトークン数では、これは5.8秒あたりの平均XNUMX（SD = XNUMX）トークンからXNUMX秒あたりの平均XNUMX（SD = XNUMX）トークンへの増加に対応しました。

また、入力シーケンスのサイズが大きくなるにつれて、DeepSpeedによって提供される加速が両方のハードウェア構成でわずかに減衰することも観察されました。ただし、すべての条件で、DeepSpeedのGPT-J最適化による推論は、ベースラインよりも大幅に高速でした。たとえば、g4dnインスタンスでは、最大および最小の遅延の削減は、それぞれ31％（入力シーケンスサイズ= 50）および15％（入力シーケンスサイズ= 1000）でした。また、p3インスタンスでは、最大および最小の遅延の削減は、それぞれ62％（入力シーケンスサイズ= 50）および40％（入力シーケンスサイズ= 1000）でした。

SageMaker推論エンドポイントでのDeepSpeedを使用したGPT-Jのデプロイ

GPT-Jのテキスト生成速度を劇的に向上させることに加えて、DeepSpeedの推論エンジンはSageMaker推論エンドポイントに簡単に統合できます。 DeepSpeedを推論スタックに追加する前は、エンドポイントは公式のPyTorchイメージに基づくカスタムDockerイメージで実行されていました。 SageMakerを使用すると、カスタム推論エンドポイントを非常に簡単にデプロイできます。DeepSpeedの統合は、依存関係を含めて数行のコードを記述するだけの簡単なものでした。 DeepSpeedを使用してGPT-Jをデプロイするためのデプロイメントワークフローのオープンソースガイドは、次のWebサイトで入手できます。 GitHubの.

まとめ

Mantiumは、誰もがAIを使ってすばやく構築できるように、革新をリードすることに専念しています。 AI主導のプロセス自動化から厳格な安全性とコンプライアンスの設定まで、当社の完全なプラットフォームは、堅牢で責任のあるAIアプリケーションを大規模に開発および管理するために必要なすべてのツールを提供し、参入障壁を低くします。 SageMakerは、Mantiumのような企業が迅速に市場に参入するのに役立ちます。

Mantiumが組織の複雑なAI主導のワークフローの構築にどのように役立つかについては、次のWebサイトをご覧ください。 www.mantiumai.com.

著者について

ジョーフーバー MantiumのAIR＆Dチームの上級応用科学者です。彼は、人々が最先端のNLPシステムで現実の問題を解決するのに役立つモデル、方法、およびインフラストラクチャの開発に情熱を注いでいます。余暇には、バックパッキング、ガーデニング、料理、家族との付き合いを楽しんでいます。

ダワル・パテル AWSのプリンシパル機械学習アーキテクトです。彼は、分散コンピューティングや人工知能に関連する問題について、大企業から中規模の新興企業に至るまでの組織と協力してきました。彼は、NLPおよびコンピュータービジョンドメインを含むディープラーニングに焦点を当てています。彼は、顧客がSageMakerで高性能モデルの推論を実現するのを支援します。

スニル・パドマナバン AWSのスタートアップソリューションアーキテクトです。元スタートアップの創設者兼CTOとして、彼は機械学習に情熱を注いでおり、スタートアップがビジネスの成果のためにAI / MLを活用し、ML/AIソリューションを大規模に設計および展開できるよう支援することに注力しています。

タイムスタンプ： 2022 年 6 月 15 日

タイムスタンプ： 2024 年 2 月 6 日

MantiumがAmazonSageMakerでDeepSpeedを使用して低レイテンシのGPT-J推論を実現する方法

プラトン再発行

GPT-Jモデルの概要

GPT-Jの応答待ち時間の課題

DeepSpeed推論による推論速度の最適化

SageMaker推論エンドポイントでのDeepSpeedを使用したGPT-Jのデプロイ

まとめ

著者について

より多くの AWS機械学習

Fortuna のご紹介: 不確実性の定量化のためのライブラリ

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー