Technology Innovation Institute は、Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニングしています。 アマゾン ウェブ サービス

Technology Innovation Institute は、Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニングしています。 アマゾン ウェブ サービス

このブログ投稿は、TII の AI クロス センター ユニットのエグゼクティブ ディレクター兼主任 AI 研究員代理であり、LLM プロジェクトのプロジェクト リーダーである Ebtesam Almazrouei 博士との共著です。

アラブ首長国連邦 (U​​AE) テクノロジー イノベーション インスティテュート (TII)、アブダビの応用研究の柱 先端技術研究評議会は、40 億のパラメーターを備えた基礎的な大規模言語モデル (LLM) である Falcon LLM を開始しました。 TII は、知識の最前線を開拓することに専念する世界有数の研究センターです。 TII の科学者、研究者、エンジニアのチームは、発見科学と革新的なテクノロジーの提供に取り組んでいます。 TII の取り組みは、私たちの社会の将来を保証するブレークスルーに焦点を当てています。 1兆トークンでトレーニングされ、 TIIファルコンLLM 最高のパフォーマンスを誇りながら、驚異的なコスト効率を実現します。 Falcon-40B は、他の高性能 LLM のパフォーマンスに匹敵し、一般公開されているオープンソース モデルのトップにランクされています。 ハグフェイスオープン LLM リーダーボード。 Falcon-40B と Falcon-7B の XNUMX つの異なるサイズでオープンソースとして利用でき、データ前処理とモデル トレーニング ジョブを使用してゼロから構築されました。 アマゾンセージメーカー。 オープンソースの Falcon 40B により、ユーザーは独自のユーザー ニーズに応える AI ツールを構築およびカスタマイズできるため、シームレスな統合が促進され、データ資産の長期保存が保証されます。 モデルの重みはどこにでもダウンロード、検査、展開することができます。

7 月 XNUMX 日より、両方の Falcon LLM が Amazon SageMaker JumpStart でも利用できるようになります。Amazon SageMaker JumpStart は、ML をすぐに始めるのに役立つ事前トレーニングされたモデル、組み込みアルゴリズム、事前構築されたソリューションテンプレートを提供する SageMaker の機械学習 (ML) ハブです。 数回クリックするだけで Falcon LLM を展開して使用できます。 SageMaker スタジオ またはプログラム的に SageMaker Python SDK。 Falcon LLM をデプロイして推論を実行するには、次を参照してください。 SageMaker JumpStart の概要 – Falcon LLM を使用したテキスト生成 ノートブックの例。

Technology Innovation Institute は、Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニングしています。アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

TII のエグゼクティブ ディレクター兼 AI クロス センター ユニットのチーフ AI 研究者代理であり、LLM プロジェクトのプロジェクト リーダーである Ebtesam Almazrouei 博士は次のように語っています。

「私たちは、世界トップクラスのオープンソース言語モデルである Falcon-40B の公式オープンソース リリースを誇らしげに発表します。 Falcon-40B は、40B パラメーターを備えた例外的なオープンソース モデルであり、特に因果デコーダー専用モデルとして設計されています。 これは、厳選されたコーパスで強化された RefinedWeb を含む、1,000B トークンの膨大なデータセットでトレーニングされました。 このモデルは Apache 2.0 ライセンスに基づいて提供されており、アクセシビリティと使いやすさが保証されています。 Falcon-40B は、Hugging Face が管理する公開リーダーボードで、LLaMA-65B、StableLM、MPT などの有名なモデルを上回りました。 Falcon-40B のアーキテクチャは推論用に最適化されており、FlashAttendant とマルチクエリ技術が組み込まれています。」

「このステップは、コミュニティへの関与、教育、現実世界のアプリケーション、コラボレーションにおける AI イノベーションとテクノロジーの準備レベルの限界を押し上げるという私たちの取り組みを反映しています。 エブテサム博士は続ける。 「Falcon-40B をオープンソース モデルとしてリリースすることで、私たちは研究者、起業家、組織にその卓越した機能を活用し、ヘルスケアから宇宙、金融、製造、バイオテクノロジーに至るまで AI 主導のソリューションの進歩を推進する機会を提供します。 AI を活用したソリューションの可能性は無限です。 Falcon-40B にアクセスしてその驚くべき可能性を探求するには、次のサイトをご覧ください。 FalconLLM.tii.ae。 Falcon-40B の力を活用して AI の未来を形成し、業界に革命を起こしましょう。」

この投稿では、SageMaker での Falcon LLM トレーニング、データキュレーション、最適化、パフォーマンス、および次のステップについて、Almazrouei 博士と詳しく説明します。

新世代の LLM

LLM は、自然なテキスト シーケンスを完成させるためにトレーニングされたソフトウェア アルゴリズムです。 LLM は、対話するトレーニング データのサイズと量により、要約、質問応答、コンテキスト内学習などを含む優れたテキスト処理能力を備えています。

2020 年初頭、世界中の研究機関がモデル サイズに重点を置き、精度がパラメーターの数と相関していることを観察しました。 たとえば、GPT-3 (2020) と BLOOM (2022) には約 175 億のパラメーターがあり、Gopher (2021) には 230 億のパラメーターがあり、MT-NLG (2021) には 530 億のパラメーターがあります。 2022年には、 ホフマンら。 モデル パラメーターとデータセット サイズ間のコンピューティングの現在のバランスが最適ではないことを観察し、より多くのデータでトレーニングされたより小さなモデルに向けてコンピューティング バジェットのバランスをとることが、より優れたパフォーマンスのモデルにつながる可能性があることを示唆する経験的なスケーリング則を発表しました。 彼らは、70B パラメータの Chinchilla (2022) モデルにガイダンスを実装し、より大きなモデルよりも優れたパフォーマンスを示しました。

SageMaker での LLM トレーニング

SageMaker は、LLM を含む機械学習 (ML) モデルの開発、トレーニング、チューニング、ホスティングのためのマネージド API のコレクションです。 多くの顧客が、次のような LLM ワークロードを SageMaker に依存しています。 スタビリティAI, AI21ラボ, ハグ顔, LG AI. SageMakerトレーニング ユーザー定義のハードウェア構成とコードを使用してコンピューティング クラスターをプロビジョニングします。 コンピューティング ジョブは実行ごとに秒数に比例して請求されます。つまり、サービスを使用していないときは、ユーザーは GPU 容量に対して請求されません。 TII は、SageMaker Training API によって提供される一時クラスターを使用して、48 個の NVIDIA A4 GPU に蓄積される最大 24 ml.p384d.100xlarge インスタンスの Falcon LLM をトレーニングしました。 現在、TII は次の Falcon LLM をトレーニングしており、そのトレーニングを 3,136 個の A100 GPU (392 ml.p4d インスタンス) にスケールしました。

科学の質とトレーニング速度の水準を高めるために、プロジェクトのすべての層に前例のない量のカスタムイノベーションが投入されました。 次のセクションでは、深層学習 (DL) トレーニング システムのすべての層で実行される最適化 TII について説明します。

スケーラブルなデータキュレーション

最新世代の LLM は、トレーニング データのサイズと品質によってその強みを発揮します。 チームは、高品質の兆トーク​​ン データセットの作成に特に注意を払いました。 いくつかの SageMaker Training CPU ジョブは、ペタバイト単位の安価でスケーラブルな Web データを、厳選された安全なトレーニング データセットに変換しました。 自動化されたシステムがデータをフィルタリングし、重複を排除しました。 たとえば、ML 分類器は冒涜的な言葉をフィルタリングするために使用されました。 ml.c5.18xlarge (72 vCPU、144 GB RAM) で実行されている CPU ジョブは、SageMaker Training を介したいくつかの API 呼び出しでインスタンス化され、データ変換タスクを実行しました。 チームは、さまざまなユースケースにシングルインスタンス CPU ジョブとマルチインスタンス CPU ジョブの両方を使用しました。 これらのジョブの一部は、それぞれが単一マシン上で数百の並列シェアナッシング アーキテクチャ (SNA) ジョブを使用しており、ワーカー間の同期が必要なタスクのために、チームはマルチインスタンス ジョブを開始し、数十のインスタンスと数千の vCPU に累積しました。 余談ですが、ダウンストリームのデータセット準備タスクでは、チームは 257 つの SageMaker Training ジョブで最大 5.18 ml.c18,504xlarge に達し、累積で 37 vCPU と XNUMX TB のメモリに達しました。

トレーニングのスループットを最大化する

トレーニング コストと市場投入までの時間の両方を最小限に抑えるために、チームは、3 秒あたりに処理され、TFLOPS/GPU で測定されるトレーニング トークンに比例してトレーニング速度を加速するための最適化のいくつかの方向性を追求しました。 チームは、コンパイルされた GPU コードで記述されたカスタム最適化レイヤーを特徴とする、完全にカスタムの 166D 並列 LLM トレーニング フレームワークを使用しました。 チームはさらに高速化するために、独自のカスタム行列乗算の実装まで書きました。 チームはまた、並列通信を基礎となるネットワーク トポロジに適応させるロジックも開発しました。 初期のスケーリング実験中に、TII は 147 GPU の 256B モデルで 173 TFLOPs/GPU、13 GPU の 16B モデルで 2022 TFLOPs/GPU を達成することができました。私たちの知る限り、最速の既知のモデルの TFLOPs はクラウドで達成されました。試験の時期はXNUMX年末。

サーバーレスストレージ

LLM トレーニングはストレージを大量に消費します。 数テラバイトのトレーニング データをトレーニング クラスターに送信する必要があり、数テラバイトのモデル チェックポイントがクラスターから永続ストレージに定期的に戻されます。 チェックポイントは、ジョブの再開時にできるだけ早くトレーニング クラスターに到達する必要もあります。 従来のハイ パフォーマンス コンピューティング (HPC) では、コンピューティング ノードは分散ファイル システムに接続され、POSIX のようなインターフェイスを介して高性能 I/O とスループットを提供します。 AWS では、顧客は定期的に 光沢のためのAmazonFSx この目的のためのファイル システム (詳細については、「 Amazon FSx for LusterおよびAmazon EFSファイルシステムを使用して、Amazon SageMakerでのトレーニングを高速化します)、また、BeeGFS の自己管理使用についても文書化しました。 分散型コンピュータビジョンのケーススタディ。 コストと運用の簡素化を重視したため、チームはファイル システム サーバーの実装と運用を行わず、代わりにサーバーレス オブジェクト ストレージ上にのみ構築するという課題に取り組みました。 Amazon シンプル ストレージ サービス (アマゾンS3)。 カスタム S3 データセット クラスは、AWS SDK for Python (Boto3) を使用して構築され、満足のいくパフォーマンスを提供しながら、科学者が同じコードベース内で I/O エンジニアリングとモデル サイエンスを自律的に反復できるようにしました。

クライアントサイドのイノベーション

LLM プロジェクトが単一のトレーニング ジョブで構成されることはほとんどありません。 最初のテストと経験を実施するには、多数の作業が必要です。 メインの実稼働トレーニングの過程で、構成やソフトウェアのバージョンの更新、パッチの展開、障害からの回復など、いくつかのジョブが連鎖する場合があります。 TII の科学者は、LLM トレーニングに適応したカスタム クライアントを構築するために大規模なエンジニアリングを実施しました。 コードのバージョン管理、Docker イメージの構築、ジョブの起動など、複数の機能を XNUMX つのコマンドにまとめるために、ランチャー クライアントが SageMaker Training SDK の上に構築されました。 さらに、 AWSラムダ サーバーレス コンピューティング機能は、必要に応じてジョブを監視、監視し、介入するように設計されています。

推論品質監査に Slack ボットを使用する

トレーニングの終わりに向けて、チームはモデルを内部ネットワークにデプロイしました。 SageMaker ホスティング GPU エンドポイント リアルタイムのインタラクションのために。 チームは、現実的なフィードバックを取得し、モデルの定性的品質監査を実行するために、対話するための Slack ボットの作成にまで取り組みました。

トレーニングとパフォーマンスのモニタリング

LLM のトレーニングには、CPU、GPU、メモリ リソースなどの大量の計算リソースが必要です。 したがって、TII は、計算リソースの最適な利用とその費用対効果を確保するために、トレーニング ジョブのパフォーマンスとアイドル時間を監視する必要がありました。

自動監視ソリューションを構築するために、TII は以下を使用しました。 アマゾンクラウドウォッチ トレーニング ジョブの GPU、CPU、メモリの使用率を監視するアラーム。 CloudWatch は生データを収集し、SageMaker Training ジョブで使用されている基盤となるコンテナ インスタンスから読み取り可能なほぼリアルタイムのメトリクスに処理します。 その後、これらのメトリクスごとにしきい値を設定し、いずれかのメトリクスがしきい値を下回ると、アラームがトリガーされます。 このアラームは、TII チームにリソース使用率の低下を通知し、リソース使用率の制約を修正するための修正措置を講じることができます。

TII は、リソース使用率の監視に加えて、トレーニング ジョブ リソースのアイドル時間を監視することもできます。 トレーニング ジョブ リソースが長期間アイドル状態になった場合、トレーニング サイクルのどの段階でもボトルネックが発生している可能性があり、手動による調査が必要になります。 場合によっては、リソースの使用率は比較的最適であったものの、トレーニング プロセス自体は進んでいませんでした。 このような場合、TII は CloudWatch アラームを Lambda 関数と統合して、生成されたトレーニング ログをクエリして読み取り、生成されたエラーまたはログ生成プロセスのアイドル状態 (クラスターが停止している) に基づいて自動アクションを実行します。 アラームはトレーニング ジョブを停止するアクションをトリガーします。これにより、リソースが使用されていないときに TII に不必要なコストが発生することがなくなります。

まとめ

SageMaker と独自のカスタム イノベーションを組み合わせて使用​​することで、TII は、技術的なブレークスルー、科学の質、トレーニング速度、操作の簡素化など、さまざまな側面で最先端のモデルをトレーニングすることができました。

「世界トップランクのオープンソース AI モデルである UAE の Falcon 40B のリリースは、テクノロジーのリーダーシップを示し、規制における AI を活用したイノベーションへの道を切り開きます」「イオン」はエブテサム・アルマズロウエイ博士を指します。 さらに「私たちは、国家 AI 戦略 2031 で概説された目標へのコミットメントを示しています。Falcon-40B に代表される世界的な技術進歩への私たちの積極的な関与は、知識ベースの経済の追求において重要な役割を果たしています。 AI ソリューションへの投資と開発を通じて、私たちは経済成長、社会の進歩、教育の進歩のための新たな機会を生み出すことを目指しています。

「Falcon-40B のオープンソースの性質は、AI 分野におけるコラボレーション、透明性、イノベーション、研究に対する当社の献身的な姿勢を反映しています。 私たちは高度な AI テクノロジー機能を民主化し、世界中の研究者や組織が Falcon-40B にアクセスできるようにすると信じています。」

「将来を見据えて、今後のモデルもパイプラインに入れて、AI とテクノロジーの進歩に貢献し続けます。 さらに、我が国の組織や企業における高度なAIテクノロジーの導入を積極的に推進し、戦略目標に沿った成長と繁栄を促進していきます。」

– アルマズルーエイ博士

Falcon LLM について詳しくは、Web サイトをご覧ください。 FalconLLM.tii.ae および ハグフェイスのモデルカード!


著者について

Technology Innovation Institute は、Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニングしています。アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。エブテサム・アルマズロウエイ博士 は、Technology Innovation Institute (TII) のエグゼクティブ ディレクター兼主任 AI 研究者代理であり、Al-Cross センター ユニットの創設者です。 アルマズルーエイ博士は、Technology Innovation Institute (TII) の Al-Cross Center Unit の創設者として、TII の AI 機能の形成において極めて重要な役割を果たしてきました。 AI と機械学習における彼女の戦略的ビジョンと専門知識により、画期的な研究イニシアチブを主導し、部門を超えたコラボレーションを促進することができ、その結果、複数の業界に革新的な AI ソリューションを提供することができました。

アルマズルーエイ博士の注目すべき功績の 40 つは、世界的に認められた最先端の LLM である Falcon 40B の開発における彼女の重要な役割です。 Falcon 2023B の卓越したパフォーマンスにより、2022 年 XNUMX 月には Hugging Face のリーダーボードで LLM が世界第 XNUMX 位にランクされました。さらに、彼女は、XNUMX 年 XNUMX 月にリリースされた世界最大のアラビア語大規模言語モデル (LLM) である Noor の開発を主導しました。

アルマズルーエイ博士は、AI への貢献が世界的に認められており、この分野の他の著名な女性とともに、2023 年世界の AI をリードする女性のリストに掲載されました。 彼女は持続可能性と AI for Good の取り組みの提唱者でもあり、アブダビ AI Connect の総合議長および多くの IEEE 国際会議の TPC 議長も務めています。

彼女の貢献は、TII での仕事を超えて広がっており、UAE AI およびブロックチェーン評議会のビッグデータ専門家小委員会を率いており、ワイヤレス ワールド 研究フォーラム (WWRF) の世界運営委員会のメンバーでもあります。 彼女は科学著者、特許発明者、起業家、著名な講演者でもあり、ロンドンの AI サミット、ワールド AI カンヌ フェスティバル、テック サミットなどの権威あるサミットでの基調講演で知られています。

Technology Innovation Institute は、Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニングしています。アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ウィル・バドル は、アラブ首長国連邦ドバイに拠点を置く AI/ML ソリューションアーキテクトのシニアマネージャーであり、グローバル Amazon Machine Learning チームの一員として働いています。 ウィルは、革新的な方法でテクノロジーを使用してコミュニティにプラスの影響を与えることに情熱を持っています。 余暇には、ダイビングに行ったり、サッカーをしたり、太平洋の島々を探検したりするのが好きです。

Technology Innovation Institute は、Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニングしています。アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。オリヴィエ・クルシャン フランスを拠点とするAWSの機械学習スペシャリストソリューションアーキテクトです。 Olivierは、小規模なスタートアップから大企業まで、AWSのお客様が本番環境グレードの機械学習アプリケーションを開発およびデプロイするのを支援します。 余暇には、研究論文を読んだり、友人や家族と一緒に荒野を探索したりしています。

タイムスタンプ:

より多くの AWS機械学習