Technology Innovation Institute が Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニング |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

このブログ投稿は、TII の AI クロスセンターユニットのエグゼクティブディレクター兼主任 AI 研究員代理であり、LLM プロジェクトのプロジェクトリーダーである Ebtesam Almazrouei 博士との共著です。

アラブ首長国連邦 (UAE) テクノロジーイノベーションインスティテュート (TII)、アブダビの応用研究の柱先端技術研究評議会は、40 億のパラメーターを備えた基礎的な大規模言語モデル (LLM) である Falcon LLM を開始しました。 TII は、知識の最前線を開拓することに専念する世界有数の研究センターです。 TII の科学者、研究者、エンジニアのチームは、発見科学と革新的なテクノロジーの提供に取り組んでいます。 TII の取り組みは、私たちの社会の将来を保証するブレークスルーに焦点を当てています。 1兆トークンでトレーニングされ、 TIIファルコンLLM 最高のパフォーマンスを誇りながら、驚異的なコスト効率を実現します。 Falcon-40B は、他の高性能 LLM のパフォーマンスに匹敵し、一般公開されているオープンソースモデルのトップにランクされています。ハグフェイスオープン LLM リーダーボード。 Falcon-40B と Falcon-7B の XNUMX つの異なるサイズでオープンソースとして利用でき、データ前処理とモデルトレーニングジョブを使用してゼロから構築されました。アマゾンセージメーカー。オープンソースの Falcon 40B により、ユーザーは独自のユーザーニーズに応える AI ツールを構築およびカスタマイズできるため、シームレスな統合が促進され、データ資産の長期保存が保証されます。モデルの重みはどこにでもダウンロード、検査、展開することができます。

7 月 XNUMX 日より、両方の Falcon LLM が Amazon SageMaker JumpStart でも利用できるようになります。Amazon SageMaker JumpStart は、ML をすぐに始めるのに役立つ事前トレーニングされたモデル、組み込みアルゴリズム、事前構築されたソリューションテンプレートを提供する SageMaker の機械学習 (ML) ハブです。数回クリックするだけで Falcon LLM を展開して使用できます。 SageMaker スタジオまたはプログラム的に SageMaker Python SDK。 Falcon LLM をデプロイして推論を実行するには、次を参照してください。 SageMaker JumpStart の概要 – Falcon LLM を使用したテキスト生成ノートブックの例。

Technology Innovation Institute は、Amazon SageMaker で最先端の Falcon LLM 40B 基礎モデルをトレーニングしています。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

TII のエグゼクティブディレクター兼 AI クロスセンターユニットのチーフ AI 研究者代理であり、LLM プロジェクトのプロジェクトリーダーである Ebtesam Almazrouei 博士は次のように語っています。

「私たちは、世界トップクラスのオープンソース言語モデルである Falcon-40B の公式オープンソースリリースを誇らしげに発表します。 Falcon-40B は、40B パラメーターを備えた例外的なオープンソースモデルであり、特に因果デコーダー専用モデルとして設計されています。これは、厳選されたコーパスで強化された RefinedWeb を含む、1,000B トークンの膨大なデータセットでトレーニングされました。このモデルは Apache 2.0 ライセンスに基づいて提供されており、アクセシビリティと使いやすさが保証されています。 Falcon-40B は、Hugging Face が管理する公開リーダーボードで、LLaMA-65B、StableLM、MPT などの有名なモデルを上回りました。 Falcon-40B のアーキテクチャは推論用に最適化されており、FlashAttendant とマルチクエリ技術が組み込まれています。」

「このステップは、コミュニティへの関与、教育、現実世界のアプリケーション、コラボレーションにおける AI イノベーションとテクノロジーの準備レベルの限界を押し上げるという私たちの取り組みを反映しています。エブテサム博士は続ける。「Falcon-40B をオープンソースモデルとしてリリースすることで、私たちは研究者、起業家、組織にその卓越した機能を活用し、ヘルスケアから宇宙、金融、製造、バイオテクノロジーに至るまで AI 主導のソリューションの進歩を推進する機会を提供します。 AI を活用したソリューションの可能性は無限です。 Falcon-40B にアクセスしてその驚くべき可能性を探求するには、次のサイトをご覧ください。 FalconLLM.tii.ae。 Falcon-40B の力を活用して AI の未来を形成し、業界に革命を起こしましょう。」

この投稿では、SageMaker での Falcon LLM トレーニング、データキュレーション、最適化、パフォーマンス、および次のステップについて、Almazrouei 博士と詳しく説明します。

新世代の LLM

LLM は、自然なテキストシーケンスを完成させるためにトレーニングされたソフトウェアアルゴリズムです。 LLM は、対話するトレーニングデータのサイズと量により、要約、質問応答、コンテキスト内学習などを含む優れたテキスト処理能力を備えています。

2020 年初頭、世界中の研究機関がモデルサイズに重点を置き、精度がパラメーターの数と相関していることを観察しました。たとえば、GPT-3 (2020) と BLOOM (2022) には約 175 億のパラメーターがあり、Gopher (2021) には 230 億のパラメーターがあり、MT-NLG (2021) には 530 億のパラメーターがあります。 2022年には、ホフマンら。モデルパラメーターとデータセットサイズ間のコンピューティングの現在のバランスが最適ではないことを観察し、より多くのデータでトレーニングされたより小さなモデルに向けてコンピューティングバジェットのバランスをとることが、より優れたパフォーマンスのモデルにつながる可能性があることを示唆する経験的なスケーリング則を発表しました。彼らは、70B パラメータの Chinchilla (2022) モデルにガイダンスを実装し、より大きなモデルよりも優れたパフォーマンスを示しました。

SageMaker での LLM トレーニング

SageMaker は、LLM を含む機械学習 (ML) モデルの開発、トレーニング、チューニング、ホスティングのためのマネージド API のコレクションです。多くの顧客が、次のような LLM ワークロードを SageMaker に依存しています。スタビリティAI, AI21ラボ, ハグ顔, LG AI. SageMakerトレーニングユーザー定義のハードウェア構成とコードを使用してコンピューティングクラスターをプロビジョニングします。コンピューティングジョブは実行ごとに秒数に比例して請求されます。つまり、サービスを使用していないときは、ユーザーは GPU 容量に対して請求されません。 TII は、SageMaker Training API によって提供される一時クラスターを使用して、48 個の NVIDIA A4 GPU に蓄積される最大 24 ml.p384d.100xlarge インスタンスの Falcon LLM をトレーニングしました。現在、TII は次の Falcon LLM をトレーニングしており、そのトレーニングを 3,136 個の A100 GPU (392 ml.p4d インスタンス) にスケールしました。

科学の質とトレーニング速度の水準を高めるために、プロジェクトのすべての層に前例のない量のカスタムイノベーションが投入されました。次のセクションでは、深層学習 (DL) トレーニングシステムのすべての層で実行される最適化 TII について説明します。

スケーラブルなデータキュレーション

最新世代の LLM は、トレーニングデータのサイズと品質によってその強みを発揮します。チームは、高品質の兆トークンデータセットの作成に特に注意を払いました。いくつかの SageMaker Training CPU ジョブは、ペタバイト単位の安価でスケーラブルな Web データを、厳選された安全なトレーニングデータセットに変換しました。自動化されたシステムがデータをフィルタリングし、重複を排除しました。たとえば、ML 分類器は冒涜的な言葉をフィルタリングするために使用されました。 ml.c5.18xlarge (72 vCPU、144 GB RAM) で実行されている CPU ジョブは、SageMaker Training を介したいくつかの API 呼び出しでインスタンス化され、データ変換タスクを実行しました。チームは、さまざまなユースケースにシングルインスタンス CPU ジョブとマルチインスタンス CPU ジョブの両方を使用しました。これらのジョブの一部は、それぞれが単一マシン上で数百の並列シェアナッシングアーキテクチャ (SNA) ジョブを使用しており、ワーカー間の同期が必要なタスクのために、チームはマルチインスタンスジョブを開始し、数十のインスタンスと数千の vCPU に累積しました。余談ですが、ダウンストリームのデータセット準備タスクでは、チームは 257 つの SageMaker Training ジョブで最大 5.18 ml.c18,504xlarge に達し、累積で 37 vCPU と XNUMX TB のメモリに達しました。

トレーニングのスループットを最大化する

トレーニングコストと市場投入までの時間の両方を最小限に抑えるために、チームは、3 秒あたりに処理され、TFLOPS/GPU で測定されるトレーニングトークンに比例してトレーニング速度を加速するための最適化のいくつかの方向性を追求しました。チームは、コンパイルされた GPU コードで記述されたカスタム最適化レイヤーを特徴とする、完全にカスタムの 166D 並列 LLM トレーニングフレームワークを使用しました。チームはさらに高速化するために、独自のカスタム行列乗算の実装まで書きました。チームはまた、並列通信を基礎となるネットワークトポロジに適応させるロジックも開発しました。初期のスケーリング実験中に、TII は 147 GPU の 256B モデルで 173 TFLOPs/GPU、13 GPU の 16B モデルで 2022 TFLOPs/GPU を達成することができました。私たちの知る限り、最速の既知のモデルの TFLOPs はクラウドで達成されました。試験の時期はXNUMX年末。

サーバーレスストレージ

LLM トレーニングはストレージを大量に消費します。数テラバイトのトレーニングデータをトレーニングクラスターに送信する必要があり、数テラバイトのモデルチェックポイントがクラスターから永続ストレージに定期的に戻されます。チェックポイントは、ジョブの再開時にできるだけ早くトレーニングクラスターに到達する必要もあります。従来のハイパフォーマンスコンピューティング (HPC) では、コンピューティングノードは分散ファイルシステムに接続され、POSIX のようなインターフェイスを介して高性能 I/O とスループットを提供します。 AWS では、顧客は定期的に光沢のためのAmazonFSx この目的のためのファイルシステム (詳細については、「 Amazon FSx for LusterおよびAmazon EFSファイルシステムを使用して、Amazon SageMakerでのトレーニングを高速化します)、また、BeeGFS の自己管理使用についても文書化しました。分散型コンピュータビジョンのケーススタディ。コストと運用の簡素化を重視したため、チームはファイルシステムサーバーの実装と運用を行わず、代わりにサーバーレスオブジェクトストレージ上にのみ構築するという課題に取り組みました。 Amazon シンプルストレージサービス (アマゾンS3)。カスタム S3 データセットクラスは、AWS SDK for Python (Boto3) を使用して構築され、満足のいくパフォーマンスを提供しながら、科学者が同じコードベース内で I/O エンジニアリングとモデルサイエンスを自律的に反復できるようにしました。

クライアントサイドのイノベーション

LLM プロジェクトが単一のトレーニングジョブで構成されることはほとんどありません。最初のテストと経験を実施するには、多数の作業が必要です。メインの実稼働トレーニングの過程で、構成やソフトウェアのバージョンの更新、パッチの展開、障害からの回復など、いくつかのジョブが連鎖する場合があります。 TII の科学者は、LLM トレーニングに適応したカスタムクライアントを構築するために大規模なエンジニアリングを実施しました。コードのバージョン管理、Docker イメージの構築、ジョブの起動など、複数の機能を XNUMX つのコマンドにまとめるために、ランチャークライアントが SageMaker Training SDK の上に構築されました。さらに、 AWSラムダサーバーレスコンピューティング機能は、必要に応じてジョブを監視、監視し、介入するように設計されています。

推論品質監査に Slack ボットを使用する

トレーニングの終わりに向けて、チームはモデルを内部ネットワークにデプロイしました。 SageMaker ホスティング GPU エンドポイントリアルタイムのインタラクションのために。チームは、現実的なフィードバックを取得し、モデルの定性的品質監査を実行するために、対話するための Slack ボットの作成にまで取り組みました。

トレーニングとパフォーマンスのモニタリング

LLM のトレーニングには、CPU、GPU、メモリリソースなどの大量の計算リソースが必要です。したがって、TII は、計算リソースの最適な利用とその費用対効果を確保するために、トレーニングジョブのパフォーマンスとアイドル時間を監視する必要がありました。

自動監視ソリューションを構築するために、TII は以下を使用しました。アマゾンクラウドウォッチトレーニングジョブの GPU、CPU、メモリの使用率を監視するアラーム。 CloudWatch は生データを収集し、SageMaker Training ジョブで使用されている基盤となるコンテナインスタンスから読み取り可能なほぼリアルタイムのメトリクスに処理します。その後、これらのメトリクスごとにしきい値を設定し、いずれかのメトリクスがしきい値を下回ると、アラームがトリガーされます。このアラームは、TII チームにリソース使用率の低下を通知し、リソース使用率の制約を修正するための修正措置を講じることができます。

TII は、リソース使用率の監視に加えて、トレーニングジョブリソースのアイドル時間を監視することもできます。トレーニングジョブリソースが長期間アイドル状態になった場合、トレーニングサイクルのどの段階でもボトルネックが発生している可能性があり、手動による調査が必要になります。場合によっては、リソースの使用率は比較的最適であったものの、トレーニングプロセス自体は進んでいませんでした。このような場合、TII は CloudWatch アラームを Lambda 関数と統合して、生成されたトレーニングログをクエリして読み取り、生成されたエラーまたはログ生成プロセスのアイドル状態 (クラスターが停止している) に基づいて自動アクションを実行します。アラームはトレーニングジョブを停止するアクションをトリガーします。これにより、リソースが使用されていないときに TII に不必要なコストが発生することがなくなります。

まとめ

SageMaker と独自のカスタムイノベーションを組み合わせて使用することで、TII は、技術的なブレークスルー、科学の質、トレーニング速度、操作の簡素化など、さまざまな側面で最先端のモデルをトレーニングすることができました。

「世界トップランクのオープンソース AI モデルである UAE の Falcon 40B のリリースは、テクノロジーのリーダーシップを示し、規制における AI を活用したイノベーションへの道を切り開きます」「イオン」はエブテサム・アルマズロウエイ博士を指します。さらに「私たちは、国家 AI 戦略 2031 で概説された目標へのコミットメントを示しています。Falcon-40B に代表される世界的な技術進歩への私たちの積極的な関与は、知識ベースの経済の追求において重要な役割を果たしています。 AI ソリューションへの投資と開発を通じて、私たちは経済成長、社会の進歩、教育の進歩のための新たな機会を生み出すことを目指しています。

「Falcon-40B のオープンソースの性質は、AI 分野におけるコラボレーション、透明性、イノベーション、研究に対する当社の献身的な姿勢を反映しています。私たちは高度な AI テクノロジー機能を民主化し、世界中の研究者や組織が Falcon-40B にアクセスできるようにすると信じています。」

「将来を見据えて、今後のモデルもパイプラインに入れて、AI とテクノロジーの進歩に貢献し続けます。さらに、我が国の組織や企業における高度なAIテクノロジーの導入を積極的に推進し、戦略目標に沿った成長と繁栄を促進していきます。」

– アルマズルーエイ博士

Falcon LLM について詳しくは、Web サイトをご覧ください。 FalconLLM.tii.ae およびハグフェイスのモデルカード!

著者について

エブテサム・アルマズロウエイ博士 は、Technology Innovation Institute (TII) のエグゼクティブディレクター兼主任 AI 研究者代理であり、Al-Cross センターユニットの創設者です。アルマズルーエイ博士は、Technology Innovation Institute (TII) の Al-Cross Center Unit の創設者として、TII の AI 機能の形成において極めて重要な役割を果たしてきました。 AI と機械学習における彼女の戦略的ビジョンと専門知識により、画期的な研究イニシアチブを主導し、部門を超えたコラボレーションを促進することができ、その結果、複数の業界に革新的な AI ソリューションを提供することができました。

アルマズルーエイ博士の注目すべき功績の 40 つは、世界的に認められた最先端の LLM である Falcon 40B の開発における彼女の重要な役割です。 Falcon 2023B の卓越したパフォーマンスにより、2022 年 XNUMX 月には Hugging Face のリーダーボードで LLM が世界第 XNUMX 位にランクされました。さらに、彼女は、XNUMX 年 XNUMX 月にリリースされた世界最大のアラビア語大規模言語モデル (LLM) である Noor の開発を主導しました。

アルマズルーエイ博士は、AI への貢献が世界的に認められており、この分野の他の著名な女性とともに、2023 年世界の AI をリードする女性のリストに掲載されました。彼女は持続可能性と AI for Good の取り組みの提唱者でもあり、アブダビ AI Connect の総合議長および多くの IEEE 国際会議の TPC 議長も務めています。

彼女の貢献は、TII での仕事を超えて広がっており、UAE AI およびブロックチェーン評議会のビッグデータ専門家小委員会を率いており、ワイヤレスワールド研究フォーラム (WWRF) の世界運営委員会のメンバーでもあります。彼女は科学著者、特許発明者、起業家、著名な講演者でもあり、ロンドンの AI サミット、ワールド AI カンヌフェスティバル、テックサミットなどの権威あるサミットでの基調講演で知られています。

ウィル・バドル は、アラブ首長国連邦ドバイに拠点を置く AI/ML ソリューションアーキテクトのシニアマネージャーであり、グローバル Amazon Machine Learning チームの一員として働いています。ウィルは、革新的な方法でテクノロジーを使用してコミュニティにプラスの影響を与えることに情熱を持っています。余暇には、ダイビングに行ったり、サッカーをしたり、太平洋の島々を探検したりするのが好きです。

オリヴィエ・クルシャン フランスを拠点とするAWSの機械学習スペシャリストソリューションアーキテクトです。 Olivierは、小規模なスタートアップから大企業まで、AWSのお客様が本番環境グレードの機械学習アプリケーションを開発およびデプロイするのを支援します。余暇には、研究論文を読んだり、友人や家族と一緒に荒野を探索したりしています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
EVMファイナンス。分散型金融のための統一インターフェイス。こちらからアクセスしてください。
クォンタムメディアグループ。 IR/PR増幅。こちらからアクセスしてください。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/technology-innovation-institute-trains-the-state-of-the-art-falcon-llm-40b-foundation-model-on-amazon-sagemaker/

タイムスタンプ： 2023 年 6 月 7 日

より多くの AWS機械学習

SageMaker のモデルホスティングパターン: SageMaker PlatoBlockchain Data Intelligence でモデルをテストおよび更新する際のベストプラクティス。垂直検索。あい。

SageMaker でのモデルホスティングパターン: SageMaker でのモデルのテストと更新のベストプラクティス

ソースクラスター：

AWS機械学習

ソースノード： 1753636

タイムスタンプ： 2022 年 11 月 9 日

Triton を使用して Amazon SageMaker で ML モデルをホストする: ONNX モデル | アマゾンウェブサービス

AWS機械学習

ソースノード： 1551223

タイムスタンプ： 2022 年 6 月 28 日

プラトン再発行

SageMaker でのモデルホスティングパターン: SageMaker でのモデルのテストと更新のベストプラクティス

AWS Deep Learning Challenge では、Amazon EC2 DL1 インスタンスの革新的で影響力のある使用が見られます

Amazon SageMaker Canvas を使用してノーコード ML モデルを構築しながら、一般的なデータの問題を特定して回避する

Amazon SageMaker Autopilot モデルをサーバーレス推論エンドポイントにデプロイする

Amazon SageMaker のマルチフレームワークモデルによるコスト効率の高い ML 推論

Prodege がローコードコンピュータービジョン AI を使用して人間による年間レビュー費用を 1.5 万ドル節約した方法

倹約性と精度の融合: AWS Trainium を使用した GPT NeoX および Pythia モデルのコスト効率の高いトレーニング | アマゾンウェブサービス

人間によるレビューと BI の視覚化により、インテリジェントなドキュメント処理のためのビジネスルールをカスタマイズする

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー