Meta は、Llama 3 と名付けられた最新の大規模言語モデル (LLM) を発表し、Google、Mistral、Anthropic などのはるかに大規模なモデルに挑戦すると主張しています。
長編で明らかになった 発表 木曜日には、Llama 3 は 400 億から XNUMX 億を超えるパラメータまでのバージョンで利用可能になります。参考までに、OpenAI と Google の最大のモデルは XNUMX 兆パラメータに近づいています。
今のところ、Llama 3 の 70 億と XNUMX 億のパラメータ テキスト バリアントにのみアクセスできます。 Meta は、最大かつ最も複雑なモデルのトレーニングをまだ完了していませんが、それらが多言語かつマルチモーダルになることを示唆しています。つまり、複数の小規模なドメイン最適化モデルから組み立てられることを意味します。
メタ氏は、パラメーターがわずか 70 億個であっても、Llama 3 ははるかに大規模なモデルと互角に渡り合える以上の能力があると主張しています。
Meta は、Llama3-8B および 70B は、Gemini Pro や Antrhopic の Claude 3 を含むはるかに大きなモデルよりも優れたパフォーマンスを発揮できると主張しています – クリックして拡大
より良いデータ、より良いモデル
Meta 氏によると、最大の利点の 128,000 つは、XNUMX トークンの語彙を備えたトークナイザーの使用によるものです。 LLM のコンテキストでは、トークンはいくつかの文字、単語全体、またはフレーズである場合があります。 AI は人間の入力をトークンに分解し、トークンの語彙を使用して出力を生成します。
Meta は、トークナイザーが言語をより効率的にエンコードし、パフォーマンスを大幅に向上させるのに役立つと説明しました。高品質のデータセットを使用し、トレーニング後に追加の微調整ステップを使用することで、さらなる利益が達成され、モデルのパフォーマンスと全体的な精度が向上しました。
具体的には、メタは、ラマ 3 が公的に入手可能な情報源から収集された 15 兆を超えるトークンで事前トレーニングされていることを明らかにしました。
Llama 3 のトレーニング データセットは Llama 2 の XNUMX 倍以上の大きさで、XNUMX 倍多くのコードが含まれています。 打ち上げ ちょうど3か月前。しかし、ことわざにあるように、「ゴミが入ったらゴミが出てくる」ため、メタ社は、ラマ XNUMX が可能な限り悪い情報でトレーニングされるようにするために、一連のデータ フィルタリング パイプラインを開発したと主張しています。
これらの品質管理には、ヒューリスティック フィルターと NSFW フィルターの両方に加え、データの重複排除と、トレーニング前に情報の品質を予測するために使用されるテキスト分類子が含まれていました。メタ社は、もみ殻から小麦を分離するのに「高品質のデータを識別するのに驚くほど優れていた」という古いラマ 2 モデルも使用しました。
トレーニング データの 30% は XNUMX 以上の言語からのものであり、将来的にはモデルにさらに実質的な多言語機能を導入するのに役立つとメタ氏は予測しました。今のところ、Social Network™️ は、ユーザーは英語以外の言語で同じ程度のパフォーマンスを期待すべきではないと述べています。
このような大規模なデータセットで小さなモデルをトレーニングすることは、一般に計算時間の無駄であると考えられており、さらには精度の利益が逓減すると考えられています。リソースを計算するためのトレーニング データの理想的な組み合わせは、「チンチラに最適」 [PDF] の金額です。 Meta 氏によると、Llama3-8B のような 200 億パラメータ モデルの場合、これは約 XNUMX 億トークンになります。
しかし、メタ氏はテスト中に、より大規模なデータセットでトレーニングした場合でも、Llama 3 のパフォーマンスが向上し続けることを発見しました。 「当社の70億パラメータモデルと15億パラメータモデルの両方は、最大XNUMX兆のトークンでトレーニングした後も対数線形に改善し続けました」と業界は書いています。
その結果、はるかに大きなモデルに匹敵する結果を生成できる比較的コンパクトなモデルが得られたようです。一般にモデルが小さいほど推論が容易であり、したがって大規模な展開が容易であるため、コンピューティングにおけるトレードオフは価値があると考えられたと考えられます。
8 ビット精度では、8 億パラメータ モデルに必要なメモリはわずか 4 GB です。 XNUMX ビット精度に落とすと、それをサポートするハードウェアを使用するか、量子化を使用してモデルを圧縮することになりますが、メモリ要件は約半分に下がります。
メタは、それぞれ 24,000 個の Nvidia GPU を含む XNUMX つのコンピューティング クラスター上でモデルをトレーニングしました。ご想像のとおり、このような大規模なクラスターでのトレーニングは高速ですが、いくつかの課題も発生します。つまり、トレーニングの実行中に何かが失敗する可能性が高くなります。
これを軽減するために、Meta はエラーの検出、処理、メンテナンスを自動化するトレーニング スタックを開発したと説明しました。ハイパースケーラーは、トレーニング実行が中断された場合のチェックポイントとロールバックのオーバーヘッドを削減するために、障害監視システムとストレージ システムも追加しました。そして完成後、Meta はモデルに対して一連のトレーニング後のテストと微調整ステップを実施しました。
Meta は、Llama3-8B および 70B に加えて、Llama Guard 2 や Cybersec Eval 2 などの新しく更新された信頼性および安全性ツールも公開し、ユーザーがモデルを悪用やプロンプト インジェクション攻撃から保護できるようにしました。 Code Shield は、Llama 3 によって生成された安全でないコードをフィルタリングするために設計されたガードレールを提供するもう XNUMX つの追加機能です。
以前に報告したように、LLM 支援コード生成により、いくつかの興味深い結果が得られました。 攻撃ベクトル メタはそれを避けようとしている。
商品在庫
Meta は今後数か月にわたって、400 億を超えるパラメータを含む追加モデルを展開し、追加の機能、言語、より大きなコンテキスト ウィンドウをサポートする予定です。後者を使用すると、ユーザーは、大きなテキストのブロックを要約するなど、より大きく複雑なクエリを実行できるようになります。
Llama3-8B および 70B は現在、Meta's からダウンロードできます。 ウェブサイト。 Amazon Web Services、Microsoft Azure、Google Cloud、Hugging Face なども、自社のプラットフォームに導入するためのモデルを提供する予定です。
マシン上で Llama3 をテストしたい場合は、ローカル LLM の実行に関するガイドをご覧ください。 こちら。インストールしたら、次のコマンドを実行して起動できます。
オラマ ラン ラマ3
楽しんで、どうなったか教えてください。 ®
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://go.theregister.com/feed/www.theregister.com/2024/04/19/meta_debuts_llama3_llm/
- :持っている
- :は
- $UP
- 000
- 視聴者の38%が
- 200
- 200億
- 24
- 30
- 400
- 7
- 70
- a
- 私たちについて
- 虐待
- アクセス
- 従った
- 精度
- 達成
- 追加されました
- 添加
- NEW
- 追加の利益
- 後
- 前
- AIS
- 許す
- また
- Amazon
- Amazon Webサービス
- 量
- an
- および
- 別の
- 人間原理
- です
- AS
- 頼む
- 組み立て
- At
- 攻撃
- 自動化する
- 利用できます
- 避ける
- Azure
- 悪い
- BE
- より良いです
- 最大の
- 10億
- XNUMX億トークン
- BIZ
- ブロック
- 後押し
- 国境
- 両言語で
- ブレーク
- 持って来る
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 来ました
- 缶
- 機能
- できる
- 場合
- 挑戦する
- 課題
- 文字
- チェック
- クレーム
- クリック
- クラウド
- クラスタ
- CO
- コード
- 来ます
- コンパクト
- 匹敵します
- 記入済みの
- 複雑な
- 計算
- コンピューティング
- 見なさ
- 含まれています
- コンテキスト
- 継続します
- controls
- 現在
- データ
- データセット
- デビュー
- 度
- 展開します
- 展開
- 設計
- 検出
- 発展した
- 減少する
- 行われ
- ダウン
- ダウンロード
- Drop
- 落ちる
- 各
- 容易
- 効率良く
- 8
- どちら
- 英語
- 確保
- エラー
- さらに
- 超えます
- 期待する
- 説明
- 顔
- 失敗
- 不良解析
- 遠く
- 速いです
- 少数の
- filter
- フィルター
- 発見
- 4
- から
- 楽しいです
- 機能性
- 未来
- 利益
- 双子座
- 一般に
- 生成する
- 生成された
- 生成
- 世代
- 受け
- ゴエス
- 行く
- 良い
- でログイン
- Googleクラウド
- だ
- GPU
- ガード
- ガイド
- 半分
- ハンドリング
- Hardware
- 助けます
- ことができます
- 高品質
- ヒント
- 認定条件
- HTTPS
- 人間
- 理想
- 識別
- 絵
- 改善します
- in
- 含まれました
- 含めて
- 増加
- 情報
- 安全でない
- インストール
- 興味深い
- 中断された
- に
- 紹介します
- ISN
- IT
- ITS
- JPG
- ただ
- 知っている
- 言語
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- 大
- より大きい
- 最大の
- 最新の
- 起動する
- ツェッペリン
- う
- ような
- 尤度
- 可能性が高い
- 好き
- 少し
- ラマ
- LLM
- ローカル
- 探して
- 機械
- メンテナンス
- 意味
- メモリ
- 単なる
- Meta
- Microsoft
- Microsoft Azure
- 真ん中
- かもしれない
- 軽減する
- ミックス
- モデル
- モニタリング
- ヶ月
- 他には?
- 最も
- ずっと
- の試合に
- 名前付き
- 近づいている
- 新作
- 次の
- 9
- 今
- NSFW
- Nvidia
- of
- 提供
- 古い
- on
- かつて
- ONE
- の
- OpenAI
- or
- その他
- その他
- 私たちの
- でる
- 優れたパフォーマンス
- 出力
- が
- 全体
- オーバーヘッド
- ペア
- パラメーター
- パラメータ
- パーセント
- パフォーマンス
- フレーズ
- 計画
- プラン
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 可能
- 精度
- 予測する
- 予測
- 前に
- 事前の
- Pro
- 作り出す
- は、大阪で
- 公然と
- 品質
- クエリ
- 測距
- RE
- 減らします
- 参照
- 言及
- 相対的に
- 報告
- 要件
- 必要
- リソース
- 結果
- 結果
- 収益
- 明らかに
- ロール
- 圧延
- ラン
- ランニング
- s
- 守ります
- 安全性
- 前記
- 同じ
- 格言
- 言う
- 規模
- と思われる
- 別
- シリーズ
- サービス
- セブン
- シールド
- 著しく
- 小さい
- より小さい
- So
- 社会
- 一部
- 何か
- ソース
- スタック
- ステップ
- ストレージ利用料
- かなりの
- そのような
- 支援する
- サポート
- 驚くほど
- システム
- test
- テスト
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- 情報
- アプリ環境に合わせて
- それら
- その後
- 彼ら
- この
- 木曜日
- 従って
- 時間
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- トークン
- 豊富なツール群
- 訓練された
- トレーニング
- 1兆
- 信頼
- 2
- 解き放たれました
- 更新しました
- us
- つかいます
- 中古
- users
- Ve
- バージョン
- 欲しいです
- ました
- 無駄
- we
- ウェブ
- Webサービス
- WELL
- went
- した
- いつ
- which
- while
- 全体
- 意志
- ウィンドウズ
- 言葉
- やりがいのある
- でしょう
- 書いた
- まだ
- You
- あなたの
- ゼファーネット