Meta が第 3 世代 Llama 大規模言語モデルをデビュー

プラトン再発行

フォロワー： 0

Meta は、Llama 3 と名付けられた最新の大規模言語モデル (LLM) を発表し、Google、Mistral、Anthropic などのはるかに大規模なモデルに挑戦すると主張しています。

長編で明らかになった発表木曜日には、Llama 3 は 400 億から XNUMX 億を超えるパラメータまでのバージョンで利用可能になります。参考までに、OpenAI と Google の最大のモデルは XNUMX 兆パラメータに近づいています。

今のところ、Llama 3 の 70 億と XNUMX 億のパラメータテキストバリアントにのみアクセスできます。 Meta は、最大かつ最も複雑なモデルのトレーニングをまだ完了していませんが、それらが多言語かつマルチモーダルになることを示唆しています。つまり、複数の小規模なドメイン最適化モデルから組み立てられることを意味します。

メタ氏は、パラメーターがわずか 70 億個であっても、Llama 3 ははるかに大規模なモデルと互角に渡り合える以上の能力があると主張しています。

Meta は、Llama3-8B と 70B は Gemini Pro や Antrhopic の Claude 3 を含むはるかに大型のモデルよりも優れたパフォーマンスを発揮できると主張しています。

Meta は、Llama3-8B および 70B は、Gemini Pro や Antrhopic の Claude 3 を含むはるかに大きなモデルよりも優れたパフォーマンスを発揮できると主張しています – クリックして拡大

より良いデータ、より良いモデル

Meta 氏によると、最大の利点の 128,000 つは、XNUMX トークンの語彙を備えたトークナイザーの使用によるものです。 LLM のコンテキストでは、トークンはいくつかの文字、単語全体、またはフレーズである場合があります。 AI は人間の入力をトークンに分解し、トークンの語彙を使用して出力を生成します。

Meta は、トークナイザーが言語をより効率的にエンコードし、パフォーマンスを大幅に向上させるのに役立つと説明しました。高品質のデータセットを使用し、トレーニング後に追加の微調整ステップを使用することで、さらなる利益が達成され、モデルのパフォーマンスと全体的な精度が向上しました。

具体的には、メタは、ラマ 3 が公的に入手可能な情報源から収集された 15 兆を超えるトークンで事前トレーニングされていることを明らかにしました。

Llama 3 のトレーニングデータセットは Llama 2 の XNUMX 倍以上の大きさで、XNUMX 倍多くのコードが含まれています。打ち上げちょうど3か月前。しかし、ことわざにあるように、「ゴミが入ったらゴミが出てくる」ため、メタ社は、ラマ XNUMX が可能な限り悪い情報でトレーニングされるようにするために、一連のデータフィルタリングパイプラインを開発したと主張しています。

これらの品質管理には、ヒューリスティックフィルターと NSFW フィルターの両方に加え、データの重複排除と、トレーニング前に情報の品質を予測するために使用されるテキスト分類子が含まれていました。メタ社は、もみ殻から小麦を分離するのに「高品質のデータを識別するのに驚くほど優れていた」という古いラマ 2 モデルも使用しました。

トレーニングデータの 30% は XNUMX 以上の言語からのものであり、将来的にはモデルにさらに実質的な多言語機能を導入するのに役立つとメタ氏は予測しました。今のところ、Social Network™️ は、ユーザーは英語以外の言語で同じ程度のパフォーマンスを期待すべきではないと述べています。

このような大規模なデータセットで小さなモデルをトレーニングすることは、一般に計算時間の無駄であると考えられており、さらには精度の利益が逓減すると考えられています。リソースを計算するためのトレーニングデータの理想的な組み合わせは、「チンチラに最適」 [PDF] の金額です。 Meta 氏によると、Llama3-8B のような 200 億パラメータモデルの場合、これは約 XNUMX 億トークンになります。

しかし、メタ氏はテスト中に、より大規模なデータセットでトレーニングした場合でも、Llama 3 のパフォーマンスが向上し続けることを発見しました。「当社の70億パラメータモデルと15億パラメータモデルの両方は、最大XNUMX兆のトークンでトレーニングした後も対数線形に改善し続けました」と業界は書いています。

その結果、はるかに大きなモデルに匹敵する結果を生成できる比較的コンパクトなモデルが得られたようです。一般にモデルが小さいほど推論が容易であり、したがって大規模な展開が容易であるため、コンピューティングにおけるトレードオフは価値があると考えられたと考えられます。

8 ビット精度では、8 億パラメータモデルに必要なメモリはわずか 4 GB です。 XNUMX ビット精度に落とすと、それをサポートするハードウェアを使用するか、量子化を使用してモデルを圧縮することになりますが、メモリ要件は約半分に下がります。

メタは、それぞれ 24,000 個の Nvidia GPU を含む XNUMX つのコンピューティングクラスター上でモデルをトレーニングしました。ご想像のとおり、このような大規模なクラスターでのトレーニングは高速ですが、いくつかの課題も発生します。つまり、トレーニングの実行中に何かが失敗する可能性が高くなります。

これを軽減するために、Meta はエラーの検出、処理、メンテナンスを自動化するトレーニングスタックを開発したと説明しました。ハイパースケーラーは、トレーニング実行が中断された場合のチェックポイントとロールバックのオーバーヘッドを削減するために、障害監視システムとストレージシステムも追加しました。そして完成後、Meta はモデルに対して一連のトレーニング後のテストと微調整ステップを実施しました。

Meta は、Llama3-8B および 70B に加えて、Llama Guard 2 や Cybersec Eval 2 などの新しく更新された信頼性および安全性ツールも公開し、ユーザーがモデルを悪用やプロンプトインジェクション攻撃から保護できるようにしました。 Code Shield は、Llama 3 によって生成された安全でないコードをフィルタリングするために設計されたガードレールを提供するもう XNUMX つの追加機能です。

以前に報告したように、LLM 支援コード生成により、いくつかの興味深い結果が得られました。攻撃ベクトルメタはそれを避けようとしている。

商品在庫

Meta は今後数か月にわたって、400 億を超えるパラメータを含む追加モデルを展開し、追加の機能、言語、より大きなコンテキストウィンドウをサポートする予定です。後者を使用すると、ユーザーは、大きなテキストのブロックを要約するなど、より大きく複雑なクエリを実行できるようになります。

Llama3-8B および 70B は現在、Meta's からダウンロードできます。ウェブサイト。 Amazon Web Services、Microsoft Azure、Google Cloud、Hugging Face なども、自社のプラットフォームに導入するためのモデルを提供する予定です。

マシン上で Llama3 をテストしたい場合は、ローカル LLM の実行に関するガイドをご覧ください。こちら。インストールしたら、次のコマンドを実行して起動できます。

オラマ ラン ラマ3

楽しんで、どうなったか教えてください。 ®

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://go.theregister.com/feed/www.theregister.com/2024/04/19/meta_debuts_llama3_llm/

タイムスタンプ： 2024 年 4 月 18 日

タイムスタンプ： 2023 年 3 月 2 日

プラトン再発行

空軍AI無人機「シミュレーションで操縦者を殺害」

クルーズの自動運転車が停止し、サンフランシスコを何時間も詰まらせました

Meta の AI インターネットチャットボットのデモは、すぐにフェイクニュースと人種差別的な発言を吐き出し始めます

現在、AmazonはAIプログラミングアシスタント–CodeWhispererをデビューさせます

テクノロジー業界は、AI アルゴリズムの特許問題で立ち往生しています

Microsoft、Windows 10および11の写真にさらにAIを追加

マスクはテスラのオプティマスロボット執事を中国に売り込もうとしている

Google フォト AI はまだゴリラにラベルを付けることができない

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー