Anthropic の次世代 AI モデル Claude 3 Opus が Chatbot Arena のリーダーボードでポールポジションを獲得し、OpenAI の GPT-4 を XNUMX 番目に押し上げました。
昨年の発売以来、Claude 3 Opus モデルが Chatbot Arena リストでトップになったのはこれが初めてで、Claude 3 の 10 つのバージョンすべてがトップ XNUMX にランクインしています。
クロード 3 モデルが注目を集める
LMSYS チャットボット アリーナ ランキングによると、Claude 3 Sonnet は Gemini Pro と並んで 3 位を占め、今年発売された Claude 4 Haiku は以前のバージョンの GPT-XNUMX とともに XNUMX 位にランクされました。
しかし クロード 3 俳句 Sonnet や Opus ほどインテリジェントではないかもしれませんが、このモデルはより高速で大幅に安価ですが、アリーナの結果が明らかにしたように、「ブラインド テストでははるかに大型のモデルと同等に優れています」。
「Claude 3 Haiku はすべての人に感銘を与え、ユーザーの好みによって GPT-4 レベルに達することさえありました。その速度、機能、コンテキストの長さは、現在の市場では比類のないものです」と LMSYS 氏は説明しました。
Tom's Guide によると、Haiku をより印象的にしているのは、それが「Gemini Nano に匹敵するローカル サイズのモデル」であることです。できる 情報密度の高い研究を読み取り、処理する 3 秒以内に書類を提出できます。
このモデルは、Opus や GPT-4 クラスのモデルのような XNUMX 兆を超えるパラメーター スケールがなくても、優れた結果を達成しています。
【アリーナアップデート】
70 以上の新たなアリーナ投票🗳️が到着しました!
Claude-3 Haiku はすべての人に感銘を与え、ユーザーの好みによって GPT-4 レベルに達することさえありました。その速度、機能、コンテキストの長さは、現在市場で比類のないものです🔥
おめでとう @アンスロピックAI 信じられないほどのクロード3号の打ち上げについて!
もっと面白い… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) 2024 年 3 月 26 日
これは短命な成功となる可能性がありますか?
4 位に押し上げられたにもかかわらず、OpenAI の GPT-10 バージョンは依然として XNUMX つのバージョンでリストのトップ XNUMX を独占しました。
による トムのガイド, OpenAI のさまざまな形式の GPT-4 バージョンは、「そのベンチマークに近い他のモデルは GPT-4 クラスのモデルとして知られるほど、長い間」トップの座を維持してきました。
今年中に「著しく異なる」GPT-5 が登場すると予想されており、Claude 3 Opus と GPT-4 のスコアの差が狭いため、Anthropic がその地位を長く維持できない可能性があります。
OpenAI は、実際のリリースについては口を閉ざしてきましたが、 GPT-5、市場はその発売を大いに期待しています。伝えられるところによると、モデルにはいくつかの変更が加えられている 「厳格な安全性テスト」とリリース前に重要な模擬攻撃。
LMSYS チャットボット アリーナ
このランキングは、AI モデルの他の形式のベンチマークとは対照的に、人間の投票に依存しています。これを使用すると、同じプロンプトに対する 2 つの異なるモデルの出力をブラインドでランク付けできます。
Chatbot Arena は LMSYS によって運営されており、「匿名のランダム化された戦闘」で戦いを繰り広げる多数の大規模言語モデル (LLM) を特徴としています。
昨年 400,000 月に初めて公開され、Google、Anthropic、および OpenAI.
「LMSYS Chatbot Arena は、LLM 評価のためのクラウドソースのオープン プラットフォームです。私たちは、Elo ランキング システムで LLM をランク付けするために 400,000 を超える人間の好みの投票を集めました」と LMSYS は述べています。
Elo システムは主にチェスのようなゲームで、プレイヤーの相対的なスキルを評価するために使用されます。ただし、この場合、ランキングはチャットボットに適用され、「モデルを使用する人間」には適用されません。
また、お読みください。 Microsoft、Copilot AI ボタンを搭載した「初」の Surface PC を発表
欠点
チャットボット アリーナのランキングには欠点が少なくありません。 Tom's Guide によると、含まれるすべてのモデルまたはモデルのバージョンが含まれているわけではなく、ユーザーは GPT-4 のロードに失敗するというひどい経験をすることがあります。また、Google Gemini Pro など、ライブ インターネット アクセスを備えた一部のモデルも有利になる可能性があります。
他のモデルにはフランスの AI スタートアップ企業のようなモデルもありますが、 ミストラル 最近では、オープンソース モデルに加えて、アリババのような中国企業がこの分野のトップの座に躍り出ていますが、この分野ではまだ注目度の高いモデルがいくつか欠けています。たとえば、Google の Gemini Pro 1.5 のようなモデルがありません。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/
- :持っている
- :は
- :not
- 000
- 1
- 10
- 14
- 視聴者の38%が
- 400
- 7
- 8
- 9
- a
- アクセス
- 従った
- 達成する
- 実際の
- 添加
- AI
- AIモデル
- アリババ
- すべて
- また
- an
- および
- 人間原理
- 期待する
- どれか
- 適用された
- です
- アリーナ
- AS
- 攻撃
- 悪い
- 戦い
- 戦闘
- BE
- さ
- ベンチマーク
- ベンチマーク
- BEST
- の間に
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 缶
- 機能
- 場合
- チャットボット
- 安い
- チェス
- 中国語
- 閉じる
- 到来
- 匹敵します
- コンテキスト
- 重大な
- 異なります
- ありません
- 優勢
- 前
- 評価する
- さらに
- 予想される
- エクスペリエンス
- 説明
- 失敗
- 速いです
- 欠点
- 賛成
- 特徴
- 企業
- 名
- 初回
- フォーム
- 4
- 第4
- フランス語
- から
- Games
- ギャップ
- 双子座
- 世代
- 良い
- でログイン
- Googleの
- 素晴らしい
- ガイド
- 持ってる
- ヒーロー
- ハイ
- 非常に
- host
- HTTPS
- 人間
- 感銘を受けて
- 印象的
- in
- include
- 含まれました
- 信じられない
- インテリジェント-
- インターネット
- インターネット・アクセス
- IT
- ITS
- ジョイント
- JPEG
- 既知の
- 言語
- 大
- より大きい
- 姓
- 昨年
- 起動する
- 打ち上げ
- リーダー
- 長さ
- less
- レベル
- ような
- リスト
- ライブ
- LLM
- 負荷
- 長い
- 製
- make
- 作る
- 市場
- 五月..
- かもしれない
- ミス
- 行方不明
- モデル
- 他には?
- 主に
- ずっと
- ドワーフ
- 狭い
- 新作
- 次の
- 今
- of
- on
- ONE
- 開いた
- オープンソース
- OpenAI
- 反対した
- or
- その他
- 私たちの
- でる
- 出力
- が
- 論文
- パラメーター
- パソコン
- のワークプ
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイヤー
- さらに
- 位置
- Pro
- プロセス
- プロフィール
- プッシュ
- 押す
- ランダム化
- ランク
- ランク
- ランキング
- 到達
- 読む
- 最近
- 相対
- リリース
- 信頼する
- 残った
- 報道によると
- 結果
- 明らかにする
- 明らかに
- ラン
- 安全性
- 前記
- 同じ
- 規模
- スコア
- 二番
- 秒
- ショート
- 表示する
- 著しく
- 第6
- サイズ
- 技能
- So
- 一部
- 時々
- スピード
- Spot
- 斑
- スタートアップ
- まだ
- 成功
- 表面
- 撮影
- 取り
- テスト
- より
- それ
- アプリ環境に合わせて
- この
- 今年
- それらの
- 三
- 時間
- 〜へ
- 一緒に
- あまりに
- top
- トップ10
- 一位
- 1兆
- true
- さえずり
- 2
- 受ける
- 比類のない
- アップデイト
- 中古
- ユーザー
- users
- さまざまな
- バージョン
- バージョン
- 票
- ました
- 仕方..
- この試験は
- which
- while
- 無し
- 年
- まだ
- ゼファーネット