AI

メタ、未公開のLlama 4 Maverickモデルを使い試験的な得点を依頼されるも失敗を重ねる

概要

今週初め、Metaは未発表の実験的なLlama 4 Maverickモデルを使用して、クラウドソースのベンチマーク「LM Arena」で高得点を獲得し、批判を浴びました。

この事件を受けて、LM Arenaの管理者は謝罪し、ポリシーを変更し、未修正のMaverickのスコアを評価することになりました。

その結果、未修正のMaverickは、OpenAIのGPT-4oやAnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5 Proなど、他のモデルよりも低い評価を受けました。

これらのモデルは数ヶ月前にリリースされたものです。

なぜこのような低評価になったのかというと、Metaの実験的なMaverickは「会話最適化」が施されていたためです。

この最適化はLM Arenaにおいては効果的でしたが、AIモデルの性能を測る信頼性には疑問が残ります。

モデルを特定のベンチマークに合わせることは誤解を招く可能性があり、開発者が異なる文脈での性能を予測するのを難しくします。

Metaの広報担当者は、同社が「さまざまなカスタムバリアントを試している」と述べました。

「Llama-4-Maverick-03-26-Experimentalは、チャット最適化されたバージョンで、LM Arenaでも良好な結果を出しています」とのことです。

現在、オープンソース版がリリースされ、開発者が自分のユースケースに合わせてLlama 4をカスタマイズする様子を楽しみにしています。

ポイント

  1. Metaは未発表のモデルを使い、LM Arenaで高スコアを達成し物議を醸した。
  2. 標準版Maverickは、GPT-4oなどの競合モデルに劣り、競争力が低いことが判明。
  3. Metaは実験用モデルを発表し、開発者の反応を期待している。

詳しい記事の内容はこちらから

参照元について