メタ、未公開のLlama 4 Maverickモデルを使い試験的な得点を依頼されるも失敗を重ねる

Contents

概要

今週初め、Metaは未発表の実験的なLlama 4 Maverickモデルを使用して、クラウドソースのベンチマーク「LM Arena」で高得点を獲得し、批判を浴びました。

この事件を受けて、LM Arenaの管理者は謝罪し、ポリシーを変更し、未修正のMaverickのスコアを評価することになりました。

その結果、未修正のMaverickは、OpenAIのGPT-4oやAnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5 Proなど、他のモデルよりも低い評価を受けました。

これらのモデルは数ヶ月前にリリースされたものです。

なぜこのような低評価になったのかというと、Metaの実験的なMaverickは「会話最適化」が施されていたためです。

この最適化はLM Arenaにおいては効果的でしたが、AIモデルの性能を測る信頼性には疑問が残ります。

モデルを特定のベンチマークに合わせることは誤解を招く可能性があり、開発者が異なる文脈での性能を予測するのを難しくします。

Metaの広報担当者は、同社が「さまざまなカスタムバリアントを試している」と述べました。

「Llama-4-Maverick-03-26-Experimentalは、チャット最適化されたバージョンで、LM Arenaでも良好な結果を出しています」とのことです。

現在、オープンソース版がリリースされ、開発者が自分のユースケースに合わせてLlama 4をカスタマイズする様子を楽しみにしています。