スポンサーリンク
Contents
スポンサーリンク
概要
今週初め、Metaは未発表の実験的なLlama 4 Maverickモデルを使用して、クラウドソースのベンチマーク「LM Arena」で高得点を獲得し、批判を浴びました。
この事件を受けて、LM Arenaの管理者は謝罪し、ポリシーを変更し、未修正のMaverickのスコアを評価することになりました。
その結果、未修正のMaverickは、OpenAIのGPT-4oやAnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5 Proなど、他のモデルよりも低い評価を受けました。
これらのモデルは数ヶ月前にリリースされたものです。
なぜこのような低評価になったのかというと、Metaの実験的なMaverickは「会話最適化」が施されていたためです。
この最適化はLM Arenaにおいては効果的でしたが、AIモデルの性能を測る信頼性には疑問が残ります。
モデルを特定のベンチマークに合わせることは誤解を招く可能性があり、開発者が異なる文脈での性能を予測するのを難しくします。
Metaの広報担当者は、同社が「さまざまなカスタムバリアントを試している」と述べました。
「Llama-4-Maverick-03-26-Experimentalは、チャット最適化されたバージョンで、LM Arenaでも良好な結果を出しています」とのことです。
現在、オープンソース版がリリースされ、開発者が自分のユースケースに合わせてLlama 4をカスタマイズする様子を楽しみにしています。
ポイント
- Metaは未発表のモデルを使い、LM Arenaで高スコアを達成し物議を醸した。
- 標準版Maverickは、GPT-4oなどの競合モデルに劣り、競争力が低いことが判明。
- Metaは実験用モデルを発表し、開発者の反応を期待している。
詳しい記事の内容はこちらから
参照元について
スポンサーリンク
スポンサーリンク