MetaのAIモデルに関する噂を否定、基準スコアの操作は「事実ではない」とVPが発言

Contents

概要

Metaの幹部は、同社の新しいAIモデルが特定のベンチマークで優れた成績を残すためにトレーニングされ、その弱点を隠しているとの噂を否定しました。

メタの生成AI担当副社長アハマド・アルダーレは、Xに投稿し、Llama 4 MaverickおよびLlama 4 Scoutモデルが「テストセット」でトレーニングされたというのは「単なる嘘だ」と述べました。

AIのベンチマークにおいて、テストセットはモデルのパフォーマンスを評価するためのデータ集であり、これに基づいてトレーニングすることは、モデルのスコアを実際以上に膨らませる可能性があります。

週末に広まったこの根拠のない噂は、Metaのベンチマーキングプラクティスに抗議して辞職したと主張するユーザーが中国のSNSに投稿したことから始まったようです。

MaverickとScoutが特定のタスクでパフォーマンスが低いとの報告や、メタがMaverickの実験的な未発表バージョンを使用してLM Arenaでのベンチマークスコアを向上させた決定も、噂に拍車をかけました。

アルダーレは、一部のユーザーがMaverickとScoutの「混合品質」を体験していることを認めました。

「モデルを準備が整い次第公開したため、すべての公共実装が整うまで数日かかると予想しています。バグ修正やパートナーのオンボーディングに取り組んでいきます。」と彼は語りました。