AIベンチマークを巡る論争と公開された結果、真実はどこに？

Contents

概要
ポイント
詳しい記事の内容はこちらから
- 参照元について

概要

AIのベンチマークに関する議論が公の場に浮上している。

最近、OpenAIの従業員がElon MuskのAI企業xAIを相手に、最新のAIモデル「Grok 3」が誤解を招くベンチマーク結果を公表したと非難した。これに対し、xAIの共同創設者Igor Babushkinは同社が正当であると主張しているが、真実はその中間にある。

xAIのブログでは、Grok 3の性能を示すグラフが掲載され、AIME 2025という数学試験の結果が示された。AIMEはAIの数学的能力を測るためによく使われているが、その妥当性については専門家の間で疑問が呈されている。

xAIのグラフでは、Grok 3の2つのバージョンがOpenAIのモデルと比較され、AIME 2025で優れた結果を示している。しかし、OpenAIの従業員は、グラフからo3-mini-highのスコアが欠けていることを指摘した。

「cons@64」は、各問題に対して64回試行し、最も頻繁に生成された回答を最終的なものとする指標で、これを考慮しないと他のモデルのスコアが過剰に評価されることになる。

実際には、Grok 3の初回スコアはo3-mini-highを下回っており、それでもxAIはGrok 3を「世界で最も賢いAI」と宣伝している。AI研究者は、モデルの最高スコアを達成するための計算コストが最も重要な指標であると指摘しており、これによりAIベンチマークがモデルの限界や強みを知る手助けとなるかは不透明である。