AI

AIベンチマークを巡る論争と公開された結果、真実はどこに?

概要

AIのベンチマークに関する議論が公の場に浮上している。

最近、OpenAIの従業員がElon MuskのAI企業xAIを相手に、最新のAIモデル「Grok 3」が誤解を招くベンチマーク結果を公表したと非難した。これに対し、xAIの共同創設者Igor Babushkinは同社が正当であると主張しているが、真実はその中間にある。

xAIのブログでは、Grok 3の性能を示すグラフが掲載され、AIME 2025という数学試験の結果が示された。AIMEはAIの数学的能力を測るためによく使われているが、その妥当性については専門家の間で疑問が呈されている。

xAIのグラフでは、Grok 3の2つのバージョンがOpenAIのモデルと比較され、AIME 2025で優れた結果を示している。しかし、OpenAIの従業員は、グラフからo3-mini-highのスコアが欠けていることを指摘した。

「cons@64」は、各問題に対して64回試行し、最も頻繁に生成された回答を最終的なものとする指標で、これを考慮しないと他のモデルのスコアが過剰に評価されることになる。

実際には、Grok 3の初回スコアはo3-mini-highを下回っており、それでもxAIはGrok 3を「世界で最も賢いAI」と宣伝している。AI研究者は、モデルの最高スコアを達成するための計算コストが最も重要な指標であると指摘しており、これによりAIベンチマークがモデルの限界や強みを知る手助けとなるかは不透明である。

ポイント

  1. xAIがGrok 3のベンチマーク結果を誤解を招く形で発表したとOpenAIが指摘。
  2. AIME 2025のスコアは、AIモデルの数学能力を測るために一般的に使用される。
  3. AIモデルの性能を評価する際、コストや計算資源の情報が不足している。

詳しい記事の内容はこちらから

参照元について

『TechCrunch』のプロフィールと信ぴょう性についてここでは『TechCrunch』の簡単なプロフィール紹介と発信する情報の信ぴょう性についてまとめています。 記事を読む際の参考にし...
ビジネス・経済 最新情報
ゲーム 最新情報