AIベンチマークの混乱、ポケモンでも明らかになったカスタム実装の影響

Contents

概要
ポイント
詳しい記事の内容はこちらから
- 参照元について

概要

ポケモンもAIベンチマークの論争から逃れられない。

先週、Googleの最新モデルGeminiがAnthropicのClaudeモデルを超えたとする投稿がX上で拡散された。報道によれば、Geminiは開発者のTwitch配信でLavender Townに到達したが、ClaudeはMount Moonで立ち往生していた。

しかし、この投稿ではGeminiが有利な条件を持っていたことには触れられていなかった。Redditのユーザーが指摘した通り、Geminiのストリームを維持する開発者はカスタムミニマップを作成しており、ゲーム内の「タイル」を識別するのに役立っている。これにより、Geminiはスクリーンショットを分析する必要が減少している。

ポケモンはAIの能力を測るベンチマークとしてはあまり真剣ではないが、異なる実装が結果に与える影響を示す興味深い例である。例えば、Anthropicは自社のモデルAnthropic 3.7 Sonnetについて、異なる条件下で別々のスコアを報告した。

最近、Metaは新しいモデルLlama 4 Maverickを特定のベンチマークLM Arenaで良好に機能するよう調整した。このオリジナル版は同じ評価でかなり低いスコアを記録している。

AIベンチマークは元々不完全な測定基準であり、カスタム実装がさらに混乱を招く恐れがある。モデルの比較は今後も難しくなると考えられる。