スポンサーリンク
Contents
スポンサーリンク
概要
ポケモンもAIベンチマークの論争から逃れられない。
先週、Googleの最新モデルGeminiがAnthropicのClaudeモデルを超えたとする投稿がX上で拡散された。報道によれば、Geminiは開発者のTwitch配信でLavender Townに到達したが、ClaudeはMount Moonで立ち往生していた。
しかし、この投稿ではGeminiが有利な条件を持っていたことには触れられていなかった。Redditのユーザーが指摘した通り、Geminiのストリームを維持する開発者はカスタムミニマップを作成しており、ゲーム内の「タイル」を識別するのに役立っている。これにより、Geminiはスクリーンショットを分析する必要が減少している。
ポケモンはAIの能力を測るベンチマークとしてはあまり真剣ではないが、異なる実装が結果に与える影響を示す興味深い例である。例えば、Anthropicは自社のモデルAnthropic 3.7 Sonnetについて、異なる条件下で別々のスコアを報告した。
最近、Metaは新しいモデルLlama 4 Maverickを特定のベンチマークLM Arenaで良好に機能するよう調整した。このオリジナル版は同じ評価でかなり低いスコアを記録している。
AIベンチマークは元々不完全な測定基準であり、カスタム実装がさらに混乱を招く恐れがある。モデルの比較は今後も難しくなると考えられる。
ポイント
- GoogleのGeminiモデルがPokémonでAnthropicのClaudeを上回ると報道された。
- Geminiはカスタムミニマップを使用し、解析の手間を省いている。
- AIベンチマークの実装違いが結果に影響を与えることが懸念されている。
詳しい記事の内容はこちらから
参照元について

『TechCrunch』のプロフィールと信ぴょう性についてここでは『TechCrunch』の簡単なプロフィール紹介と発信する情報の信ぴょう性についてまとめています。
記事を読む際の参考にし...
スポンサーリンク
スポンサーリンク