最新AIモデルClaude 3.7 Sonnetがポケモンでベンチマークテストを実施

699ktb.ych6i 2025年2月25日

Contents

概要

Anthropicは最新のAIモデル「Claude 3.7 Sonnet」を評価するために、ゲームボーイのクラシックゲーム「ポケモンレッド」を使用したと発表しました。

このモデルは基本的なメモリや画面ピクセル入力、ボタン操作機能を備え、ポケモンを連続してプレイできるようになっています。

Claude 3.7 Sonnetの特徴は「拡張思考」にあり、OpenAIのo3-miniやDeepSeekのR1と同様に、より多くの計算を行い、時間をかけて難しい問題を解決する能力を持っています。

この機能はポケモンレッドで役立ち、前のバージョンであるClaude 3.0 Sonnetが出発地点のパレットタウンを出られなかったのに対し、Claude 3.7 Sonnetは3人のジムリーダーと戦い、バッジを獲得しました。

ただし、Claude 3.7 Sonnetがこれらの成果を達成するために必要だった計算量や時間は不明で、Anthropicは最後のジムリーダー、サージに到達するために35,000のアクションを実行したとだけ述べています。

ポケモンレッドはおもちゃのようなベンチマークですが、AIの評価にゲームが使われる歴史は長く、最近ではストリートファイターやピクショナリーなど、さまざまなタイトルでモデルのゲームプレイ能力をテストする新しいアプリやプラットフォームが登場しています。

Khosla Venturesが35億ドルの資金調達を目指し新ファンド設...

シラー氏が明かすApp Storeの手数料決定過程とデベロッパーへの影響