AI

最新AIモデルClaude 3.7 Sonnetがポケモンでベンチマークテストを実施

概要

Anthropicは最新のAIモデル「Claude 3.7 Sonnet」を評価するために、ゲームボーイのクラシックゲーム「ポケモンレッド」を使用したと発表しました。

このモデルは基本的なメモリや画面ピクセル入力、ボタン操作機能を備え、ポケモンを連続してプレイできるようになっています。

Claude 3.7 Sonnetの特徴は「拡張思考」にあり、OpenAIのo3-miniやDeepSeekのR1と同様に、より多くの計算を行い、時間をかけて難しい問題を解決する能力を持っています。

この機能はポケモンレッドで役立ち、前のバージョンであるClaude 3.0 Sonnetが出発地点のパレットタウンを出られなかったのに対し、Claude 3.7 Sonnetは3人のジムリーダーと戦い、バッジを獲得しました。

ただし、Claude 3.7 Sonnetがこれらの成果を達成するために必要だった計算量や時間は不明で、Anthropicは最後のジムリーダー、サージに到達するために35,000のアクションを実行したとだけ述べています。

ポケモンレッドはおもちゃのようなベンチマークですが、AIの評価にゲームが使われる歴史は長く、最近ではストリートファイターやピクショナリーなど、さまざまなタイトルでモデルのゲームプレイ能力をテストする新しいアプリやプラットフォームが登場しています。

ポイント

  1. Anthropicが新モデルClaude 3.7 Sonnetをポケモン赤でテストした。
  2. このモデルは延長的思考が可能で、難題を解決できる。
  3. Claude 3.7はポケモンジムリーダーに挑戦し、バッジを獲得した。

詳しい記事の内容はこちらから

参照元について

『TechCrunch』のプロフィールと信ぴょう性についてここでは『TechCrunch』の簡単なプロフィール紹介と発信する情報の信ぴょう性についてまとめています。 記事を読む際の参考にし...
ビジネス・経済 最新情報
ゲーム 最新情報