AI知能を新基準で測る「ARC-AGI-2」、人間基準60%に対し主力モデルで1%の挑戦

Contents

概要

AI研究者のフランソワ・ショレが共同設立者を務める非営利団体「Arc Prize Foundation」は、新たなAIテスト「ARC-AGI-2」を発表しました。

このテストはAIモデルの一般知能を測定するためのもので、視覚的なパターン認識や未知の問題への適応力が問われるパズル形式です。

現在、OpenAIのo1-proやDeepSeekのR1といった「推論型」モデルは1%から1.3%のスコア、GPT-4.5やClaude 3.7などの非推論型モデルは約1%と、人間の平均正答率60%に大きく劣っています。

ARC-AGI-2では、前バージョンARC-AGI-1の欠点だった「計算力任せの解法」を排除し、効率性を重視した評価基準を採用。

AIの新しいスキル習得能力だけでなく、その効率性やコストも問われます。

例えば、ARC-AGI-1で人間レベルの75.7%を達成したOpenAIの「o3 (low)」は、ARC-AGI-2でわずか4%のスコアに留まりました。

こうした背景から、新基準はAIの進化をより厳密に評価する必要性を強調。

さらに、Arc Prize Foundationは2025年までに85%の精度かつ1タスク0.42ドル以内での達成を目指す開発コンテストを発表。

AIの性能評価指標の刷新が進む一方で、創造性など包括的な基準が求められています。