スポンサーリンク
Contents
スポンサーリンク
概要
AI研究者のフランソワ・ショレが共同設立者を務める非営利団体「Arc Prize Foundation」は、新たなAIテスト「ARC-AGI-2」を発表しました。
このテストはAIモデルの一般知能を測定するためのもので、視覚的なパターン認識や未知の問題への適応力が問われるパズル形式です。
現在、OpenAIのo1-proやDeepSeekのR1といった「推論型」モデルは1%から1.3%のスコア、GPT-4.5やClaude 3.7などの非推論型モデルは約1%と、人間の平均正答率60%に大きく劣っています。
ARC-AGI-2では、前バージョンARC-AGI-1の欠点だった「計算力任せの解法」を排除し、効率性を重視した評価基準を採用。
AIの新しいスキル習得能力だけでなく、その効率性やコストも問われます。
例えば、ARC-AGI-1で人間レベルの75.7%を達成したOpenAIの「o3 (low)」は、ARC-AGI-2でわずか4%のスコアに留まりました。
こうした背景から、新基準はAIの進化をより厳密に評価する必要性を強調。
さらに、Arc Prize Foundationは2025年までに85%の精度かつ1タスク0.42ドル以内での達成を目指す開発コンテストを発表。
AIの性能評価指標の刷新が進む一方で、創造性など包括的な基準が求められています。
ポイント
- ARC-AGI-2はAIモデルの一般知能を測定する新しい難問テストである。
- ARC-AGI-2では人間が平均60%正解し、多くのAIモデルが低得点に終わった。
- 効率性を重視し、AIの計算力依存を防ぐ新しい指標が導入された。
詳しい記事の内容はこちらから
参照元について

『TechCrunch』のプロフィールと信ぴょう性についてここでは『TechCrunch』の簡単なプロフィール紹介と発信する情報の信ぴょう性についてまとめています。
記事を読む際の参考にし...
スポンサーリンク
スポンサーリンク