スポンサーリンク
Contents
スポンサーリンク
概要
OpenAIは、AIモデルが人間の専門家と比較してどのようにパフォーマンスを発揮するかを評価する新しいベンチマーク「GDPval」を発表しました。このテストは、AIが経済的に価値のある仕事を人間よりも上回る可能性を測る試みです。結果によると、OpenAIのGPT-5モデルとAnthropicのClaude Opus 4.1は、すでに業界の専門家と同等かそれ以上の品質を達成しています。具体的には、GPT-5は40.6%、Claude Opus 4.1は49%のタスクで専門家を上回るか同等と評価されました。
GDPvalは、米国のGDPに大きく貢献する9つの業界(医療、金融、製造業、政府など)を対象に、44職種におけるAIモデルのパフォーマンスを測定します。しかし、このテストはあくまで報告書作成など一部の業務に限られたもので、OpenAIは今後、より広範囲なタスクを評価できるテストを開発する予定です。
OpenAIは、AIが特定の業務をサポートすることで、労働者がより価値のある作業に集中できるようになることを期待しています。また、GPT-4oは1年前に13.7%の成功率だったのに対し、現在のGPT-5はその3倍の成功率を誇ります。これらの進展は、AIがさまざまな業界で有用であることを示していますが、今後さらに多様なタスクに対応できるようなテストの開発が求められます。
ポイント
- OpenAIは、AIモデルが産業の専門家とどのように比較されるかを示す新しいベンチマークGDPvalを発表した。
- GPT-5とAnthropicのClaude Opus 4.1は、特定のタスクで業界の専門家と同等またはそれ以上の性能を示した。
- OpenAIは、GDPvalを進化させ、AIの実世界での能力を測るために今後より包括的なテストを計画している。
詳しい記事の内容はこちらから
参照元について

『TechCrunch』のプロフィールと信ぴょう性についてここでは『TechCrunch』の簡単なプロフィール紹介と発信する情報の信ぴょう性についてまとめています。
記事を読む際の参考にし...
スポンサーリンク
スポンサーリンク

