AI

「AIの推論モデル、評価コスト高騰の背景と科学的信頼性の危機」

概要

AIラボは、自称「推論」AIモデルのテストコストが高いことを報告しています。

例えば、OpenAIのo1モデルを七つのAIベンチマークで評価するのに約2,767ドルかかりました。

対照的に、AnthropicのClaude 3.7 Sonnetの評価は1,485ドル、o3-miniは344ドルでした。

推論モデルのテストは多くのトークンを生成し、トークン単位で料金が発生するため、コストがかさむ要因となっています。

また、AI企業は新しいモデルのリリースが増えるにつれ、評価費用の増加が見込まれています。

AIスタートアップのCEOは、単一のベンチマークで1,800ドル以上のコストがかかると述べています。

現代のベンチマークは複雑なタスクを含むため、多量のトークンを引き出します。

推論モデルは進化していますが、評価のためのコストは依然として高額です。

OpenAIや他のAIラボは、ベンチマーク評価機関に無料または補助的にモデルを提供していますが、これが評価結果に影響を及ぼす可能性があります。

結果が再現可能でない場合、それが科学的成果と言えるのかという疑問が投げかけられています。

ポイント

  1. 推論モデルは特定の分野で優れた能力を示すが、評価コストが高い。
  2. AIモデルのベンチマーク評価は、トークン生成量が多く費用がかさむ。
  3. 評価結果の再現性が低下し、科学的信頼性が問われている。

詳しい記事の内容はこちらから

参照元について

『TechCrunch』のプロフィールと信ぴょう性についてここでは『TechCrunch』の簡単なプロフィール紹介と発信する情報の信ぴょう性についてまとめています。 記事を読む際の参考にし...