「AIの推論モデル、評価コスト高騰の背景と科学的信頼性の危機」

Contents

概要
ポイント
詳しい記事の内容はこちらから
- 参照元について

概要

AIラボは、自称「推論」AIモデルのテストコストが高いことを報告しています。

例えば、OpenAIのo1モデルを七つのAIベンチマークで評価するのに約2,767ドルかかりました。

対照的に、AnthropicのClaude 3.7 Sonnetの評価は1,485ドル、o3-miniは344ドルでした。

推論モデルのテストは多くのトークンを生成し、トークン単位で料金が発生するため、コストがかさむ要因となっています。

また、AI企業は新しいモデルのリリースが増えるにつれ、評価費用の増加が見込まれています。

AIスタートアップのCEOは、単一のベンチマークで1,800ドル以上のコストがかかると述べています。

現代のベンチマークは複雑なタスクを含むため、多量のトークンを引き出します。

推論モデルは進化していますが、評価のためのコストは依然として高額です。

OpenAIや他のAIラボは、ベンチマーク評価機関に無料または補助的にモデルを提供していますが、これが評価結果に影響を及ぼす可能性があります。

結果が再現可能でない場合、それが科学的成果と言えるのかという疑問が投げかけられています。

ポイント

推論モデルは特定の分野で優れた能力を示すが、評価コストが高い。
AIモデルのベンチマーク評価は、トークン生成量が多く費用がかさむ。
評価結果の再現性が低下し、科学的信頼性が問われている。

詳しい記事の内容はこちらから

TechCrunch

The rise of AI 'reasoning' models is making benchmarking more expen...

https://techcrunch.com/2025/04/10/the-rise-of-ai-reasoning-models-is-making-benchmarking-more-expensive/

The rise of AI 'reasoning' models is making benchmarking more expensive, data from Artificial Analysis shows.

参照元について

『TechCrunch』のプロフィールと信ぴょう性についてここでは『TechCrunch』の簡単なプロフィール紹介と発信する情報の信ぴょう性についてまとめています。記事を読む際の参考にし...

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

「AIの推論モデル、評価コスト高騰の背景と科学的信頼性の危機」

概要

ポイント

詳しい記事の内容はこちらから

参照元について

中国研究者に英国GP記録の半数開放、諜報機関の懸念と医療データ共有の狭間

【衝撃】アンソロピック、国防総省と激突！AI倫理の限界と軍事利用の行方

【速報】Claude利用は継続！国防総省の指定、マイクロソフト・グーグルは影響なし

ソフトウェアの耐用年数と5年ルール：実際の運用・税制・最新事例を徹底解説

『TechCrunch』のプロフィールと信ぴょう性について

AI創薬の新潮流、Latent Labsが自然を超えるタンパク質を創造

ソフトウェアの耐用年数と償却方法を徹底解説。会計処理の最新実務と具体例

【悲報】Facebook Messengerデスクトップアプリが2025年末にサービス終了！大移行へ

【衝撃】メタ、AI投資の裏で2万人超のレイオフか？ザッカーバーグCEOの賭け

【警告】AIチャットボットが妄想を加速？精神疾患リスク者への影響が専門家から提言

【速報】タイ・カンボジア国境で発見！詐欺組織の全貌と125億ドル規模の闇

【衝撃】SNS無限スクロールは“薬物”？内部告発者が暴く中毒性のメカニズム

【速報】プライムビデオ料金が4.99ドルに！広告なし「ウルトラ」新機能も、NBA放映権投資は？

概要

ポイント

詳しい記事の内容はこちらから

参照元について

中国研究者に英国GP記録の半数開放、諜報機関の懸念と医療データ共有の狭間

【衝撃】アンソロピック、国防総省と激突！AI倫理の限界と軍事利用の行方

【速報】Claude利用は継続！国防総省の指定、マイクロソフト・グーグルは影響なし

ソフトウェアの耐用年数と5年ルール：実際の運用・税制・最新事例を徹底解説

『TechCrunch』のプロフィールと信ぴょう性について

AI創薬の新潮流、Latent Labsが自然を超えるタンパク質を創造

ソフトウェアの耐用年数と償却方法を徹底解説。会計処理の最新実務と具体例

【悲報】Facebook Messengerデスクトップアプリが2025年末にサービス終了！大移行へ

【衝撃】メタ、AI投資の裏で2万人超のレイオフか？ザッカーバーグCEOの賭け

【警告】AIチャットボットが妄想を加速？ 精神疾患リスク者への影響が専門家から提言

【速報】タイ・カンボジア国境で発見！詐欺組織の全貌と125億ドル規模の闇

【衝撃】SNS無限スクロールは“薬物”？内部告発者が暴く中毒性のメカニズム

【速報】プライムビデオ料金が4.99ドルに！広告なし「ウルトラ」新機能も、NBA放映権投資は？

【警告】AIチャットボットが妄想を加速？精神疾患リスク者への影響が専門家から提言