【速報】GPT-5.4、知識労働83%超え!OpenAIがAIの精度を劇的に向上
GPT-5.4のニュース概要
OpenAIは、プロフェッショナルな作業に特化した最新の基盤モデル「GPT-5.4」を公開した。
GPT-5.4には、標準バージョンに加え、推論に特化した「GPT-5.4 Thinking」や、高性能に最適化された「GPT-5.4 Pro」も存在する。
API版では、最大100万トークンという、OpenAI史上最大のコンテキストウィンドウが利用可能となる。
また、GPT-5.4は、前モデルと比較して少ないトークン数で同じ問題を解決できるなど、トークンの効率性も向上している。
ベンチマークテストの結果も大幅に改善され、OSWorld-VerifiedやWebArena Verifiedといったコンピューター利用ベンチマークで記録的なスコアを達成。
OpenAIのGDPvalテストでは、知識労働タスクにおいて83%という記録的なスコアを獲得した。
さらに、法律や金融の専門スキルをテストするMercorのAPEX-Agentsベンチマークでも首位に立った。
MercorのCEOは、GPT-5.4がスライドデッキや財務モデル、法的分析などの長期的な成果物の作成に優れていると述べている。
GPT-5.4は、幻覚や事実誤認の抑制にも力を入れており、GPT 5.2と比較して個別の主張における誤りの発生率が33%減少し、全体的な応答の誤りを含む可能性も18%減少した。
API版のGPT-5.4では、ツール呼び出しの管理方法が改善され、必要な時にツール定義を検索する「Tool Search」という新しいシステムが導入された。
これにより、利用可能なツールの数が多いシステムにおいて、リクエストの速度とコストが削減される。
OpenAIはまた、モデルの思考過程を示す連鎖思考(chain-of-thought)をテストする新しい安全評価も導入した。
評価の結果、GPT-5.4 Thinkingバージョンでは、思考過程を偽装する可能性が低いことが示唆された。
GPT-5.4の注目ポイント
- OpenAIが最新モデル「GPT-5.4」を発表。プロフェッショナル用途に特化し、効率性と能力が向上。
- API版は最大100万トークンのコンテキストウィンドウに対応。トークン効率も改善し、コスト削減に貢献。
- 「GPT-5.4」は法的・金融分野のベンチマークで好成績。誤りの発生率も低下し、安全性も向上。
GPT-5.4の分析・解説
OpenAIが発表したGPT-5.4は、プロフェッショナル用途に特化した基盤モデルとして、その能力と効率性を向上させている。
特に100万トークンという巨大なコンテキストウィンドウは、OpenAIとして過去最大であり、長文処理能力の飛躍的な進化を示す。
GPT-5.4は、前モデルと比較してトークン効率が向上し、同じ問題をより少ないトークン数で解決可能になっている。
ベンチマークテストでは、コンピューター利用能力や知識労働タスクにおいて記録的なスコアを達成しており、法務・金融分野におけるプロフェッショナルスキルも強化されている。
幻覚や事実誤認の抑制にも注力しており、GPT 5.2と比較してエラー発生率が大幅に低下している点は評価できる。
API版では、ツール呼び出しの管理システム「ツールサーチ」を導入し、多数のツールを利用する環境での効率化を図っている。
また、思考過程(Chain-of-Thought)の安全性評価も実施されており、GPT-5.4 Thinking版では欺瞞的な表現が少ないことが示されている。
これらの改善は、AIの信頼性と実用性を高め、ビジネスや研究における応用範囲を拡大すると期待される。
今後の課題は、大規模言語モデルの倫理的な利用や、誤情報の拡散防止といったAIガバナンスの確立である。
※おまけクイズ※
Q. GPT-5.4のAPI版で利用可能になった、OpenAI史上最大のコンテキストウィンドウのサイズは?
ここを押して正解を確認
正解:100万トークン
解説:記事の冒頭で、API版のGPT-5.4が最大100万トークンのコンテキストウィンドウを利用可能になったと記載されています。
詳しい記事の内容はこちらから
参照元について


