【衝撃】AIエージェントが30%突破!エージェントスウォームで弁護士AI危機感45%上昇
AIエージェントと弁護士AIのベンチマークニュース概要
先月、メルコアが法務や企業分析などの専門タスクでAIエージェントの能力を測定する新ベンチマークを発表したが、主要研究所のスコアはすべて25%未満で、弁護士は当面AIに取って代わられないと結論付けた。
しかし、AIの性能は数週間で大きく変化する可能性がある。
今週、アンソロピックが公開した Opus 4.6 がリーダーボードを一変させ、ワンショット試験で約30%、数回試行すると平均45%のスコアを記録した。
新機能として「エージェントスウォーム」などのエージェント機能が追加されており、マルチステップ問題の解決に寄与したと考えられる。
メルコア CEO のブレンダン・フーディーは「数か月で18.4%から29.8%に跳躍するのは凄まじい」とコメントした。
スコアは前回の最高値から大幅に上昇したが、依然として100%には遠く、弁護士がすぐに機械に置き換えられるリスクは低い。
ただし、先月に比べて自信を持ちすぎない方が賢明である。
エージェントスウォームによる性能向上の注目ポイント
- メルコアのベンチマークでは、昨月は主要研究所のスコアが25%以下で、弁護士は当面AIに取って代わられないと結論付けられた。
- アンソロピックのオーパス4.6が登場し、ワンショットで約30%、数回試行で平均45%と大幅に向上し、エージェント・スワームが多段階問題解決に寄与した。
- スコアはまだ100%未満だが、数ヶ月で18.4%→29.8%へ急上昇し、弁護士は以前ほど自信を持てなくなるべきだ。
AIエージェントと弁護士AIの将来リスクの分析・解説
メルコーが提示したプロフェッショナルタスク向けベンチマークでは、従来の主要ラボは25%未満のスコアで弁護士はAIに取って代わられないと結論付けられた。
今週リリースされたアンソロピックのオーパス4.6は、ワンショットで約30%、複数回試行で平均45%という大幅な伸びを示した。
新たに導入されたエージェントスウォーム機能がマルチステップ問題解決を促進し、基盤モデルの進化が停滞しないことを示唆する。
スコアは100%には遠く、即時の職業脅威はないが、法曹界はAIの急速な性能向上を警戒し、適応戦略を再考すべきである。
※おまけクイズ※
Q. メルコアが発表したAIエージェントの能力を測定する新ベンチマークにおいて、先月、主要研究所のスコアはどの程度でしたか?
ここを押して正解を確認
正解:すべて25%未満
解説:記事の概要部分で、メルコアが発表した新ベンチマークにおける主要研究所のスコアが25%未満であったことが言及されています。


