AIエージェントと弁護士AIのベンチマークニュース概要

先月、メルコアが法務や企業分析などの専門タスクでAIエージェントの能力を測定する新ベンチマークを発表したが、主要研究所のスコアはすべて25%未満で、弁護士は当面AIに取って代わられないと結論付けた。
しかし、AIの性能は数週間で大きく変化する可能性がある。
今週、アンソロピックが公開した Opus 4.6 がリーダーボードを一変させ、ワンショット試験で約30%、数回試行すると平均45%のスコアを記録した。
新機能として「エージェントスウォーム」などのエージェント機能が追加されており、マルチステップ問題の解決に寄与したと考えられる。
メルコア CEO のブレンダン・フーディーは「数か月で18.4%から29.8%に跳躍するのは凄まじい」とコメントした。
スコアは前回の最高値から大幅に上昇したが、依然として100%には遠く、弁護士がすぐに機械に置き換えられるリスクは低い。
ただし、先月に比べて自信を持ちすぎない方が賢明である。




エージェントスウォームによる性能向上の注目ポイント

  1. メルコアのベンチマークでは、昨月は主要研究所のスコアが25%以下で、弁護士は当面AIに取って代わられないと結論付けられた。
  2. アンソロピックのオーパス4.6が登場し、ワンショットで約30%、数回試行で平均45%と大幅に向上し、エージェント・スワームが多段階問題解決に寄与した。
  3. スコアはまだ100%未満だが、数ヶ月で18.4%→29.8%へ急上昇し、弁護士は以前ほど自信を持てなくなるべきだ。

AIエージェントと弁護士AIの将来リスクの分析・解説

メルコーが提示したプロフェッショナルタスク向けベンチマークでは、従来の主要ラボは25%未満のスコアで弁護士はAIに取って代わられないと結論付けられた。

今週リリースされたアンソロピックのオーパス4.6は、ワンショットで約30%、複数回試行で平均45%という大幅な伸びを示した。

新たに導入されたエージェントスウォーム機能がマルチステップ問題解決を促進し、基盤モデルの進化が停滞しないことを示唆する。

スコアは100%には遠く、即時の職業脅威はないが、法曹界はAIの急速な性能向上を警戒し、適応戦略を再考すべきである。

※おまけクイズ※

Q. メルコアが発表したAIエージェントの能力を測定する新ベンチマークにおいて、先月、主要研究所のスコアはどの程度でしたか?

ここを押して正解を確認

正解:すべて25%未満

解説:記事の概要部分で、メルコアが発表した新ベンチマークにおける主要研究所のスコアが25%未満であったことが言及されています。




詳しい記事の内容はこちらから

参照元について