エージェントが「自分で止まれる」ようになる

エージェントに任せた作業が、気づけば想定外の方向に進んでいた。そんな経験が、エージェントAIへの信頼を静かに削いでいる。

Anthropicは5月28日、Introducing Claude Opus 4.8 | Anthropic を公開した。前バージョン(4.7)からベンチマーク全般で改善され、価格は据え置き。Claude Codeには大規模タスクを処理する「ダイナミックワークフロー」が追加され、Fast Modeは従来比3倍の低コストで2.5倍の速度を実現する。

Opus 4.8に関するテスター評価で繰り返し登場するのが「judgment(判断力)」という言葉だ。複数サービスにまたがる複雑な操作で確認を入れ、自分のミスを検知し、無理のある計画を押し返す。Super-Agentベンチマークでは全ケースを完了した唯一のモデルとなり、同コストでGPT-5.5と対等以上の成果を出している。

Before/Afterで見ると、変化の方向は明確だ。従来のモデルは「精度は高いが、結果の確認が必要」だった。Opus 4.8は「進めてよい場面と止まる場面を自分で判断できる」方向に動いている。CursorBenchでも先行バージョンをすべてのエフォートレベルで超え、ツール呼び出しのステップ数も削減されている。

エージェントを実務で使い続ける上での障壁は、ベンチマークの数字ではなく「このまま任せていいか」という感覚だ。自律的に動きながら、適切なタイミングで止まり確認できるモデルは、スペックより手触りが変わる。Opus 4.8が示すのは性能の底上げに加え、エージェントとの協働様式そのものの変化だ。


関連記事


参考文献

コメント

タイトルとURLをコピーしました