エージェントに任せた作業が、気づけば想定外の方向に進んでいた。そんな経験が、エージェントAIへの信頼を静かに削いでいる。
Anthropicは5月28日、Introducing Claude Opus 4.8 | Anthropic を公開した。前バージョン(4.7)からベンチマーク全般で改善され、価格は据え置き。Claude Codeには大規模タスクを処理する「ダイナミックワークフロー」が追加され、Fast Modeは従来比3倍の低コストで2.5倍の速度を実現する。
Opus 4.8に関するテスター評価で繰り返し登場するのが「judgment(判断力)」という言葉だ。複数サービスにまたがる複雑な操作で確認を入れ、自分のミスを検知し、無理のある計画を押し返す。Super-Agentベンチマークでは全ケースを完了した唯一のモデルとなり、同コストでGPT-5.5と対等以上の成果を出している。
Before/Afterで見ると、変化の方向は明確だ。従来のモデルは「精度は高いが、結果の確認が必要」だった。Opus 4.8は「進めてよい場面と止まる場面を自分で判断できる」方向に動いている。CursorBenchでも先行バージョンをすべてのエフォートレベルで超え、ツール呼び出しのステップ数も削減されている。
エージェントを実務で使い続ける上での障壁は、ベンチマークの数字ではなく「このまま任せていいか」という感覚だ。自律的に動きながら、適切なタイミングで止まり確認できるモデルは、スペックより手触りが変わる。Opus 4.8が示すのは性能の底上げに加え、エージェントとの協働様式そのものの変化だ。
関連記事
- Anthropic raises $65B in Series H funding at $965B post-money valuation
- セキュリティ知識をAIに学習させることは脅威能力を高める危険を上回るのか?
- OpenAI’s Frontier Governance Framework
参考文献
コメント