Artificial Analysis と IBM Software Innovation Lab が ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks を公開した。エンタープライズIT向け初のエージェント特化ベンチマークで、Kubernetes インシデント対応をタスクとする。現時点のフロンティアモデル最高スコアは Claude Opus 4.7 の 47%、全モデルが 50% を下回った。
この数字を「まだ使えない」と読むのは早い。逆の読み方がある。
ログ読み取り、依存関係のトレース、根本原因の特定——これまで「属人的なスキル」とされてきたSRE業務が、ベンチマークとして定義された。測れる問題になったとき、改善競争が始まる。エンタープライズITの現場は長らく「AIに任せるには複雑すぎる」とされてきたが、その複雑さに評価軸がついた意味は大きい。
もう一点見逃せないのが、ターン数と精度の関係だ。GPT-5.5 は平均 31 ターンで 46% を出す一方、Gemini 3.1 Pro Preview は 83 ターンで 30% にとどまった。長く調べることと正確に診断することは別の話で、どこで調査を打ち切り何を根拠と判断するか——エージェントの「調査の収束力」が問われている。
これはSREエージェント設計の競争軸を変える。「より多くのツールを呼ぶ」方向ではなく、「より早く根本原因に収束する」設計が評価される時代に入りつつある。スコアが低いうちに設計の方向性が定まることは、むしろ好機だ。
今後は FinOps・CISO タスクへの拡張も予定されている。エンタープライズITの主要業務を「エージェントが解ける形式」として整備するこのシリーズは、2026年後半の実用化競争の地図を変える起点になりうる。
出典: ITBench-AA — Hugging Face Blog
関連記事
- Investigation update: GitHub Enterprise Server signing key rotation
- Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL
- AIエージェントは、法改正や仕様変更への継続対応を、人間の調整なしに自動適応できるのか?
参考文献
コメント