AIエージェントがSREを「測れる問題」にした日

Artificial Analysis と IBM Software Innovation Lab が ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks を公開した。エンタープライズIT向け初のエージェント特化ベンチマークで、Kubernetes インシデント対応をタスクとする。現時点のフロンティアモデル最高スコアは Claude Opus 4.7 の 47%、全モデルが 50% を下回った。

この数字を「まだ使えない」と読むのは早い。逆の読み方がある。

ログ読み取り、依存関係のトレース、根本原因の特定——これまで「属人的なスキル」とされてきたSRE業務が、ベンチマークとして定義された。測れる問題になったとき、改善競争が始まる。エンタープライズITの現場は長らく「AIに任せるには複雑すぎる」とされてきたが、その複雑さに評価軸がついた意味は大きい。

もう一点見逃せないのが、ターン数と精度の関係だ。GPT-5.5 は平均 31 ターンで 46% を出す一方、Gemini 3.1 Pro Preview は 83 ターンで 30% にとどまった。長く調べることと正確に診断することは別の話で、どこで調査を打ち切り何を根拠と判断するか——エージェントの「調査の収束力」が問われている。

これはSREエージェント設計の競争軸を変える。「より多くのツールを呼ぶ」方向ではなく、「より早く根本原因に収束する」設計が評価される時代に入りつつある。スコアが低いうちに設計の方向性が定まることは、むしろ好機だ。

今後は FinOps・CISO タスクへの拡張も予定されている。エンタープライズITの主要業務を「エージェントが解ける形式」として整備するこのシリーズは、2026年後半の実用化競争の地図を変える起点になりうる。

出典: ITBench-AA — Hugging Face Blog

関連記事

参考文献

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM