AIエージェントを「業務現場」で評価する物差しが届いた——EVA-Bench Data 2.0

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios（ServiceNow AI / HuggingFace）

航空カスタマーサービス・ITサービス管理・医療人事の3ドメインをカバー
121ツール・213シナリオを収録し、初版から約4倍に拡張
各シナリオに「正解の解決パスが1つ」存在するよう設計し、再現性を確保

これまでのエージェント評価の多くは、孤立したタスクをこなせるかどうかを問うものだった。コードが書けるか、質問に答えられるか——そういう能力の確認だ。しかし実際の業務に展開されたとき、エージェントが問われるのは違う問いになる。「電話口でフライト変更手続きを完了できるか」「認証フローを経てITチケットを更新できるか」——業務文脈への適合性だ。

EVA-Bench 2.0は、その問いを評価の中心に据えた。

3つのドメインはいずれも現実の企業業務を模している。航空は「構造化データの転記精度」、IT管理は「複雑なワークフロー処理」、医療人事は「ポリシー準拠」と、それぞれ固有の難しさを持つ。ツールスキーマや業務ポリシーは実際のプロダクションシステムを参照して設計されており、「作られた問題」ではなく「業務が持ち込む問題」の構造を再現している。

シナリオ設計にも幅がある。単一インテントから最大4つのインテントを持つマルチインテントシナリオ、誘導や矛盾を含む adversarial シナリオまでカバーする。現実の対応シーンに近い難度を意図的にそろえた形だ。

GPT-5.4・Gemini 3.1 Pro・Claude Opus 4.6 での検証を経て MIT ライセンスで公開されている。「自社エージェントが実際の業務文脈でどこまで機能するか」を外部と比較できる基盤が、ここにある。

評価の解像度が上がるほど、「使えるエージェント」と「使えないエージェント」の差は鮮明になる。その差を測る環境が、ようやく現場の粒度に近づいてきた。

関連記事

参考文献

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios