EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios(ServiceNow AI / HuggingFace)
- 航空カスタマーサービス・ITサービス管理・医療人事の3ドメインをカバー
- 121ツール・213シナリオを収録し、初版から約4倍に拡張
- 各シナリオに「正解の解決パスが1つ」存在するよう設計し、再現性を確保
これまでのエージェント評価の多くは、孤立したタスクをこなせるかどうかを問うものだった。コードが書けるか、質問に答えられるか——そういう能力の確認だ。しかし実際の業務に展開されたとき、エージェントが問われるのは違う問いになる。「電話口でフライト変更手続きを完了できるか」「認証フローを経てITチケットを更新できるか」——業務文脈への適合性だ。
EVA-Bench 2.0は、その問いを評価の中心に据えた。
3つのドメインはいずれも現実の企業業務を模している。航空は「構造化データの転記精度」、IT管理は「複雑なワークフロー処理」、医療人事は「ポリシー準拠」と、それぞれ固有の難しさを持つ。ツールスキーマや業務ポリシーは実際のプロダクションシステムを参照して設計されており、「作られた問題」ではなく「業務が持ち込む問題」の構造を再現している。
シナリオ設計にも幅がある。単一インテントから最大4つのインテントを持つマルチインテントシナリオ、誘導や矛盾を含む adversarial シナリオまでカバーする。現実の対応シーンに近い難度を意図的にそろえた形だ。
GPT-5.4・Gemini 3.1 Pro・Claude Opus 4.6 での検証を経て MIT ライセンスで公開されている。「自社エージェントが実際の業務文脈でどこまで機能するか」を外部と比較できる基盤が、ここにある。
評価の解像度が上がるほど、「使えるエージェント」と「使えないエージェント」の差は鮮明になる。その差を測る環境が、ようやく現場の粒度に近づいてきた。
関連記事
- Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI
- GitHub Universe is back: All together now, in the agentic era
- Biodefense in the Intelligence Age
参考文献
コメント