ベンチマークは何を測っているか

まず、事実を認めるところから始める。

ここ数年で主要な言語モデルのベンチマークスコアは大きく伸びた。MMLU、HumanEval、GSM8K──どの指標を取っても、2022年から2025年にかけての上昇幅は目を見張るものがある。「人間水準を超えた」という言葉が何度も使われてきた。

問題は、そのスコアが何を意味するのかが、ほとんど説明されないことだ。

指標が目標になるとき
「正解する」と「使える」の距離
懐疑のコスト、信じることのコスト
関連記事

指標が目標になるとき

ベンチマークは本来、モデルの汎化能力を代理測定するために設計される。だがモデル開発の過程でそのベンチマークが繰り返し参照され、スコア改善が目標になると、数字は「汎化能力」ではなく「そのテストへの最適化」を反映し始める。

経済学に「グッドハートの法則」がある。「測定指標が目標になった瞬間、それは指標として機能しなくなる」という命題だ。ベンチマークとモデル開発の関係は、この法則が適用される典型的な構造に近い。

2024年以降、ARC-AGIやLiveCodeBenchといった「汚染されにくいベンチマーク」への注目が高まったのは、従来の指標がすでに信頼しにくくなってきたという現場の判断を反映している。測定ツールを刷新するサイクルが、年単位で繰り返されている。新しい指標が生まれるたびに「これで本当の能力が測れる」と言われ、数年後にまた同じ議論が始まる。

「正解する」と「使える」の距離

もう一つ、実務から見たズレがある。

ベンチマークは通常、1問1答の構造で測定される。モデルに問題を与え、正解を返せるかどうかを確認する。実際のシステム開発では、この条件は成立しない。

入力の前処理、出力のバリデーション、エラー時の再試行、他コンポーネントとの連携、文脈の保持、曖昧な指示への対応──これらが複合的に絡んだパイプラインの中でモデルがどう振る舞うかは、1問正解とは別の問題だ。「正確に解ける」と「安定して使える」は、評価軸として分けて考える必要がある。

SIerでの設計レビュー経験から言えば、「単体テストが通った」と「システムとして動く」の間には常に距離がある。AIの能力評価も同じ構造だ。スコアは単体テストのようなものと思っておいた方がいい。そして単体テストのスコアだけを見てシステムを本番に出す人はいない。

懐疑のコスト、信じることのコスト

懐疑論という立場は、否定論と混同されやすい。ここで言う懐疑は「AIは使えない」という主張ではない。「その主張は何を前提にしているか」「どんな条件で成り立つか」を問い返す態度だ。

スコアが上がったという事実は否定しない。だが「スコアが上がった＝実務で使える能力が上がった」という読み替えは、前提が一つ抜けている。その前提が省略されたまま導入判断が進むとき、後で出てくる「思ったより使えない」という感想は驚くべきことではない。

AIの進化が速いという事実は、主張の検証を省略する理由にはならない。むしろ進化が速いからこそ、「何がどの程度変わったのか」を正確に見る必要がある。数字を読む解像度を上げることは、適切な導入判断にも直結する。

ベンチマークの話から始めたのは、これがAIの能力を語る言語の基礎にあるからだ。スコアを見るたびに「何が測られていて、何が測られていないか」を問う習慣は、持っておいて損はない。

スコアが伸びるほど、見えなくなるもの

ベンチマークは何を測っているか

指標が目標になるとき

「正解する」と「使える」の距離

懐疑のコスト、信じることのコスト

関連記事

コメント