「賢くなった」を誰が決めているか

週次でモデルリリースが積み重なるようになって久しい。「過去最高のスコアを達成」「推論能力が大幅に向上」という発表が届くたびに、一つ確認したくなることがある。その評価は、誰がやったのか、と。

自己採点の構造
スコアが下がるとき
ベンチマークの外側
「推論」という言葉の問題
数字より先にやること
関連記事

自己採点の構造

生成AIの性能評価において、開発者が評価指標を選び、自ら測定し、自ら結果を公表するという構造が常態化している。医薬品の臨床試験であれば独立性が規制で担保されるが、AIには相当する制度がない。ベンチマークの選定から実施まで、基本的にはベンダー裁量だ。

これはフェアプレーの問題ではない。構造上、「自分たちが得意な形式で測ったスコア」を外部から見分ける手段が限られるという問題だ。

スコアが下がるとき

訓練データへのテスト問題の混入（データ汚染）は、複数の独立した研究で指摘されている。高スコアがモデルの汎化能力を示しているのか、訓練時の記憶なのか、外部から判断する方法は今のところ確立されていない。

Papers with CodeやHugging Faceで公開されている独立評価では、ベンダー発表時より低いスコアが出ることがある。差分が誤差の範囲に収まることもあるが、そうでないケースも存在する。どちらの数字を信じるかは、評価の独立性をどこまで信頼するかの問題でもある。

ベンチマークの外側

実務に引きつけると、乖離はさらに顕著になる。コーディングベンチマークで高い正答率を示すモデルが、実際のコードレビューや設計の補助として安定して使えるかは、別の話だ。

HumanEvalやSWE-benchの問題設定は、境界が明確で副作用が少ない。現実のコードベースはそうではない。レガシー依存、暗黙の仕様、チームローカルな慣習が絡み合う文脈では、ベンチマークのスコアはほとんど参考にならない。

「推論」という言葉の問題

最近のモデルは「推論能力が向上した」と紹介されることが多い。ここにも一つ引っかかりがある。

LLMにおける「推論」は、人間の推論とは機構が異なる。連鎖的なトークン予測の積み上げが、特定の問題形式に最適化された結果として高スコアを出している可能性を、外部から完全には排除できない。「推論できる」という言葉は自然に聞こえるが、「推論に見える出力を生成する確率が上がった」の方が、現時点では誠実な表現に近い。

言葉の精度を落とすと、判断の精度も落ちる。

数字より先にやること

懐疑論を書くと「ではどうすればいいのか」と返ってくることがある。

答えは単純だ。自社のユースケースで実際に試すことだ。汎用ベンチマークは参考値にとどめ、自分たちが使う文脈でモデルを評価する。その結果だけが、自分たちにとって信頼できる数字になる。

「AIは賢くなった」は一つの事実を指しているように聞こえるが、実際には「特定の形式の問題に対して、特定の指標で、開発者が選んだ条件下での数値が上がった」という複合的な状況の省略形だ。

省略をほどくことが、適切な期待値設定の出発点になる。