AIコーディング支援の生産性研究が測っていないもの

「Copilotを使うと開発速度が55%向上する」という数字を、一度は目にしたことがあるはずだ。GitHubが2022年に発表した調査結果で、以来この数字はAIコーディング支援ツール導入の根拠として営業資料や技術記事に広く引用されている。

この数字を見るたびに確認したくなるのは、何を測ったかだ。

タスク完了時間だけが見えている

GitHubの調査における「タスク」は、HTTPサーバーをJavaScriptで実装するというシナリオだった。参加者はCopilotあり・なしのグループに分けられ、完了時間が記録された。

この設計は一定の合理性を持つが、計測範囲が限定されている。測られているのは「書く速さ」であり、コードレビュー、テスト、セキュリティ確認、設計議論といったフェーズは含まれない。AIが生成したコードがこれらの工程を短くするのか、逆に増やすのかは、この調査からは分からない。

2023年にスタンフォード大学の研究グループが行った実験では、AIコード生成ツールを使ったグループのほうが、使わなかったグループよりセキュリティ上の脆弱性を含むコードを提出する割合が有意に高かった。速く書けたコードがレビューで差し戻されたり、後から脆弱性対応が必要になるコストは、生産性の計算に含まれていない。

語られていないのはレビュアーのコスト

「生産性が上がった」という語りの中で、ほとんど登場しない人物がいる。レビュアーとシニアエンジニアだ。

AIが生成したコードのレビューは、人間が書いたコードのレビューと同じではない。表面的には正しそうに見えるが、プロジェクト固有の設計判断を無視した実装や、文脈の理解が浅いコードが混じることがある。これを判定するには、むしろ深い読み込みが求められる。ジュニアエンジニアの出力量が増える一方で、シニアのレビュー負荷が上がる構造が現場で起きているとすれば、個人の速度が上がってもチーム全体のスループットが上がるとは言いきれない。

研究の多くがツール提供側から出ている

現在流通しているAIコーディング支援ツールの効果に関する研究の多くは、ツール提供企業またはその委託機関から出ている。GitHubのCopilot研究はGitHub自身が実施した。McKinseyやAccentureのレポートも、多くはサービス導入を推進する文脈で出てくる。

独立した第三者による再現研究が積み重なるには、まだ時間がかかる。現時点では、「AIで生産性が上がった」という数字を導入判断の根拠として使う前に、その数字の設計と出所を確認する手間は省けない。

懐疑は否定ではない

念のために言っておくと、これはAIツール全般を否定したいわけではない。補完・検索・定型処理の自動化において、AIツールが現場で一定の価値を出すことは体感として分かっている。

問題は、「効果がある」という主張を裏づける数字の質が一様でないことと、計測されていない側面が多いことだ。「AIで速くなる」は結論ではなく、自分のチームのどのフェーズで何がどう変わるかを確認する問いの入り口にすぎない。

生成AIをめぐる主張は速く、多く、確信に満ちている。だからこそ、一歩引いて根拠を読み返す場所が必要だと考えている。週刊 AI 懐疑論は、その作業を毎週続ける連載だ。

関連記事

コメント

タイトルとURLをコピーしました