週刊AI懐疑論 #1|「生産性55%向上」は何を測ったのか

何が「生産性」なのかを問わずに、数字を受け取っている

「AIコーディングアシスタントで生産性が55%向上した」

GitHubが2022年に発表したこの数字は、その後のAI開発ツール議論のベースラインになった。McKinsey、Deloitte、Accenture——コンサル各社の調査もこれに続き、「生産性向上」を謳う数字が積み上がっていく。

問題は、これらの数字を引用する側が、測定設計を見ていないことだ。

参照: GitHub公式ブログ「Research: quantifying GitHub Copilot’s impact on developer productivity and happiness」(2022年9月)

「55%向上」は何を測ったか

GitHubの研究が対象としたのは、参加者がHTTPサーバーを実装するという孤立したタスクだ。「Copilotあり」と「Copilotなし」の条件でそれぞれ計測し、タスク完了時間に差が出た。この部分は事実だ。

だが、この実験が測っていないものがある。

  • コードレビューにかかる時間
  • AI生成コードのデバッグ工数
  • 本番環境で顕在化した問題の対処コスト
  • チームメンバーが生成コードを読むためのコンテキスト理解コスト

「タスクを速く完了した」と「開発全体が速くなった」は別の話だ。計測されたのは前者であり、語られているのは後者だ。

レビューコストという見えないコスト

AIが生成したコードは、レビューを省けない。むしろ、レビュー密度を上げないといけない。

自分で書いたコードは、書いた人間が意図を知っている。AIが生成したコードは、提案の根拠が不透明で、エッジケースへの対応が省かれていることが多い。

GitHub自身の別の調査では、Copilotで生成されたコードの「承認率(acceptance rate)」は26〜27%程度とされている。生成されたコードの4分の3は棄却か修正される。この棄却・修正にかかる工数は、生産性測定の分母に入っていない。

さらに言えば、承認されたコードが正しいとは限らない。承認は「問題ないと判断した」ことを意味するが、潜在的な問題が見逃されていた場合は後工程で顕在化する。

「誰の生産性か」という問いが抜けている

もう一つ見落とされているのは、「誰の生産性が上がっているか」という問いだ。

AIコーディングアシスタントは、既存のパターンを流暢に補完するのが得意だ。経験のある開発者ほど、この補完を正確に評価し、適切に取捨選択できる。

一方、経験の浅い開発者がAI生成コードを採用する際のリスクは、数字に現れにくい。「速く書けた」と本人は感じても、設計上の問題、セキュリティ上の見落とし、メンテナンスコストを増やす実装が含まれていた場合、そのコストは将来の誰かが払うことになる。

「生産性が上がった」という実感と、「品質のある成果が速く出た」は、検証方法が違う。

数字が指しているものと、現場が呼ぶものの距離

AIツールの評価に数字が出てきたとき、確認すべきなのは数字の大きさではなく、その数字が何を測ったかだ。

  • サンプルは誰か(プロの開発者か、学生か、特定スキルセットか)
  • タスクはどの範囲か(孤立したコーディングタスクか、実際のプロダクト開発か)
  • 計測されていないコストはどこにあるか
  • その数字が誰にとって都合がいいか

「55%向上」は嘘ではないかもしれない。ただ、その数字が指しているものは、私たちが日常的に「生産性」と呼んでいるものとは、ずれている可能性が高い。

週刊AI懐疑論は、こうした数字と語られ方のズレを毎週1本拾っていく連載だ。#1 はその出発点として、最も広く引用される根拠から始めた。

関連記事

コメント

タイトルとURLをコピーしました