連載

生成AI

【AIエージェント実地観察記 第5話】「任せる設計」がエージェント時代の本題になる

連載も5回目になると、観察の角度が変わってくる。序盤は「エージェントが動くかどうか」を眺めていた。今は「どこまで任せていいか」を考えながら見ている。この視点の移動自体が、業界全体に起きていることだと思う。Google Cloud が公開した...
生成AI

【AIエージェント実地観察記 第4話】エージェントが問い返す——実行から問題定義への参加

今回の観察は、少し意外なところから始まった。エージェントに「このレポートをまとめてください」と依頼したとき、返ってきたのは完成稿ではなく、一連の問いだった。「どの期間のデータを使いますか?」「読者は社内向けですか、対外向けですか?」「優先し...
生成AI

【AIエージェント実地観察記 第4話】「任せる設計」が実用段階に入った——AIエージェント実地観察記 第4話

今回の観察テーマは「委任の粒度」です。半年前まで、AIエージェントへの期待は二極化していました。「全部任せれば動いてくれる」という楽観と、「結局プロンプトを書く手間が増えるだけ」という落胆——現場で試すと、その中間に着地することがほとんどで...
生成AI

スコアが伸びるほど、見えなくなるもの

ベンチマークは何を測っているかまず、事実を認めるところから始める。ここ数年で主要な言語モデルのベンチマークスコアは大きく伸びた。MMLU、HumanEval、GSM8K──どの指標を取っても、2022年から2025年にかけての上昇幅は目を見...
生成AI

AIコーディング支援の生産性研究が測っていないもの

「Copilotを使うと開発速度が55%向上する」という数字を、一度は目にしたことがあるはずだ。GitHubが2022年に発表した調査結果で、以来この数字はAIコーディング支援ツール導入の根拠として営業資料や技術記事に広く引用されている。こ...
生成AI

週刊AI懐疑論 #1|「生産性55%向上」は何を測ったのか

何が「生産性」なのかを問わずに、数字を受け取っている「AIコーディングアシスタントで生産性が55%向上した」GitHubが2022年に発表したこの数字は、その後のAI開発ツール議論のベースラインになった。McKinsey、Deloitte、...