黒川律

AI規制・政策

「禁止」で守れるか——EUの合意が問う規制の実効性

性的画像の無許可AI生成禁止へ EU AI法修正で暫定合意 - ITmedia AI+EU加盟国と欧州議会は5月7日、Grokで問題化した非合意の性的画像をAIで生成する「利用」を禁止する修正に暫定合意した。2026年12月2日から適用され...
AI規制・政策

AIが落とすのは機能でなく、義務だ

先日Zennに公開されたAI SaaSの全工程を体系的に監査して69件の漏れを見つけた話 — 食品表示法準拠からコンテキスト最適化までは、Claude Codeのマルチエージェント体制で開発された飲食店向けAI原価計算SaaS「Genka」...
コラム

「AI効果が出ています」を誰も検証しない問題

生成AIの「導入事例」が増え続けている。業務効率化、コスト削減、生産性向上——そうした成果が、各社の発表やメディアを通じて積み上がっていく。だが立ち止まって考えると、それらの多くは「体感として速くなった」「以前より楽になった」という感想に近...
コラム

「賢くなった」を誰が決めているか

週次でモデルリリースが積み重なるようになって久しい。「過去最高のスコアを達成」「推論能力が大幅に向上」という発表が届くたびに、一つ確認したくなることがある。その評価は、誰がやったのか、と。自己採点の構造生成AIの性能評価において、開発者が評...
コラム

スコアが高くても「使えない」の正体

OpenAIがo3を発表したとき、ベンチマーク数字のインパクトは並外れていた。ARC-AGIで87.5%、GPQAダイヤモンドで87.7%、AIME 2024では96.7%——どの指標も、人間のトップパフォーマンスを射程に入れる水準だった。...
AIビジネス

「育成設計を組み直す」前に問うべきこと——AI研修改革の見えないコスト

ITmediaビジネスオンラインに掲載された「AI研修を1コマ追加」では変わらない 新入社員を戦力にする教育設計は、既存研修への単発追加では新人のAI活用力が育たない実態を整理し、オンボーディング・OJT・メンター設計を含むシステム的な再構...
生成AI

スコアが伸びるほど、見えなくなるもの

ベンチマークは何を測っているかまず、事実を認めるところから始める。ここ数年で主要な言語モデルのベンチマークスコアは大きく伸びた。MMLU、HumanEval、GSM8K──どの指標を取っても、2022年から2025年にかけての上昇幅は目を見...
生成AI

AIコーディング支援の生産性研究が測っていないもの

「Copilotを使うと開発速度が55%向上する」という数字を、一度は目にしたことがあるはずだ。GitHubが2022年に発表した調査結果で、以来この数字はAIコーディング支援ツール導入の根拠として営業資料や技術記事に広く引用されている。こ...
AI規制・政策

源内のコードは公開された。共創の実質は、これから問われる

政府AI「源内」オープンソース化 GitHubで公開、商用利用もOK 民間と共創へ(ITmedia AI+)デジタル庁は4月24日、生成AI利用環境「源内」の一部をGitHub上にオープンソースとして公開した。対象はWebインターフェースの...
AI規制・政策

なぜ対立が先で、協力が後なのか — Mythos騒動が示したAI開発の構造的問題

Anthropicとホワイトハウス、Mythosへの懸念高まりを受けて"仲直り"を模索かAnthropicは2月、国防総省からAIセーフガードの撤廃要求を拒否し、サプライチェーンリスクに指定された。その後4月7日に発表した「Claude M...