AIの科学力は、正解率より「研究判断」で測る段階に入った

OpenAIはIntroducing GeneBench-Proで、ゲノミクス、定量生物学、トランスレーショナル医療を対象にした新しい研究レベルのベンチマークを公開しました。

GeneBench-Proは、129問の複雑な分析課題を通じて、AIエージェントが曖昧なデータを扱い、分析方針を選び、結果を意思決定に結びつけられるかを測るものです。OpenAIによれば、最上位モデルでも最高設定での合格率は31.5%にとどまっています。

この発表で重要なのは、AIが生物学に強くなったという単純な話ではありません。評価対象が「知識を持っているか」や「手順を実行できるか」から、「研究上の判断をどこまで任せられるか」へ移り始めている点です。

科学研究の現場では、データはきれいな入力として与えられません。外れ値をどう見るか、前提が崩れたときに分析計画を変えるべきか、その結果を次の実験や臨床判断に使ってよいか。こうした判断は、コード実行や文献検索よりも曖昧で、しかも失敗したときの影響が大きい領域です。

GeneBench-Proは、この曖昧さを評価対象に置いています。問題は合成データで作られ、正解の生成過程を把握したうえで採点できるように設計されています。つまり、もっともらしい説明をしたかではなく、適切な分析経路を選べたかを測ろうとしているわけです。

実務者にとっての論点は、AIを研究者の代替として見るかどうかではありません。現時点では、OpenAI自身も現在のエージェントは人間の専門家を置き換えるには信頼性が足りないとしています。一方で、人間の専門家が20〜40時間かけるような問題に、AIが部分的にでも到達し始めているなら、活用の場所はあります。

たとえば、仮説探索、分析方針の候補出し、品質管理上の見落とし検出、再現性確認の補助です。ここではAIに最終判断を渡すのではなく、人間が判断する前の探索空間を広げる役割が現実的です。

GeneBench-Proが示しているのは、生成AI導入の評価軸も変える必要があるということです。速く答えるか、正しい断片知識を返すかだけでは、高リスクな専門業務では足りません。これから問うべきなのは、AIが不確実な状況で前提を疑い、分析を修正し、どこまでを意思決定可能な結果として扱えるかです。

AIの科学応用は、性能競争から運用設計の段階に入りつつあります。強いモデルを選ぶだけでなく、どの判断をAIに任せ、どの判断を人間が保持するのか。その境界を設計できる組織ほど、研究AIの価値を早く引き出せるはずです。

関連記事

参考文献

Introducing GeneBench-Pro