Gemini 3.5 が問い直す、「使えるモデル」の条件

モデルの能力を問うとき、従来の基準はベンチマークスコアだった。だが Gemini 3.5 は、その評価軸ごと動かそうとしている。

Google DeepMind は 5 月 19 日、Gemini 3.5: frontier intelligence with action を発表した。シリーズ最初のリリースは 3.5 Flash で、エージェントとコーディングにおけるフロンティア性能を訴求する。Gemini アプリ・Google 検索の AI Mode・開発者向け API・エンタープライズ向けプラットフォームすべてで即日展開されており、3.5 Pro は来月のリリースを予定している。

名称に込められた転換

モデル名に「action(行動)」を明示したのは、単なる修辞ではない。従来のフロンティアモデルが「どれだけ正確に答えられるか」を競ってきたのに対し、Gemini 3.5 が標榜するのは「どれだけ長い仕事を完遂できるか」だ。

Google が強調するのは long-horizon task への対応だ。コーディングやワークフロー自動化のように「複数ステップが連鎖し、途中の判断が結果を左右するタスク」で真価が問われる設計を志向している。単体の応答精度より、一連の処理を完走できるかどうかが中心になる。

「完遂できるか」という問いへ

この変化は、モデル選択の問い方を変える。「性能がいい」という基準から「何をどこまで任せられるか」という基準へ。ベンチマーク上の優劣よりも、実際のタスクで途中中断なく完走できるかどうかが問われる。

Gemini 3.5 Flash がそのベースラインをどこに引くかは今後の実装検証に委ねられる。ただ少なくとも Google は、この競争軸を正面から宣言した。エージェント実装を進める立場では、公式ベンチマーク以上に「実タスクでの完遂率」をどう測るかを検討する価値が出てきた。


関連記事


参考文献

コメント

タイトルとURLをコピーしました