モデルの能力を問うとき、従来の基準はベンチマークスコアだった。だが Gemini 3.5 は、その評価軸ごと動かそうとしている。
Google DeepMind は 5 月 19 日、Gemini 3.5: frontier intelligence with action を発表した。シリーズ最初のリリースは 3.5 Flash で、エージェントとコーディングにおけるフロンティア性能を訴求する。Gemini アプリ・Google 検索の AI Mode・開発者向け API・エンタープライズ向けプラットフォームすべてで即日展開されており、3.5 Pro は来月のリリースを予定している。
名称に込められた転換
モデル名に「action(行動)」を明示したのは、単なる修辞ではない。従来のフロンティアモデルが「どれだけ正確に答えられるか」を競ってきたのに対し、Gemini 3.5 が標榜するのは「どれだけ長い仕事を完遂できるか」だ。
Google が強調するのは long-horizon task への対応だ。コーディングやワークフロー自動化のように「複数ステップが連鎖し、途中の判断が結果を左右するタスク」で真価が問われる設計を志向している。単体の応答精度より、一連の処理を完走できるかどうかが中心になる。
「完遂できるか」という問いへ
この変化は、モデル選択の問い方を変える。「性能がいい」という基準から「何をどこまで任せられるか」という基準へ。ベンチマーク上の優劣よりも、実際のタスクで途中中断なく完走できるかどうかが問われる。
Gemini 3.5 Flash がそのベースラインをどこに引くかは今後の実装検証に委ねられる。ただ少なくとも Google は、この競争軸を正面から宣言した。エージェント実装を進める立場では、公式ベンチマーク以上に「実タスクでの完遂率」をどう測るかを検討する価値が出てきた。
関連記事
- I/O 2026: Welcome to the agentic Gemini era
- New ways to create and get things done in Google Workspace
- How AI Mode is changing the way people search in the U.S.
参考文献
コメント