Introducing computer use in Gemini 3.5 Flash で、Google は Gemini 3.5 Flash に computer use を内蔵ツールとして追加したと発表しました。従来は Gemini 2.5 の専用 computer use モデルとして提供されていた機能が、主要な Flash モデルに統合されます。対象はブラウザ、モバイル、デスクトップ環境を横断するエージェント開発です。
ここで重要なのは、単に「画面を操作できるモデルが増えた」という点ではありません。computer use が汎用モデルの外側にある特殊機能ではなく、通常の開発経路に組み込まれ始めたことです。
これまで業務エージェントを作るとき、開発者は大きく二つの層を分けて考える必要がありました。API を呼べる範囲は function calling で扱い、API 化されていない画面操作は別の自動化基盤や専用モデルに任せる。つまり、エージェントの設計は「どこまでが構造化された API で、どこからが人間向け UI か」という境界に強く縛られていました。
Gemini 3.5 Flash に computer use が入ると、この境界は少し薄くなります。検索や Maps grounding、function calling と同じモデル文脈の中で、画面を見て、推論し、操作する流れを扱えるためです。継続的なソフトウェアテスト、業務アプリをまたぐナレッジワーク、社内ツールの定型処理のように、API だけでは完結しない領域で試しやすくなります。
もちろん、これは即座に人間の操作を置き換えるという話ではありません。Google も、間接プロンプトインジェクションへの対策、取り消しにくい操作での明示確認、サンドボックス化やアクセス制御、人間の確認を組み合わせる必要性を示しています。むしろ実務上の論点は、どこまで自律実行させるかではなく、どの操作をモデルに任せてもよい形に分解できるかに移ります。
導入判断で見るべきなのは、モデル性能そのものより、業務フローの設計可能性です。画面操作を含むタスクを、観察、判断、実行、確認に分けられるか。失敗時に止められるか。権限を狭くできるか。そこまで設計できる組織ほど、computer use を単発デモではなく、実際の自動化レイヤーとして使いやすくなります。
Gemini 3.5 Flash の発表は、エージェント開発が「API のある場所だけを自動化する段階」から、「人間向け UI を含む業務全体をどう制御可能にするか」へ進みつつあることを示しています。開発者にとっての機会は、万能な操作エージェントを待つことではありません。いまの業務を、モデルが安全に扱える単位へ再設計することにあります。
関連記事
- Inside Microsoft’s two-decade push to cut water intensity while scaling for growth
- OpenAI and Broadcom unveil LLM-optimized inference chip
- Build real agentic apps using CUGA: two dozen working examples on a lightweight harness
参考文献
コメント