AIセーフティの主戦場が変わる——「モデル単体」では届かないリスクの時代へ

AIの安全性評価は長い間、「1つのモデルが単独で何をするか」を問い続けてきた。しかしその視点では捉えられないリスクが、すでに現実になりつつある。

Google DeepMind and partners announce multi-agent safety research funding call では、Google DeepMind をはじめ Schmidt Sciences、Cooperative AI Foundation、ARIA、Google.org が連携し、最大1,000万ドルの研究資金をマルチエージェントAI安全研究に投じると発表した。対象は、異なる組織が構築した大量のAIエージェントが相互に通信・交渉・取引する世界で生じる「集合的リスク」の解明だ。個体評価では見えなかった振る舞いがエージェント間の相互作用から突然現れる——そこへの対処法が、まだ存在しないという認識が背景にある。

従来のAI安全研究と今回の違いは、分析の単位にある。これまでは「このモデルは安全か」が問いだったが、今後は「このモデルが他の1,000のエージェントと接続されたとき、全体として何が起きるか」が問いになる。個々の評価が合格でも、集団としては予測不能な動きが生まれうる。経済活動の一斉処理、交渉ループの連鎖、セキュリティ上の波及——いずれも、個体評価フレームの外にある。

研究資金が集まる領域には、次の標準が形成される。マルチエージェント安全研究の知見が先行者の手に渡れば、将来のエージェント間通信プロトコルや評価基準に、その設計思想が組み込まれていく。今問われているのは「エージェントを安全に動かすこと」ではなく、「エージェント同士が安全に動ける環境を、誰がどのように設計するか」だ。その問いに資金と研究者が動き始めた意味は小さくない。

関連記事

参考文献

Google DeepMind and partners announce multi-agent safety research funding call. — Google DeepMind