大規模AIモデルのトレーニングには、暗黙の前提がある。数千枚のチップが密に結合し、常に完全同期を維持し続けなければならない、という前提だ。1つのノード障害が全体の学習を止めるリスクを受け入れながら、業界はその前提のもとでスケールを追ってきた。
Decoupled DiLoCo: Resilient, Distributed AI Training at Scale(Google DeepMind, 2026年4月)は、その前提に正面から向き合うアーキテクチャを発表している。学習を「島(island)」と呼ばれる独立した計算ユニットに分割し、非同期でデータを受け渡す設計により、ある島に障害が起きても他の島は学習を継続できる。グローバルな同期を不要とするため、データセンターを跨いだ広域分散も現実的な選択肢になるという。
従来の密結合アーキテクチャは、均質なハードウェアを大量に揃えた閉じた環境を前提にしてきた。Decoupled DiLoCoが示す疎結合の方向は、その前提をいくつか緩める。ハードウェア障害への耐性が上がるだけでなく、地理的分散が設計対象として浮上してくる。データレジデンシー要件や地域ごとの電力コスト差を考慮した訓練インフラの配置が、現実的な議論の土台に乗ってくるということだ。
フロンティアモデルの訓練コストが注目される中、「どこで・どんな構成で学習するか」の設計自由度が増すことは、技術上の改善を超えてインフラ戦略の選択肢を広げる意味を持つ。均質・密結合が唯一の道でないとすれば、訓練規模の拡張に際してより多様なアプローチが検討されるようになるだろう。
関連記事
- Announcing our partnership with the Republic of Korea
- Enabling a new model for healthcare with AI co-clinician
- Uber uses OpenAI to help people earn smarter and book faster
参考文献
コメント