重みの差分だけ送ればいい——兆パラメータRL学習の転換点

Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL（arXiv: 2602.03839）がHuggingFaceのTRLチームから公開された。要点は三つ——RL学習中の重み同期を「フル重み」から「差分（デルタ）」に切り替える。ハブバケットをストレージ層として分散環境の転送を効率化する。既存のTRLパイプラインにそのまま組み込める。

なぜこれが問題だったか。オンラインRLHF学習では、リファレンスモデルと更新中のモデルを並走させながら重みを同期し続ける必要がある。兆パラメータ規模になると、その帯域コストは学習ループ全体のスループットを圧迫する。大きくなるほど同期が詰まる——構造的な制約だった。

デルタ同期は、ベースモデルとの差分だけを転送する。LoRAアダプタで言えば、アダプタ重みだけを動かせばよく、数兆パラメータのベース部分は静止させておける。転送量が桁違いに減り、同期待ちが短縮し、学習の実効スループットが向上する。

これが切り開くのは「帯域問題を解いた先の自由度」だ。兆パラメータのRL学習が限られたインフラで成立するなら、探索できる最適化対象の幅が広がる。「どこまでスケールするか」ではなく「何をRLで最適化するか」に問いが移る——そこに可能性がある。

出典: Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL

関連記事

参考文献

Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL