RL学習が乱れたのは、アルゴリズムではなくエンジンだった

vLLM V0 to V1: Correctness Before Corrections in RL

ServiceNow AIが公開したこのレポートは、vLLM V1への移行でRL学習パイプラインに生じた指標の乱れを記録したものです。clip rate・KL・entropy・rewardといった学習指標がV0とV1で異なる軌跡をたどり、4つの実装差異を修正することでV0と同等の挙動を再現しました。移行の核心は、推論エンジンの「logprobの計算方法」の一貫性にありました。

RL学習が崩れたとき、疑うべきはアルゴリズムより先に、推論エンジンかもしれません。

このレポートが示す問題の本質は、vLLM V1がV0と設計を変えたことではなく、「同じことをしているように見えて、内部計算が微妙に違う」状態が静かに学習ダイナミクスを変えていた点にあります。

RL学習では、推論エンジンがサンプリングしたトークンのlogprobを、トレーナーがpolicy ratio・KL・entropy・rewardの計算に使います。このlogprobの取得経路や精度が変わると、損失関数の計算が変わり、学習曲線が変わります。ServiceNow AIが特定した4つの差異（processed rollout logprobs・V1固有のruntimeデフォルト値・インフライト重み更新パス・fp32 lm_head）は、どれも「仕様の変更」ではなく、移行前に確認すべき実装の前提条件でした。

彼らが採った手順は明快です。目的関数の変更より先にバックエンドのパリティを取り、V0との比較でV1が同じ軌跡を描くことを確認してから、はじめてRL目的の改善に進む。

この手順はvLLM固有の話ではありません。PPO・GRPOを含む任意のオンラインRLシステムで推論エンジンを差し替えるとき、同じクラスのmismatchが潜む可能性があります。「モデルはそのまま、エンジンだけ変えた」という場面で学習が変わるなら、最初に見るべきはlogprobの取得経路です。

vLLM V1への移行が整った今、このデバッグ手順がパターンとして共有されたことは、次に同じ問題に直面するチームの手戻りを大きく減らせます。

参考文献

vLLM V0 to V1: Correctness Before Corrections in RL

RL学習が乱れたのは、アルゴリズムではなくエンジンだった

関連記事

コメント