vLLM V0 to V1: Correctness Before Corrections in RL
ServiceNow AIが公開したこのレポートは、vLLM V1への移行でRL学習パイプラインに生じた指標の乱れを記録したものです。clip rate・KL・entropy・rewardといった学習指標がV0とV1で異なる軌跡をたどり、4つの実装差異を修正することでV0と同等の挙動を再現しました。移行の核心は、推論エンジンの「logprobの計算方法」の一貫性にありました。
RL学習が崩れたとき、疑うべきはアルゴリズムより先に、推論エンジンかもしれません。
このレポートが示す問題の本質は、vLLM V1がV0と設計を変えたことではなく、「同じことをしているように見えて、内部計算が微妙に違う」状態が静かに学習ダイナミクスを変えていた点にあります。
RL学習では、推論エンジンがサンプリングしたトークンのlogprobを、トレーナーがpolicy ratio・KL・entropy・rewardの計算に使います。このlogprobの取得経路や精度が変わると、損失関数の計算が変わり、学習曲線が変わります。ServiceNow AIが特定した4つの差異(processed rollout logprobs・V1固有のruntimeデフォルト値・インフライト重み更新パス・fp32 lm_head)は、どれも「仕様の変更」ではなく、移行前に確認すべき実装の前提条件でした。
彼らが採った手順は明快です。目的関数の変更より先にバックエンドのパリティを取り、V0との比較でV1が同じ軌跡を描くことを確認してから、はじめてRL目的の改善に進む。
この手順はvLLM固有の話ではありません。PPO・GRPOを含む任意のオンラインRLシステムで推論エンジンを差し替えるとき、同じクラスのmismatchが潜む可能性があります。「モデルはそのまま、エンジンだけ変えた」という場面で学習が変わるなら、最初に見るべきはlogprobの取得経路です。
vLLM V1への移行が整った今、このデバッグ手順がパターンとして共有されたことは、次に同じ問題に直面するチームの手戻りを大きく減らせます。
関連記事
- vLLM V0 to V1: Correctness Before Corrections in RL
- Protecting people from harmful manipulation
- Gemini 3.1 Flash Live: Making audio AI more natural and reliable
参考文献
コメント