推論エンジンの正しさを先に——vLLM V1移行が示したRL開発の優先順位

ServiceNow AI が公開した vLLM V0 to V1: Correctness Before Corrections in RL は、強化学習パイプラインにおける推論エンジンの移行録だ。rollout 生成に vLLM を使う PipelineRL で V0 から V1 へ移行した際、logprobs の不一致が学習指標（clip rate・KL・entropy・reward）のズレとして現れた。チームは4箇所の修正（rollout logprobs の処理方法、V1 固有のデフォルト設定、インフライトの重み更新パス、fp32 lm_head）でパリティを回復し、V0 と同等のトレーニング軌跡を再現している。

RL 学習ループで推論エンジンが返す logprobs は、policy ratio の計算に直結する。エンジン挙動が変われば、意図せず RL objective の動きも変わる。ServiceNow チームが選んだのは「backend パリティの確認を先に、objective の変更はその後」という手順だった。タイトルの「Correctness Before Corrections」はそのまま開発方針を指している。

この順序は汎用性が高い。PPO・GRPO・GSPO など手法を問わず、推論エンジンをアップグレードしながら RL 実験を並行させているチームは多い。そこでの問いは「何が変わったか」より先に「何が変わっていないか」を確かめることだ。4つの修正ポイントを具体的に公開したこの事例は、そのチェックリストとして転用できる。

vLLM V1 はスループットや設計面で V0 から大幅に強化されている。その恩恵を RL パイプラインで活かすための前提条件が、今回の検証で整った。移行を検討しているチームにとって、この実録の実用的な価値は高い。

参考文献

vLLM V0 to V1: Correctness Before Corrections in RL

推論エンジンの正しさを先に——vLLM V1移行が示したRL開発の優先順位

関連記事

コメント