最適化の「当て感」をなくす——torch.profilerで始めるPyTorchプロファイリング入門

HuggingFace が公開した Profiling in PyTorch (Part 1): A Beginner’s Guide to torch.profiler は、PyTorch 公式のプロファイリングツール torch.profiler の使い方を初学者向けに解説した記事だ。訓練ループを数行のコードで囲むだけで CPU/GPU の演算時間やメモリ使用量を記録でき、TensorBoard と組み合わせればボトルネックを視覚的に把握できることが示されている。

モデルが遅いとき、最初に手を入れるのはバッチサイズの変更やオプティマイザの差し替えになりがちだ。だが本当のボトルネックがデータロードにあるのか、特定のレイヤにあるのか、GPU カーネルの呼び出しコストにあるのかは、計測しなければ分からない。当て感で手を入れると、本質でない箇所に工数をかける結果になりやすい。

torch.profiler.profile のコンテキストマネージャで訓練ステップを囲むだけで、演算ごとの所要時間とデバイス利用状況が数値で出る。prof.key_averages() でソートすれば「何がどれだけ時間を使っているか」が一目で分かり、TensorBoard のプロファイラプラグインを使えば CPU と GPU のタイムラインを並べて確認できる。LLM や大規模モデルの訓練にも適用でき、GPU カーネルレベルのトレースが取れるため、理論演算量と実測値のギャップを数値で把握できる。改善後にプロファイルを再取得するだけで、変更が本当に効いているかを定量的に検証できる点も実用的だ。

最適化の順序は「計測 → 仮説 → 修正」だ。torch.profiler はその最初の一手を低コストで踏み出せるようにする。ツールの存在を知りながら使っていないなら、次の訓練ループで1回プロファイルを取るだけで、どこに手を入れるべきかの解像度が変わる。

関連記事

参考文献

Profiling in PyTorch (Part 1): A Beginners Guide to torch.profiler