AI基盤の障害調査は、1件の深掘りから集団分析へ移る

OpenAI の Core dump epidemiology: fixing an 18-year-old bug は、Rockset 系のデータ基盤で起きたまれなクラッシュを、大量の core dump 分析で切り分けた事例です。
調査の結果、原因は1つではなく、Azure 上の単一ホストに起因するハードウェア不具合と、GNU libunwind に18年以上残っていた競合バグでした。

この話の面白さは、古いバグを見つけたことだけではありません。AI時代のインフラ運用では、障害対応そのものが「個別症例の診断」から「集団データの分析」へ移りつつある、という点にあります。

従来のデバッグは、再現した1件を深く読む発想になりがちです。スタックを追い、レジスタを読み、仮説を立て、矛盾を潰していく。低レイヤの障害では今も不可欠な技術です。

しかし今回のケースでは、その方法だけでは行き詰まりました。複数のクラッシュが同じ症状に見えていたため、ある仮説を支える証拠と否定する証拠が混ざっていたからです。1件ずつ見るほど、むしろ全体像が見えにくくなっていました。

転機になったのは、core dump を自動処理し、過去1年分の本番クラッシュを分類できるデータセットを作ったことです。そこではじめて、地域・時刻・ノード・クラッシュ型の相関が見え、2つの別問題が分離されました。

ここで AI が担った役割も示唆的です。記事では、ChatGPT が core file の一部を取得し、レジスタを抽出し、既知の誤検知を除外し、クラッシュを分類するスクリプト作成に使われています。AI が直接バグを「ひらめいた」のではなく、人間が扱える調査母集団を広げる道具として機能したわけです。

この使い方は、開発組織にとって現実的な機会があります。AI をコード生成だけに閉じず、ログ、ダンプ、メトリクス、実行履歴を横断する調査パイプラインの補助に使うと、まれな障害を「再現待ち」から「分布で見る」対象に変えられます。

重要なのは、AI に判断を丸投げすることではありません。分類軸を設計し、誤検知を除き、相関を因果と取り違えない責任は人間側に残ります。それでも、調査対象を数件から全体へ広げられるなら、障害対応の質は変わります。

AI基盤が大きくなるほど、失敗は単純な再現手順を持たなくなります。だからこそ、これからの信頼性は、個人の職人芸だけでなく、障害を集団として観測できる仕組みによって支えられるのです。

関連記事

参考文献

Core dump epidemiology: fixing an 18-year-old bug