コラム スコアが高くても「使えない」の正体 OpenAIがo3を発表したとき、ベンチマーク数字のインパクトは並外れていた。ARC-AGIで87.5%、GPQAダイヤモンドで87.7%、AIME 2024では96.7%——どの指標も、人間のトップパフォーマンスを射程に入れる水準だった。... 2026.05.01 コラム生成AI