「長期タスクを完遂できるか」——GLM-5.2が問い直す能力評価の軸

多くのLLMベンチマークは、一問一答に近い形式で能力を測る。数学問題を解かせる、コードを一画面書かせる、質問に答えさせる——いずれも「点」の精度評価だ。しかし実務で求められるのは、複数ステップにわたるタスクを最後まで完遂できる「線」の能力ではないか。

ZhipuAIが公開した GLM-5.2: Built for Long-Horizon Tasks は、753Bパラメータの大規模言語モデルで、名称のとおり長期タスクの遂行を主目的として設計されている。単発の応答精度ではなく、長い文脈をまたいだ連続的な判断と実行に最適化された設計が特徴とされる。

この方向性が興味深いのは、AIモデルの競争軸の変化を示しているからだ。これまでの主要ベンチマーク（MMLU、HumanEval等）は「瞬発力」を測るものだった。Long-Horizon Tasksへの特化は、「持続力」と「一貫性」を競争軸に引き上げる試みとして読める。

エージェント型AI活用の文脈で考えると、その意味はさらに明確になる。コードレビューから実装・テスト・ドキュメント化まで一気通貫でこなすエージェントや、複数ツールを跨いで調査・分析・提案まで完了するワークフローが現実的な要求になりつつある今、モデルに問われているのは「正解を出せるか」ではなく「タスクを完走できるか」だ。

GLM-5.2の実力評価はこれからだが、設計コンセプトとしての「長期タスク特化」は、今後のモデル選定において見るべき軸を一つ増やした。

出典：GLM-5.2: Built for Long-Horizon Tasks — ZhipuAI / Hugging Face

関連記事

参考文献

GLM-5.2: Built for Long-Horizon Tasks