「全部できる」より「高速で担う」——Mellum2が示すAIスタック設計の変化

大きなモデル一本でシステムを回す——そのアプローチに、静かな疑問が積み上がっている。

JetBrainsが2026年6月1日に公開したIntroducing Mellum2: A 12B Mixture-of-Experts Model by JetBrainsは、そのアンチテーゼとして読める。総パラメータ12B、推論時アクティブパラメータ2.5BのMixture-of-Expertsモデルで、ライセンスはApache 2.0。同規模モデルと比較して2倍以上の推論速度を実現している。

スペックより興味深いのは、JetBrainsが提唱する「Focal Model」というコンセプトだ。AIシステムの中で高頻度に呼ばれるタスク——ルーティング、RAGのコンテキスト処理、サブエージェントの検証や計画立案——に特化した高速モデルとして設計されている。

「調整役」が速くなると何が変わるか

エージェント型ワークフローが複雑化するにつれ、大規模モデルへの呼び出しがボトルネックになる場面が増えてきた。最終判断はともかく、ツール選択・コンテキスト圧縮・検証といった中間処理まで高コストなモデルに頼る必要はないはずだ。

Mellum2が示す答えは役割の分業にある。大規模推論モデルが最終判断を担い、その周辺の高頻度処理をMellum2のような高速・スコープ限定モデルが引き受ける。コスト効率と制御性を両立するための構成として機能する。

コードとテキストに特化しマルチモーダルを省いた設計も、この発想と一貫している。何でもやれるモデルではなく、「この役割でとにかく速く、安く動く」ことへの割り切りだ。

プライベートデプロイへの対応も、実務的な意味を持つ。機密コードや内部データをクラウドに送らず、自社環境でAIスタックを構築したい組織にとって、Apache 2.0のオープンソースモデルは単なる選択肢の一つではなく、現実的な回答になる。

AIシステムが複雑化する中で、「何でもできる一本」より「役割ごとに最適なモデルを組み合わせる」設計の重要性は増している。Mellum2は、そのスタック設計において中間処理レイヤーの具体解として登場した。（出典: JetBrains Hugging Face Blog / 技術レポート arXiv:2605.31268）

関連記事

参考文献

Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains