MoEの「専門化」は形だけだった——EMOが示す、本当のモジュール分化

Allen AIが公開したEMOは、既存MoEアーキテクチャの「専門化」に、静かに根拠を問い直す。

EMO: Pretraining mixture of experts for emergent modularity（Allen AI）は、14Bパラメータ・128専門家構成のMoEモデルを1兆トークンで事前学習した研究だ。要点は三つ：①人間によるドメイン定義なしに、エキスパートが「医療」「コード」「政治」などの意味領域で自然分化する。②128専門家のうち12.5%（16専門家）だけを使っても性能低下は約3%にとどまる。③どのエキスパートを使うかを選ぶのに大量の検証データは不要で、少数ショットのサンプルで十分だ。

従来のMoEでは、エキスパートが分担していたのは内容ではなく形式だった。同一文書を分析すると、最も頻繁に呼ばれるエキスパートは「theやyourが多い」「前置詞が続く」といった表層的な字句特性に反応していた。医療記事を処理しても、エキスパートは医療知識ではなく定冠詞の出現パターンを見ていた。

EMOの変更点は、ルーティングの単位を「トークン」から「ドキュメント」へ移したことだ。同じ文書内のトークンは同一エキスパートプールから選ばれるよう制約を加えることで、ドキュメント境界という弱い監督信号を活用する。ドメインラベルは与えない。それだけで、エキスパートは意味的な内容で分化した。

この設計が開く可能性は二方向ある。展開の選択肢が広がる：フルモデル不要なシナリオで、タスク関連エキスパートだけをロードして動かせる。選択コストが下がる：少数サンプルでタスクに合うモジュールを絞れるため、効率的なサービス構成が現実的になる。

MoEの「スパース性」が実際の専門化と結びついたとき、推論コストとモデル能力の関係は変わる。タスクごとにモデルの「使う範囲」を選べる時代の入口が、ここにある。

参考文献

EMO: Pretraining mixture of experts for emergent modularity

MoEの「専門化」は形だけだった——EMOが示す、本当のモジュール分化

関連記事

コメント