Allen AIが公開したEMOは、既存MoEアーキテクチャの「専門化」に、静かに根拠を問い直す。
EMO: Pretraining mixture of experts for emergent modularity(Allen AI)は、14Bパラメータ・128専門家構成のMoEモデルを1兆トークンで事前学習した研究だ。要点は三つ:①人間によるドメイン定義なしに、エキスパートが「医療」「コード」「政治」などの意味領域で自然分化する。②128専門家のうち12.5%(16専門家)だけを使っても性能低下は約3%にとどまる。③どのエキスパートを使うかを選ぶのに大量の検証データは不要で、少数ショットのサンプルで十分だ。
従来のMoEでは、エキスパートが分担していたのは内容ではなく形式だった。同一文書を分析すると、最も頻繁に呼ばれるエキスパートは「theやyourが多い」「前置詞が続く」といった表層的な字句特性に反応していた。医療記事を処理しても、エキスパートは医療知識ではなく定冠詞の出現パターンを見ていた。
EMOの変更点は、ルーティングの単位を「トークン」から「ドキュメント」へ移したことだ。同じ文書内のトークンは同一エキスパートプールから選ばれるよう制約を加えることで、ドキュメント境界という弱い監督信号を活用する。ドメインラベルは与えない。それだけで、エキスパートは意味的な内容で分化した。
この設計が開く可能性は二方向ある。展開の選択肢が広がる:フルモデル不要なシナリオで、タスク関連エキスパートだけをロードして動かせる。選択コストが下がる:少数サンプルでタスクに合うモジュールを絞れるため、効率的なサービス構成が現実的になる。
MoEの「スパース性」が実際の専門化と結びついたとき、推論コストとモデル能力の関係は変わる。タスクごとにモデルの「使う範囲」を選べる時代の入口が、ここにある。
関連記事
- AIエージェント実地観察記 #4
- How researchers are using GitHub Innovation Graph data to reveal the “digital complexity” of nations
- Why age assurance laws matter for developers
参考文献
コメント