解説
巨大な一つのAIではなく、特定のタスクが得意な複数の小さな「専門家AI」を用意し、入力に応じて担当者を切り替える仕組み。計算コストを抑えつつ賢いAIを作るトレンド技術。
さらに詳しく解説
専門家混合モデル(Mixture of Experts; MoE)は、巨大なAIモデルを「複数の専門家サブモデル」と「どの専門家を使うかを決めるルーター」で構成し、入力ごとに必要な専門家だけを動かす仕組みです。総パラメータ数は巨大でも、推論時の計算コストは抑えられるため、現代のフロンティアモデルに広く採用されています。
仕組み
入力 → ルーター → 専門家1(数学)
専門家2(コーディング)
専門家3(自然言語)
...
専門家N
↓
選ばれた数人だけ動く
↓
出力たとえば「専門家64人のうち、毎回上位2人だけが活性化」という設計が一般的です(Top-2 ルーティング)。
通常モデルとの比較
| 観点 | 通常モデル(Dense) | MoEモデル(Sparse) |
|---|---|---|
| 全パラメータ | 例:70B | 例:500B(専門家を含む) |
| 推論時に動くパラメータ | 70B(全部) | 例:35B(一部のみ) |
| 計算コスト | 高い | 同等性能なら低い |
| メモリ使用量 | 中程度 | 大きい(全専門家を保持) |
| 学習の難易度 | 標準 | 高め(負荷分散など) |
メリット
- 同じ計算コストでより高性能なモデルを実現できる
- 専門家ごとに異なる得意領域を担当できる(解釈性が向上することも)
- スケールアップが容易(専門家を増やせば総容量が増える)
課題
- 負荷分散:一部の専門家ばかり使われる「ホットスポット問題」
- メモリコスト:全専門家を保持するためメモリは大きい
- 学習の不安定性:ルーターが偏ると一部専門家が育たない
- デプロイの複雑さ:分散環境での効率的な配置が必要
採用しているモデル例
- **GPT-4 系**:MoE構成と推測される
- **Gemini 系**:MoE要素を含む構成
- Mixtral 8x7B / 8x22B:オープンソースの代表的MoE
- DeepSeek V3 / V3.5:大規模MoE
- GLaM, Switch Transformer:先駆的研究
実務へのインパクト
MoEは「APIで高性能モデルを安く使える」背景の一つです。同じ知能水準のDenseモデルより推論コストが低く済むため、最新フロンティアモデルの料金低下を支えている技術と言えます。
