メインコンテンツへスキップ
AI用語集に戻る
AI用語

専門家混合モデル

Mixture of Experts

解説

巨大な一つのAIではなく、特定のタスクが得意な複数の小さな「専門家AI」を用意し、入力に応じて担当者を切り替える仕組み。計算コストを抑えつつ賢いAIを作るトレンド技術。

さらに詳しく解説

専門家混合モデル(Mixture of Experts; MoE)は、巨大なAIモデルを「複数の専門家サブモデル」と「どの専門家を使うかを決めるルーター」で構成し、入力ごとに必要な専門家だけを動かす仕組みです。総パラメータ数は巨大でも、推論時の計算コストは抑えられるため、現代のフロンティアモデルに広く採用されています。

仕組み

入力 → ルーター → 専門家1(数学)
                 専門家2(コーディング)
                 専門家3(自然言語)
                 ...
                 専門家N
                 ↓
             選ばれた数人だけ動く
             ↓
           出力

たとえば「専門家64人のうち、毎回上位2人だけが活性化」という設計が一般的です(Top-2 ルーティング)。

通常モデルとの比較

観点通常モデル(Dense)MoEモデル(Sparse)
パラメータ例:70B例:500B(専門家を含む)
推論時に動くパラメータ70B(全部)例:35B(一部のみ)
計算コスト高い同等性能なら低い
メモリ使用量中程度大きい(全専門家を保持)
学習の難易度標準高め(負荷分散など)

メリット

  • 同じ計算コストでより高性能なモデルを実現できる
  • 専門家ごとに異なる得意領域を担当できる(解釈性が向上することも)
  • スケールアップが容易(専門家を増やせば総容量が増える)

課題

  1. 負荷分散:一部の専門家ばかり使われる「ホットスポット問題」
  2. メモリコスト:全専門家を保持するためメモリは大きい
  3. 学習の不安定性:ルーターが偏ると一部専門家が育たない
  4. デプロイの複雑さ:分散環境での効率的な配置が必要

採用しているモデル例

  • **GPT-4 系**:MoE構成と推測される
  • **Gemini 系**:MoE要素を含む構成
  • Mixtral 8x7B / 8x22Bオープンソースの代表的MoE
  • DeepSeek V3 / V3.5:大規模MoE
  • GLaM, Switch Transformer:先駆的研究

実務へのインパクト

MoEは「APIで高性能モデルを安く使える」背景の一つです。同じ知能水準のDenseモデルより推論コストが低く済むため、最新フロンティアモデルの料金低下を支えている技術と言えます。

AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する