メインコンテンツへスキップ
AI用語集に戻る
AI用語

多腕バンディット問題

Multi-Armed Bandit

解説

複数の選択肢(スロットマシン)から、限られた回数で最大の利益を得るために、どれを引くべきかを決める問題設定のこと。

さらに詳しく解説

多腕バンディット問題(Multi-Armed Bandit)は、複数の選択肢の中から最も報酬が高いものを、試行を繰り返しながら見つけ出す問題設定です。「探索(Exploration)」と「活用(Exploitation)」のバランス取りが核心で、ABテスト・推薦システム・強化学習LLM評価など幅広く応用されています。

名前の由来

スロットマシン(昔は"one-armed bandit"と呼ばれた)が複数台並んでいる状況を想像してください。各台の当たり確率は不明で、限られた試行回数で最大の報酬を得るにはどう試せばよいか、という問題です。

探索と活用のジレンマ

戦略内容問題
探索(Exploration)試したことのない選択肢を試す短期的な報酬を逃す
活用(Exploitation)これまで一番良かった選択肢を選ぶ真のベストを見逃す可能性

この2つを賢く混ぜるのがバンディット問題の本質です。

代表的なアルゴリズム

アルゴリズム特徴
ε-greedy確率εで探索、1−εで活用(最も単純)
UCB(Upper Confidence Bound)信頼区間の上限が高い選択肢を選ぶ
Thompson Sampling各選択肢の事後分布からサンプリングして選ぶ
LinUCB文脈情報(特徴量)を考慮するバンディット

応用事例

  1. ABテスト最適化:従来のABテストより早く勝者を特定
  2. 推薦システム:新作コンテンツを少しずつ試して反応を測る
  3. 広告配信:複数広告のクリック率を学習しつつ最良を表示
  4. ハイパーパラメータ探索機械学習の試行回数を効率化
  5. LLM評価:複数モデルから最良を選ぶときの試行配分

強化学習との関係

バンディット問題は強化学習の最も単純な特殊ケースです。状態が1つで、行動が報酬を決めるだけ、という設定で、強化学習の入り口としても学ばれます。

実務上のポイント

  • **コンテキスト付きバンディット**を選ぶと、ユーザー特性などを考慮した個別最適化が可能
  • 報酬遅延(クリック→購入までのラグ)がある場合は工夫が必要
  • 公平性・多様性の制約を加える派生研究も多数

多腕バンディットは「試しながら最適化する」あらゆるAIシステムの基礎であり、シンプルですが応用範囲の広い概念です。

AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する