解説
複数の選択肢(スロットマシン)から、限られた回数で最大の利益を得るために、どれを引くべきかを決める問題設定のこと。
さらに詳しく解説
多腕バンディット問題(Multi-Armed Bandit)は、複数の選択肢の中から最も報酬が高いものを、試行を繰り返しながら見つけ出す問題設定です。「探索(Exploration)」と「活用(Exploitation)」のバランス取りが核心で、ABテスト・推薦システム・強化学習・LLM評価など幅広く応用されています。
名前の由来
スロットマシン(昔は"one-armed bandit"と呼ばれた)が複数台並んでいる状況を想像してください。各台の当たり確率は不明で、限られた試行回数で最大の報酬を得るにはどう試せばよいか、という問題です。
探索と活用のジレンマ
| 戦略 | 内容 | 問題 |
|---|---|---|
| 探索(Exploration) | 試したことのない選択肢を試す | 短期的な報酬を逃す |
| 活用(Exploitation) | これまで一番良かった選択肢を選ぶ | 真のベストを見逃す可能性 |
この2つを賢く混ぜるのがバンディット問題の本質です。
代表的なアルゴリズム
| アルゴリズム | 特徴 |
|---|---|
| ε-greedy | 確率εで探索、1−εで活用(最も単純) |
| UCB(Upper Confidence Bound) | 信頼区間の上限が高い選択肢を選ぶ |
| Thompson Sampling | 各選択肢の事後分布からサンプリングして選ぶ |
| LinUCB | 文脈情報(特徴量)を考慮するバンディット |
応用事例
- ABテスト最適化:従来のABテストより早く勝者を特定
- 推薦システム:新作コンテンツを少しずつ試して反応を測る
- 広告配信:複数広告のクリック率を学習しつつ最良を表示
- ハイパーパラメータ探索:機械学習の試行回数を効率化
- LLM評価:複数モデルから最良を選ぶときの試行配分
強化学習との関係
バンディット問題は強化学習の最も単純な特殊ケースです。状態が1つで、行動が報酬を決めるだけ、という設定で、強化学習の入り口としても学ばれます。
実務上のポイント
多腕バンディットは「試しながら最適化する」あらゆるAIシステムの基礎であり、シンプルですが応用範囲の広い概念です。
