さらに詳しく解説
報酬の崩壊とは
報酬の崩壊(Reward Collapse)は、強化学習において報酬信号が意味のある学習を導かなくなる現象です。LLMの学習においても重要な課題となっています。
報酬崩壊の種類
| 種類 | 説明 |
|---|---|
| 報酬の飽和 | 報酬が上限に達し差が出ない |
| 報酬の消失 | 報酬信号が弱すぎる |
| 報酬モデルの劣化 | 報酬モデルの精度低下 |
| モード崩壊 | 同じ出力ばかり生成 |
メカニズム
報酬崩壊の発生メカニズム:
1. 学習開始
↓
2. 報酬最大化を目指す
↓
3. 特定パターンが高報酬を得る
↓
4. そのパターンに過度に集中
↓
5. 出力の多様性喪失
↓
6. 報酬モデルが適切に評価できなくなる
↓
7. 学習が進まなくなるLLMにおける例
報酬崩壊の例:
├── 過度に長い回答
│ └── 長さと質を混同
├── 過度に丁寧な表現
│ └── 形式的な丁寧さに依存
├── 安全すぎる回答
│ └── 有用性を犠牲に
└── 繰り返しの多い出力
└── 特定フレーズの乱用原因
| 原因 | 詳細 |
|---|---|
| 報酬設計の不備 | 真の目標と報酬のズレ |
| 過学習 | 報酬モデルへの過適合 |
| 分布シフト | 学習中の分布変化 |
| 探索不足 | 限られた行動空間 |
対策
報酬崩壊の対策:
├── KL正則化
│ └── 基準モデルからの乖離を制限
├── 報酬クリッピング
│ └── 極端な報酬を制限
├── 多様性ボーナス
│ └── 出力の多様性を促進
├── 報酬モデルの更新
│ └── 定期的な再学習
└── [マルチ報酬](/glossary/multi-reward)
└── 複数の報酬信号を使用KL正則化
KLペナルティの効果:
目的関数 = 報酬 - β × KL(新方策 || 基準方策)
効果:
- 基準モデルからの極端な乖離を防止
- 出力の多様性を維持
- 過度な[最適化](/glossary/optimization)を抑制最新アプローチ
モニタリング
監視すべき指標:
├── 報酬分布
│ └── 偏りの検出
├── 出力の多様性
│ └── エントロピー、ユニーク率
├── 評価指標の推移
│ └── 評価セットでの性能
└── 人間評価
└── 定期的なサンプル評価