メインコンテンツへスキップ
AI用語集に戻る
AI用語

報酬の崩壊

Reward Collapse

解説

複数の評価基準を混ぜ合わせた結果、AIにとって「何が良くて何が悪かったのか」の区別がつかなくなり、学習がうまくいかなくなる現象。

さらに詳しく解説

報酬の崩壊とは

報酬の崩壊(Reward Collapse)は、強化学習において報酬信号が意味のある学習を導かなくなる現象です。LLMの学習においても重要な課題となっています。

報酬崩壊の種類

種類説明
報酬の飽和報酬が上限に達し差が出ない
報酬の消失報酬信号が弱すぎる
報酬モデルの劣化報酬モデルの精度低下
モード崩壊同じ出力ばかり生成

メカニズム

報酬崩壊の発生メカニズム:
1. 学習開始
   ↓
2. 報酬最大化を目指す
   ↓
3. 特定パターンが高報酬を得る
   ↓
4. そのパターンに過度に集中
   ↓
5. 出力の多様性喪失
   ↓
6. 報酬モデルが適切に評価できなくなる
   ↓
7. 学習が進まなくなる

LLMにおける例

報酬崩壊の例:
├── 過度に長い回答
│   └── 長さと質を混同
├── 過度に丁寧な表現
│   └── 形式的な丁寧さに依存
├── 安全すぎる回答
│   └── 有用性を犠牲に
└── 繰り返しの多い出力
    └── 特定フレーズの乱用

原因

原因詳細
報酬設計の不備真の目標と報酬のズレ
過学習報酬モデルへの過適合
分布シフト学習中の分布変化
探索不足限られた行動空間

対策

報酬崩壊の対策:
├── KL正則化
│   └── 基準モデルからの乖離を制限
├── 報酬クリッピング
│   └── 極端な報酬を制限
├── 多様性ボーナス
│   └── 出力の多様性を促進
├── 報酬モデルの更新
│   └── 定期的な再学習
└── [マルチ報酬](/glossary/multi-reward)
    └── 複数の報酬信号を使用

KL正則化

KLペナルティの効果:
目的関数 = 報酬 - β × KL(新方策 || 基準方策)

効果:
- 基準モデルからの極端な乖離を防止
- 出力の多様性を維持
- 過度な[最適化](/glossary/optimization)を抑制

最新アプローチ

手法特徴
GRPO相対的な報酬でランキング学習
DPO報酬モデル不要の直接最適化
IPO過学習に強い設計
KTO二値フィードバックで効率化

モニタリング

監視すべき指標:
├── 報酬分布
│   └── 偏りの検出
├── 出力の多様性
│   └── エントロピー、ユニーク率
├── 評価指標の推移
│   └── 評価セットでの性能
└── 人間評価
    └── 定期的なサンプル評価
AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する