メインコンテンツへスキップ
AI用語集に戻る
AI用語

マルチ報酬

Multi-reward

解説

AIに対して「正解すること」だけでなく「安全であること」「簡潔であること」など、複数の異なる目標(報酬)を同時に設定して学習させること。

さらに詳しく解説

マルチ報酬とは

マルチ報酬(Multi-Reward)は、強化学習において複数の報酬信号を同時に最適化するアプローチです。単一の報酬では表現しきれない複雑な目標を達成するために使用されます。

基本概念

マルチ報酬の構成:
├── 報酬1: タスク達成度
├── 報酬2: 安全性
├── 報酬3: 効率性
├── 報酬4: ユーザー満足度
└── 統合: 重み付け結合 or パレート最適

[LLM](/glossary/llm)におけるマルチ報酬

報酬の種類評価対象
正確性報酬事実との整合性
有用性報酬ユーザーへの価値
安全性報酬有害コンテンツ回避
一貫性報酬文脈との整合
簡潔性報酬適切な長さ

統合手法

重み付け合計

R_total = w1 * R_accuracy + w2 * R_safety + w3 * R_helpfulness

例:
R_total = 0.4 * 0.8 + 0.3 * 0.9 + 0.3 * 0.7
        = 0.32 + 0.27 + 0.21
        = 0.80

パレート最適化

複数の目標間のトレードオフを考慮し、どの目標も他を犠牲にせずに改善できない状態を目指す。

マルチ報酬RLHFの流れ

1. 複数の評価[モデル](/glossary/model)構築
   ├── 正確性評価モデル
   ├── 安全性評価モデル
   └── 有用性評価モデル
   ↓
2. 各モデルで応答を評価
   ↓
3. 報酬を統合
   ↓
4. ポリシー最適化
   ↓
5. 反復[学習](/glossary/learning)

メリット

メリット説明
バランス複数目標のトレードオフ管理
柔軟性重み調整で目標優先度変更
堅牢性単一報酬のハッキング回避
解釈性各報酬の寄与を分析可能

課題

課題詳細
重み設定最適な重みバランスの決定
スケール報酬間のスケール統一
競合目標間の矛盾への対処
計算コスト複数報酬モデルの実行コスト

最新研究動向

  • **GRPO**: 単一報酬での安定学習
  • **Constitutional AI**: 複数原則での制約
  • **Multi-reward RL**: 報酬信号の組み合わせ最適化
  • Reward Ensemble: 複数報酬モデルのアンサンブル
AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する