Question 1

Multi-reward（マルチ報酬）とは何ですか？

Accepted Answer

AIに対して「正解すること」だけでなく「安全であること」「簡潔であること」など、複数の異なる目標（報酬）を同時に設定して学習させること。

Question 2

Multi-rewardについて詳しく教えてください

Accepted Answer

## マルチ報酬とは

マルチ報酬（Multi-Reward）は、強化学習において複数の報酬信号を同時に最適化するアプローチです。単一の報酬では表現しきれない複雑な目標を達成するために使用されます。

## 基本概念

```
マルチ報酬の構成:
├── 報酬1: タスク達成度
├── 報酬2: 安全性
├── 報酬3: 効率性
├── 報酬4: ユーザー満足度
└── 統合: 重み付け結合 or パレート最適
```

## LLMにおけるマルチ報酬

| 報酬の種類 | 評価対象 |
|------------|----------|
| 正確性報酬 | 事実との整合性 |
| 有用性報酬 | ユーザーへの価値 |
| 安全性報酬 | 有害コンテンツ回避 |
| 一貫性報酬 | 文脈との整合 |
| 簡潔性報酬 | 適切な長さ |

## 統合手法

### 重み付け合計
```
R_total = w1 * R_accuracy + w2 * R_safety + w3 * R_helpfulness

例:
R_total = 0.4 * 0.8 + 0.3 * 0.9 ...

マルチ報酬

解説