解説
さらに詳しく解説
強化学習とは
強化学習(Reinforcement Learning, RL)は、エージェントが環境との相互作用を通じて、報酬を最大化する行動方針を学習する機械学習の一分野です。
基本概念
強化学習の構成要素:
├── エージェント(学習主体)
├── 環境(相互作用する世界)
├── 状態(環境の観測)
├── 行動(エージェントの選択)
├── 報酬(行動の評価)
└── 方策(行動選択のルール)強化学習のサイクル
学習サイクル:
1. 状態 s を観測
↓
2. 方策 π に基づき行動 a を選択
↓
3. 行動を実行
↓
4. 報酬 r と新状態 s' を取得
↓
5. 経験から方策を更新
↓
6. 1に戻る主要アルゴリズム
| アルゴリズム | 種類 | 特徴 |
|---|---|---|
| Q-Learning | 価値ベース | シンプル、離散行動 |
| DQN | 価値ベース | 深層学習、Atari |
| A3C | Actor-Critic | 並列学習 |
| PPO | 方策ベース | 安定、広く使用 |
| SAC | Actor-Critic | サンプル効率 |
LLMとRLHF
RLHF(人間フィードバックによる強化学習):
1. [基盤モデル](/glossary/foundation-model)の事前学習
↓
2. 人間による出力評価
↓
3. 報酬[モデル](/glossary/model)の学習
↓
4. 方策[最適化](/glossary/optimization)(PPOなど)
↓
5. 人間の好みに沿ったモデルPPOの仕組み
python
# PPOの基本的な考え方(概念)
def ppo_update(old_policy, new_policy, advantage):
ratio = new_policy / old_policy
# クリッピングで大きな更新を防ぐ
clipped = clip(ratio, 1-epsilon, 1+epsilon)
loss = min(ratio * advantage, clipped * advantage)
return loss応用分野
課題と対策
| 課題 | 対策 |
|---|---|
| サンプル効率 | モデルベースRL |
| 報酬設計 | 逆強化学習 |
| 探索 | 好奇心駆動学習 |
| 安全性 | 制約付きRL |
最新手法
| 手法 | 特徴 |
|---|---|
| DPO | 報酬モデル不要のアライメント |
| GRPO | グループ報酬による安定学習 |
| Constitutional AI | 原則に基づく自己改善 |
| RLAIF | AIフィードバックでの学習 |
