メインコンテンツへスキップ
AI用語集に戻る
AI用語

強化学習

Reinforcement Learning

解説

AIが試行錯誤を通じて、特定の行動に対して与えられる「報酬」を最大化するように学習する手法。チェスや自動運転、対話モデルの微調整などに広く使われています。人間が「正解」を教えるのではなく、結果の良し悪しをフィードバックすることでAIを成長させます。

さらに詳しく解説

強化学習とは

強化学習(Reinforcement Learning, RL)は、エージェントが環境との相互作用を通じて、報酬を最大化する行動方針を学習する機械学習の一分野です。

基本概念

強化学習の構成要素:
├── エージェント(学習主体)
├── 環境(相互作用する世界)
├── 状態(環境の観測)
├── 行動(エージェントの選択)
├── 報酬(行動の評価)
└── 方策(行動選択のルール)

強化学習のサイクル

学習サイクル:
1. 状態 s を観測
   ↓
2. 方策 π に基づき行動 a を選択
   ↓
3. 行動を実行
   ↓
4. 報酬 r と新状態 s' を取得
   ↓
5. 経験から方策を更新
   ↓
6. 1に戻る

主要アルゴリズム

アルゴリズム種類特徴
Q-Learning価値ベースシンプル、離散行動
DQN価値ベース深層学習、Atari
A3CActor-Critic並列学習
PPO方策ベース安定、広く使用
SACActor-Criticサンプル効率

[LLM](/glossary/llm)とRLHF

RLHF(人間フィードバックによる強化学習):
1. [基盤モデル](/glossary/foundation-model)の事前学習
   ↓
2. 人間による出力評価
   ↓
3. 報酬[モデル](/glossary/model)の学習
   ↓
4. 方策[最適化](/glossary/optimization)(PPOなど)
   ↓
5. 人間の好みに沿ったモデル

PPOの仕組み

python
# PPOの基本的な考え方(概念)
def ppo_update(old_policy, new_policy, advantage):
    ratio = new_policy / old_policy
    # クリッピングで大きな更新を防ぐ
    clipped = clip(ratio, 1-epsilon, 1+epsilon)
    loss = min(ratio * advantage, clipped * advantage)
    return loss

応用分野

分野応用例
ゲームAlphaGo、Atari
ロボット歩行、操作
推薦コンテンツ推薦
対話AIRLHF
自動運転経路計画

課題と対策

課題対策
サンプル効率モデルベースRL
報酬設計逆強化学習
探索好奇心駆動学習
安全性制約付きRL

最新手法

手法特徴
DPO報酬モデル不要のアライメント
GRPOグループ報酬による安定学習
Constitutional AI原則に基づく自己改善
RLAIFAIフィードバックでの学習
AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する