さらに詳しく解説
KL情報量とは
KL情報量(KL Divergence / Kullback-Leibler Divergence)は、2つの確率分布がどれだけ異なっているかを測定する数学的指標です。AIの学習プロセスにおいて、モデルの出力が目標からどれだけ逸脱しているかを定量化するために使われます。
直感的な理解
KL情報量は「情報の損失量」と考えることができます。確率分布Pを分布Qで近似したとき、どれだけ情報が失われるかを測ります。値が0なら2つの分布は完全に一致し、値が大きいほど差が大きいことを意味します。
AIでの主な用途
| 用途 | 説明 |
|---|---|
| 強化学習 | 元モデルと学習後モデルの出力差を制限(KLペナルティ) |
| VAE(変分オートエンコーダ) | 潜在変数の分布を正規分布に近づける |
| 知識蒸留 | 大きなモデルの知識を小さなモデルに移転 |
| ファインチューニング | モデルの急激な変化を防止 |
強化学習におけるKLペナルティ
RLHF(人間のフィードバックによる強化学習)では、報酬を最大化しようとするあまりモデルが不自然な出力をする報酬ハッキングが起きることがあります。KL情報量を使って元のモデルとの差にペナルティを課すことで、自然さを保ちながら改善を行います。
特徴
- 非対称性: KL(P||Q) ≠ KL(Q||P) — 方向によって値が異なる
- 非負性: 常に0以上の値を取る
- 距離ではない: 対称性がないため、厳密には「距離」ではなく「ダイバージェンス」と呼ばれる
