
さらに詳しく解説
フィッシャー情報量(Fisher Information)は、観測データがモデルのパラメータについてどれだけの情報を持っているかを表す統計量です。AI/機械学習の文脈では、パラメータ推定の精度限界、自然勾配法、過学習解析などで重要な役割を果たします。
直感的なイメージ
フィッシャー情報量は「データを観察したとき、パラメータ推定値がどれだけ動くか」の指標です。
- 大きい:データはパラメータについて多くを語る → 推定が安定
- 小さい:データはパラメータについて曖昧 → 推定がブレる
数式的な定義
パラメータ θ をもつモデルの対数尤度の二階微分の負の期待値で定義されます。
I(θ) = -E[ ∂² log p(x|θ) / ∂θ² ]複数パラメータの場合は行列となり、フィッシャー情報行列と呼ばれます。
クラメール・ラオの不等式との関係
不偏推定量の分散は、フィッシャー情報量の逆数より小さくはなりません。
Var(推定量) ≥ 1 / I(θ)これは「どんなに良い推定方法でも、観測データに含まれる情報量を超えた精度は出せない」という統計学の基本原理を示しています。
AI/機械学習での応用
| 用途 | 概要 |
|---|---|
| 自然勾配法 | パラメータ空間の幾何を考慮した最適化 |
| EWC(Elastic Weight Consolidation) | 継続学習で過去タスクを忘れない正則化に活用 |
| ニューラル・タンジェント・カーネル | 学習ダイナミクスの理論解析 |
| モデル圧縮 | 重要度の低いパラメータを特定 |
実務での扱い
大規模ニューラルネットでは厳密なフィッシャー情報行列の計算は現実的でないため、対角近似や経験的フィッシャー情報量で代用されます。直接ハイパーパラメータを触る場面は少ないものの、最適化アルゴリズムや継続学習手法の背後にある理論を理解する上で押さえておきたい概念です。
