acpass

フィッシャー情報量

知識マップ

統計用語

ひとことで言うと

尤度がパラメータθについてどれだけ「鋭く」変化するかを表す量です。情報量が大きいほど、データから得られる推定の精度(分散の逆数)が高くなります。

こんなデータが従う

MLEの漸近分散の評価推定量の効率性(クラメール・ラオの下限)の評価実験計画(どれだけ標本を集めれば十分か)の指標保険数理での死亡率推定の精度評価

推定の「限界精度」を理論的に示す指標で、MLEの漸近的な振る舞いを理解する基礎になります。

急な対数尤度曲線(フィッシャー情報量が大きい・推定精度が高い)と緩やかな曲線(情報量が小さい・精度が低い)の比較I(θ)大:尖っている→精度高いI(θ)小:緩やか→精度低いθln L(θ)

急な対数尤度曲線(情報量大、精度高い)と緩やかな曲線(情報量小、精度低い)の比較。

数式で表すと

I(θ)=E[2θ2lnf]I(\theta)=-E\big[\tfrac{\partial^2}{\partial\theta^2}\ln f\big]

尤度のもつ情報量。MLEの漸近分散の逆数で、推定精度の下限を与える。

フィッシャー情報量は、対数尤度のθについての2次微分(曲率)の期待値の符号を反転したものとして定義されます:I(θ)=E[2θ2lnf(X;θ)]I(\theta)=-E\Big[\dfrac{\partial^2}{\partial\theta^2}\ln f(X;\theta)\Big]。対数尤度の山が急(曲率が大きい)であるほどI(θ)は大きくなり、θの僅かな違いでも尤度が大きく変わるため、データからθを精密に推定できることを意味します。 クラメール・ラオの不等式により、任意の不偏推定量の分散には下限があり、Var(θ^)1nI(θ)\mathrm{Var}(\hat\theta)\ge \dfrac1{nI(\theta)} となります。最尤推定量(concept: MLE)は、標本数nが大きくなるとこの下限に漸近的に到達する(漸近有効)ことが知られています。 フィッシャー情報量はn個の独立な観測値があれば、1個あたりの情報量のn倍になります(In(θ)=nI1(θ)I_n(\theta)=nI_1(\theta))。標本を増やすほど全体の情報量は増え、推定の精度(分散の逆数)も向上します。

試験に出る性質

定義

I(θ)=E[2/θ2lnf(X;θ)]I(\theta)=-E[\partial^2/\partial\theta^2 \ln f(X;\theta)]

解釈

対数尤度の曲率の大きさ。曲率が大きい→精度高い。

クラメール・ラオの下限

不偏推定量の分散は Var(θ^)1/(nI(θ))\mathrm{Var}(\hat\theta)\ge 1/(nI(\theta)) を下回れない。

標本数との関係

n個の独立標本なら In(θ)=nI1(θ)I_n(\theta)=nI_1(\theta)

MLEとの関係

MLEは大標本でこの下限に漸近的に到達する(漸近有効性)。

例で見る

1個あたりのフィッシャー情報量がI(θ)=4のとき、n=25個の独立標本では In(θ)=100I_n(\theta)=100、MLEの漸近分散の下限は 1/100=0.011/100=0.01

つまずきポイント

  • フィッシャー情報量を尤度そのものや確率密度と混同する
  • 2次微分の符号(マイナス)を付け忘れる(曲率は負になるため、情報量を正にするためマイナスを付ける)
  • クラメール・ラオの下限を「必ず達成できる値」と誤解する(下限であり、大標本でMLEが漸近的に近づくにすぎない)

定着クイズ

フィッシャー情報量が大きいことは何を意味するか?

1個あたりの情報量がI(θ)=2のとき、n=50個の独立標本の情報量は?

クラメール・ラオの不等式が示すものは?

この用語を扱う問題(2