acpass

十分統計量

知識マップ

統計用語

ひとことで言うと

十分統計量とは、データを要約しても『母数 θ\theta についての情報を一切失わない』統計量です。たとえばポアソンや指数分布では、個々の観測値をすべて覚えておかなくても、和 Xi\sum X_i だけ知っていれば θ\theta の推定に必要な情報はすべて手に入ります。データ圧縮の理論的な核心です。

十分統計量の因数分解定理を示す概念図。左の箱は全データx1..xnを表し、矢印で統計量T(X)=ΣXiに要約される。同時尤度はg(T;θ)とh(x)の積に因数分解でき、θを含むのはg(T;θ)の部分だけ。よってTを知ればθに関する情報はすべて得られ、個々のデータは不要になる。ポアソン例ではL=e^(-nλ)λ^(ΣXi)/∏xi!と分解されるf(x;θ)=g(T(x);θ)·h(x) ⇒ T(X)が十分統計量全データx₁,…,xₙ要約T(X)=ΣXᵢ十分統計量g(T;θ)×h(x)θはgのみに含むポアソン: L=e^(−nλ)·λ^(ΣXᵢ)/∏xᵢ! = g(ΣXᵢ;λ)·h(x)ΣXᵢに要約してもλの情報は失われない

因数分解定理 f(x;θ)=g(T(x);θ)h(x)f(x;\theta)=g(T(x);\theta)\,h(x)。同時尤度のうち θ\theta を含むのは g(T;θ)g(T;\theta) だけなので、T(X)T(X) さえ知れば θ\theta の情報は尽きる。ポアソンでは T=XiT=\sum X_i が十分統計量。

数式で表すと

f(xT) が θ に依存しないf(x\mid T)\ \text{が}\ \theta\ \text{に依存しない}

母数に関する情報を余さず含む統計量。ポアソン・指数では Xi\sum X_i

十分統計量 T(X)T(X) とは、それを知れば標本 X=(X1,,Xn)X=(X_1,\dots,X_n) が母数 θ\theta についてもつ情報をすべて含む統計量です。正式には『TT を与えたときの XX の条件付き分布 f(xT=t)f(x\mid T=t)θ\theta に依存しない』ことで定義されます。TT で条件付けると θ\theta の影響が消える、つまり TT を超えてデータを見ても θ\theta について新たに分かることはない、という意味です。 実際に十分統計量を見つける道具がフィッシャー–ネイマンの因数分解定理です。同時密度(尤度)が f(x;θ)=g(T(x);θ)h(x)f(x;\theta)=g\big(T(x);\theta\big)\cdot h(x) と、θ\thetaT(x)T(x) だけに依存する部分 gg と、θ\theta を含まずデータだけに依存する部分 h(x)h(x) の積に因数分解できれば、その T(X)T(X) は十分統計量です。逆も成り立ちます。ポイントは『θ\theta が尤度に入ってくる経路が T(x)T(x) を通してだけ』という構造で、だから TT さえ分かれば θ\theta の手がかりは尽きるわけです。 十分統計量がなぜ推定で重要かを示すのがラオ–ブラックウェルの定理です。これは『どんな不偏推定量 θ^\hat\theta をとってきても、それを十分統計量 TT で条件付き期待値をとった θ^=E[θ^T]\hat\theta^{*}=E[\hat\theta\mid T] は、やはり不偏でありながら分散が同じか小さくなる』という定理です。式で書くと E[θ^]=θE[\hat\theta^{*}]=\theta(不偏は保たれる)かつ Var(θ^)Var(θ^)\mathrm{Var}(\hat\theta^{*})\le\mathrm{Var}(\hat\theta)。つまり十分統計量への条件付けは、情報を失わずに推定量を磨いて分散を下げる操作になっています。 具体例として、ポアソン分布で T=XiT=\sum X_i が十分統計量であることを確認します。尤度 L(λ;x)=enλλxi/xi!L(\lambda;x)=e^{-n\lambda}\lambda^{\sum x_i}/\prod x_i!g(xi;λ)=enλλxig(\sum x_i;\lambda)=e^{-n\lambda}\lambda^{\sum x_i}h(x)=1/xi!h(x)=1/\prod x_i! の積に分けられます——『データを xi\sum x_i に要約しても λ\lambda の情報は失われない』のです。

試験に出る性質

定義

TT を与えたときの条件付き分布 f(xT)f(x\mid T)θ\theta に依存しない統計量。TT を超えて θ\theta の情報は得られない。

因数分解定理

f(x;θ)=g(T(x);θ)h(x)f(x;\theta)=g(T(x);\theta)\,h(x) と分解できれば T(X)T(X) は十分。θ\theta が尤度に入る経路が TT を通してだけ。

ラオ–ブラックウェル

不偏推定量を十分統計量で条件付き期待 E[θ^T]E[\hat\theta\mid T] すると、不偏のまま分散が下がる。

UMVUEへの足場

最良の不偏推定量は十分統計量の関数の中に探せばよい。点推定の効率化の出発点。

代表例

ポアソン・指数では T=XiT=\sum X_i、正規(分散既知)では Xˉ\bar X が十分。和に要約しても情報は失われない。

例で見る

ポアソン分布で T=XiT=\sum X_i が十分統計量であることを因数分解で確認する。 L(λ;x)=enλλxi/xi!=g(xi;λ)h(x)L(\lambda;x)=e^{-n\lambda}\lambda^{\sum x_i}/\prod x_i!=g(\sum x_i;\lambda)\cdot h(x)g=enλλxig=e^{-n\lambda}\lambda^{\sum x_i}θ\theta はここだけ)、h=1/xi!h=1/\prod x_i!θ\theta なし)。Xi\sum X_i は十分統計量。

つまずきポイント

  • 十分統計量を『θ\theta の良い推定量』と混同する(情報を要約する量であり、それ自体が推定値とは限らない)
  • 因数分解で h(x)h(x)θ\theta が紛れ込むのを見落とす(hhθ\theta を含まない。台が θ\theta に依存する非正則モデルでは注意)
  • 十分統計量は一意だと思う(TT の1対1変換も十分。Xi\sum X_iXˉ\bar X はどちらも十分)

定着クイズ

十分統計量 TT の定義として正しいのは?

因数分解 f(x;θ)=g(T(x);θ)h(x)f(x;\theta)=g(T(x);\theta)h(x) が意味するのは?

不偏推定量を十分統計量で条件付き期待すると(ラオ–ブラックウェル)?

関連:#MLE

この用語を扱う問題(1