十分統計量

統計・用語

ひとことで言うと

十分統計量とは、データを要約しても『母数 $\theta$ についての情報を一切失わない』統計量です。たとえばポアソンや指数分布では、個々の観測値をすべて覚えておかなくても、和 $\sum X_i$ だけ知っていれば $\theta$ の推定に必要な情報はすべて手に入ります。データ圧縮の理論的な核心です。

因数分解定理 $f(x;\theta)=g(T(x);\theta)\,h(x)$ 。同時尤度のうち $\theta$ を含むのは $g(T;\theta)$ だけなので、 $T(X)$ さえ知れば $\theta$ の情報は尽きる。ポアソンでは $T=\sum X_i$ が十分統計量。

数式で表すと

$f(x\mid T)\ \text{が}\ \theta\ \text{に依存しない}$

母数に関する情報を余さず含む統計量。ポアソン・指数では $\sum X_i$ 。

十分統計量

T(X)

とは、それを知れば標本

X=(X_1,\dots,X_n)

が母数

\theta

についてもつ情報をすべて含む統計量です。正式には『

T

を与えたときの

X

の条件付き分布

f(x\mid T=t)

が

\theta

に依存しない』ことで定義されます。

T

で条件付けると

\theta

の影響が消える、つまり

T

を超えてデータを見ても

\theta

について新たに分かることはない、という意味です。実際に十分統計量を見つける道具がフィッシャー–ネイマンの因数分解定理です。同時密度（尤度）が

f(x;\theta)=g\big(T(x);\theta\big)\cdot h(x)

と、

\theta

と

T(x)

だけに依存する部分

g

と、

\theta

を含まずデータだけに依存する部分

h(x)

の積に因数分解できれば、その

T(X)

は十分統計量です。逆も成り立ちます。ポイントは『

\theta

が尤度に入ってくる経路が

T(x)

を通してだけ』という構造で、だから

T

さえ分かれば

\theta

の手がかりは尽きるわけです。十分統計量がなぜ推定で重要かを示すのがラオ–ブラックウェルの定理です。これは『どんな不偏推定量

\hat\theta

をとってきても、それを十分統計量

T

で条件付き期待値をとった

\hat\theta^{*}=E[\hat\theta\mid T]

は、やはり不偏でありながら分散が同じか小さくなる』という定理です。式で書くと

E[\hat\theta^{*}]=\theta

（不偏は保たれる）かつ

\mathrm{Var}(\hat\theta^{*})\le\mathrm{Var}(\hat\theta)

。つまり十分統計量への条件付けは、情報を失わずに推定量を磨いて分散を下げる操作になっています。具体例として、ポアソン分布で

T=\sum X_i

が十分統計量であることを確認します。尤度

L(\lambda;x)=e^{-n\lambda}\lambda^{\sum x_i}/\prod x_i!

を

g(\sum x_i;\lambda)=e^{-n\lambda}\lambda^{\sum x_i}

と

h(x)=1/\prod x_i!

の積に分けられます——『データを

\sum x_i

に要約しても

\lambda

の情報は失われない』のです。

試験に出る性質

定義

$T$ を与えたときの条件付き分布 $f(x\mid T)$ が $\theta$ に依存しない統計量。 $T$ を超えて $\theta$ の情報は得られない。

因数分解定理

$f(x;\theta)=g(T(x);\theta)\,h(x)$ と分解できれば $T(X)$ は十分。 $\theta$ が尤度に入る経路が $T$ を通してだけ。

ラオ–ブラックウェル

不偏推定量を十分統計量で条件付き期待 $E[\hat\theta\mid T]$ すると、不偏のまま分散が下がる。

UMVUEへの足場

最良の不偏推定量は十分統計量の関数の中に探せばよい。点推定の効率化の出発点。

代表例

ポアソン・指数では $T=\sum X_i$ 、正規（分散既知）では $\bar X$ が十分。和に要約しても情報は失われない。

例で見る

ポアソン分布で $T=\sum X_i$ が十分統計量であることを因数分解で確認する。 $L(\lambda;x)=e^{-n\lambda}\lambda^{\sum x_i}/\prod x_i!=g(\sum x_i;\lambda)\cdot h(x)$ 。 $g=e^{-n\lambda}\lambda^{\sum x_i}$ （ $\theta$ はここだけ）、 $h=1/\prod x_i!$ （ $\theta$ なし）。 $\sum X_i$ は十分統計量。

つまずきポイント

十分統計量を『 $\theta$ の良い推定量』と混同する（情報を要約する量であり、それ自体が推定値とは限らない）
因数分解で $h(x)$ に $\theta$ が紛れ込むのを見落とす（ $h$ は $\theta$ を含まない。台が $\theta$ に依存する非正則モデルでは注意）
十分統計量は一意だと思う（ $T$ の1対1変換も十分。 $\sum X_i$ と $\bar X$ はどちらも十分）

定着クイズ

十分統計量 $T$ の定義として正しいのは？

因数分解 $f(x;\theta)=g(T(x);\theta)h(x)$ が意味するのは？

不偏推定量を十分統計量で条件付き期待すると（ラオ–ブラックウェル）？