標本分散

統計・用語

ひとことで言うと

標本分散（不偏分散） $S^2$ は、手元の $n$ 個のデータの散らばりから母集団の分散 $\sigma^2$ を推定する量です。最大のポイントは『なぜ $n$ ではなく $n-1$ で割るのか』。データから平均 $\bar x$ を先に計算した時点で偏差の合計が必ず0になる『縛り』が入るため、自由に動ける情報は $n-1$ 個ぶんしかないのです。

標本 $x=(2,4,6,8,10)$ 、 $\bar x=6$ の偏差 $(-4,-2,0,2,4)$ 。正の偏差（緑）と負の偏差（赤）の和は必ず0になり、最後の1個は他から自動的に決まる。だから自由な偏差は $n-1=4$ 個ぶんで、不偏分散は $S^2=40/4=10$ 。

数式で表すと

$S^2=\dfrac{1}{n-1}\sum (X_i-\bar X)^2$

$n-1$ で割る不偏分散 $S^2$ 。正規母集団では $(n-1)S^2/\sigma^2\sim\chi^2(n-1)$ 。

標本分散（不偏分散）

S^2

は、

n

個の標本

X_1,\dots,X_n

から母集団の分散

\sigma^2

を推定する統計量で、

S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2

と定義されます。母集団の理論的分散

\mathrm{Var}(X)=E[(X-\mu)^2]

が『真の平均

\mu

からの散らばりの期待値』という理論値だったのに対し、

S^2

は『手元のデータから実際に計算する推定量』である点が決定的に違います。そして母分散の式が

n

で割る形だったのに、標本分散はあえて

n-1

で割ります。この

n-1

こそが本概念の核心です。なぜ

n-1

なのか。直感は自由度です。本来知りたいのは真の平均

\mu

からの偏差

(X_i-\mu)

ですが、

\mu

は未知なので代わりに標本平均

\bar X

を使います。ところが

\bar X

は同じデータから計算した値なので、偏差

(X_i-\bar X)

には『合計が必ず0になる』という制約が入ります（

\sum(X_i-\bar X)=0

）。つまり

n

個の偏差のうち

n-1

個を決めれば、残り1個は自動的に定まってしまう——自由に動ける情報は

n-1

個ぶんしかないのです。もし

n

で割ると

E\left[\frac{1}{n}\sum(X_i-\bar X)^2\right]=\frac{n-1}{n}\sigma^2<\sigma^2

と偏ります。

n-1

で割ると

E[S^2]=\sigma^2

となり、過小評価のクセが消えます。これが『不偏』分散と呼ばれる理由です。さらに正規母集団のときには

S^2

の分布そのものが分かります。母集団が

N(\mu,\sigma^2)

のとき

\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)

が成り立ちます。自由度がぴったり

n-1

になっているのは、上で見た『偏差の和=0で1自由度失う』ことの分布論的な反映です。この事実は、分散の区間推定や母分散に関する検定（χ²検定）の土台になります。

試験に出る性質

定義（n-1で割る）

$S^2=\frac{1}{n-1}\sum(X_i-\bar X)^2$ 。母分散の式が $n$ で割るのに対し、標本分散はあえて $n-1$ （自由度）で割る。

不偏性

$E[S^2]=\sigma^2$ 。 $n$ で割ると $E=\frac{n-1}{n}\sigma^2<\sigma^2$ と過小評価。 $n-1$ で割ることでこの偏りが消える。

自由度の直感

偏差の和 $\sum(X_i-\bar X)=0$ という制約で、自由に動けるのは $n-1$ 個ぶん。失われた1自由度を補うのが $n-1$ 。

正規母集団での分布

$N(\mu,\sigma^2)$ なら $(n-1)S^2/\sigma^2\sim\chi^2(n-1)$ 。自由度 $n-1$ は偏差の和=0の制約の反映。分散の区間推定・検定の土台。

標準偏差は不偏でない

$S^2$ は不偏でも、 $S=\sqrt{S^2}$ は平方根が非線形なため一般に $E[S]\ne\sigma$ 。標準偏差は厳密には不偏推定量ではない。

例で見る

$x=(2,4,6,8,10)$ 、 $n=5$ 。標本平均 $\bar x=6$ 。偏差 $(x_i-\bar x)=(-4,-2,0,2,4)$ （和は0）。二乗和 $\sum(x_i-\bar x)^2=40$ 。不偏分散 $S^2=40/(5-1)=10$ 。もし $n$ で割ると $40/5=8$ で $\sigma^2$ を過小評価。正規母集団なら $4S^2/\sigma^2\sim\chi^2(4)$ 。

つまずきポイント

母分散と同じく $n$ で割ってしまう（標本から平均を推定したぶん1自由度失うので $n-1$ で割る。 $n$ で割ると過小評価して偏る）
$S^2$ が不偏だから標準偏差 $S$ も不偏だと思う（平方根が非線形なので一般に $E[S]\ne\sigma$ 。 $S$ は厳密には不偏でない）
$(n-1)S^2/\sigma^2$ の自由度を $n$ と取り違える（自由度は $n-1$ 。偏差の和=0の制約で1つ失われるため）

定着クイズ

標本分散（不偏分散） $S^2$ が $n$ ではなく $n-1$ で割る理由は？

$x=(2,4,6,8,10)$ の不偏分散 $S^2$ は？（ $\bar x=6$ 、二乗和=40）

正規母集団 $N(\mu,\sigma^2)$ のとき $(n-1)S^2/\sigma^2$ が従う分布は？

関連：#不偏推定量 #χ²分布 #分散

この用語を扱う問題（1）

標本分散とχ²統計・★★