acpass

標本分散

知識マップ

統計用語

ひとことで言うと

標本分散(不偏分散)S2S^2 は、手元の nn 個のデータの散らばりから母集団の分散 σ2\sigma^2 を推定する量です。最大のポイントは『なぜ nn ではなく n1n-1 で割るのか』。データから平均 xˉ\bar x を先に計算した時点で偏差の合計が必ず0になる『縛り』が入るため、自由に動ける情報は n1n-1 個ぶんしかないのです。

標本x=(2,4,6,8,10)の各データから標本平均x̄=6を引いた偏差(-4,-2,0,2,4)を棒で表す。正の偏差(緑)と負の偏差(赤)の合計は必ず0になり、最後の1個は他から自動的に決まる。このためn=5個の偏差のうち自由に動けるのはn-1=4個で、不偏分散はこの自由度4で割ってS^2=40/4=10とする偏差の和は必ず0→自由なのはn-1個。S²=Σ(xi-x̄)²/(n-1)偏差0-4-2+0+2+4偏差和 (-4)+(-2)+0+2+4=0 / 二乗和=40 / S²=40/(5-1)=10偏差

標本 x=(2,4,6,8,10)x=(2,4,6,8,10)xˉ=6\bar x=6 の偏差 (4,2,0,2,4)(-4,-2,0,2,4)。正の偏差(緑)と負の偏差(赤)の和は必ず0になり、最後の1個は他から自動的に決まる。だから自由な偏差は n1=4n-1=4 個ぶんで、不偏分散は S2=40/4=10S^2=40/4=10

数式で表すと

S2=1n1(XiXˉ)2S^2=\dfrac{1}{n-1}\sum (X_i-\bar X)^2

n1n-1 で割る不偏分散 S2S^2。正規母集団では (n1)S2/σ2χ2(n1)(n-1)S^2/\sigma^2\sim\chi^2(n-1)

標本分散(不偏分散)S2S^2 は、nn 個の標本 X1,,XnX_1,\dots,X_n から母集団の分散 σ2\sigma^2 を推定する統計量で、 S2=1n1i=1n(XiXˉ)2S^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2 と定義されます。母集団の理論的分散 Var(X)=E[(Xμ)2]\mathrm{Var}(X)=E[(X-\mu)^2] が『真の平均 μ\mu からの散らばりの期待値』という理論値だったのに対し、S2S^2 は『手元のデータから実際に計算する推定量』である点が決定的に違います。そして母分散の式が nn で割る形だったのに、標本分散はあえて n1n-1 で割ります。この n1n-1 こそが本概念の核心です。 なぜ n1n-1 なのか。直感は自由度です。本来知りたいのは真の平均 μ\mu からの偏差 (Xiμ)(X_i-\mu) ですが、μ\mu は未知なので代わりに標本平均 Xˉ\bar X を使います。ところが Xˉ\bar X は同じデータから計算した値なので、偏差 (XiXˉ)(X_i-\bar X) には『合計が必ず0になる』という制約が入ります((XiXˉ)=0\sum(X_i-\bar X)=0)。つまり nn 個の偏差のうち n1n-1 個を決めれば、残り1個は自動的に定まってしまう——自由に動ける情報は n1n-1 個ぶんしかないのです。もし nn で割ると E[1n(XiXˉ)2]=n1nσ2<σ2E\left[\frac{1}{n}\sum(X_i-\bar X)^2\right]=\frac{n-1}{n}\sigma^2<\sigma^2 と偏ります。n1n-1 で割ると E[S2]=σ2E[S^2]=\sigma^2 となり、過小評価のクセが消えます。これが『不偏』分散と呼ばれる理由です。 さらに正規母集団のときには S2S^2 の分布そのものが分かります。母集団が N(μ,σ2)N(\mu,\sigma^2) のとき (n1)S2σ2χ2(n1)\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) が成り立ちます。自由度がぴったり n1n-1 になっているのは、上で見た『偏差の和=0で1自由度失う』ことの分布論的な反映です。この事実は、分散の区間推定や母分散に関する検定(χ²検定)の土台になります。

試験に出る性質

定義(n-1で割る)

S2=1n1(XiXˉ)2S^2=\frac{1}{n-1}\sum(X_i-\bar X)^2。母分散の式が nn で割るのに対し、標本分散はあえて n1n-1(自由度)で割る。

不偏性

E[S2]=σ2E[S^2]=\sigma^2nn で割ると E=n1nσ2<σ2E=\frac{n-1}{n}\sigma^2<\sigma^2 と過小評価。n1n-1 で割ることでこの偏りが消える。

自由度の直感

偏差の和 (XiXˉ)=0\sum(X_i-\bar X)=0 という制約で、自由に動けるのは n1n-1 個ぶん。失われた1自由度を補うのが n1n-1

正規母集団での分布

N(μ,σ2)N(\mu,\sigma^2) なら (n1)S2/σ2χ2(n1)(n-1)S^2/\sigma^2\sim\chi^2(n-1)。自由度 n1n-1 は偏差の和=0の制約の反映。分散の区間推定・検定の土台。

標準偏差は不偏でない

S2S^2 は不偏でも、S=S2S=\sqrt{S^2} は平方根が非線形なため一般に E[S]σE[S]\ne\sigma。標準偏差は厳密には不偏推定量ではない。

例で見る

x=(2,4,6,8,10)x=(2,4,6,8,10)n=5n=5。標本平均 xˉ=6\bar x=6。 偏差 (xixˉ)=(4,2,0,2,4)(x_i-\bar x)=(-4,-2,0,2,4)(和は0)。二乗和 (xixˉ)2=40\sum(x_i-\bar x)^2=40。 不偏分散 S2=40/(51)=10S^2=40/(5-1)=10。もし nn で割ると 40/5=840/5=8σ2\sigma^2 を過小評価。正規母集団なら 4S2/σ2χ2(4)4S^2/\sigma^2\sim\chi^2(4)

つまずきポイント

  • 母分散と同じく nn で割ってしまう(標本から平均を推定したぶん1自由度失うので n1n-1 で割る。nn で割ると過小評価して偏る)
  • S2S^2 が不偏だから標準偏差 SS も不偏だと思う(平方根が非線形なので一般に E[S]σE[S]\ne\sigmaSS は厳密には不偏でない)
  • (n1)S2/σ2(n-1)S^2/\sigma^2 の自由度を nn と取り違える(自由度は n1n-1。偏差の和=0の制約で1つ失われるため)

定着クイズ

標本分散(不偏分散)S2S^2nn ではなく n1n-1 で割る理由は?

x=(2,4,6,8,10)x=(2,4,6,8,10) の不偏分散 S2S^2 は?(xˉ=6\bar x=6、二乗和=40)

正規母集団 N(μ,σ2)N(\mu,\sigma^2) のとき (n1)S2/σ2(n-1)S^2/\sigma^2 が従う分布は?

この用語を扱う問題(1