標本平均

統計・用語

ひとことで言うと

母集団から取った標本を単純に平均したものです。母平均を言い当てるための最も基本的な道具で、標本を増やすほど真の値の近くに集まり安定します。

死亡率推定のための観測死亡者数の平均保険金請求額の標本平均健康診断データの平均値テストの平均点世論調査の支持率（比率も平均の一種）

母集団全体を観測できないときに、標本から母数（母平均）を推測する最も基本的な統計量です。

母集団の分布（広い破線）と標本平均の分布（狭い実線）の比較。中心は同じだが、標本平均の散らばりはσ²/nに小さくなる。

$E[\bar X]=\mu,\ \mathrm{Var}(\bar X)=\sigma^2/n$

標本の算術平均 $\bar X$ 。母平均の不偏推定量で、分散は $\sigma^2/n$ 。

標本平均は、母集団から抽出したn個の独立な観測値

X_1,\dots,X_n

の算術平均

\bar X=\dfrac1n\sum_{i=1}^n X_i

です。母平均μ・母分散σ²の母集団から抽出した場合、期待値の線形性から

E[\bar X]=\mu

となり、標本平均は母平均の不偏推定量（concept: 不偏推定量）になります。分散については、

X_1,\dots,X_n

が独立であることを使うと

\mathrm{Var}(\bar X)=\dfrac{\sigma^2}{n}

となります。nが大きくなるほど標本平均の散らばりは小さくなり、母平均の近くに集まりやすくなります（大数の法則の直感そのもの）。標本平均の分布の形は、nが十分大きければ中心極限定理（concept: CLT）により正規分布

N(\mu,\sigma^2/n)

に近づきます。元の母集団の分布の形を問わずに正規分布で近似できるのが中心極限定理の威力で、区間推定や仮説検定（concept: 区間推定、仮説検定）の基礎になります。

期待値

$E[\bar X]=\mu$ 。標本平均は母平均の不偏推定量。

分散

$\mathrm{Var}(\bar X)=\sigma^2/n$ （独立性が前提）。

標準誤差

$SE(\bar X)=\sigma/\sqrt n$ 。nを4倍にすると誤差は半分になる。

分布の近似

nが大きいと $\bar X\approx N(\mu,\sigma^2/n)$ （CLT）。

独立性の前提

観測値が独立でない（例：時系列データ）と $\mathrm{Var}(\bar X)=\sigma^2/n$ の公式はそのまま使えない。

母分散σ²=100の母集団からn=25個取った標本平均の標準誤差は $SE=\sqrt{100/25}=2$ 。nを100に増やすと $SE=\sqrt{100/100}=1$ で、nを4倍にすると誤差は半分（√4=2倍改善）になる。

σ²=36, n=9のとき標本平均の標準誤差SE(X̄)は？

独立な観測値の標本平均の分散公式は？

標本数nを4倍にすると、標準誤差は何倍になる？

この用語を扱う問題（3）