acpass

標本平均

知識マップ

統計用語

ひとことで言うと

母集団から取った標本を単純に平均したものです。母平均を言い当てるための最も基本的な道具で、標本を増やすほど真の値の近くに集まり安定します。

こんなデータが従う

死亡率推定のための観測死亡者数の平均保険金請求額の標本平均健康診断データの平均値テストの平均点世論調査の支持率(比率も平均の一種)

母集団全体を観測できないときに、標本から母数(母平均)を推測する最も基本的な統計量です。

母集団の分布(広い曲線)と標本平均の分布(狭い曲線)。中心は同じだが標本平均の方が散らばりが小さい母集団の分布標本平均の分布中心はどちらもμx

母集団の分布(広い破線)と標本平均の分布(狭い実線)の比較。中心は同じだが、標本平均の散らばりはσ²/nに小さくなる。

数式で表すと

E[Xˉ]=μ, Var(Xˉ)=σ2/nE[\bar X]=\mu,\ \mathrm{Var}(\bar X)=\sigma^2/n

標本の算術平均 Xˉ\bar X。母平均の不偏推定量で、分散は σ2/n\sigma^2/n

標本平均は、母集団から抽出したn個の独立な観測値 X1,,XnX_1,\dots,X_n の算術平均 Xˉ=1ni=1nXi\bar X=\dfrac1n\sum_{i=1}^n X_i です。母平均μ・母分散σ²の母集団から抽出した場合、期待値の線形性から E[Xˉ]=μE[\bar X]=\mu となり、標本平均は母平均の不偏推定量(concept: 不偏推定量)になります。 分散については、X1,,XnX_1,\dots,X_n が独立であることを使うと Var(Xˉ)=σ2n\mathrm{Var}(\bar X)=\dfrac{\sigma^2}{n} となります。nが大きくなるほど標本平均の散らばりは小さくなり、母平均の近くに集まりやすくなります(大数の法則の直感そのもの)。 標本平均の分布の形は、nが十分大きければ中心極限定理(concept: CLT)により正規分布 N(μ,σ2/n)N(\mu,\sigma^2/n) に近づきます。元の母集団の分布の形を問わずに正規分布で近似できるのが中心極限定理の威力で、区間推定や仮説検定(concept: 区間推定、仮説検定)の基礎になります。

試験に出る性質

期待値

E[Xˉ]=μE[\bar X]=\mu。標本平均は母平均の不偏推定量。

分散

Var(Xˉ)=σ2/n\mathrm{Var}(\bar X)=\sigma^2/n(独立性が前提)。

標準誤差

SE(Xˉ)=σ/nSE(\bar X)=\sigma/\sqrt n。nを4倍にすると誤差は半分になる。

分布の近似

nが大きいと XˉN(μ,σ2/n)\bar X\approx N(\mu,\sigma^2/n)(CLT)。

独立性の前提

観測値が独立でない(例:時系列データ)と Var(Xˉ)=σ2/n\mathrm{Var}(\bar X)=\sigma^2/n の公式はそのまま使えない。

例で見る

母分散σ²=100の母集団からn=25個取った標本平均の標準誤差は SE=100/25=2SE=\sqrt{100/25}=2。nを100に増やすと SE=100/100=1SE=\sqrt{100/100}=1 で、nを4倍にすると誤差は半分(√4=2倍改善)になる。

つまずきポイント

  • Var(X̄)を求める際にnで割るのを忘れ、Var(X)=σ²のまま使ってしまう
  • 観測値間に独立性がない(時系列データなど)のにVar(X̄)=σ²/nの公式をそのまま適用する
  • 標本平均の「分布」(nが大きいときの近似)と「値」(1回の標本から計算された数値)を混同する

定着クイズ

σ²=36, n=9のとき標本平均の標準誤差SE(X̄)は?

独立な観測値の標本平均の分散公式は?

標本数nを4倍にすると、標準誤差は何倍になる?

この用語を扱う問題(3