2標本検定

知識マップ

統計・用語

ひとことで言うと

2つの群（例：新薬群と対照群）の母平均に差があるかを調べる検定です。鍵は「2群の標本平均の差 $\bar X_1-\bar X_2$ のばらつき（標準誤差）」で、独立な2群なら各群の分散を足して求めます。

2つの群の標本分布（山形カーブ2つ）。それぞれの標本平均 $\bar X_1,\bar X_2$ の差を、差の標準誤差で割って検定統計量を作る。差のばらつきは両群の分散の“和”から決まる。

数式で表すと

$\mathrm{SE}=\sqrt{\tfrac{\sigma_1^2}{n_1}+\tfrac{\sigma_2^2}{n_2}}$

2群の平均差を検定する。差の標準誤差は両群の分散を足して求める。

2標本検定は、2つの独立な群の母平均

\mu_1,\mu_2

に差があるか（帰無仮説

H_0:\mu_1=\mu_2

）を、標本平均の差

\bar X_1-\bar X_2

をもとに判定する検定です。concept: 仮説検定の枠組みは1標本と同じで、「推定量（ここでは差）÷その標準誤差」で検定統計量を作り、基準分布と比べます。違いは“差”のばらつきをどう見積もるかです。ここで初学者が最もつまずくのが差の分散です。2群が独立なら、差の分散は和になります：

\mathrm{Var}(\bar X_1-\bar X_2)=\mathrm{Var}(\bar X_1)+\mathrm{Var}(\bar X_2)=\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}

「引いているのに足すの?」と感じますが、独立な変数を引いても分散は加わります（concept: 分散で見た

\mathrm{Var}(X-Y)=\mathrm{Var}(X)+\mathrm{Var}(Y)

、独立時）。符号を反転しても

(-1)^2=1

でばらつきは減らないからです。したがって差の標準誤差は

\mathrm{SE}=\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}

です。あとは母分散が既知か未知かで基準分布が変わります。母分散

\sigma_1^2,\sigma_2^2

が既知なら、検定統計量

Z=\dfrac{\bar X_1-\bar X_2}{\mathrm{SE}}

は標準正規

N(0,1)

に従い、Z検定になります。母分散が未知のときは標本分散で代用し、t検定になります（concept: t分布）。特に2群の母分散が等しいと仮定できる場合は、両群のデータをまとめてプールした分散

s_p^2

を作って

\mathrm{SE}=s_p\sqrt{\tfrac{1}{n_1}+\tfrac{1}{n_2}}

とし、自由度

n_1+n_2-2

のt分布を使うのが標準的な「プールt検定」です（等分散を仮定しない場合はウェルチの方法を使い自由度を補正します）。1標本のときと同じく、母分散が分かっていれば正規、分からなければtに切り替える、という対応関係です。

試験に出る性質

検定対象

2群の母平均差 $\mu_1-\mu_2$ 。標本平均の差 $\bar X_1-\bar X_2$ をもとに判定する。

差の分散は“和”

独立なら $\mathrm{Var}(\bar X_1-\bar X_2)=\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}$ 。引いても分散は足す。

差の標準誤差

$\mathrm{SE}=\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}$ 。検定統計量はこのSEで割って作る。

母分散既知ならZ検定

$Z=\dfrac{\bar X_1-\bar X_2}{\mathrm{SE}}\sim N(0,1)$ 。

母分散未知ならt検定

標本分散で代用。等分散仮定ならプールした $s_p^2$ を使い自由度 $n_1+n_2-2$ のt分布（concept: t分布）。

例で見る

群1： $\bar X_1=52,\ \sigma_1^2=16,\ n_1=25$ 。群2： $\bar X_2=48,\ \sigma_2^2=25,\ n_2=25$ （母分散既知）。差の標準誤差は $\mathrm{SE}=\sqrt{16/25+25/25}=\sqrt{0.64+1}=\sqrt{1.64}\approx1.28$ 、 $Z=\dfrac{52-48}{1.28}\approx3.12$ 。 $|Z|$ が大きく、母平均に差があると判断できる。

つまずきポイント

差の分散を「引き算だから引く」と考える（独立なら $\mathrm{Var}(\bar X_1-\bar X_2)$ は両群の分散の“和”）
標準誤差で分散と標準偏差を混同する（ $\sigma^2/n$ を足してから平方根を取る。 $\sigma/\sqrt n$ を足すのは誤り）
母分散未知でもZ検定を使う（未知なら標本分散で代用したt検定。既知のときだけ正規）

定着クイズ

独立な2群の標本平均の差の分散 $\mathrm{Var}(\bar X_1-\bar X_2)$ は？

差の標準誤差 SE の正しい式は？

2標本検定で母分散が未知のときに使う基準分布は？