acpass

2標本検定

知識マップ

統計用語

ひとことで言うと

2つの群(例:新薬群と対照群)の母平均に差があるかを調べる検定です。鍵は「2群の標本平均の差 Xˉ1Xˉ2\bar X_1-\bar X_2 のばらつき(標準誤差)」で、独立な2群なら各群の分散を足して求めます。

2つの群の標本分布(山形カーブ2つ)を並べ、それぞれの平均の差X̄₁−X̄₂を検定する枠組みを示す図2群の平均差を、差の標準誤差を分母にして検定する平均の差 X̄₁−X̄₂群1群2

2つの群の標本分布(山形カーブ2つ)。それぞれの標本平均 Xˉ1,Xˉ2\bar X_1,\bar X_2 の差を、差の標準誤差で割って検定統計量を作る。差のばらつきは両群の分散の“和”から決まる。

数式で表すと

SE=σ12n1+σ22n2\mathrm{SE}=\sqrt{\tfrac{\sigma_1^2}{n_1}+\tfrac{\sigma_2^2}{n_2}}

2群の平均差を検定する。差の標準誤差は両群の分散を足して求める。

2標本検定は、2つの独立な群の母平均 μ1,μ2\mu_1,\mu_2 に差があるか(帰無仮説 H0:μ1=μ2H_0:\mu_1=\mu_2)を、標本平均の差 Xˉ1Xˉ2\bar X_1-\bar X_2 をもとに判定する検定です。concept: 仮説検定の枠組みは1標本と同じで、「推定量(ここでは差)÷その標準誤差」で検定統計量を作り、基準分布と比べます。違いは“差”のばらつきをどう見積もるかです。 ここで初学者が最もつまずくのが差の分散です。2群が独立なら、差の分散は和になります: Var(Xˉ1Xˉ2)=Var(Xˉ1)+Var(Xˉ2)=σ12n1+σ22n2\mathrm{Var}(\bar X_1-\bar X_2)=\mathrm{Var}(\bar X_1)+\mathrm{Var}(\bar X_2)=\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2} 「引いているのに足すの?」と感じますが、独立な変数を引いても分散は加わります(concept: 分散 で見た Var(XY)=Var(X)+Var(Y)\mathrm{Var}(X-Y)=\mathrm{Var}(X)+\mathrm{Var}(Y)、独立時)。符号を反転しても (1)2=1(-1)^2=1 でばらつきは減らないからです。したがって差の標準誤差は SE=σ12n1+σ22n2\mathrm{SE}=\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}} です。 あとは母分散が既知か未知かで基準分布が変わります。母分散 σ12,σ22\sigma_1^2,\sigma_2^2 が既知なら、検定統計量 Z=Xˉ1Xˉ2SEZ=\dfrac{\bar X_1-\bar X_2}{\mathrm{SE}} は標準正規 N(0,1)N(0,1) に従い、Z検定になります。母分散が未知のときは標本分散で代用し、t検定になります(concept: t分布)。特に2群の母分散が等しいと仮定できる場合は、両群のデータをまとめてプールした分散 sp2s_p^2 を作って SE=sp1n1+1n2\mathrm{SE}=s_p\sqrt{\tfrac{1}{n_1}+\tfrac{1}{n_2}} とし、自由度 n1+n22n_1+n_2-2 のt分布を使うのが標準的な「プールt検定」です(等分散を仮定しない場合はウェルチの方法を使い自由度を補正します)。1標本のときと同じく、母分散が分かっていれば正規、分からなければtに切り替える、という対応関係です。

試験に出る性質

検定対象

2群の母平均差 μ1μ2\mu_1-\mu_2。標本平均の差 Xˉ1Xˉ2\bar X_1-\bar X_2 をもとに判定する。

差の分散は“和”

独立なら Var(Xˉ1Xˉ2)=σ12n1+σ22n2\mathrm{Var}(\bar X_1-\bar X_2)=\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}。引いても分散は足す。

差の標準誤差

SE=σ12n1+σ22n2\mathrm{SE}=\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}。検定統計量はこのSEで割って作る。

母分散既知ならZ検定

Z=Xˉ1Xˉ2SEN(0,1)Z=\dfrac{\bar X_1-\bar X_2}{\mathrm{SE}}\sim N(0,1)

母分散未知ならt検定

標本分散で代用。等分散仮定ならプールした sp2s_p^2 を使い自由度 n1+n22n_1+n_2-2 のt分布(concept: t分布)。

例で見る

群1:Xˉ1=52, σ12=16, n1=25\bar X_1=52,\ \sigma_1^2=16,\ n_1=25。群2:Xˉ2=48, σ22=25, n2=25\bar X_2=48,\ \sigma_2^2=25,\ n_2=25(母分散既知)。差の標準誤差は SE=16/25+25/25=0.64+1=1.641.28\mathrm{SE}=\sqrt{16/25+25/25}=\sqrt{0.64+1}=\sqrt{1.64}\approx1.28Z=52481.283.12Z=\dfrac{52-48}{1.28}\approx3.12Z|Z| が大きく、母平均に差があると判断できる。

つまずきポイント

  • 差の分散を「引き算だから引く」と考える(独立なら Var(Xˉ1Xˉ2)\mathrm{Var}(\bar X_1-\bar X_2) は両群の分散の“和”)
  • 標準誤差で分散と標準偏差を混同する(σ2/n\sigma^2/n を足してから平方根を取る。σ/n\sigma/\sqrt n を足すのは誤り)
  • 母分散未知でもZ検定を使う(未知なら標本分散で代用したt検定。既知のときだけ正規)

定着クイズ

独立な2群の標本平均の差の分散 Var(Xˉ1Xˉ2)\mathrm{Var}(\bar X_1-\bar X_2) は?

差の標準誤差 SE の正しい式は?

2標本検定で母分散が未知のときに使う基準分布は?

この用語を扱う問題(3