acpass

母比率検定

知識マップ

統計用語

ひとことで言うと

コインの表が出る割合のような「母比率 pp」が、ある値 p0p_0 と違うかどうかを調べる検定です。最大のコツは、標準誤差を観測した比率 p^\hat p ではなく「帰無仮説の比率 p0p_0」で計算することです。

母比率検定の数直線。帰無仮説の比率p0=0.5を中心に標準誤差SEで決まる±1.96SEの棄却限界帯を示し、観測した標本比率p̂=0.58がその帯の内側に収まるため棄却できない様子。SEはp0で計算する点が要点SEはH0の比率p0で計算。p̂が±1.96SE内なら棄却できない0.40.50.6p₀=0.5p̂=0.58(帯の内側→棄却せず)比率 p

母比率検定の数直線。帰無仮説の比率 p0=0.5p_0=0.5 を中心に、標準誤差で決まる ±1.96SE\pm1.96\,\mathrm{SE} の棄却限界帯を示す。観測した標本比率 p^=0.58\hat p=0.58 はこの帯の内側に収まるので棄却できない。標準誤差は p0p_0 で計算するのが要点。

数式で表すと

z=p^p0p0(1p0)/nz=\dfrac{\hat p-p_0}{\sqrt{p_0(1-p_0)/n}}

母比率 pp の検定。標準誤差は H0H_0 の比率 p0p_0 を使う点に注意。

母比率検定は、母集団で「ある性質をもつ割合(母比率)」pp が、帰無仮説で立てた値 p0p_0 と異なるか(H0:p=p0H_0:p=p_0)を、標本比率 p^\hat p をもとに判定する検定です。p^\hat p は標本のうち該当した割合(成功数 ÷ 標本サイズ nn)です。検定統計量は z=p^p0p0(1p0)/nz=\dfrac{\hat p-p_0}{\sqrt{p_0(1-p_0)/n}} で、H0H_0 のもとで近似的に標準正規 N(0,1)N(0,1) に従います。ここで concept: 仮説検定の重要原則がそのまま効いてきます。それは「標準誤差は帰無仮説の値で計算する」という原則です。比率の標準誤差は本来 p(1p)/n\sqrt{p(1-p)/n} ですが、検定では真の pp の代わりに H0H_0 で仮定した p0p_0 を入れて p0(1p0)/n\sqrt{p_0(1-p_0)/n} とします。観測した p^\hat p を入れるのではない点が、concept: 区間推定(こちらは推定値 p^\hat p 自体を使う)との決定的な違いです。 具体例で計算します。H0:p0=0.5H_0:p_0=0.5n=100n=100、観測した標本比率 p^=0.58\hat p=0.58 とします。標準誤差は H0H_0 の値 p0=0.5p_0=0.5 を使って SE=p0(1p0)/n=0.5×0.5/100=0.0025=0.05\mathrm{SE}=\sqrt{p_0(1-p_0)/n}=\sqrt{0.5\times0.5/100}=\sqrt{0.0025}=0.05 ですから、検定統計量は z=0.580.50.05=0.080.05=1.6z=\dfrac{0.58-0.5}{0.05}=\dfrac{0.08}{0.05}=1.6 です。両側の臨界値 z0.025=1.96z_{0.025}=1.96 と比べると z=1.6<1.96|z|=1.6<1.96 なので、H0H_0 を棄却できません。図のように p^=0.58\hat p=0.58p0p_0 を中心とする ±1.96SE\pm1.96\,\mathrm{SE} の帯の内側に収まっている、という見方と一致します。 母比率検定は二項分布を正規分布で近似して使うので、その近似が妥当である条件に注意が必要です。目安は np05 かつ n(1p0)5n p_0\ge5\ \text{かつ}\ n(1-p_0)\ge5 で(concept: 正規近似で扱った成功・失敗が十分多いという条件)、これを満たさない(標本が小さい、または p0p_0 が0や1に近い)場合は正規近似が崩れ、二項分布を直接使う厳密な検定が必要になります。上の例は np0=100×0.5=505np_0=100\times0.5=50\ge5n(1p0)=505n(1-p_0)=50\ge5 を十分満たすので正規近似が使えます。

試験に出る性質

検定対象

母比率 ppp0p_0 と異なるか(H0:p=p0H_0:p=p_0)。標本比率 p^\hat p をもとに判定する。

標準誤差は $p_0$ で

SE=p0(1p0)/n\mathrm{SE}=\sqrt{p_0(1-p_0)/n}。検定では H0H_0 の値 p0p_0 を使う。p^\hat p を使う区間推定とは別。

検定統計量

z=p^p0p0(1p0)/nz=\dfrac{\hat p-p_0}{\sqrt{p_0(1-p_0)/n}}H0H_0 のもとで近似的に N(0,1)N(0,1)

正規近似の条件

np05np_0\ge5 かつ n(1p0)5n(1-p_0)\ge5(concept: 正規近似)。満たさないと二項の厳密検定が必要。

p0=0.5, n=100, p^=0.58p_0=0.5,\ n=100,\ \hat p=0.58z=0.08/0.05=1.6<1.96z=0.08/0.05=1.6<1.96 で棄却できない。

例で見る

H0:p0=0.5H_0:p_0=0.5n=100n=100、標本比率 p^=0.58\hat p=0.58 のとき、標準誤差は H0H_0 の値で SE=0.5×0.5/100=0.05\mathrm{SE}=\sqrt{0.5\times0.5/100}=0.05z=0.580.50.05=1.6z=\dfrac{0.58-0.5}{0.05}=1.6。 臨界値 1.961.96 と比べ z=1.6<1.96|z|=1.6<1.96 なので棄却できない。np0=505np_0=50\ge5 で正規近似は妥当。

つまずきポイント

  • 標準誤差に p^\hat p を使ってしまう(検定では H0H_0 の値 p0p_0 を使う。p^\hat p を使うのは区間推定のとき)
  • np0np_0n(1p0)n(1-p_0) が小さいのに正規近似を使う(目安5未満なら近似が崩れる。二項の厳密検定へ)
  • 片側と両側を混同して臨界値を取り違える(両側なら zα/2=1.96z_{\alpha/2}=1.96、片側なら zα=1.645z_\alpha=1.645

定着クイズ

母比率検定で標準誤差を計算するとき使う比率は?

p0=0.5p_0=0.5n=100n=100p^=0.58\hat p=0.58 のときの zz は?

正規近似で母比率検定を使ってよい目安は?

この用語を扱う問題(1