統計・用語
ひとことで言うと
母集団の中で「ある性質をもつ割合」が母比率 p です。それを標本比率 p^ で推定し、信頼区間で「だいたいこの範囲」と幅をつけます。最大の注意点は、信頼区間と検定でSE(標準誤差)に入れる比率が違うこと——区間推定は p^、検定は p0 を使います。
母比率の95%信頼区間の数直線。点推定値 p^=0.58 を中心に、SE=p^(1−p^)/n で決まる ±1.96SE の帯を描くと (0.483,0.677) になる。信頼区間ではSEに観測した p^ を使うのが要点。
数式で表すと
p^=X/n, Var(p^)=np(1−p)
母集団中の割合 p。点推定は標本比率 p^、分散は p(1−p)/n。
母比率 p とは、母集団の中で「ある性質をもつものの割合」です。これを点推定するのが標本比率 p^=X/n(X は標本中で該当した個数、n は標本サイズ)で、その分散は Var(p^)=p(1−p)/n です(concept: 二項分布で、X∼Binomial(n,p) の分散 np(1−p) を n2 で割れば出ます)。ここでは概念の中心を、区間推定(concept: 区間推定)の文脈での母比率の扱いに置きます。点推定 p^ は1つの値ですが、それだけでは精度が分からないので「だいたいこの範囲に真の p がある」という信頼区間をつけます。大標本では p^ が近似的に正規分布に従う(concept: 中心極限定理・正規近似)ので、95%信頼区間は
p^±1.96SE,SE=np^(1−p^)
で作ります。標準誤差SEに観測した p^ を入れている点に注目してください。
ここが最大の落とし穴です。信頼区間を作るときの標準誤差は未知の p の代わりに p^ を使う(SE=p^(1−p^)/n)のですが、仮説検定で H0:p=p0 を検定するとき(concept: 母比率検定)は、帰無仮説の値 p0 を使う(SE=p0(1−p0)/n)のです。この2つは「比率の標準誤差」という同じ顔をしているのに、中に入れる比率が違います。理由は、検定では『H0 が正しいと仮定した世界』でのばらつきを基準にするので p0 を使うのに対し、区間推定では真の値を仮定せず手元の最良推定 p^ を使うからです。この違いを区別できないのが、母比率まわりの典型的な誤りです。
数値で両方を計算して並べてみます。p^=0.58、n=100 とします。まず信頼区間用のSE(p^ を使う)は
SE=0.58×0.42/100=0.002436≈0.0494
なので、95%信頼区間は 0.58±1.96×0.0494=0.58±0.0968=(0.483,0.677) です。一方、もし H0:p=0.5 を検定するなら、検定用のSE(p0=0.5 を使う)は
0.5×0.5/100=0.0025=0.05
で、0.0494 とはわずかに違う値になります。値の差は小さくても、どちらの比率を入れるべきかという理屈は明確に違う、という点をしっかり区別してください。なお、正規近似が使えるのは np^ と n(1−p^) がともに十分大きい(目安5以上)ときで、上の例は 100×0.58=58、100×0.42=42 でいずれも十分です。試験に出る性質
点推定
p^=X/n(該当数÷標本サイズ)が母比率 p の点推定。Var(p^)=p(1−p)/n。
信頼区間
大標本で p^±1.96SE、SE=p^(1−p^)/n。SEに観測した p^ を使う。
検定とのSEの違い
区間推定は p^、検定(H0:p=p0)は p0 をSEに使う。同じ顔だが入れる比率が違う。
正規近似の条件
np^≥5 かつ n(1−p^)≥5 が目安。満たさないと正規近似が崩れる。
数値例
p^=0.58, n=100 で区間用 SE≈0.0494、95%CIは (0.483,0.677)。検定用なら p0=0.5 で SE=0.05。
例で見る
p^=0.58、n=100。信頼区間用SE(p^ を使う)は
SE=0.58×0.42/100=0.002436≈0.0494、95%CIは 0.58±1.96×0.0494=(0.483,0.677)。
一方 H0:p=0.5 の検定用SE(p0 を使う)は 0.5×0.5/100=0.05 とわずかに違う値になる。
つまずきポイント
- 信頼区間のSEに p0 を、検定のSEに p^ を、と取り違える(区間推定は p^、検定は H0 の p0 が正しい)
- 正規近似の条件を確認せず使う(np^ や n(1−p^) が5未満だと近似が崩れる。小標本では別手法)
- Var(p^) を p(1−p) とする(n で割る。Var(p^)=p(1−p)/n で標本が大きいほど小さい)
定着クイズ
母比率の信頼区間で標準誤差に使う比率は?
p^=0.58、n=100 のときの信頼区間用 SE は?
検定 H0:p=0.5 と信頼区間で SE が違うのはなぜ?