acpass

統計用語

ひとことで言うと

母集団の中で「ある性質をもつ割合」が母比率 pp です。それを標本比率 p^\hat p で推定し、信頼区間で「だいたいこの範囲」と幅をつけます。最大の注意点は、信頼区間と検定でSE(標準誤差)に入れる比率が違うこと——区間推定は p^\hat p、検定は p0p_0 を使います。

母比率の95%信頼区間を表す数直線。点推定値である標本比率p̂=0.58を中心に、標準誤差SE=√(p̂(1-p̂)/n)で決まる±1.96SEの帯を描く。信頼区間ではSEに観測したp̂を使う点が、p0を使う検定との違いを示す信頼区間のSEはp̂で計算。p̂±1.96SE=(0.483, 0.677)0.450.550.65p̂=0.580.4830.677比率 p

母比率の95%信頼区間の数直線。点推定値 p^=0.58\hat p=0.58 を中心に、SE=p^(1p^)/n\mathrm{SE}=\sqrt{\hat p(1-\hat p)/n} で決まる ±1.96SE\pm1.96\,\mathrm{SE} の帯を描くと (0.483,0.677)(0.483,\,0.677) になる。信頼区間ではSEに観測した p^\hat p を使うのが要点。

数式で表すと

p^=X/n, Var(p^)=p(1p)n\hat p=X/n,\ \mathrm{Var}(\hat p)=\tfrac{p(1-p)}{n}

母集団中の割合 pp。点推定は標本比率 p^\hat p、分散は p(1p)/np(1-p)/n

母比率 pp とは、母集団の中で「ある性質をもつものの割合」です。これを点推定するのが標本比率 p^=X/n\hat p=X/nXX は標本中で該当した個数、nn は標本サイズ)で、その分散は Var(p^)=p(1p)/n\mathrm{Var}(\hat p)=p(1-p)/n です(concept: 二項分布で、XBinomial(n,p)X\sim\mathrm{Binomial}(n,p) の分散 np(1p)np(1-p)n2n^2 で割れば出ます)。ここでは概念の中心を、区間推定(concept: 区間推定)の文脈での母比率の扱いに置きます。点推定 p^\hat p は1つの値ですが、それだけでは精度が分からないので「だいたいこの範囲に真の pp がある」という信頼区間をつけます。大標本では p^\hat p が近似的に正規分布に従う(concept: 中心極限定理・正規近似)ので、95%信頼区間は p^±1.96SE,SE=p^(1p^)n\hat p\pm 1.96\,\mathrm{SE},\qquad \mathrm{SE}=\sqrt{\dfrac{\hat p(1-\hat p)}{n}} で作ります。標準誤差SEに観測した p^\hat p を入れている点に注目してください。 ここが最大の落とし穴です。信頼区間を作るときの標準誤差は未知の pp の代わりに p^\hat p を使う(SE=p^(1p^)/n\mathrm{SE}=\sqrt{\hat p(1-\hat p)/n})のですが、仮説検定で H0:p=p0H_0:p=p_0 を検定するとき(concept: 母比率検定)は、帰無仮説の値 p0p_0 を使う(SE=p0(1p0)/n\mathrm{SE}=\sqrt{p_0(1-p_0)/n})のです。この2つは「比率の標準誤差」という同じ顔をしているのに、中に入れる比率が違います。理由は、検定では『H0H_0 が正しいと仮定した世界』でのばらつきを基準にするので p0p_0 を使うのに対し、区間推定では真の値を仮定せず手元の最良推定 p^\hat p を使うからです。この違いを区別できないのが、母比率まわりの典型的な誤りです。 数値で両方を計算して並べてみます。p^=0.58\hat p=0.58n=100n=100 とします。まず信頼区間用のSE(p^\hat p を使う)は SE=0.58×0.42/100=0.0024360.0494\mathrm{SE}=\sqrt{0.58\times0.42/100}=\sqrt{0.002436}\approx0.0494 なので、95%信頼区間は 0.58±1.96×0.0494=0.58±0.0968=(0.483,0.677)0.58\pm1.96\times0.0494=0.58\pm0.0968=(0.483,\,0.677) です。一方、もし H0:p=0.5H_0:p=0.5 を検定するなら、検定用のSE(p0=0.5p_0=0.5 を使う)は 0.5×0.5/100=0.0025=0.05\sqrt{0.5\times0.5/100}=\sqrt{0.0025}=0.05 で、0.04940.0494 とはわずかに違う値になります。値の差は小さくても、どちらの比率を入れるべきかという理屈は明確に違う、という点をしっかり区別してください。なお、正規近似が使えるのは np^n\hat pn(1p^)n(1-\hat p) がともに十分大きい(目安5以上)ときで、上の例は 100×0.58=58100\times0.58=58100×0.42=42100\times0.42=42 でいずれも十分です。

試験に出る性質

点推定

p^=X/n\hat p=X/n(該当数÷標本サイズ)が母比率 pp の点推定。Var(p^)=p(1p)/n\mathrm{Var}(\hat p)=p(1-p)/n

信頼区間

大標本で p^±1.96SE\hat p\pm1.96\,\mathrm{SE}SE=p^(1p^)/n\mathrm{SE}=\sqrt{\hat p(1-\hat p)/n}。SEに観測した p^\hat p を使う。

検定とのSEの違い

区間推定は p^\hat p、検定(H0:p=p0H_0:p=p_0)は p0p_0 をSEに使う。同じ顔だが入れる比率が違う。

正規近似の条件

np^5n\hat p\ge5 かつ n(1p^)5n(1-\hat p)\ge5 が目安。満たさないと正規近似が崩れる。

数値例

p^=0.58, n=100\hat p=0.58,\ n=100 で区間用 SE0.0494\mathrm{SE}\approx0.0494、95%CIは (0.483,0.677)(0.483,0.677)。検定用なら p0=0.5p_0=0.5SE=0.05\mathrm{SE}=0.05

例で見る

p^=0.58\hat p=0.58n=100n=100。信頼区間用SE(p^\hat p を使う)は SE=0.58×0.42/100=0.0024360.0494\mathrm{SE}=\sqrt{0.58\times0.42/100}=\sqrt{0.002436}\approx0.0494、95%CIは 0.58±1.96×0.0494=(0.483,0.677)0.58\pm1.96\times0.0494=(0.483,\,0.677)。 一方 H0:p=0.5H_0:p=0.5 の検定用SE(p0p_0 を使う)は 0.5×0.5/100=0.05\sqrt{0.5\times0.5/100}=0.05 とわずかに違う値になる。

つまずきポイント

  • 信頼区間のSEに p0p_0 を、検定のSEに p^\hat p を、と取り違える(区間推定は p^\hat p、検定は H0H_0p0p_0 が正しい)
  • 正規近似の条件を確認せず使う(np^n\hat pn(1p^)n(1-\hat p) が5未満だと近似が崩れる。小標本では別手法)
  • Var(p^)\mathrm{Var}(\hat p)p(1p)p(1-p) とする(nn で割る。Var(p^)=p(1p)/n\mathrm{Var}(\hat p)=p(1-p)/n で標本が大きいほど小さい)

定着クイズ

母比率の信頼区間で標準誤差に使う比率は?

p^=0.58\hat p=0.58n=100n=100 のときの信頼区間用 SE は?

検定 H0:p=0.5H_0:p=0.5 と信頼区間で SE が違うのはなぜ?

この用語を扱う問題(2