母比率

統計・用語

ひとことで言うと

母集団の中で「ある性質をもつ割合」が母比率 $p$ です。それを標本比率 $\hat p$ で推定し、信頼区間で「だいたいこの範囲」と幅をつけます。最大の注意点は、信頼区間と検定でSE（標準誤差）に入れる比率が違うこと——区間推定は $\hat p$ 、検定は $p_0$ を使います。

母比率の95%信頼区間の数直線。点推定値 $\hat p=0.58$ を中心に、 $\mathrm{SE}=\sqrt{\hat p(1-\hat p)/n}$ で決まる $\pm1.96\,\mathrm{SE}$ の帯を描くと $(0.483,\,0.677)$ になる。信頼区間ではSEに観測した $\hat p$ を使うのが要点。

数式で表すと

$\hat p=X/n,\ \mathrm{Var}(\hat p)=\tfrac{p(1-p)}{n}$

母集団中の割合 $p$ 。点推定は標本比率 $\hat p$ 、分散は $p(1-p)/n$ 。

母比率

p

とは、母集団の中で「ある性質をもつものの割合」です。これを点推定するのが標本比率

\hat p=X/n

（

X

は標本中で該当した個数、

n

は標本サイズ）で、その分散は

\mathrm{Var}(\hat p)=p(1-p)/n

です（concept: 二項分布で、

X\sim\mathrm{Binomial}(n,p)

の分散

np(1-p)

を

n^2

で割れば出ます）。ここでは概念の中心を、区間推定（concept: 区間推定）の文脈での母比率の扱いに置きます。点推定

\hat p

は1つの値ですが、それだけでは精度が分からないので「だいたいこの範囲に真の

p

がある」という信頼区間をつけます。大標本では

\hat p

が近似的に正規分布に従う（concept: 中心極限定理・正規近似）ので、95%信頼区間は

\hat p\pm 1.96\,\mathrm{SE},\qquad \mathrm{SE}=\sqrt{\dfrac{\hat p(1-\hat p)}{n}}

で作ります。標準誤差SEに観測した

\hat p

を入れている点に注目してください。ここが最大の落とし穴です。信頼区間を作るときの標準誤差は未知の

p

の代わりに

\hat p

を使う（

\mathrm{SE}=\sqrt{\hat p(1-\hat p)/n}

）のですが、仮説検定で

H_0:p=p_0

を検定するとき（concept: 母比率検定）は、帰無仮説の値

p_0

を使う（

\mathrm{SE}=\sqrt{p_0(1-p_0)/n}

）のです。この2つは「比率の標準誤差」という同じ顔をしているのに、中に入れる比率が違います。理由は、検定では『

H_0

が正しいと仮定した世界』でのばらつきを基準にするので

p_0

を使うのに対し、区間推定では真の値を仮定せず手元の最良推定

\hat p

を使うからです。この違いを区別できないのが、母比率まわりの典型的な誤りです。数値で両方を計算して並べてみます。

\hat p=0.58

、

n=100

とします。まず信頼区間用のSE（

\hat p

を使う）は

\mathrm{SE}=\sqrt{0.58\times0.42/100}=\sqrt{0.002436}\approx0.0494

なので、95%信頼区間は

0.58\pm1.96\times0.0494=0.58\pm0.0968=(0.483,\,0.677)

です。一方、もし

H_0:p=0.5

を検定するなら、検定用のSE（

p_0=0.5

を使う）は

\sqrt{0.5\times0.5/100}=\sqrt{0.0025}=0.05

で、

0.0494

とはわずかに違う値になります。値の差は小さくても、どちらの比率を入れるべきかという理屈は明確に違う、という点をしっかり区別してください。なお、正規近似が使えるのは

n\hat p

と

n(1-\hat p)

がともに十分大きい（目安5以上）ときで、上の例は

100\times0.58=58

、

100\times0.42=42

でいずれも十分です。

試験に出る性質

点推定

$\hat p=X/n$ （該当数÷標本サイズ）が母比率 $p$ の点推定。 $\mathrm{Var}(\hat p)=p(1-p)/n$ 。

信頼区間

大標本で $\hat p\pm1.96\,\mathrm{SE}$ 、 $\mathrm{SE}=\sqrt{\hat p(1-\hat p)/n}$ 。SEに観測した $\hat p$ を使う。

検定とのSEの違い

区間推定は $\hat p$ 、検定（ $H_0:p=p_0$ ）は $p_0$ をSEに使う。同じ顔だが入れる比率が違う。

正規近似の条件

$n\hat p\ge5$ かつ $n(1-\hat p)\ge5$ が目安。満たさないと正規近似が崩れる。

数値例

$\hat p=0.58,\ n=100$ で区間用 $\mathrm{SE}\approx0.0494$ 、95%CIは $(0.483,0.677)$ 。検定用なら $p_0=0.5$ で $\mathrm{SE}=0.05$ 。

例で見る

$\hat p=0.58$ 、 $n=100$ 。信頼区間用SE（ $\hat p$ を使う）は $\mathrm{SE}=\sqrt{0.58\times0.42/100}=\sqrt{0.002436}\approx0.0494$ 、95%CIは $0.58\pm1.96\times0.0494=(0.483,\,0.677)$ 。一方 $H_0:p=0.5$ の検定用SE（ $p_0$ を使う）は $\sqrt{0.5\times0.5/100}=0.05$ とわずかに違う値になる。

つまずきポイント

信頼区間のSEに $p_0$ を、検定のSEに $\hat p$ を、と取り違える（区間推定は $\hat p$ 、検定は $H_0$ の $p_0$ が正しい）
正規近似の条件を確認せず使う（ $n\hat p$ や $n(1-\hat p)$ が5未満だと近似が崩れる。小標本では別手法）
$\mathrm{Var}(\hat p)$ を $p(1-p)$ とする（ $n$ で割る。 $\mathrm{Var}(\hat p)=p(1-p)/n$ で標本が大きいほど小さい）

定着クイズ

母比率の信頼区間で標準誤差に使う比率は？

$\hat p=0.58$ 、 $n=100$ のときの信頼区間用 SE は？

検定 $H_0:p=0.5$ と信頼区間で SE が違うのはなぜ？

関連：#二項分布 #母比率検定 #区間推定

この用語を扱う問題（2）