超幾何分布

確率・用語

ひとことで言うと

袋の中の当たりくじを「引いたら戻さない（非復元）」で何本か取り出したときの、当たりの本数の分布です。引くたびに袋の中身が減っていくので、毎回同じ確率で独立に試行する二項分布とは似て非なるものになります。保険でいえば、ある保険集団から重複なく数件を抜き出して該当件数を数える、といった場面に対応します。

こんなデータが従う

20枚中8枚が当たりのくじから戻さずに5枚引いたときの当たり枚数100件の契約のうち事故ありが15件、無作為に10件抜き出したときの事故あり件数出荷ロット50個に不良5個、抜き取り検査で8個調べたときの不良個数カード40枚中エース4枚から5枚配ったときの手札のエース数在庫30個のうち期限切れ6個、戻さず4個取ったときの期限切れ個数

いずれも「有限の母集団から戻さずに（非復元で）何個か抜き取り、当たりの個数を数える」場面です。各回の抽出が独立でない（引くと母集団が減る）点が、独立試行を前提とする二項分布との決定的な違いです。

超幾何分布 $N=20,K=8,n=5$ （塗り棒）と、同じ平均をもつ二項分布 $B(5,0.4)$ （破線枠）を重ねた図。平均はどちらも $2$ だが、超幾何は有限母集団修正で分散が小さく、中心の $2$ 付近に確率がより集中している。

数式で表すと

$P(Y=y)=\dfrac{\binom{K}{y}\binom{N-K}{n-y}}{\binom{N}{n}},\ E[Y]=n\tfrac{K}{N}$

$N$ 個中 $K$ 個が当たりの母集団から非復元で $n$ 個抽出したときの当たり数の分布。

超幾何分布は、

N

個のうち

K

個が「当たり」である有限の母集団から、戻さずに（非復元で）

n

個を抜き取ったときの、当たりの個数

Y

が従う分布です。確率質量関数は

P(Y=y)=\dfrac{\binom{K}{y}\binom{N-K}{n-y}}{\binom{N}{n}}

で、「当たり

K

個から

y

個」と「はずれ

N-K

個から

n-y

個」を選ぶ場合の数を、全体から

n

個選ぶ場合の数で割った形です。二項分布と対比すると理解が早いです。二項分布は「毎回同じ確率

p

で成功・失敗を独立に繰り返す（復元抽出に相当）」のに対し、超幾何分布は「引くたびに母集団が減る非復元抽出」です。平均と分散を見ると、この違いがはっきりします。期待値は

E[Y]=n\dfrac{K}{N}

で、

K/N=p

とおけば二項分布の

np

とまったく同じ形です（平均は非復元でも変わらない）。ところが分散は

\mathrm{Var}[Y]=n\dfrac{K}{N}\dfrac{N-K}{N}\dfrac{N-n}{N-1}

となり、二項分布の

np(1-p)

に有限母集団修正項

\dfrac{N-n}{N-1}

が掛かります。この修正項は

n\ge2

なら必ず

1

より小さいので、超幾何分布の分散は同じ

n,p

の二項分布より常に小さくなります。非復元では「当たりを引きすぎると残りの当たりが減って次は引きにくくなる」という負のフィードバックが働き、結果が平均の周りに集まりやすくなるためです。

N

を大きくしていくと修正項が1に近づき、超幾何分布は

K/N=p

固定のもとで二項分布

B(n,p)

に近づきます。母集団が抜き取り数に比べて十分大きければ「戻しても戻さなくてもほぼ同じ」になるという実感に合致します。concept: ポアソン近似（二項→ポアソン）とは近づける対象も条件も別物なので注意してください。

試験に出る性質

確率質量関数

$P(Y=y)=\dfrac{\binom{K}{y}\binom{N-K}{n-y}}{\binom{N}{n}}$ 。当たり $K$ から $y$ 、はずれ $N-K$ から $n-y$ を選ぶ場合の数の比。

平均は二項と同形

$E[Y]=n\dfrac{K}{N}$ 。 $K/N=p$ とおけば二項の $np$ と同じ。平均は非復元でも変わらない。

有限母集団修正で分散小

$\mathrm{Var}[Y]=np(1-p)\dfrac{N-n}{N-1}$ 。修正項 $\dfrac{N-n}{N-1}<1$ なので二項より常に分散が小さい。

二項への収束

$N\to\infty$ （ $K/N=p$ 固定）で修正項 $\to1$ となり $B(n,p)$ に近づく。母集団が大きければ二項で代用可。

ポアソン近似と向きが違う

超幾何→二項は $N$ を大きくする近似。concept: ポアソン近似（二項→ポアソン）は $n$ 大・ $p$ 小の近似で別物。

例で見る

$N=20,K=8,n=5$ （当たり8枚を含む20枚から戻さず5枚）のとき、平均は $E[Y]=5\times\dfrac{8}{20}=2$ 。分散は $\mathrm{Var}[Y]=5\times0.4\times0.6\times\dfrac{20-5}{20-1}=1.2\times\dfrac{15}{19}\approx0.9474$ 。同じ $n=5,p=0.4$ の二項分布の分散 $1.2$ より小さい（修正項 $15/19\approx0.789$ が掛かるため）。ちょうど2枚当たる確率は $P(Y=2)=\dfrac{\binom{8}{2}\binom{12}{3}}{\binom{20}{5}}=\dfrac{28\times220}{15504}\approx0.397$ 。

つまずきポイント

非復元なのに二項分布を当ててしまう（毎回確率が変わる非復元では超幾何が正しい。母集団が小さいほど誤差が大きい）
分散を $np(1-p)$ のままにして有限母集団修正項 $\dfrac{N-n}{N-1}$ を忘れる（超幾何の分散は必ず二項より小さい）
超幾何→二項の収束とポアソン近似（二項→ポアソン）を混同する（前者は $N$ を大きく、後者は $n$ 大・ $p$ 小。条件も向きも別）

定着クイズ

超幾何分布が二項分布と本質的に違う点は？

$N=20,K=8,n=5$ の超幾何分布の平均 $E[Y]$ は？

超幾何分布の分散が同じ $n,p$ の二項分布より小さいのはなぜ？