acpass

二項分布

知識マップ

確率用語

ひとことで言うと

「成功か失敗かの2択を独立にn回繰り返したときの、成功した回数」を表す離散分布です。コインをn回投げて表が出た回数や、n人にアンケートをとって「はい」と答えた人数などがこれに当たります。

こんなデータが従う

コイン投げでn回中表が出た回数n人の受験者のうちの合格者数(合格率pが共通)n個の製品中の不良品数n件の契約のうち事故が発生した件数n人へのアンケートで「はい」と答えた人数

「結果が成功/失敗の2択になる試行」を独立に同じ条件でn回繰り返せる状況で現れます。1回だけならベルヌーイ分布、それをn回繰り返した合計が二項分布です。

二項分布の確率関数(n=10, p=0.3)012345678910平均 np=3k(成功回数)P(X=k)

横軸は成功回数 kk(0,1,…,n)、縦軸は確率 P(X=k)P(X=k)。n=10, p=0.3 の例。山の頂点は np の近く。

数式で表すと

P(X=k)=(nk)pk(1p)nk, E[X]=np, Var=np(1p)P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},\ E[X]=np,\ \mathrm{Var}=np(1-p)

記法は B(n,p)B(n,p)(または Bin(n,p)\mathrm{Bin}(n,p))で、n が試行回数、p が1回あたりの成功確率です。 P(X=k)=(nk)pk(1p)nkP(X=k)=\binom{n}{k}p^k(1-p)^{n-k} の意味は、「n回のうちどこでk回成功するか」の並び方が (nk)\binom{n}{k} 通りあり、そのどの並びも確率は pk(1p)nkp^k(1-p)^{n-k} で同じ、という積です。 n=1のときは1回だけの成功/失敗で、これがベルヌーイ分布です。二項分布は独立なベルヌーイをn個足したものと考えられます(後述の再生性の根拠)。 n が大きく p が小さいとき(試行回数が多いが成功は稀)は np=λnp=\lambda を保ってポアソン分布で近似できます。逆に n が大きければ(p が極端でなければ)正規分布で近似でき、どちらの近似を使うかは状況に応じて選びます。

試験に出る性質

平均と分散

E[X]=np, Var[X]=np(1p)E[X]=np,\ \mathrm{Var}[X]=np(1-p)

ベルヌーイとの関係

n=1の二項分布がベルヌーイ分布。独立なベルヌーイn個の和が B(n,p)B(n,p)

再生性(pが共通の場合)

独立な XB(n1,p)X\sim B(n_1,p), YB(n2,p)Y\sim B(n_2,p)(同じp)なら X+YB(n1+n2,p)X+Y\sim B(n_1+n_2,p)

ポアソン近似

n大・p小で np=λnp=\lambda 一定のとき Po(λ)Po(\lambda) に近づく。

正規近似

n が大きいとき N(np, np(1p))N(np,\ np(1-p)) に近づく(連続性補正に注意)。

例で見る

不良率p=0.1の工程からn=20個を抜き出したとき、不良品がちょうど2個である確率は P(X=2)=(202)(0.1)2(0.9)180.285P(X=2)=\binom{20}{2}(0.1)^2(0.9)^{18}\approx 0.285

つまずきポイント

  • n と p の順序や意味を取り違える(n=試行回数、p=1回の成功確率)
  • 分散を npnp と勘違いする(正しくは np(1p)np(1-p)
  • p が小さく n が大きい状況でそのまま二項の式を計算しようとする(ポアソン近似が実用的)

定着クイズ

XB(10,0.4)X\sim B(10,0.4) の平均は?

二項分布で n=1 のときの特別な名前は?

n が大きく p が小さい(npが一定)とき、二項分布は何で近似できる?

この用語を扱う問題(4