確率・用語
ひとことで言うと
「一定の期間や範囲の中で、めったに起きない出来事が何回起きるか」を表す分布です。回数は 0,1,2,… の整数で、平均回数 λ だけで形が決まります。
こんなデータが従う
1時間の来店客数1日の事故・クレーム件数ページあたりの誤植数一定面積あたりの不良数稀な保険事故の発生件数
「個々の発生確率は小さいが、機会は非常に多い」状況で現れます。二項分布 B(n,p) で n が大きく p が小さいとき、np=λ を保つとポアソン分布に近づきます(ポアソン近似)。
横軸は件数 k(0,1,2,… の整数)、縦軸は確率 P(X=k)。λ=3 の例。平均 λ のあたりが最も起こりやすく、λ を増やすと山は右へ移って広がる。
数式で表すと
P(X=k)=e−λk!λk, E[X]=Var[X]=λ
ポアソン分布の最大の特徴は「平均と分散がどちらも λ」であること。
E[X]=Var[X]=λ で、λ が大きいほど件数のばらつきも大きくなります。
なぜ稀な事象の件数がこの形になるのか。発生の機会を細かい区間に分けると、各区間ではほぼ「起きる/起きない」の二択(二項分布)になります。区間を限りなく細かくした極限がポアソン分布です。
λ は「1単位あたりの平均件数」。対象とする期間や範囲を変えたら、λ も比例して変えます(例: 1時間 λ=3 なら2時間は λ=6)。試験に出る性質
平均=分散=λ
E[X]=Var[X]=λ。これが見分けの目印。
再生性(加法性)
独立な X∼Po(λ1), Y∼Po(λ2) なら X+Y∼Po(λ1+λ2)。
ポアソン近似
二項 B(n,p) で n 大・p 小、np=λ のとき Po(λ) に近づく。
ポアソン過程との関係
単位時間の到着数がポアソンなら、到着間隔は指数分布になる。
間引き(thinning)
各事象を確率 p で独立に残すと、残った件数は Po(λp)。
例で見る
1時間に平均 λ=2 件の問い合わせがあるとき、ちょうど0件の確率は
P(X=0)=e−2≈0.135。
1件以上の確率は
1−e−2≈0.865。
つまずきポイント
- 平均と分散が等しい(=λ)ことを忘れ、別々に扱う
- 二項分布との使い分け(試行回数 n が決まっていれば B、機会が連続・多数で稀なら Po)
- λ は1単位あたりの平均。期間を変えたら λ も比例して変える
定着クイズ
X∼Po(λ) のとき分散は?
1時間に平均3件。2時間では平均何件?
独立に X∼Po(2), Y∼Po(5)。X+Y は?