acpass

多項分布

知識マップ

確率用語

ひとことで言うと

コインの表裏のような2通りではなく、サイコロのように「3つ以上のカテゴリ」のどれかに毎回入る試行を nn 回繰り返したとき、各カテゴリの回数の組が従う分布です。二項分布をカテゴリ数の方向へ拡張したもので、合計が必ず nn になるという縛りから、カテゴリ同士に負の相関が生まれるのが特徴です。

こんなデータが従う

サイコロを10回振ったときの1〜6の目それぞれの出現回数の組アンケート100件の「満足/普通/不満」の3区分それぞれの件数保険金請求を「軽微/中程度/重大」に分類した各等級の件数顧客の契約を「新規/継続/解約」に分けた各区分の人数サイトの流入を「検索/SNS/直接」に分類した各経路の訪問数

いずれも「毎回 kk 個のカテゴリのどれか1つに必ず入る試行を独立に nn 回繰り返し、各カテゴリの回数を数える」場面です。カテゴリが2つだけなら二項分布に一致します。

多項分布 n=10、3カテゴリ p=(0.5,0.3,0.2) の期待度数(5,3,2)を示す棒グラフ。3本の合計は常にn=10で一定なので、あるカテゴリが増えれば他は減らざるを得ず、これが負の共分散Cov(Xi,Xj)=-n pi pjを生む合計は常にn=10で一定→1つ増えれば他が減る→負の共分散5カテゴリ1p=0.53カテゴリ2p=0.32カテゴリ3p=0.2期待度数

多項分布 n=10n=10、3カテゴリ p=(0.5,0.3,0.2)p=(0.5,0.3,0.2) の期待度数 (5,3,2)(5,3,2) を示す棒グラフ。3本の合計は常に n=10n=10 で一定なので、あるカテゴリが増えれば他は減らざるを得ず、これが負の共分散 Cov(Xi,Xj)=npipj\mathrm{Cov}(X_i,X_j)=-np_ip_j を生む。

数式で表すと

Cov(Xi,Xj)=npipj (ij)\mathrm{Cov}(X_i,X_j)=-n p_i p_j\ (i\ne j)

二項分布の多カテゴリ版。各カテゴリ回数は負に相関する。

多項分布は、concept: 二項分布を「カテゴリが3つ以上」へ拡張した分布です。各試行は確率 p1,,pkp_1,\dots,p_kpi=1\sum p_i=1)で kk 個のカテゴリのどれか1つに入り、これを独立に nn 回繰り返したときの各カテゴリの回数 (X1,,Xk)(X_1,\dots,X_k) が従います。各カテゴリ単独で見れば XiB(n,pi)X_i\sim B(n,p_i) なので、周辺の平均・分散は二項分布そのままで E[Xi]=npiE[X_i]=np_iVar[Xi]=npi(1pi)\mathrm{Var}[X_i]=np_i(1-p_i) です。二項分布との本質的な違いは、複数カテゴリの間に相関が生じる点にあります。共分散は Cov(Xi,Xj)=npipj(ij)\mathrm{Cov}(X_i,X_j)=-np_ip_j\quad(i\ne j) で、符号が必ず負になります。 なぜ負になるのかは、合計が固定されているという一点から理解できます。X1+X2++Xk=nX_1+X_2+\cdots+X_k=n が常に成り立つので、その分散はゼロです。分散の公式に当てはめると Var(iXi)=iVar(Xi)+2i<jCov(Xi,Xj)=0\mathrm{Var}\Big(\sum_i X_i\Big)=\sum_i\mathrm{Var}(X_i)+2\sum_{i<j}\mathrm{Cov}(X_i,X_j)=0 でなければなりません。各 Var(Xi)0\mathrm{Var}(X_i)\ge0 なのに総和がゼロになるには、共分散の項が負でそれを打ち消す必要があります。つまり「カテゴリ回数の合計が nn で一定だから、あるカテゴリが多く出れば他のカテゴリは少なくなるしかない」という制約が、負の共分散として現れるのです。 この負の共分散の構造は、適合度検定の土台になっています。観測度数が期待度数からどれだけずれているかを測るカイ二乗統計量 i(Xinpi)2npi\sum_i\dfrac{(X_i-np_i)^2}{np_i} は、多項分布に従う度数を前提として組み立てられています。カテゴリ間が独立ではなく負に相関しているからこそ、自由度がカテゴリ数 kk ではなく k1k-1(合計が nn という制約1本ぶん減る)になる、という適合度検定の重要ポイントも、この多項分布の構造から自然に導かれます。

試験に出る性質

二項分布の多カテゴリ拡張

確率 p1,,pkp_1,\dots,p_kpi=1\sum p_i=1)の kk カテゴリへ各試行が入り、nn 回での各回数 (X1,,Xk)(X_1,\dots,X_k) が従う。

周辺は二項分布

XiB(n,pi)X_i\sim B(n,p_i)E[Xi]=npiE[X_i]=np_iVar[Xi]=npi(1pi)\mathrm{Var}[X_i]=np_i(1-p_i) は二項分布そのまま。

負の共分散

Cov(Xi,Xj)=npipj (ij)\mathrm{Cov}(X_i,X_j)=-np_ip_j\ (i\ne j)。合計が nn で固定されるため必ず負になる。

合計固定が負相関の根拠

Xi=n\sum X_i=n より Var(Xi)=0\mathrm{Var}(\sum X_i)=0Var+2Cov=0\sum\mathrm{Var}+2\sum\mathrm{Cov}=0 から共分散は負でなければならない。

適合度検定の土台

適合度検定は多項度数を前提とする。合計 nn の制約1本ぶん自由度が k1k-1 になるのもこの構造から。

例で見る

n=10n=10、3カテゴリ p=(0.5,0.3,0.2)p=(0.5,0.3,0.2) のとき、期待度数は E[X1,X2,X3]=(5,3,2)E[X_1,X_2,X_3]=(5,3,2)、 分散は Var=(2.5,2.1,1.6)\mathrm{Var}=(2.5,2.1,1.6)、共分散は Cov(X1,X2)=1.5, Cov(X1,X3)=1.0, Cov(X2,X3)=0.6\mathrm{Cov}(X_1,X_2)=-1.5,\ \mathrm{Cov}(X_1,X_3)=-1.0,\ \mathrm{Cov}(X_2,X_3)=-0.6。 検算:Var(Xi)+2i<jCov=6.2+2×(3.1)=6.26.2=0\sum\mathrm{Var}(X_i)+2\sum_{i<j}\mathrm{Cov}=6.2+2\times(-3.1)=6.2-6.2=0 と一致。

つまずきポイント

  • カテゴリ間が独立だと思って共分散をゼロにする(合計が nn で固定されるため必ず負に相関する)
  • 共分散の符号を正にしてしまう(Cov(Xi,Xj)=npipj\mathrm{Cov}(X_i,X_j)=-np_ip_j は常に負。1つ増えれば他が減るため)
  • 適合度検定の自由度をカテゴリ数 kk にする(合計 nn の制約1本ぶん減って k1k-1。多項分布の構造に由来)

定着クイズ

多項分布の共分散 Cov(Xi,Xj) (ij)\mathrm{Cov}(X_i,X_j)\ (i\ne j) の符号は?

負の共分散が生じる根拠は?

n=10,p=(0.5,0.3,0.2)n=10,p=(0.5,0.3,0.2)Var(Xi)+2i<jCov\sum\mathrm{Var}(X_i)+2\sum_{i<j}\mathrm{Cov} の値は?

この用語を扱う問題(1