acpass

χ²検定

知識マップ

統計用語

ひとことで言うと

カイ二乗統計量 χ2=(OE)2/E\chi^2=\sum (O-E)^2/E を使う検定の総称です。「適合度検定」と「独立性検定」が代表で、どちらも観測度数 OO と期待度数 EE のズレを測ります。ここでは特に分割表(クロス集計)を使う独立性検定を主役に扱います。

2×2分割表の各セルに観測度数Oと期待度数Eを書き込んだ図。期待度数は(行合計×列合計)÷総合計で計算し、O-Eのズレをχ²で測る分割表の独立性検定:各セルでO(観測)とE(期待)を比べるO=30E=25O=10E=15O=20E=25O=40E=35列1列2行1行2期待度数 E=(行合計×列合計)/総合計、自由度(r−1)(c−1)

2×2分割表の各セルに観測度数 OO と期待度数 EE を書き込んだ図。期待度数は Eij=(行合計×列合計)/総合計E_{ij}=(\text{行合計}\times\text{列合計})/\text{総合計} で求め、OEO-E のズレを χ2\chi^2 で集計する。自由度は (r1)(c1)(r-1)(c-1)

数式で表すと

χ2=(OE)2E\chi^2=\sum\dfrac{(O-E)^2}{E}

カイ二乗統計量による検定の総称(適合度・独立性)。期待度数との乖離を測る。

χ²検定は、検定統計量 χ2=(OE)2E\chi^2=\sum\dfrac{(O-E)^2}{E} を使う検定の総称です。観測度数 OO が、帰無仮説のもとで期待される度数 EE からどれだけズレているかを、二乗して EE で正規化しながら全セルにわたって足し上げます。この統計量は帰無仮説のもとで近似的にχ²分布(concept: χ²分布)に従い、値が大きい(臨界値を超える)ほど帰無仮説を棄却します。χ²検定には大きく「適合度検定」と「独立性検定」の2つがあり、統計量の形は共通でも自由度の決め方が異なります。 適合度検定は「1つのカテゴリ変数が想定した理論分布に従うか」を調べるもので、自由度はカテゴリ数 kk から k1k-1(パラメータを推定した分だけさらに減る)です。これは concept: 適合度検定で詳しく扱ったので、ここでは振り返るだけにとどめ、新しい話題として独立性検定を主役にします。 独立性検定は、2つのカテゴリ変数が独立か(関連がないか)を rrcc 列の分割表(クロス集計表)で調べます。帰無仮説は「2変数は独立」。このとき各セルの期待度数は、独立なら同時確率が周辺確率の積になることから E_{ij}=\dfrac{(\text{i 行の合計})\times(\text{j 列の合計})}{\text{総合計}} で計算します。検定統計量は同じく χ2=i,j(OijEij)2/Eij\chi^2=\sum_{i,j}(O_{ij}-E_{ij})^2/E_{ij} ですが、自由度は適合度検定とは異なり 自由度=(r1)(c1)\text{自由度}=(r-1)(c-1) です(rr は行数、cc は列数)。行・列それぞれの合計を固定すると自由に決められるセルが (r1)(c1)(r-1)(c-1) 個になるためで、たとえば2×2表なら自由度は (21)(21)=1(2-1)(2-1)=1 です。適合度検定の k1k-1 とは別物なので、表の形から (r1)(c1)(r-1)(c-1) を必ず使い分けてください。期待度数が小さすぎる(目安5未満の)セルが多いとχ²近似が悪くなるのは、適合度検定と同じ注意点です。

試験に出る性質

共通の統計量

χ2=(OE)2/E\chi^2=\sum(O-E)^2/E。観測と期待のズレを二乗して EE で正規化し足し上げる。

2つの検定の総称

適合度検定(理論分布への当てはまり)と独立性検定(2変数の独立性)をまとめてχ²検定と呼ぶ。

適合度検定の自由度

カテゴリ数 kk で自由度 k1k-1(推定パラメータ分さらに減る)。詳細は concept: 適合度検定。

独立性検定の期待度数

Eij=(行合計×列合計)/総合計E_{ij}=(\text{行合計}\times\text{列合計})/\text{総合計}。独立なら同時確率は周辺確率の積、という事実から。

独立性検定の自由度

(r1)(c1)(r-1)(c-1)rr 行・cc 列)。2×2表なら1。適合度の k1k-1 とは別の公式。

例で見る

2×2分割表で観測度数が [30102040]\begin{bmatrix}30&10\\20&40\end{bmatrix}(総合計100、行合計40・60、列合計50・50)。左上の期待度数は E11=40×50100=20E_{11}=\dfrac{40\times50}{100}=20。同様に各セルの EE を出して χ2=(OE)2/E\chi^2=\sum(O-E)^2/E を計算する。 自由度は (21)(21)=1(2-1)(2-1)=1 で、自由度1のχ²分布の臨界値と比較する。

つまずきポイント

  • 独立性検定の自由度に適合度の k1k-1 を使う(独立性検定は (r1)(c1)(r-1)(c-1)。表の行数・列数から決める)
  • 期待度数 EijE_{ij} の計算で「行合計×列合計÷総合計」を取り違える(総合計で割るのを忘れない)
  • χ2=(OE)2/E\chi^2=\sum(O-E)^2/E の分母を観測度数 OO にする(割るのは期待度数 EE

定着クイズ

χ²検定の統計量 χ2=(OE)2/E\chi^2=\sum(O-E)^2/E で割る分母は?

rrcc 列の分割表による独立性検定の自由度は?

独立性検定での期待度数 EijE_{ij} の求め方は?

この用語を扱う問題(3