尤度比

統計・用語

ひとことで言うと

「対立仮説のもとでの尤度」と「帰無仮説のもとでの尤度」の比です。値が大きいほどデータが対立仮説を支持していることを意味し、棄却域を作る材料になります。単純な比はネイマン・ピアソン用、複合仮説には推定値を入れた一般化版を使います。

自由度1の $\chi^2$ 分布の密度曲線と、その上側5%点 $3.84$ より右の棄却域（斜線）。一般化尤度比検定の統計量 $-2\ln\Lambda$ は帰無仮説のもとで近似的に $\chi^2$ 分布に従い、この棄却域に落ちれば棄却する（ウィルクスの定理）。

数式で表すと

$\Lambda(x)=\dfrac{L(\theta_1;x)}{L(\theta_0;x)}$

対立と帰無の尤度の比 $L(\theta_1)/L(\theta_0)$ 。値が大きいほど $H_1$ を支持し、棄却域の構成に使う。多くの分布で十分統計量の単調関数になる。

尤度比は、対立仮説のもとでの尤度と帰無仮説のもとでの尤度の比

\Lambda(x)=\dfrac{L(\theta_1;x)}{L(\theta_0;x)}

です。値が大きいほどデータ

x

が対立仮説

H_1

を支持していることを示し、これを使って棄却域を組み立てます。単純対単純（帰無も対立も1点）の場合、この比をそのまま使って「

\Lambda>k

なら棄却」とするのが concept: ネイマン・ピアソンの尤度比検定でした。多くの分布で

\Lambda

は十分統計量の単調関数になるので、棄却域がきれいな片側区間になります。ただし実務では、対立仮説が範囲をもつ複合仮説（例：

H_0:\theta=\theta_0

対

H_1:\theta\ne\theta_0

）のことが多く、対立側の尤度を1点で書けません。そこで使うのが一般化尤度比検定（GLRT）です。これは未知パラメータを最尤推定（concept: MLE）で置き換え、

\Lambda=\dfrac{L(\hat\theta_0)}{L(\hat\theta)}

とします。

\hat\theta_0

は

H_0

の制約のもとでの最尤推定値、

\hat\theta

は制約なしの最尤推定値です（分子・分母の取り方が単純尤度比と上下逆向きに見えるので注意。GLRTでは

0<\Lambda\le1

で、

\Lambda

が小さいほど

H_0

が苦しい）。

H_0

が正しければ制約してもしなくても当てはまりは大きく変わらず

\Lambda

は1に近く、

H_0

が誤りなら制約付きの当てはまりが悪化して

\Lambda

が小さくなります。 GLRTの威力は、棄却域を決める分布が一般的な形で分かることにあります。ウィルクスの定理により、

H_0

のもとで

n

が大きいとき

-2\ln\Lambda\ \xrightarrow{\ d\ }\ \chi^2(\mathrm{df})

が成り立ちます（concept: χ²分布・concept: χ²検定と関連）。自由度

\mathrm{df}

は「制約なしモデルの自由パラメータ数

-

H_0

のもとでの自由パラメータ数」、つまり

H_0

が課す制約の本数です。例として、母分散既知の正規平均検定

H_0:\mu=\mu_0

対

H_1:\mu\ne\mu_0

では、計算すると

-2\ln\Lambda

がちょうど

Z^2=\Big(\dfrac{\bar X-\mu_0}{\sigma/\sqrt n}\Big)^2

に等しくなり、これは自由度1の

\chi^2

分布に従います（標準正規の2乗が

\chi^2(1)

になるという、おなじみの

Z^2\sim\chi^2(1)

の関係そのもの）。図の

\chi^2(1)

曲線の右5%（

>3.84

）が棄却域です。なお漸近結果なので、

n

が小さいときは

\chi^2

近似の精度に注意が必要です。

試験に出る性質

定義

$\Lambda(x)=L(\theta_1;x)/L(\theta_0;x)$ 。対立と帰無の尤度の比。大きいほど $H_1$ を支持。

単純対単純での用途

そのまま $\Lambda>k$ で棄却するのが concept: ネイマン・ピアソンの尤度比検定。十分統計量の単調関数になりやすい。

一般化尤度比検定（GLRT）

複合仮説には $\Lambda=L(\hat\theta_0)/L(\hat\theta)$ 。 $\hat\theta_0$ は制約付き、 $\hat\theta$ は制約なしのMLE（concept: MLE）。

ウィルクスの定理

$H_0$ のもと $n$ 大で $-2\ln\Lambda\to\chi^2(\mathrm{df})$ 。dfは制約なしと $H_0$ の自由パラメータ数の差。

正規平均検定の例

既知分散の $H_0:\mu=\mu_0$ では $-2\ln\Lambda=Z^2\sim\chi^2(1)$ 。 $Z^2\sim\chi^2(1)$ の関係そのもの。

例で見る

既知分散の正規平均検定 $H_0:\mu=\mu_0$ 対 $H_1:\mu\ne\mu_0$ では、一般化尤度比から $-2\ln\Lambda=\Big(\dfrac{\bar X-\mu_0}{\sigma/\sqrt n}\Big)^2=Z^2$ 。これは自由度1の $\chi^2$ 分布に従い（ $Z^2\sim\chi^2(1)$ ）、 $3.84$ を超えれば有意水準5%で棄却する。

つまずきポイント

単純対単純の尤度比（concept: ネイマン・ピアソン）と複合仮説のGLRTを同じものと思う（後者はMLEを代入し $-2\ln\Lambda$ を使う別物）
ウィルクスの定理のdfを「パラメータ数の合計」などと間違える（dfは制約なしと $H_0$ の自由パラメータ数の差＝制約の本数）
$n$ が小さいのに $\chi^2$ 近似を信頼しすぎる（ウィルクスは漸近結果。小標本では近似精度に注意）

定着クイズ

一般化尤度比検定（GLRT）の統計量 $\Lambda=L(\hat\theta_0)/L(\hat\theta)$ で $\hat\theta$ は？

ウィルクスの定理で $-2\ln\Lambda$ が従う分布と自由度は？

既知分散の正規平均検定 $H_0:\mu=\mu_0$ で $-2\ln\Lambda$ は何に等しいか？

関連：#ネイマン・ピアソン #最強力検定 #仮説検定

この用語を扱う問題（1）

ネイマン・ピアソン統計・★★★