acpass

統計用語

ひとことで言うと

有効性とは、複数の不偏推定量を比べたとき『分散が小さいほうが優れている』という考え方です。どちらも平均的には当たる(不偏)なら、ばらつきが小さいほど一発の推定が信頼できます。分散が最小の不偏推定量がいわば『チャンピオン』で、これをUMVUE(一様最小分散不偏推定量)と呼びます。

μを推定する2つの不偏推定量の標本分布。緑の細く高い曲線は標本平均X̄で分散σ²/n、灰の広く低い曲線は標本中央値で漸近分散πσ²/(2n)。同じ中心μに集まるが、X̄の方が裾が狭く分散が小さいため有効。相対有効性RE=2/π≈0.637で、X̄はCR下限を達成するUMVUE同じ中心でも分散が小さいほど有効。X̄:中央値=2/π≈0.64μX̄: Var=σ²/n(UMVUE)中央値: πσ²/(2n)密度θ̂

N(μ,σ2)N(\mu,\sigma^2)μ\mu を推定。標本平均 Xˉ\bar X(緑・細い)は分散 σ2/n\sigma^2/n、標本中央値(灰・広い)は漸近分散 πσ2/(2n)\pi\sigma^2/(2n)。相対有効性 RE=2/π0.637\mathrm{RE}=2/\pi\approx0.637Xˉ\bar X が有効、CR下限を達成するUMVUE。

数式で表すと

Var(θ^1)<Var(θ^2)θ^1 が有効\mathrm{Var}(\hat\theta_1)<\mathrm{Var}(\hat\theta_2)\Rightarrow \hat\theta_1\ \text{が有効}

不偏推定量どうしを分散(不偏なら平均二乗誤差に一致)で比較し、より小さいほうを有効という。分散最小の不偏推定量が有効推定量。

有効性は、2つ以上の不偏推定量を分散で比較する考え方です。前提として両方が不偏なら、MSEは分散に一致するので、分散の小さいほうが総合的にも優れています。不偏推定量 θ^1,θ^2\hat\theta_1,\hat\theta_2 について Var(θ^1)<Var(θ^2)\mathrm{Var}(\hat\theta_1)<\mathrm{Var}(\hat\theta_2) なら『θ^1\hat\theta_1 のほうが有効』といいます。 比較を数値で表すのが相対有効性(RE)です。RE=Var(θ^2)/Var(θ^1)\mathrm{RE}=\mathrm{Var}(\hat\theta_2)/\mathrm{Var}(\hat\theta_1) の形で分散比をとります。例として N(μ,σ2)N(\mu,\sigma^2) から μ\mu を推定する、標本平均 Xˉ\bar X と標本中央値を比べます。Xˉ\bar X の分散は σ2/n\sigma^2/n。正規分布の標本中央値の漸近分散は πσ2/(2n)\pi\sigma^2/(2n) です。相対有効性は RE=Var(Xˉ)Var(中央値)=σ2/nπσ2/(2n)=2π0.637\mathrm{RE}=\frac{\mathrm{Var}(\bar X)}{\mathrm{Var}(\text{中央値})}=\frac{\sigma^2/n}{\pi\sigma^2/(2n)}=\frac{2}{\pi}\approx0.637 となり、Xˉ\bar X は中央値より約57%効率的です。 では『どこまで小さくできるか』の到達点がUMVUE(一様最小分散不偏推定量)です。すべての不偏推定量の中で分散が最小になる推定量で、理論的な下限はクラメール–ラオ下限 1/(nI(θ))1/(nI(\theta)) です。Xˉ\bar X は正規 N(μ,σ2)N(\mu,\sigma^2)Var=σ2/n\mathrm{Var}=\sigma^2/n がCR下限に等しく、μ\mu のUMVUEになっています。UMVUEを構成する実践的な道具が十分統計量とラオ–ブラックウェルの定理で、『不偏推定量を十分統計量で条件付ければ分散が下がる』ことからUMVUEは十分統計量の関数の中に現れます。

試験に出る性質

有効性の定義

不偏推定量どうしを分散で比較し、小さいほうが有効。不偏なら MSE=Var\mathrm{MSE}=\mathrm{Var} なので分散比較で十分。

相対有効性(RE)

RE=Var(θ^2)/Var(θ^1)\mathrm{RE}=\mathrm{Var}(\hat\theta_2)/\mathrm{Var}(\hat\theta_1)。分散比で効率を数値化する。

正規での平均vs中央値

Var(Xˉ)=σ2/n\mathrm{Var}(\bar X)=\sigma^2/n、中央値の漸近分散 πσ2/(2n)\pi\sigma^2/(2n)RE=2/π0.637\mathrm{RE}=2/\pi\approx0.637Xˉ\bar X が有効。

UMVUE

全不偏推定量中で分散が一様に最小の推定量。CR下限 1/(nI(θ))1/(nI(\theta)) を達成すればUMVUE。

十分統計量との接続

ラオ–ブラックウェルにより、UMVUEは十分統計量の関数の中に探せる。

例で見る

N(μ,σ2)N(\mu,\sigma^2) から μ\mu を推定。Xˉ\bar X: Var=σ2/n\mathrm{Var}=\sigma^2/n(CR下限達成→UMVUE)。 標本中央値: 漸近分散 πσ2/(2n)\pi\sigma^2/(2n)RE=2π0.637\mathrm{RE}=\frac{2}{\pi}\approx0.637Xˉ\bar X は中央値より約57%効率的。

つまずきポイント

  • 偏りのある推定量どうしを分散だけで比べる(有効性の比較は不偏推定量に限る。偏りがあればMSEで比較)
  • 中央値のほうが外れ値に強いから常に良いと思う(頑健性は別の長所。正規では Xˉ\bar X が分散小さく有効)
  • UMVUEが必ず存在すると思う(CR下限を達成する不偏推定量がない場合もある)

定着クイズ

2つの不偏推定量の有効性はどう比べる?

N(μ,σ2)N(\mu,\sigma^2)Xˉ\bar X と標本中央値の Var(Xˉ)/Var(中央値)\mathrm{Var}(\bar X)/\mathrm{Var}(\text{中央値}) は?

UMVUEとは?

この用語を扱う問題(1