平均二乗誤差

統計・公式

ひとことで言うと

平均二乗誤差(MSE)は『推定値が真値からどれだけ外れるか』を二乗の平均で測る、推定量の総合成績です。最大の要点は MSE が『分散＋バイアスの二乗』に分解できること。これにより、少し偏っても分散が大幅に小さい推定量のほうが、不偏だがばらつく推定量より総合では優れる、という比較ができます。

バイアス–分散分解 $\mathrm{MSE}=\mathrm{Var}+\mathrm{Bias}^2$ 。A: $\mathrm{Var}=0.5,\mathrm{Bias}^2=0.04$ で $\mathrm{MSE}=0.54$ 。B（不偏）: $\mathrm{Var}=0.6$ 、 $\mathrm{MSE}=0.60$ 。偏っているAのMSEが小さい。

数式で表すと

$\mathrm{MSE}(\hat\theta)=\mathrm{Var}(\hat\theta)+\big(\mathrm{Bias}(\hat\theta)\big)^2$

推定量の総合的な誤差。分散とバイアスの二乗の和に分解できる（バイアス–分散分解）。推定量の優劣比較の基準。

平均二乗誤差(MSE)は、推定量

\hat\theta

が真値

\theta

からどれだけ外れるかを

\mathrm{MSE}(\hat\theta)=E[(\hat\theta-\theta)^2]

で測る指標です。この MSE の核心がバイアス–分散分解です。

E[(\hat\theta-\theta)^2]

に

\pm E[\hat\theta]

を挿入して展開すると交差項が消え、

\mathrm{MSE}(\hat\theta)=\mathrm{Var}(\hat\theta)+\big(\mathrm{Bias}(\hat\theta)\big)^2

ときれいに2項に分かれます。第1項の分散は『ばらつき』、第2項のバイアスの二乗は『系統的ずれ』を表します。この分解が効くのは偏りのある推定量と不偏推定量を同じ土俵で比べられるからです。不偏なら

\mathrm{Bias}=0

で

\mathrm{MSE}=\mathrm{Var}

（有効性の分散比較と一致）。しかし片方が偏っていると分散だけでは公平に比べられません。MSEを使えばバイアスと分散を合算した総合誤差で順位がつけられます。とくに重要なのがバイアス–分散トレードオフで、『バイアスを少し受け入れるかわりに分散を大幅に下げると、MSEがむしろ小さくなる』ことがあります。数値例：真値

\theta=3

。推定量A:

E[\hat\theta_A]=3.2,\mathrm{Var}=0.5

。バイアス

=0.2

で

\mathrm{MSE}(A)=0.5+0.04=0.54

。推定量B（不偏）:

\mathrm{Var}=0.6

、

\mathrm{MSE}(B)=0.6

。

\mathrm{MSE}(A)=0.54<\mathrm{MSE}(B)=0.60

で、偏っているAのほうが総合誤差は小さい。不偏性だけを金科玉条にしてはいけない理由がここにあります。

試験に出る性質

定義

$\mathrm{MSE}(\hat\theta)=E[(\hat\theta-\theta)^2]$ 。誤差の二乗の期待値で推定量の総合的な優劣の基準。

バイアス–分散分解

$\mathrm{MSE}=\mathrm{Var}(\hat\theta)+(\mathrm{Bias}(\hat\theta))^2$ 。展開で交差項が消え2項に分かれる。

偏りあり同士も比較可

MSEはバイアスを含めるので偏った推定量とも公平に比較できる。

バイアス–分散トレードオフ

バイアスを少し受け入れて分散を大きく下げるとMSEが下がることがある。不偏が最良とは限らない。

不偏なら分散に一致

$\mathrm{Bias}=0$ のとき $\mathrm{MSE}=\mathrm{Var}$ 。有効性の分散比較はMSE比較の特別な場合。

例で見る

真値 $\theta=3$ 。A: $E[\hat\theta_A]=3.2,\ \mathrm{Var}=0.5$ 。 $\mathrm{Bias}=0.2$ 、 $\mathrm{MSE}(A)=0.5+0.04=0.54$ 。 B（不偏）: $\mathrm{Var}=0.6$ 、 $\mathrm{MSE}(B)=0.6$ 。 $\mathrm{MSE}(A)<\mathrm{MSE}(B)$ 。偏っているAのほうが総合誤差は小さい。

つまずきポイント

MSEを分散だけと混同する（不偏なら $\mathrm{MSE}=\mathrm{Var}$ だが偏りがあるとBias²が加わる）
不偏推定量が常にMSE最小と思う（偏ったAのMSE0.54が不偏BのMSE0.60より小さいことがある）
バイアスとバイアスの二乗を混同する（分解に入るのは $\mathrm{Bias}^2$ 。バイアス0.2の寄与は0.04）

定着クイズ

MSEのバイアス–分散分解は？

A: Bias=0.2,Var=0.5 と B（不偏）: Var=0.6。MSEの大小は？

推定量が不偏のとき MSE は？

関連：#不偏推定量 #有効性 #バイアス補正

この用語を扱う問題（1）

推定量の有効性統計・★★