acpass

決定係数

知識マップ

統計用語

ひとことで言うと

決定係数 R2R^2 は『回帰がデータのばらつきをどれだけ説明できたか』を 0011 で表す指標です。全体の変動 SST を、回帰で説明できた分 SSR と説明できなかった残差分 SSE に分け、R2=R^2= SSR/SST。1に近いほど当てはまりが良いことを意味します。

決定係数の分散分解を示す積み上げ棒グラフ。左の棒は全変動SST=10、右の棒は回帰で説明できる変動SSR=8.1(緑・下)と説明できない残差変動SSE=1.9(赤・上)に分解される。SST=SSR+SSEが成り立ち、決定係数R2=SSR/SST=1-SSE/SST=0.81はSSTに占めるSSRの割合を表すSST=SSR+SSE。R²=SSR/SST=1-SSE/SST=0.81SST=10全変動 SyySSR=8.1SSE=1.9説明分+残差分変動

変動の分解 SST=SSR+SSE\text{SST}=\text{SSR}+\text{SSE}。全変動 SST=10\text{SST}=10 が、回帰で説明できる SSR=8.1\text{SSR}=8.1(緑)と残差 SSE=1.9\text{SSE}=1.9(赤)に分かれる。決定係数 R2=SSR/SST=1SSE/SST=0.81R^2=\text{SSR}/\text{SST}=1-\text{SSE}/\text{SST}=0.81

数式で表すと

R2=Sxy2SxxSyy=r2R^2=\dfrac{S_{xy}^2}{S_{xx}S_{yy}}=r^2

回帰の説明力 R2R^2。単回帰では相関係数の二乗に等しい。

決定係数 R2R^2 は、回帰モデルが目的変数 yy のばらつきをどれだけ説明できたかを測る指標です。出発点は変動の分解です。yy の全体のばらつきを SST=(yiyˉ)2\text{SST}=\sum(y_i-\bar y)^2 で測ります。これは2つに分解できます:回帰で説明できる変動 SSR=(y^iyˉ)2\text{SSR}=\sum(\hat y_i-\bar y)^2 と、説明できない残差変動 SSE=(yiy^i)2\text{SSE}=\sum(y_i-\hat y_i)^2 です。最小二乗法の直交条件のおかげでクロス項が消え、きれいに SST=SSR+SSE\text{SST}=\text{SSR}+\text{SSE} が成り立ちます。決定係数はこの分解を使って R2=SSRSST=1SSESSTR^2=\dfrac{\text{SSR}}{\text{SST}}=1-\dfrac{\text{SSE}}{\text{SST}} と定義されます。残差が小さいほど(SSE→0)R2R^2 は1に近づき、回帰がまったく説明しなければ(SSR→0)R2R^2 は0になります。 単回帰では R2=ρ2R^2=\rho^2(相関係数の二乗)という便利な関係が成り立ちますが、これは説明変数が1つの場合に限ります。R2R^2 の本来の定義は上の変動の割合であり、説明変数が複数ある重回帰でもそのまま使える一般的な定義です。つまり『R2=ρ2R^2=\rho^2』は単回帰での副産物、『R2=SSR/SSTR^2=\text{SSR}/\text{SST}』が普遍的な本体、と整理するとよいでしょう。 実務上の注意。R2R^2 は説明変数を増やすと必ず増える(または減らない)性質があり、無関係な変数を足しても見かけ上は上がってしまいます。モデルを比較するときは自由度調整済み決定係数を使うのが普通です。また R2R^2 が高いことは『当てはまりの良さ』を意味するだけで、因果関係や予測の正しさを保証しません。

試験に出る性質

変動の分解

SST=SSR+SSE\text{SST}=\text{SSR}+\text{SSE}。全変動 SyyS_{yy} が回帰で説明できる分 SSR と残差分 SSE に分かれる(直交条件でクロス項が消える)。

定義

R2=SSR/SST=1SSE/SSTR^2=\text{SSR}/\text{SST}=1-\text{SSE}/\text{SST}。全変動に占める『回帰が説明できた割合』。0R210\le R^2\le1

重回帰でも使える

この定義は説明変数が複数でもそのまま使える一般的なもの。R2=ρ2R^2=\rho^2 は単回帰に限った便利な関係にすぎない。

端の意味

R2=1R^2=1 は残差ゼロ(完全な当てはまり)、R2=0R^2=0 は回帰が平均と同じで何も説明しない状態。

変数を増やすと上がる

無関係な変数を足しても R2R^2 は下がらない。モデル比較には自由度調整済み R2R^2 を使うのが普通。

例で見る

C071と同じデータ x=(1,2,3,4,5), y=(2,3,5,4,6)x=(1,2,3,4,5),\ y=(2,3,5,4,6)。全変動 SST=Syy=10\text{SST}=S_{yy}=10。 C071の残差から SSE=ei2=1.90\text{SSE}=\sum e_i^2=1.90。よって SSR=SSTSSE=101.90=8.10\text{SSR}=\text{SST}-\text{SSE}=10-1.90=8.10R2=SSR/SST=8.10/10=0.81R^2=\text{SSR}/\text{SST}=8.10/10=0.81。全変動の81%を回帰が説明している。

つまずきポイント

  • R2=ρ2R^2=\rho^2 がいつでも成り立つと思う(これは単回帰限定。本体は R2=SSR/SST=1SSE/SSTR^2=\text{SSR}/\text{SST}=1-\text{SSE}/\text{SST} で重回帰でも使える)
  • R2R^2 が高い=因果や予測の正しさ、と誤解する(当てはまりの良さを示すだけ。因果は別問題)
  • 変数を増やすほど R2R^2 が上がるのを見てモデルが改善したと早合点する(無関係な変数でも上がる。比較は自由度調整済みで)

定着クイズ

決定係数の一般的な定義は?

SST=10,SSE=1.9\text{SST}{=}10,\text{SSE}{=}1.9 のとき R2R^2 は?

R2=ρ2R^2=\rho^2』が成り立つのは?

この用語を扱う問題(2