決定係数
知識マップ統計・用語
ひとことで言うと
決定係数 は『回帰がデータのばらつきをどれだけ説明できたか』を 〜 で表す指標です。全体の変動 SST を、回帰で説明できた分 SSR と説明できなかった残差分 SSE に分け、 SSR/SST。1に近いほど当てはまりが良いことを意味します。
変動の分解 。全変動 が、回帰で説明できる (緑)と残差 (赤)に分かれる。決定係数 。
数式で表すと
回帰の説明力 。単回帰では相関係数の二乗に等しい。
試験に出る性質
変動の分解
。全変動 が回帰で説明できる分 SSR と残差分 SSE に分かれる(直交条件でクロス項が消える)。
定義
。全変動に占める『回帰が説明できた割合』。。
重回帰でも使える
この定義は説明変数が複数でもそのまま使える一般的なもの。 は単回帰に限った便利な関係にすぎない。
端の意味
は残差ゼロ(完全な当てはまり)、 は回帰が平均と同じで何も説明しない状態。
変数を増やすと上がる
無関係な変数を足しても は下がらない。モデル比較には自由度調整済み を使うのが普通。
例で見る
C071と同じデータ 。全変動 。 C071の残差から 。よって 。 。全変動の81%を回帰が説明している。
つまずきポイント
- がいつでも成り立つと思う(これは単回帰限定。本体は で重回帰でも使える)
- が高い=因果や予測の正しさ、と誤解する(当てはまりの良さを示すだけ。因果は別問題)
- 変数を増やすほど が上がるのを見てモデルが改善したと早合点する(無関係な変数でも上がる。比較は自由度調整済みで)
定着クイズ
決定係数の一般的な定義は?
のとき は?
『』が成り立つのは?