統計・用語
ひとことで言うと
相関係数 r は、2つの量がどれくらい『直線的に』連動するかを −1〜+1 で測る標本の指標です。+1 に近いほど右上がりに、−1 に近いほど右下がりに揃い、0 なら直線的な関係がない。単位や尺度を変えても値が変わらない『標準化された』ものさしです。
5点 x=(1,2,3,4,5), y=(2,3,5,4,6) の散布図。点がほぼ右上がりの直線に沿い、標本相関係数 r=Sxy/SxxSyy=9/10⋅10=0.9。1 に近く強い正の線形関係。r2=0.81 は決定係数 R2 と一致。
数式で表すと
r=SxxSyySxy
標本の線形関係の強さ r。[−1,1] をとり、r2 が決定係数。
相関係数(標本相関係数)r は、データの2変量 (xi,yi) の直線的な関係の強さと向きを表す標本統計量で、
r=SxxSyySxy
で計算します。ここで Sxy=∑(xi−xˉ)(yi−yˉ)、Sxx=∑(xi−xˉ)2、Syy=∑(yi−yˉ)2 です。分子の Sxy(偏差積和)が連動の向きと大きさを、分母の SxxSyy が各変数の散らばりを表し、割ることで尺度をそろえます。これは母集団パラメータ ρ=Cov(X,Y)/(σXσY) の標本版で、ρ が理論値なのに対し r は手元のデータから計算する推定量という関係です。値は必ず −1≤r≤1 に収まります。
r の重要な性質が線形変換への不変性です。x や y を正の定数倍したり定数を足したりしても r の値は変わりません(単位の取り替えで値が変わらない標準化されたものさし)。ただし負の定数倍では符号が反転します——向きを反転させる変換なので符号だけが変わり、絶対値(関係の強さ)は保たれます。
concept: 決定係数との連携が試験頻出です。単回帰では
r2=R2
が成り立ちます。実際 R2=Sxy2/(SxxSyy)=(Sxy/SxxSyy)2=r2 と展開できます。だから r=0.9 なら R2=0.81 で、相関の強さと回帰の説明力が表裏一体です。最後に、r はあくまで直線的な関係しか捉えません。放物線のような強い非線形の関係があっても r が0に近くなることがあるので、必ず散布図を見る習慣が大切です。試験に出る性質
定義(標本統計量)
r=Sxy/SxxSyy。母集団パラメータ ρ=Cov/(σXσY) の標本版(データから計算する推定量)。
範囲
−1≤r≤1(コーシー・シュワルツ)。+1 で完全な右上がり直線、−1 で右下がり直線、0 で直線関係なし。
正の線形変換に不変
x,y を正の定数倍・平行移動しても r は不変(単位の取り替えで値が変わらない標準化された指標)。
負の定数倍で符号反転
a<0 の倍率では r→−r。向きが反転するため符号だけ変わり、絶対値(強さ)は保たれる。
決定係数との関係
単回帰では r2=R2。相関の二乗が回帰の説明力に一致する。例では r=0.9⇒R2=0.81。
例で見る
C071/C072と同じデータ x=(1,2,3,4,5), y=(2,3,5,4,6)。Sxx=10, Syy=10, Sxy=9。
r=Sxy/SxxSyy=9/10×10=9/10=0.9。強い正の相関。
r2=0.81 で、C072の決定係数 R2=0.81 と完全に一致する。
つまずきポイント
- r が小さい=無関係と即断する(r は直線的な関係だけを測る。強い非線形があっても r≈0 になりうるので散布図を見る)
- 負の定数倍でも符号が変わらないと思う(正の定数倍では不変だが、a<0 の倍率では r→−r と符号が反転する)
- 相関を因果と取り違える(r が大きくても x が y の原因とは限らない。r2=R2 は説明力であって因果の証拠ではない)
定着クイズ
標本相関係数 r の計算式は?
x,y を負の定数倍したとき r は?
単回帰で r=0.9 のとき決定係数 R2 は?