acpass

相関係数

知識マップ

統計用語

ひとことで言うと

相関係数 rr は、2つの量がどれくらい『直線的に』連動するかを 1-1+1+1 で測る標本の指標です。+1+1 に近いほど右上がりに、1-1 に近いほど右下がりに揃い、00 なら直線的な関係がない。単位や尺度を変えても値が変わらない『標準化された』ものさしです。

5点の散布図 x=(1,2,3,4,5), y=(2,3,5,4,6) で、点がほぼ右上がりの直線に沿って並ぶ。標本相関係数 r=Sxy/sqrt(Sxx*Syy)=9/sqrt(10*10)=0.9 で1に近く、強い正の線形関係を示す。rの二乗 r^2=0.81 は決定係数R2と完全に一致するr=9/√(10·10)=0.9(強い正の相関)。r²=0.81=R²r=0.9yx

5点 x=(1,2,3,4,5), y=(2,3,5,4,6)x=(1,2,3,4,5),\ y=(2,3,5,4,6) の散布図。点がほぼ右上がりの直線に沿い、標本相関係数 r=Sxy/SxxSyy=9/1010=0.9r=S_{xy}/\sqrt{S_{xx}S_{yy}}=9/\sqrt{10\cdot10}=0.911 に近く強い正の線形関係。r2=0.81r^2=0.81 は決定係数 R2R^2 と一致。

数式で表すと

r=SxySxxSyyr=\dfrac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}

標本の線形関係の強さ rr[1,1][-1,1] をとり、r2r^2 が決定係数。

相関係数(標本相関係数)rr は、データの2変量 (xi,yi)(x_i,y_i) の直線的な関係の強さと向きを表す標本統計量で、 r=SxySxxSyyr=\dfrac{S_{xy}}{\sqrt{S_{xx}\,S_{yy}}} で計算します。ここで Sxy=(xixˉ)(yiyˉ)S_{xy}=\sum(x_i-\bar x)(y_i-\bar y)Sxx=(xixˉ)2S_{xx}=\sum(x_i-\bar x)^2Syy=(yiyˉ)2S_{yy}=\sum(y_i-\bar y)^2 です。分子の SxyS_{xy}(偏差積和)が連動の向きと大きさを、分母の SxxSyy\sqrt{S_{xx}S_{yy}} が各変数の散らばりを表し、割ることで尺度をそろえます。これは母集団パラメータ ρ=Cov(X,Y)/(σXσY)\rho=\mathrm{Cov}(X,Y)/(\sigma_X\sigma_Y) の標本版で、ρ\rho が理論値なのに対し rr は手元のデータから計算する推定量という関係です。値は必ず 1r1-1\le r\le1 に収まります。 rr の重要な性質が線形変換への不変性です。xxyy を正の定数倍したり定数を足したりしても rr の値は変わりません(単位の取り替えで値が変わらない標準化されたものさし)。ただし負の定数倍では符号が反転します——向きを反転させる変換なので符号だけが変わり、絶対値(関係の強さ)は保たれます。 concept: 決定係数との連携が試験頻出です。単回帰では r2=R2r^2=R^2 が成り立ちます。実際 R2=Sxy2/(SxxSyy)=(Sxy/SxxSyy)2=r2R^2=S_{xy}^2/(S_{xx}S_{yy})=(S_{xy}/\sqrt{S_{xx}S_{yy}})^2=r^2 と展開できます。だから r=0.9r=0.9 なら R2=0.81R^2=0.81 で、相関の強さと回帰の説明力が表裏一体です。最後に、rr はあくまで直線的な関係しか捉えません。放物線のような強い非線形の関係があっても rr が0に近くなることがあるので、必ず散布図を見る習慣が大切です。

試験に出る性質

定義(標本統計量)

r=Sxy/SxxSyyr=S_{xy}/\sqrt{S_{xx}S_{yy}}。母集団パラメータ ρ=Cov/(σXσY)\rho=\mathrm{Cov}/(\sigma_X\sigma_Y) の標本版(データから計算する推定量)。

範囲

1r1-1\le r\le1(コーシー・シュワルツ)。+1+1 で完全な右上がり直線、1-1 で右下がり直線、00 で直線関係なし。

正の線形変換に不変

x,yx,y を正の定数倍・平行移動しても rr は不変(単位の取り替えで値が変わらない標準化された指標)。

負の定数倍で符号反転

a<0a<0 の倍率では rrr\to-r。向きが反転するため符号だけ変わり、絶対値(強さ)は保たれる。

決定係数との関係

単回帰では r2=R2r^2=R^2。相関の二乗が回帰の説明力に一致する。例では r=0.9R2=0.81r=0.9\Rightarrow R^2=0.81

例で見る

C071/C072と同じデータ x=(1,2,3,4,5), y=(2,3,5,4,6)x=(1,2,3,4,5),\ y=(2,3,5,4,6)Sxx=10, Syy=10, Sxy=9S_{xx}=10,\ S_{yy}=10,\ S_{xy}=9r=Sxy/SxxSyy=9/10×10=9/10=0.9r=S_{xy}/\sqrt{S_{xx}S_{yy}}=9/\sqrt{10\times10}=9/10=0.9。強い正の相関。 r2=0.81r^2=0.81 で、C072の決定係数 R2=0.81R^2=0.81 と完全に一致する。

つまずきポイント

  • rr が小さい=無関係と即断する(rr は直線的な関係だけを測る。強い非線形があっても r0r\approx0 になりうるので散布図を見る)
  • 負の定数倍でも符号が変わらないと思う(正の定数倍では不変だが、a<0a<0 の倍率では rrr\to-r と符号が反転する)
  • 相関を因果と取り違える(rr が大きくても xxyy の原因とは限らない。r2=R2r^2=R^2 は説明力であって因果の証拠ではない)

定着クイズ

標本相関係数 rr の計算式は?

x,yx,y を負の定数倍したとき rr は?

単回帰で r=0.9r=0.9 のとき決定係数 R2R^2 は?

この用語を扱う問題(1