acpass

確率用語

ひとことで言うと

共分散は「XとYが同じ方向に動く傾向があるか」を符号付きの数値で表したもの。相関係数はそれを-1〜1の範囲に正規化して、関係の強さを比較できるようにしたものです。

こんなデータが従う

身長と体重の関係保険契約件数と保険金支払総額の関係気温とアイスクリームの売上の関係教育年数と所得の関係株価指数と個別株のリターンの関係

2つの変数の「一緒に動く度合い」を扱う場面全般で使います。共分散は単位(cmやkgなど)の影響を受けて大きさの比較がしにくいため、実務では単位に依存しない相関係数の方がよく使われます。

正の相関を示す散布図。平均の交差線より右上・左下に点が多いと共分散は正Ȳ(X−X̄)(Y−Ȳ)>0符号が逆だと負に寄与XY

散布図上で平均X̄・Ȳの交差線を引くと4つの領域に分かれる。右上・左下(同じ符号側)の点が多いほど共分散は正、右下・左上に多いほど負になる。

数式で表すと

ρ=Cov(X,Y)σXσY\rho=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}

共分散の定義は Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]E[X]E[Y]\mathrm{Cov}(X,Y)=E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]。各点で (XXˉ)(X-\bar X)(YYˉ)(Y-\bar Y) の符号が同じ(両方+か両方−)なら積は正、符号が逆なら積は負になり、これを平均したものが共分散です。つまり「XとYが平均からのズレの方向を揃えやすいか」を測っています。 共分散が直接役に立つのは和の分散の公式です: Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)\mathrm{Var}(X+Y)=\mathrm{Var}(X)+\mathrm{Var}(Y)+2\mathrm{Cov}(X,Y) X, Yが独立なら Cov(X,Y)=0\mathrm{Cov}(X,Y)=0 となり見慣れた形に戻りますが、独立でなければ共分散の項を絶対に落としてはいけません(頻出のワナ)。なお逆は成り立たず、Cov=0\mathrm{Cov}=0(無相関)でも独立とは限りません(非線形な関係が残っている場合がある)。 共分散は単位に依存する(X, Yの単位を変えるとCovの値も変わる)ため、大きさの比較には不便です。これを解消するのが相関係数 ρ=Cov(X,Y)σXσY\rho=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y} で、標準偏差で割って単位を消し、必ず [1,1][-1,1] に収まるようにしたものです。ρ=±1\rho=\pm1 はXとYが完全な直線関係にあることを意味し、ρ=0\rho=0(無相関)は線形な関係がないことを意味しますが、相関係数は線形関係の強さしか測れないため、強い非線形関係があっても ρ0\rho\approx0 になることがあります。

試験に出る性質

和の分散公式

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)\mathrm{Var}(X+Y)=\mathrm{Var}(X)+\mathrm{Var}(Y)+2\mathrm{Cov}(X,Y)。独立でなければCovの項を省略できない。

独立⇒無相関(逆は不成立)

独立なら Cov(X,Y)=0\mathrm{Cov}(X,Y)=0。しかし Cov=0\mathrm{Cov}=0 でも独立とは限らない(非線形な依存が残る可能性)。

線形変換での振る舞い

Cov(aX+b, cY+d)=acCov(X,Y)\mathrm{Cov}(aX+b,\ cY+d)=ac\,\mathrm{Cov}(X,Y)。定数項b, dは共分散に影響しない。

相関係数の範囲

1ρ1-1\le\rho\le1ρ=±1\rho=\pm1 は完全な直線関係(コーシー・シュワルツの不等式による)。

相関は線形関係のみを測る

非線形な強い関係(例:Y=X²、Xが対称な分布のとき)があってもρ≈0になることがある。

例で見る

Var(X)=4, Var(Y)=9, Cov(X,Y)=3\mathrm{Var}(X)=4,\ \mathrm{Var}(Y)=9,\ \mathrm{Cov}(X,Y)=3 のとき Var(X+Y)=4+9+2×3=19\mathrm{Var}(X+Y)=4+9+2\times3=19 相関係数は ρ=349=36=0.5\rho=\dfrac{3}{\sqrt4\sqrt9}=\dfrac{3}{6}=0.5

つまずきポイント

  • 無相関(Cov=0)と独立を同じものだと思い込む(無相関は独立より弱い条件)
  • Var(X+Y)を計算する際に独立でないのにCovの項を忘れる
  • 相関係数が低いからといって「関係がない」と即断する(非線形な関係は見逃す)

定着クイズ

Var(X)=2, Var(Y)=5, Cov(X,Y)=1\mathrm{Var}(X)=2,\ \mathrm{Var}(Y)=5,\ \mathrm{Cov}(X,Y)=1 のとき Var(X+Y)\mathrm{Var}(X+Y) は?

Cov(X,Y)=0\mathrm{Cov}(X,Y)=0(無相関)であるとき、必ず言えることは?

相関係数ρの取りうる範囲は?

この用語を扱う問題(2