相関
知識マップ確率・用語
ひとことで言うと
共分散は「XとYが同じ方向に動く傾向があるか」を符号付きの数値で表したもの。相関係数はそれを-1〜1の範囲に正規化して、関係の強さを比較できるようにしたものです。
こんなデータが従う
身長と体重の関係保険契約件数と保険金支払総額の関係気温とアイスクリームの売上の関係教育年数と所得の関係株価指数と個別株のリターンの関係
2つの変数の「一緒に動く度合い」を扱う場面全般で使います。共分散は単位(cmやkgなど)の影響を受けて大きさの比較がしにくいため、実務では単位に依存しない相関係数の方がよく使われます。
散布図上で平均X̄・Ȳの交差線を引くと4つの領域に分かれる。右上・左下(同じ符号側)の点が多いほど共分散は正、右下・左上に多いほど負になる。
数式で表すと
試験に出る性質
和の分散公式
。独立でなければCovの項を省略できない。
独立⇒無相関(逆は不成立)
独立なら 。しかし でも独立とは限らない(非線形な依存が残る可能性)。
線形変換での振る舞い
。定数項b, dは共分散に影響しない。
相関係数の範囲
。 は完全な直線関係(コーシー・シュワルツの不等式による)。
相関は線形関係のみを測る
非線形な強い関係(例:Y=X²、Xが対称な分布のとき)があってもρ≈0になることがある。
例で見る
のとき 相関係数は
つまずきポイント
- 無相関(Cov=0)と独立を同じものだと思い込む(無相関は独立より弱い条件)
- Var(X+Y)を計算する際に独立でないのにCovの項を忘れる
- 相関係数が低いからといって「関係がない」と即断する(非線形な関係は見逃す)
定着クイズ
のとき は?
(無相関)であるとき、必ず言えることは?
相関係数ρの取りうる範囲は?
この用語を扱う問題(2)