確率・用語
ひとことで言うと
2変量正規分布は、2つの変数 X,Y がペアで正規分布に従う分布です。等高線を描くと楕円になり、相関があるほど楕円が傾きます。最大の特徴は『2変量正規に限っては、無相関ならば独立も成り立つ』こと。一般には無相関でも独立とは限らないのに、正規だけは例外なのです。
こんなデータが従う
身長と体重(成人集団でのペア)親の身長と子の身長数学の点数と物理の点数保険契約者の年齢と年間クレーム額(近似)2つの株式の対数収益率のペア
「2つの量がペアで観測され、各々が正規分布に近く、散布図が楕円状に広がる」データに当てはまります。線形な相関で結びつく連続変数のペアに自然なモデルで、条件付き分布や線形結合の扱いが簡単になるのが利点です。
2変量正規分布の等高線は同心楕円。相関 ρ=0.6 なので楕円は右上がりに傾く。縦線 X=2 で切った断面(条件付き分布)Y∣X=2 もまた正規 N(1.2,0.64) になる。ρ=0 なら楕円は軸に平行になり X,Y は独立。
数式で表すと
ρ=Cov(X,Y)/(σXσY)
2変数の同時正規分布。無相関ならば独立、という正規特有の性質をもつ。
2変量正規分布(2次元正規分布)は、確率変数の組 (X,Y) がペアとして正規分布に従う分布で、μX,μY,σX,σY と相関係数 ρ=Cov(X,Y)/(σXσY) の5つで完全に決まります。密度の等高線は同心楕円になり、ρ が0なら軸に平行な楕円、ρ がプラスなら右上がりに、マイナスなら右下がりに傾きます。
最も試験に出る性質は独立性と無相関の関係です。一般論として『独立ならば無相関』は常に成り立つ一方、その逆『無相関ならば独立』は一般には成り立ちません。ところが2変量正規分布に限っては、無相関 ρ=0 ならば独立も成り立つのです。これは正規分布だけがもつ特別な性質で、ρ=0 を代入すると密度全体が fX(x)⋅fY(y) という積の形に因数分解されるためです。
もうひとつ重要なのが条件付き分布です。2変量正規では、片方を固定したときのもう片方の分布もまた正規分布になり、公式は
Y∣X=x ∼ N(μY+ρσXσY(x−μX), (1−ρ2)σY2)
です。条件付き平均が x の1次式(直線)になっている点に注目してください——これが回帰直線の母集団版で、傾き ρσY/σX は単回帰の係数に対応します。条件付き分散 (1−ρ2)σY2 は元の分散 σY2 より小さく、x を知ったぶんだけ Y の不確実性が (1−ρ2) 倍に減ります。さらに、2変量正規の任意の線形結合 aX+bY もまた(1変量の)正規分布になります。試験に出る性質
5パラメータで決まる
μX,μY,σX,σY,ρ で完全に決定。等高線は同心楕円で、ρ の符号で傾きの向き、絶対値で細長さが決まる。
無相関ならば独立(正規特有)
一般には無相関でも独立とは限らないが、2変量正規では ρ=0⇒ 独立。密度が fX(x)fY(y) に因数分解されるため。
条件付き分布も正規
Y∣X=x∼N(μY+ρσXσY(x−μX),(1−ρ2)σY2)。条件付き平均は x の1次式(回帰直線の母集団版)。
条件付き分散は縮む
(1−ρ2)σY2≤σY2。x を知ると Y の不確実性が (1−ρ2) 倍に減る(ρ2 が説明力に対応)。
線形結合も正規
aX+bY もまた正規分布になる。正規の和・線形変換に対する閉性が2変量でも保たれる。
例で見る
μX=μY=0, σX=σY=1, ρ=0.6。x=2 を条件付き分布の公式に入れると、
条件付き平均 =0+0.6⋅(1/1)⋅(2−0)=1.2、条件付き分散 =(1−0.62)⋅1=0.64(標準偏差 0.8)。
よって Y∣X=2∼N(1.2,0.64)。もし ρ=0 なら Y∣X=x∼N(0,1) で x に依存せず=独立と一致する。
つまずきポイント
- 『無相関ならば独立』を一般の分布でも成り立つと誤用する(これは2変量正規に限った性質。一般には無相関でも独立とは限らない)
- μ,σ が周辺分布の値であることを忘れ、条件付き分散 (1−ρ2)σY2 を σY2 と混同する(条件付きでは (1−ρ2) 倍に縮む)
- 条件付き平均の傾きを ρ だけと思う(正しくは ρσY/σX。標準化していない限り標準偏差比が掛かる)
定着クイズ
2変量正規分布に特有の性質はどれ?
μX=μY=0,σX=σY=1,ρ=0.6 のとき Y∣X=2 の平均は?
同じ設定で Y∣X=2 の分散は?