acpass

2変量正規

知識マップ

確率用語

ひとことで言うと

2変量正規分布は、2つの変数 X,YX,Y がペアで正規分布に従う分布です。等高線を描くと楕円になり、相関があるほど楕円が傾きます。最大の特徴は『2変量正規に限っては、無相関ならば独立も成り立つ』こと。一般には無相関でも独立とは限らないのに、正規だけは例外なのです。

こんなデータが従う

身長と体重(成人集団でのペア)親の身長と子の身長数学の点数と物理の点数保険契約者の年齢と年間クレーム額(近似)2つの株式の対数収益率のペア

「2つの量がペアで観測され、各々が正規分布に近く、散布図が楕円状に広がる」データに当てはまります。線形な相関で結びつく連続変数のペアに自然なモデルで、条件付き分布や線形結合の扱いが簡単になるのが利点です。

2変量正規分布の同心楕円状の等高線。相関rho=0.6のため楕円は右上がりに傾く。縦の赤破線はX=2でのスライスで、その断面の条件付き分布Y|X=2もまた正規分布N(1.2,0.64)になる。無相関rho=0なら楕円は軸に平行になり、X,Yは独立になる(正規特有の性質)楕円が傾く=相関あり。無相関(rho=0)なら独立(正規特有)X=2の断面→Y|X=2~N(1.2,0.64)XY

2変量正規分布の等高線は同心楕円。相関 ρ=0.6\rho=0.6 なので楕円は右上がりに傾く。縦線 X=2X=2 で切った断面(条件付き分布)YX=2Y\mid X=2 もまた正規 N(1.2,0.64)N(1.2,0.64) になる。ρ=0\rho=0 なら楕円は軸に平行になり X,YX,Y は独立。

数式で表すと

ρ=Cov(X,Y)/(σXσY)\rho=\mathrm{Cov}(X,Y)/(\sigma_X\sigma_Y)

2変数の同時正規分布。無相関ならば独立、という正規特有の性質をもつ。

2変量正規分布(2次元正規分布)は、確率変数の組 (X,Y)(X,Y) がペアとして正規分布に従う分布で、μX,μY,σX,σY\mu_X,\mu_Y,\sigma_X,\sigma_Y と相関係数 ρ=Cov(X,Y)/(σXσY)\rho=\mathrm{Cov}(X,Y)/(\sigma_X\sigma_Y) の5つで完全に決まります。密度の等高線は同心楕円になり、ρ\rho が0なら軸に平行な楕円、ρ\rho がプラスなら右上がりに、マイナスなら右下がりに傾きます。 最も試験に出る性質は独立性と無相関の関係です。一般論として『独立ならば無相関』は常に成り立つ一方、その逆『無相関ならば独立』は一般には成り立ちません。ところが2変量正規分布に限っては、無相関 ρ=0\rho=0 ならば独立も成り立つのです。これは正規分布だけがもつ特別な性質で、ρ=0\rho=0 を代入すると密度全体が fX(x)fY(y)f_X(x)\cdot f_Y(y) という積の形に因数分解されるためです。 もうひとつ重要なのが条件付き分布です。2変量正規では、片方を固定したときのもう片方の分布もまた正規分布になり、公式は YX=x  N ⁣(μY+ρσYσX(xμX), (1ρ2)σY2)Y\mid X=x\ \sim\ N\!\Big(\mu_Y+\rho\dfrac{\sigma_Y}{\sigma_X}(x-\mu_X),\ (1-\rho^2)\sigma_Y^2\Big) です。条件付き平均が xx の1次式(直線)になっている点に注目してください——これが回帰直線の母集団版で、傾き ρσY/σX\rho\,\sigma_Y/\sigma_X は単回帰の係数に対応します。条件付き分散 (1ρ2)σY2(1-\rho^2)\sigma_Y^2 は元の分散 σY2\sigma_Y^2 より小さく、xx を知ったぶんだけ YY の不確実性が (1ρ2)(1-\rho^2) 倍に減ります。さらに、2変量正規の任意の線形結合 aX+bYaX+bY もまた(1変量の)正規分布になります。

試験に出る性質

5パラメータで決まる

μX,μY,σX,σY,ρ\mu_X,\mu_Y,\sigma_X,\sigma_Y,\rho で完全に決定。等高線は同心楕円で、ρ\rho の符号で傾きの向き、絶対値で細長さが決まる。

無相関ならば独立(正規特有)

一般には無相関でも独立とは限らないが、2変量正規では ρ=0\rho=0\Rightarrow 独立。密度が fX(x)fY(y)f_X(x)f_Y(y) に因数分解されるため。

条件付き分布も正規

YX=xN(μY+ρσYσX(xμX),(1ρ2)σY2)Y\mid X=x\sim N(\mu_Y+\rho\frac{\sigma_Y}{\sigma_X}(x-\mu_X),(1-\rho^2)\sigma_Y^2)。条件付き平均は xx の1次式(回帰直線の母集団版)。

条件付き分散は縮む

(1ρ2)σY2σY2(1-\rho^2)\sigma_Y^2\le\sigma_Y^2xx を知ると YY の不確実性が (1ρ2)(1-\rho^2) 倍に減る(ρ2\rho^2 が説明力に対応)。

線形結合も正規

aX+bYaX+bY もまた正規分布になる。正規の和・線形変換に対する閉性が2変量でも保たれる。

例で見る

μX=μY=0, σX=σY=1, ρ=0.6\mu_X=\mu_Y=0,\ \sigma_X=\sigma_Y=1,\ \rho=0.6x=2x=2 を条件付き分布の公式に入れると、 条件付き平均 =0+0.6(1/1)(20)=1.2=0+0.6\cdot(1/1)\cdot(2-0)=1.2、条件付き分散 =(10.62)1=0.64=(1-0.6^2)\cdot1=0.64(標準偏差 0.80.8)。 よって YX=2N(1.2,0.64)Y\mid X=2\sim N(1.2,0.64)。もし ρ=0\rho=0 なら YX=xN(0,1)Y\mid X=x\sim N(0,1)xx に依存せず=独立と一致する。

つまずきポイント

  • 『無相関ならば独立』を一般の分布でも成り立つと誤用する(これは2変量正規に限った性質。一般には無相関でも独立とは限らない)
  • μ,σ\mu,\sigma が周辺分布の値であることを忘れ、条件付き分散 (1ρ2)σY2(1-\rho^2)\sigma_Y^2σY2\sigma_Y^2 と混同する(条件付きでは (1ρ2)(1-\rho^2) 倍に縮む)
  • 条件付き平均の傾きを ρ\rho だけと思う(正しくは ρσY/σX\rho\,\sigma_Y/\sigma_X。標準化していない限り標準偏差比が掛かる)

定着クイズ

2変量正規分布に特有の性質はどれ?

μX=μY=0,σX=σY=1,ρ=0.6\mu_X{=}\mu_Y{=}0,\sigma_X{=}\sigma_Y{=}1,\rho{=}0.6 のとき YX=2Y\mid X{=}2 の平均は?

同じ設定で YX=2Y\mid X{=}2 の分散は?

この用語を扱う問題(1