確率・公式
ひとことで言うと
差 X−Y で最も多い間違いが『分散も引く』です。正しくは、独立なら差でも分散は足す——Var(X−Y)=Var(X)+Var(Y)。マイナスを二乗するとプラスに戻るからです。そして正規どうしの差はやはり正規になります。
男性身長 X∼N(170,81) と女性身長 Y∼N(157,36)(独立)の差 D=X−Y の密度。D∼N(13,117)、標準偏差 ≈10.8 cm。差でも分散は 81+36=117 と足す。緑の領域 P(D>0)≈0.885。
数式で表すと
Var(X−Y)=VarX+VarY (独立)
差の分散は和の場合と同じく分散を足す(独立時)。符号を引かない点に注意。
確率変数の差 X−Y について、期待値は素直に引きます:E[X−Y]=E[X]−E[Y](線形性)。問題は分散です。差を X+(−Y) と見て分散の公式を当てると、−Y の係数 −1 は二乗されて (−1)2=1 になるので
Var(X−Y)=Var(X)+(−1)2Var(Y)−2Cov(X,Y)=Var(X)+Var(Y)−2Cov(X,Y)
となり、独立(無相関)なら Cov=0 なので Var(X−Y)=Var(X)+Var(Y) です。符号がマイナスでも分散は引かず足す——これが差を扱う最重要の落とし穴です。直感的には、X も Y もそれぞれ揺らいでいて、その差はむしろ両方の不確実性が合わさってより大きく揺らぐ、と考えれば自然です(独立なら、です。正の相関があれば −2Cov<0 で逆に分散は減ります)。
もうひとつの重要性質は、正規分布の差はやはり正規になることです。X∼N(μX,σX2), Y∼N(μY,σY2) が独立なら
X−Y∼N(μX−μY, σX2+σY2)
で、平均は引き、分散は足します。これは正規の線形結合がふたたび正規になる(線形結合)ことの特別な場合です。
具体例で『分散は足す』を体感しましょう。男性身長 X∼N(170,92) cm、女性身長 Y∼N(157,62) cm が独立とします。差 D=X−Y は、平均 =170−157=13、分散 =92+62=81+36=117(ここで 81−36=45 としないこと!)。よって D∼N(13,117)、標準偏差 =117≈10.8 cm です。『男性のほうが女性より背が高い確率』は P(D>0)で、標準化すると P(Z>(0−13)/10.8)=P(Z>−1.20)=Φ(1.20)≈0.885。約88.5%です。もし分散を誤って 81−36=45 としていれば標準偏差 ≈6.7、P(Z>−1.94)≈0.974 となり、答えが大きくずれます。差の問題では『平均は引く・分散は足す』をセットで唱えるのが安全です。試験に出る性質
期待値は引く
E[X−Y]=E[X]−E[Y]。線形性から、独立でなくても成り立つ。
分散は足す(独立時)
Var(X−Y)=VarX+VarY。−1 が二乗されて符号が消えるため、引かずに足す。
一般形にはCov項
従属なら Var(X−Y)=VarX+VarY−2Cov(X,Y)。和のときと Cov の符号だけが逆になる。
正規の差は正規
独立な正規の差 X−Y∼N(μX−μY,σX2+σY2)。線形結合が正規に閉じることの特別な場合。
2群比較の基礎
『差が正/負の確率』『差の信頼区間』は、差の分布 N(μX−μY,σX2+σY2) を標準化して求める。
例で見る
男性身長 X∼N(170,92)、女性身長 Y∼N(157,62)(独立)。差 D=X−Y。
平均 =170−157=13、分散 =81+36=117(引かずに足す!)。D∼N(13,117)、SD =117≈10.8。
P(男性のほうが高い)=P(D>0)=P(Z>(0−13)/10.8)=P(Z>−1.20)=Φ(1.20)≈0.885。
つまずきポイント
- 差の分散を引く(81−36 などとする)。正しくは −1 が二乗されて足す:Var(X−Y)=VarX+VarY(独立時)
- 従属時の Cov の符号を間違える(差では −2Cov。和の +2Cov と符号が逆になる点に注意)
- 正規の差で標準偏差を足す(足すのは分散。SDは σX2+σY2 で、σX+σY ではない)
定着クイズ
独立な X,Y の差の分散 Var(X−Y) は?
X∼N(170,81),Y∼N(157,36) 独立。差 D=X−Y の分散は?
従属時の差の分散の Cov 項の符号は?