acpass

確率公式

ひとことで言うと

XYX-Y で最も多い間違いが『分散も引く』です。正しくは、独立なら差でも分散は足す——Var(XY)=Var(X)+Var(Y)\mathrm{Var}(X-Y)=\mathrm{Var}(X)+\mathrm{Var}(Y)。マイナスを二乗するとプラスに戻るからです。そして正規どうしの差はやはり正規になります。

男性身長X~N(170,81)と女性身長Y~N(157,36)が独立なときの差D=X-Yの密度曲線。D~N(13,117)で標準偏差は約10.8cm。差でも分散は引かずに足すので81+36=117となる。緑で塗った D>0 の領域の確率P(D>0)=P(男性が高い)≈Φ(1.20)≈0.885差D=X−Y ~ N(13, 81+36=117)。分散は引かず足すD=0平均13P(D>0)≈0.885密度D=身長差(cm)

男性身長 XN(170,81)X\sim N(170,81) と女性身長 YN(157,36)Y\sim N(157,36)(独立)の差 D=XYD=X-Y の密度。DN(13,117)D\sim N(13,117)、標準偏差 10.8\approx10.8 cm。差でも分散は 81+36=11781+36=117 と足す。緑の領域 P(D>0)0.885P(D>0)\approx0.885

数式で表すと

Var(XY)=VarX+VarY (独立)\mathrm{Var}(X-Y)=\mathrm{Var}X+\mathrm{Var}Y\ (\text{独立})

差の分散は和の場合と同じく分散を足す(独立時)。符号を引かない点に注意。

確率変数の差 XYX-Y について、期待値は素直に引きます:E[XY]=E[X]E[Y]E[X-Y]=E[X]-E[Y](線形性)。問題は分散です。差を X+(Y)X+(-Y) と見て分散の公式を当てると、Y-Y の係数 1-1 は二乗されて (1)2=1(-1)^2=1 になるので Var(XY)=Var(X)+(1)2Var(Y)2Cov(X,Y)=Var(X)+Var(Y)2Cov(X,Y)\mathrm{Var}(X-Y)=\mathrm{Var}(X)+(-1)^2\mathrm{Var}(Y)-2\,\mathrm{Cov}(X,Y)=\mathrm{Var}(X)+\mathrm{Var}(Y)-2\,\mathrm{Cov}(X,Y) となり、独立(無相関)なら Cov=0\mathrm{Cov}=0 なので Var(XY)=Var(X)+Var(Y)\mathrm{Var}(X-Y)=\mathrm{Var}(X)+\mathrm{Var}(Y) です。符号がマイナスでも分散は引かず足す——これが差を扱う最重要の落とし穴です。直感的には、XXYY もそれぞれ揺らいでいて、その差はむしろ両方の不確実性が合わさってより大きく揺らぐ、と考えれば自然です(独立なら、です。正の相関があれば 2Cov<0-2\mathrm{Cov}<0 で逆に分散は減ります)。 もうひとつの重要性質は、正規分布の差はやはり正規になることです。XN(μX,σX2), YN(μY,σY2)X\sim N(\mu_X,\sigma_X^2),\ Y\sim N(\mu_Y,\sigma_Y^2) が独立なら XYN(μXμY, σX2+σY2)X-Y\sim N(\mu_X-\mu_Y,\ \sigma_X^2+\sigma_Y^2) で、平均は引き、分散は足します。これは正規の線形結合がふたたび正規になる(線形結合)ことの特別な場合です。 具体例で『分散は足す』を体感しましょう。男性身長 XN(170,92)X\sim N(170,9^2) cm、女性身長 YN(157,62)Y\sim N(157,6^2) cm が独立とします。差 D=XYD=X-Y は、平均 =170157=13=170-157=13、分散 =92+62=81+36=117=9^2+6^2=81+36=117(ここで 8136=4581-36=45 としないこと!)。よって DN(13,117)D\sim N(13,117)、標準偏差 =11710.8=\sqrt{117}\approx10.8 cm です。『男性のほうが女性より背が高い確率』は P(D>0)P(D>0)で、標準化すると P(Z>(013)/10.8)=P(Z>1.20)=Φ(1.20)0.885P(Z>(0-13)/10.8)=P(Z>-1.20)=\Phi(1.20)\approx0.885。約88.5%です。もし分散を誤って 8136=4581-36=45 としていれば標準偏差 6.7\approx6.7P(Z>1.94)0.974P(Z>-1.94)\approx0.974 となり、答えが大きくずれます。差の問題では『平均は引く・分散は足す』をセットで唱えるのが安全です。

試験に出る性質

期待値は引く

E[XY]=E[X]E[Y]E[X-Y]=E[X]-E[Y]。線形性から、独立でなくても成り立つ。

分散は足す(独立時)

Var(XY)=VarX+VarY\mathrm{Var}(X-Y)=\mathrm{Var}X+\mathrm{Var}Y1-1 が二乗されて符号が消えるため、引かずに足す。

一般形にはCov項

従属なら Var(XY)=VarX+VarY2Cov(X,Y)\mathrm{Var}(X-Y)=\mathrm{Var}X+\mathrm{Var}Y-2\mathrm{Cov}(X,Y)。和のときと Cov\mathrm{Cov} の符号だけが逆になる。

正規の差は正規

独立な正規の差 XYN(μXμY,σX2+σY2)X-Y\sim N(\mu_X-\mu_Y,\sigma_X^2+\sigma_Y^2)。線形結合が正規に閉じることの特別な場合。

2群比較の基礎

『差が正/負の確率』『差の信頼区間』は、差の分布 N(μXμY,σX2+σY2)N(\mu_X-\mu_Y,\sigma_X^2+\sigma_Y^2) を標準化して求める。

例で見る

男性身長 XN(170,92)X\sim N(170,9^2)、女性身長 YN(157,62)Y\sim N(157,6^2)(独立)。差 D=XYD=X-Y。 平均 =170157=13=170-157=13、分散 =81+36=117=81+36=117(引かずに足す!)。DN(13,117)D\sim N(13,117)、SD =11710.8=\sqrt{117}\approx10.8P(男性のほうが高い)=P(D>0)=P(Z>(013)/10.8)=P(Z>1.20)=Φ(1.20)0.885P(\text{男性のほうが高い})=P(D>0)=P(Z>(0-13)/10.8)=P(Z>-1.20)=\Phi(1.20)\approx0.885

つまずきポイント

  • 差の分散を引く(813681-36 などとする)。正しくは 1-1 が二乗されて足す:Var(XY)=VarX+VarY\mathrm{Var}(X-Y)=\mathrm{Var}X+\mathrm{Var}Y(独立時)
  • 従属時の Cov\mathrm{Cov} の符号を間違える(差では 2Cov-2\mathrm{Cov}。和の +2Cov+2\mathrm{Cov} と符号が逆になる点に注意)
  • 正規の差で標準偏差を足す(足すのは分散。SDは σX2+σY2\sqrt{\sigma_X^2+\sigma_Y^2} で、σX+σY\sigma_X+\sigma_Y ではない)

定着クイズ

独立な X,YX,Y の差の分散 Var(XY)\mathrm{Var}(X-Y) は?

XN(170,81),YN(157,36)X\sim N(170,81),Y\sim N(157,36) 独立。差 D=XYD=X-Y の分散は?

従属時の差の分散の Cov\mathrm{Cov} 項の符号は?

この用語を扱う問題(1