acpass

確率用語

ひとことで言うと

中央値は「分布をちょうど半分に分ける点」、つまり累積分布関数が 0.50.5 になる値です。逆関数法の言葉で言えば、一様乱数 U=0.5U=0.5 に対応する値 F1(0.5)F^{-1}(0.5) そのもの。右に歪んだ分布では、平均より中央値の方が小さくなります。

指数分布Exp(λ=0.1)の累積分布関数F(x)=1-e^{-0.1x}のS字曲線。F(m)=0.5を満たす点が中央値m=ln(2)/0.1≈6.93で、これは逆関数法でU=0.5に対応する値F^{-1}(0.5)そのもの。右に歪んだ分布では中央値6.93が平均10より小さくなる典型を示す中央値はF(m)=0.5を満たすm=F⁻¹(0.5)。右歪み分布では中央値<平均0.51m≈6.93平均10F(x)x

指数分布 Exp(λ=0.1)\mathrm{Exp}(\lambda=0.1) の累積分布関数 F(x)=1e0.1xF(x)=1-e^{-0.1x}F(m)=0.5F(m)=0.5 を満たす点が中央値 m=ln2/0.16.93m=\ln 2/0.1\approx6.93 で、これは逆関数法で U=0.5U=0.5 に対応する F1(0.5)F^{-1}(0.5) そのもの。右に歪んだ分布なので中央値 6.936.93 は平均 1010 より小さい。

数式で表すと

F(m)=0.5F(m)=0.5

分布関数が 0.50.5 となる点。逆関数法で U=0.5U=0.5 が対応する値。

中央値(median)mm は、分布をちょうど半分に分ける点で、累積分布関数(concept: 累積分布関数)が 0.50.5 になる値として定義されます:F(m)=0.5F(m)=0.5。逆関数で書けば m=F1(0.5)m=F^{-1}(0.5) で、これは concept: 逆関数法との直接的なつながりです。逆関数法は「一様乱数 UUnif(0,1)U\sim\mathrm{Unif}(0,1) に対して X=F1(U)X=F^{-1}(U) とすれば XX が目的の分布に従う」サンプリング手法でしたが、中央値はその特別な場合、すなわち U=0.5U=0.5 を入れたときの値 F1(0.5)F^{-1}(0.5) にほかなりません。 具体的に指数分布 XExp(λ=0.1)X\sim\mathrm{Exp}(\lambda=0.1)(平均 1/λ=101/\lambda=10)で中央値を求めます。F(x)=1e0.1xF(x)=1-e^{-0.1x} より F(m)=0.5F(m)=0.5 を解いて 1e0.1m=0.5  e0.1m=0.5  m=ln20.16.931-e^{-0.1m}=0.5\ \Rightarrow\ e^{-0.1m}=0.5\ \Rightarrow\ m=\dfrac{\ln 2}{0.1}\approx6.93 です。中央値 6.93\approx6.93 は平均 1010 より小さい点に注目してください。これは偶然ではなく、指数分布のように右に裾が長い(右に歪んだ)分布で典型的に起こるパターンです。右の長い裾にある大きな値が平均を引き上げる一方、中央値は順位で真ん中を見るだけなので裾の影響を受けにくく、結果として中央値 << 平均となります。 この「右歪みでは中央値 << 平均」という関係は、外れ値に対する頑健さの観点で実務的に重要です。所得や保険のクレーム額のように右に大きく歪んだデータでは、平均より中央値の方が「代表的な値」をよく表すことがあります。中央値のデータでの定義(奇数個なら第 m+1m+1 番目の値、偶数個なら第 m,m+1m,m+1 番目の平均)は concept: 中央値(データ)で扱いましたが、ここでは母集団の連続分布での定義 F(m)=0.5F(m)=0.5 と逆関数法との関係を中心に整理しました。

試験に出る性質

定義

F(m)=0.5F(m)=0.5 を満たす点 mm。分布を確率で半分に分ける値。

逆関数法との関係

m=F1(0.5)m=F^{-1}(0.5)。逆関数法(concept: 逆関数法)で U=0.5U=0.5 を入れたときの値そのもの。

指数分布の中央値

F(x)=1eλxF(x)=1-e^{-\lambda x} より m=ln2/λm=\ln 2/\lambdaλ=0.1\lambda=0.1 なら m6.93m\approx6.93

右歪みでは中央値 $<$ 平均

右に裾が長い分布では大きな値が平均を引き上げ、中央値より平均が大きくなる(例:6.93<106.93<10)。

外れ値に頑健

中央値は順位で決まり極端な大きい値に引きずられにくい。所得・クレーム額など右歪みデータの代表値に向く。

例で見る

XExp(λ=0.1)X\sim\mathrm{Exp}(\lambda=0.1)(平均 =10=10)。F(m)=1e0.1m=0.5F(m)=1-e^{-0.1m}=0.5 を解くと e0.1m=0.5m=ln2/0.16.93e^{-0.1m}=0.5\Rightarrow m=\ln 2/0.1\approx6.93。 中央値 6.93\approx6.93 は平均 1010 より小さい(右に歪んだ分布では中央値 << 平均の典型)。

つまずきポイント

  • 中央値と平均をいつも同じだと思う(左右対称分布なら一致するが、右歪みでは中央値 << 平均。例では 6.93106.93\ne10
  • F(m)=0.5F(m)=0.5 の左辺を密度 ff と取り違える(中央値は累積分布関数 FF(面積)が 0.50.5 になる点。密度の値ではない)
  • m=F1(0.5)m=F^{-1}(0.5) の対数計算で符号を誤る(e0.1m=0.5e^{-0.1m}=0.5 から m=ln2/0.1m=\ln 2/0.1ln(0.5)=ln2\ln(0.5)=-\ln 2 の符号に注意)

定着クイズ

中央値 mm の定義は?

XExp(λ=0.1)X\sim\mathrm{Exp}(\lambda=0.1) の中央値は?

右に歪んだ分布での中央値と平均の関係は?

この用語を扱う問題(1