acpass

確率用語

ひとことで言うと

2つの確率変数 XXYY が「対称で逆向きに動く」パターンのひとつが独立性の特殊ケースとして話題になる中央値です。ここでは、標本の真ん中の値として定義される中央値を扱います。分布形が歪んでいるとき「中心」を表す代表値として平均より頑強で、外れ値の影響を受けにくいのが特徴です。

右に裾を引く非対称な分布(例えば所得分布)と、その平均・中央値・最頻値の位置関係を示すSVG。右裾に平均が引っ張られ、中央値は分布を左右に等面積で分割し、最頻値は最も高い山の位置にある。外れ値に強い中央値と外れ値に引きずられる平均の対比右裾分布:最頻値<中央値<平均(外れ値に平均が引張られる)最頻値中央値平均

右に裾を引く分布(例:所得分布)での最頻値・中央値・平均の位置関係。平均は右裾の外れ値に引きずられるが、中央値は分布を左右に等面積で分割する位置にあり、外れ値の影響を受けにくい。

数式で表すと

P(Xx,Yy)=P(Xx)P(Yy)P(X\le x,Y\le y)=P(X\le x)P(Y\le y)

同時分布が周辺分布の積になる関係。E[XY]=E[X]E[Y]E[XY]=E[X]E[Y]、分散は単純に加わる。

中央値とは、データを大きさの順に並べたとき「ちょうど真ん中」にくる値です。定義として、奇数個 n=2m+1n=2m+1 のデータなら第 m+1m+1 番目の値、偶数個 n=2mn=2m なら第 mm 番目と第 m+1m+1 番目の平均が中央値です。これは concept: 順序統計量 X(m)X_{(m)}X(m+1)X_{(m+1)} を使えば X(m+1)X_{(m+1)}(奇数)または (X(m)+X(m+1))/2(X_{(m)}+X_{(m+1)})/2(偶数)と書けます。 中央値の最も重要な性質は、外れ値に頑強な点です。例として {1,2,3,4,100}\{1,2,3,4,100\} を考えます。平均は 110/5=22110/5=22 で外れ値100に引きずられていますが、中央値は第3番目の3のままです。所得分布のように「少数の高額所得者が平均を引き上げる」構造では、中央値の方が「典型的な人の所得」をよく表します。偶数個の例も確認します。{2,5,7,12}\{2,5,7,12\} の中央値は第2番目と第3番目の平均なので (5+7)/2=6(5+7)/2=6 です。 母集団の中央値は累積分布関数(concept: 累積分布関数)を使って「F(m)=1/2F(m)=1/2 を満たす mm」として定義されます。連続分布では F(m)=mf(x)dx=0.5F(m)=\int_{-\infty}^{m}f(x)\,dx=0.5 を解けば中央値が求まります。正規分布では平均=中央値ですが、指数分布や所得分布のような歪んだ分布では分離します。concept: 有効性のページで、正規でない分布のもとで中央値が標本平均より有効な推定量になりうること(ラプラス分布での例)に触れました。外れ値が多い、あるいは分布形が重い裾をもつ状況では、中央値は頑強な位置推定量として機能します。

試験に出る性質

定義

奇数 n=2m+1n=2m+1: 第 m+1m+1 番目の値。偶数 n=2mn=2m: 第 mm 番目と m+1m+1 番目の平均。

外れ値に頑強

外れ値が入っても中央値はほとんど動かない。平均は外れ値1点で大きく変わる。

母集団中央値

F(m)=1/2F(m)=1/2 を満たす mm。連続分布では mf(x)dx=0.5\int_{-\infty}^{m}f(x)dx=0.5 を解く。

歪み分布での平均との差

右裾分布は平均>>中央値。所得・資産分布など「典型値」に中央値が適する場面。

順序統計量との対応

奇数 n=2m+1n=2m+1 では X(m+1)X_{(m+1)}。偶数 n=2mn=2m では (X(m)+X(m+1))/2(X_{(m)}+X_{(m+1)})/2

例で見る

奇数個: {1,2,3,4,100}\{1,2,3,4,100\}。中央値=3=3(第3番目)。平均=22=22(外れ値100に引張られる)。 偶数個: {2,5,7,12}\{2,5,7,12\}。中央値=(5+7)/2=6=(5+7)/2=6(第2・第3番目の平均)。平均=26/4=6.5=26/4=6.5

つまずきポイント

  • 偶数個のとき真ん中の1つを選んでしまう(偶数では2つの平均をとる)
  • 平均と中央値が常に等しいと思う(正規分布では一致するが、歪んだ分布では分離する)
  • 母集団中央値を F(m)=0.5F(m)=0.5 で定義することを忘れる(データの手順は奇偶で変わるが、母集団定義は F(m)=1/2F(m)=1/2

定着クイズ

{1,2,3,4,100}\{1,2,3,4,100\} の中央値は?

{2,5,7,12}\{2,5,7,12\} の中央値は?

母集団中央値 mm はどう定義されるか?

この用語を扱う問題(2

独立性とは|定義・公式とアクチュアリー試験の関連問題 | acpass