確率・用語
ひとことで言うと
対数正規分布は「対数をとると正規分布になる」正の値だけをとる分布です。X=eY(Y が正規)という形なので、小さい値に多く、右に長い裾を引きます。保険金額や損害額のように『ほとんどは小さいが、ときどき桁違いに大きい』データのモデルにぴったりです。
こんなデータが従う
1件あたりの保険金(クレーム)支払額自動車事故1件あたりの損害額ある資産の将来価格(株価のモデル)世帯ごとの所得や資産額ある部品が壊れるまでの寿命時間
「正の値しか取らず、対数をとると左右対称(正規)になる、右に長い裾をもつ」データに当てはまります。多数の小さな要因が掛け算で積み重なる量(金額・価格・寿命)に自然に現れ、保険金額モデルの定番です。
対数正規分布 (μ=0,σ=1) の密度。右に長い裾をもち、最頻値 ≈0.368 <中央値 =1 <平均 ≈1.649 の順に並ぶ。多数の小さな要因が掛け算で積み重なる金額・損害額のモデルに頻出。
数式で表すと
E[X]=eμ+σ2/2, 中央値=eμ
対数をとると正規分布になる正の連続分布。X=eY, Y∼N(μ,σ2)。保険金額のモデルに頻出。
対数正規分布とは、確率変数 X の対数 Y=lnX が正規分布に従う分布、すなわち Y∼N(μ,σ2) のときの X=eY の分布です。X=eY は常に正なので、X は正の値だけをとり、形は右に長い裾を引いた非対称になります。パラメータ μ,σ は『対数をとった後の世界(Y の世界)』の平均と標準偏差であって、X そのものの平均・中央値ではありません。
X 側の代表値は次のようになります。指数関数は単調増加なので順位を保ち、Y の中央値 μ がそのまま X の中央値 eμ に対応します。一方、平均は E[X]=eμ+σ2/2 で、σ2/2 のぶんだけ中央値より大きくなります。最頻値(密度が最大の点)は eμ−σ2 で、中央値より小さくなります。まとめると
最頻値=eμ−σ2<中央値=eμ<平均=eμ+σ2/2
という右歪みの典型的な並びになります。分散は Var(X)=e2μ+σ2(eσ2−1) で、σ が大きいほど裾が急激に重くなります。
concept: 正規分布との決定的な違いとして、正規分布は『再生性』をもち独立な正規分布の和もまた正規分布でしたが、対数正規分布は和に関する再生性をもちません。2つの独立な対数正規分布を足しても、その和は対数正規分布にはならないのです。対数正規の自然な演算は『和』ではなく『積』です(対数をとると和になるため)。保険でいえば、独立な複数クレーム額を対数正規でモデル化したとき、その合計額の分布を扱うには近似やシミュレーションが必要になります。試験に出る性質
定義(指数変換)
Y∼N(μ,σ2) のとき X=eY の分布。X>0 で右に歪む。μ,σ は対数をとった後の世界のパラメータ。
平均・分散
E[X]=eμ+σ2/2、Var(X)=e2μ+σ2(eσ2−1)。σ が大きいほど裾が重い。
中央値・最頻値
中央値 =eμ(順位保存)、最頻値 =eμ−σ2。最頻値<中央値<平均 の順(右歪み)。
和に関する再生性をもたない
正規分布と異なり、独立な対数正規どうしの和は対数正規にならない。閉じるのは『積』の側(対数で和になるため)。
保険でのモデル
クレーム額・損害額など『正で右に裾が長い金額』のモデルに頻出。合計額の分布を出すには近似やシミュレーションが要る。
例で見る
μ=0, σ=1 とする。中央値 =e0=1、平均 =e0+0.5=e0.5≈1.6487。
最頻値 =e0−1=e−1≈0.3679。順序は 0.368<1<1.6487(最頻値 < 中央値 < 平均)。
分散 =e0+1(e1−1)=e(e−1)≈4.671。
つまずきポイント
- μ,σ を X そのものの平均・標準偏差と取り違える(これらは lnX の側の値。X の平均は eμ+σ2/2)
- 平均と中央値を同じだと思う(右歪みなので 最頻値 < 中央値 eμ < 平均 eμ+σ2/2。例では 0.368<1<1.6487)
- 正規分布と同様に和で閉じると思い込む(対数正規は和に関する再生性をもたない。合計額の分布は別途近似/シミュレーションが必要)
定着クイズ
Y∼N(μ,σ2) のとき対数正規分布に従うのは?
μ=0,σ=1 の対数正規分布の平均 E[X] は?
対数正規分布の和に関する再生性について正しいのは?