acpass

対数正規分布

知識マップ

確率用語

ひとことで言うと

対数正規分布は「対数をとると正規分布になる」正の値だけをとる分布です。X=eYX=e^{Y}YY が正規)という形なので、小さい値に多く、右に長い裾を引きます。保険金額や損害額のように『ほとんどは小さいが、ときどき桁違いに大きい』データのモデルにぴったりです。

こんなデータが従う

1件あたりの保険金(クレーム)支払額自動車事故1件あたりの損害額ある資産の将来価格(株価のモデル)世帯ごとの所得や資産額ある部品が壊れるまでの寿命時間

「正の値しか取らず、対数をとると左右対称(正規)になる、右に長い裾をもつ」データに当てはまります。多数の小さな要因が掛け算で積み重なる量(金額・価格・寿命)に自然に現れ、保険金額モデルの定番です。

対数正規分布(mu=0,sigma=1)の右に歪んだ密度曲線。最頻値≈0.368(赤破線)<中央値=1(灰破線)<平均≈1.649(緑破線)の順に縦線が並び、右に長い裾をもつ。保険金額や損害額のモデルに頻出する非対称分布で、正規分布と異なり和に関する再生性をもたない最頻値<中央値<平均(右に歪む)。和は対数正規にならない最頻0.37中央1平均1.65密度x

対数正規分布 (μ=0,σ=1)(\mu=0,\sigma=1) の密度。右に長い裾をもち、最頻値 0.368\approx0.368 <中央値 =1=1 <平均 1.649\approx1.649 の順に並ぶ。多数の小さな要因が掛け算で積み重なる金額・損害額のモデルに頻出。

数式で表すと

E[X]=eμ+σ2/2, 中央値=eμE[X]=e^{\mu+\sigma^2/2},\ \text{中央値}=e^{\mu}

対数をとると正規分布になる正の連続分布。X=eY, YN(μ,σ2)X=e^{Y},\ Y\sim N(\mu,\sigma^2)。保険金額のモデルに頻出。

対数正規分布とは、確率変数 XX の対数 Y=lnXY=\ln X が正規分布に従う分布、すなわち YN(μ,σ2)Y\sim N(\mu,\sigma^2) のときの X=eYX=e^{Y} の分布です。X=eYX=e^{Y} は常に正なので、XX は正の値だけをとり、形は右に長い裾を引いた非対称になります。パラメータ μ,σ\mu,\sigma は『対数をとった後の世界(YY の世界)』の平均と標準偏差であって、XX そのものの平均・中央値ではありません。 XX 側の代表値は次のようになります。指数関数は単調増加なので順位を保ち、YY の中央値 μ\mu がそのまま XX の中央値 eμe^{\mu} に対応します。一方、平均は E[X]=eμ+σ2/2E[X]=e^{\mu+\sigma^2/2} で、σ2/2\sigma^2/2 のぶんだけ中央値より大きくなります。最頻値(密度が最大の点)は eμσ2e^{\mu-\sigma^2} で、中央値より小さくなります。まとめると 最頻値=eμσ2<中央値=eμ<平均=eμ+σ2/2\text{最頻値}=e^{\mu-\sigma^2}<\text{中央値}=e^{\mu}<\text{平均}=e^{\mu+\sigma^2/2} という右歪みの典型的な並びになります。分散は Var(X)=e2μ+σ2(eσ21)\mathrm{Var}(X)=e^{2\mu+\sigma^2}(e^{\sigma^2}-1) で、σ\sigma が大きいほど裾が急激に重くなります。 concept: 正規分布との決定的な違いとして、正規分布は『再生性』をもち独立な正規分布の和もまた正規分布でしたが、対数正規分布は和に関する再生性をもちません。2つの独立な対数正規分布を足しても、その和は対数正規分布にはならないのです。対数正規の自然な演算は『和』ではなく『積』です(対数をとると和になるため)。保険でいえば、独立な複数クレーム額を対数正規でモデル化したとき、その合計額の分布を扱うには近似やシミュレーションが必要になります。

試験に出る性質

定義(指数変換)

YN(μ,σ2)Y\sim N(\mu,\sigma^2) のとき X=eYX=e^{Y} の分布。X>0X>0 で右に歪む。μ,σ\mu,\sigma は対数をとった後の世界のパラメータ。

平均・分散

E[X]=eμ+σ2/2E[X]=e^{\mu+\sigma^2/2}Var(X)=e2μ+σ2(eσ21)\mathrm{Var}(X)=e^{2\mu+\sigma^2}(e^{\sigma^2}-1)σ\sigma が大きいほど裾が重い。

中央値・最頻値

中央値 =eμ=e^{\mu}(順位保存)、最頻値 =eμσ2=e^{\mu-\sigma^2}最頻値<中央値<平均\text{最頻値}<\text{中央値}<\text{平均} の順(右歪み)。

和に関する再生性をもたない

正規分布と異なり、独立な対数正規どうしの和は対数正規にならない。閉じるのは『積』の側(対数で和になるため)。

保険でのモデル

クレーム額・損害額など『正で右に裾が長い金額』のモデルに頻出。合計額の分布を出すには近似やシミュレーションが要る。

例で見る

μ=0, σ=1\mu=0,\ \sigma=1 とする。中央値 =e0=1=e^{0}=1、平均 =e0+0.5=e0.51.6487=e^{0+0.5}=e^{0.5}\approx1.6487。 最頻値 =e01=e10.3679=e^{0-1}=e^{-1}\approx0.3679。順序は 0.368<1<1.64870.368<1<1.6487(最頻値 << 中央値 << 平均)。 分散 =e0+1(e11)=e(e1)4.671=e^{0+1}(e^{1}-1)=e(e-1)\approx4.671

つまずきポイント

  • μ,σ\mu,\sigmaXX そのものの平均・標準偏差と取り違える(これらは lnX\ln X の側の値。XX の平均は eμ+σ2/2e^{\mu+\sigma^2/2}
  • 平均と中央値を同じだと思う(右歪みなので 最頻値 << 中央値 eμe^{\mu} << 平均 eμ+σ2/2e^{\mu+\sigma^2/2}。例では 0.368<1<1.64870.368<1<1.6487
  • 正規分布と同様に和で閉じると思い込む(対数正規は和に関する再生性をもたない。合計額の分布は別途近似/シミュレーションが必要)

定着クイズ

YN(μ,σ2)Y\sim N(\mu,\sigma^2) のとき対数正規分布に従うのは?

μ=0,σ=1\mu=0,\sigma=1 の対数正規分布の平均 E[X]E[X] は?

対数正規分布の和に関する再生性について正しいのは?

この用語を扱う問題(1