確率・用語
ひとことで言うと
「0から1までの間の数(割合や確率そのもの)の散らばり方」を表す連続分布です。打率や不良率のような“0〜1の比率”がどのあたりに来そうかを表現したいときに使う、区間 (0,1) の上だけに住む分布です。
こんなデータが従う
打者の打率(0〜1)の散らばり製品の不良率の不確かさアンケートの賛成割合の推定広告のクリック率の散らばりコインの表が出る確率 $p$ 自体の不確かさ
「0と1の間に収まる比率・確率」をモデル化したいときに使います。2つの形パラメータ α,β を変えるだけで、左右対称・左寄り・右寄り・U字・一様など多彩な形を表せる柔軟さが特徴です。
ベータ分布 Beta(2,3) の密度。区間 (0,1) の上だけに値をもち、α,β の大小で山の位置と形が変わる。平均は α/(α+β)。
数式で表すと
E[X]=α+βα, Var=(α+β)2(α+β+1)αβ
区間 (0,1) 上の連続分布 Beta(α,β)。比率・確率のモデルやベイズの共役事前に使う。
ベータ分布 Beta(α,β) は、区間 (0,1) の上で定義される連続分布で、密度は
f(x)∝xα−1(1−x)β−1(0<x<1)
です(比例係数は全体の積分が1になるよう調整した規格化定数)。形は2つの正のパラメータ α,β で決まり、α が大きいほど右(1側)に、β が大きいほど左(0側)に山が寄ります。直感としては「いまのところ成功っぽい証拠が α ぶん、失敗っぽい証拠が β ぶんあるときの、真の成功確率 p の居場所」と思うと掴みやすいです。
平均と分散は
E[X]=α+βα,Var(X)=(α+β)2(α+β+1)αβ
です。平均は「成功っぽさ α が全体 α+β に占める割合」という分かりやすい形をしています。α+β が大きいほど分散は小さくなり、(0,1) のどこかに鋭く集中します(証拠が多いほど位置が定まる、というイメージ)。
特別な場合として、α=β=1 のとき密度が定数 1 になり、ちょうど区間 (0,1) の一様分布 U(0,1) に一致します。ベータ分布は一様分布を含む、より広い“(0,1) 上の分布の族”だと言えます。なおベイズ統計では、二項分布の成功確率 p の事前分布にベータ分布を使うと、データを観たあとの事後分布もまたベータ分布になる(共役事前分布)という便利な性質があります。ただし数学の試験での比重は小さいので、まずは「比率 p のモデルとして (0,1) に住む柔軟な分布」という直感を押さえれば十分です。試験に出る性質
定義域と密度
区間 (0,1) 上で f(x)∝xα−1(1−x)β−1。比率・確率のモデルに使う。
平均と分散
E[X]=α+βα、Var(X)=(α+β)2(α+β+1)αβ。
Beta(1,1)=一様分布
α=β=1 のとき密度が定数となり U(0,1) に一致する。ベータは一様を含む族。
形の柔軟さ
α,β の大小で左寄り・右寄り・対称・U字など多彩な形を表せる。
ベイズの共役事前分布
二項の成功確率 p の事前にベータを使うと、事後もベータになる(数学試験での比重は小さい)。
例で見る
ある打者について、いまのところ成功っぽさ α=2、失敗っぽさ β=3 と見積もると、真の打率 p は Beta(2,3) に従う。平均は
E[p]=2+32=0.4。
α=β=1 なら Beta(1,1)=U(0,1) で、p は0〜1のどこも等しく起こり得る。
つまずきポイント
- 定義域を実数全体や [0,∞) と思い込む(ベータ分布は (0,1) の上だけに住む)
- α,β を入れ替える(α が成功側=1寄り、β が失敗側=0寄り。平均 α/(α+β) で向きを確認)
- Beta(1,1) が一様分布になることを見落とす(related『一様分布』の対応)
定着クイズ
ベータ分布 Beta(α,β) が値をとる範囲は?
Beta(α,β) の平均 E[X] は?
Beta(1,1) はどの分布に一致する?