acpass

統計定理

ひとことで言うと

元の分布の形がどのようなものであっても、独立同分布な確率変数の和や平均は、標本数が大きくなるにつれて正規分布に近づくという定理です。

こんなデータが従う

多数の保険契約者の損害額の合計の分布サイコロをたくさん振った合計の分布多くの独立な小さな誤差の積み重なりが正規分布に近づく現象標本平均を使った検定・推定の理論的根拠品質管理での測定誤差の分布近似

正規分布が様々な場面で現れる理論的な理由を説明する、統計学で最も重要な定理の一つです。

標本平均の分布はnが大きくなるほど中心の周りに集まり、正規分布の形に近づくnが増えるほど正規分布に近づき、散らばりは小さくなるn=1n=5n=30標本平均の値

標本平均の分布はnが大きくなるほど中心の周りに集まり、正規分布の形に近づく。

数式で表すと

XˉN(μ,σ2/n)\bar X\approx N(\mu,\sigma^2/n)

中心極限定理。独立同分布の和・標本平均は nn 大で正規分布に近づく。

中心極限定理(CLT)は、平均μ・分散σ²をもつ独立同分布な確率変数 X1,,XnX_1,\dots,X_n の標本平均 Xˉ\bar X が、nが大きくなるにつれて分布 N(μ,σ2/n)N(\mu,\sigma^2/n) に近づくという定理です:XˉN(μ,σ2/n)\bar X\approx N(\mu,\sigma^2/n)。元の XiX_i の分布の形(二項分布、ポアソン分布、一様分布など何でも)に関係なく成り立つのが最大の特徴です。 和 Xi\sum X_i についても同様に、N(nμ,nσ2)N(n\mu,n\sigma^2) に近づきます。標本平均と和は単にスケールが違うだけなので、どちらの形で覚えても本質は同じです。実務上、nがどの程度あれば「十分大きい」とみなせるかは元の分布の形(対称性や歪み)によって異なりますが、目安としてn≥30程度がよく使われます。 CLTは、区間推定(concept: 区間推定)や仮説検定(concept: 仮説検定)で正規分布を使った近似が広く使える理論的根拠です。母集団の分布が分からなくても、標本数が十分大きければ標本平均の振る舞いを正規分布で記述できることが、統計的推測の多くの手法を支えています。

試験に出る性質

主張

nが大きいと XˉN(μ,σ2/n)\bar X\approx N(\mu,\sigma^2/n)。元の分布の形に依存しない。

和の場合

XiN(nμ,nσ2)\sum X_i\approx N(n\mu,n\sigma^2)

必要な前提

XiX_iが独立同分布であること(分散が有限であることも必要)。

「十分大きいn」の目安

元の分布の歪みが大きいほどnも多く必要(目安n≥30)。

統計的推測への応用

区間推定・仮説検定で正規近似を使う理論的根拠になる。

例で見る

サイコロ(一様分布、各面1/6)をn=30回振った出目の合計は、CLTによりおよそ N(30×3.5, 30×2.92)=N(105, 87.6)N(30\times3.5,\ 30\times2.92)=N(105,\ 87.6) に近づく。

つまずきポイント

  • CLTが「元のXiの分布自体」が正規分布に近づくと誤解する(正しいのは標本平均・和の分布)
  • nが小さい(例えばn=2,3)場合でも正規近似が十分良いと思い込む
  • 元の分布の分散が無限大(コーシー分布など)の場合でもCLTが適用できると誤解する

定着クイズ

中心極限定理が主張する内容は?

CLTにより和ΣXiが近づく分布は?

CLTを適用するために必要な前提は?

この用語を扱う問題(1