acpass

区間推定

知識マップ

統計用語

ひとことで言うと

点推定(1つの値)だけでなく、「この範囲に母数がある」という幅を持たせて推定する方法です。信頼度(例えば95%)は、この手順を繰り返したときに区間が母数を含む割合を表します。

こんなデータが従う

死亡率の95%信頼区間保険金請求額の平均の信頼区間世論調査の支持率の信頼区間(±数%の誤差)臨床試験での効果量の信頼区間母分散の信頼区間(χ²分布を使う)

点推定だけでは「推定の確からしさ」が分からないため、実務では必ず区間(または誤差の大きさ)も併せて報告します。

点推定を中心に、信頼区間の幅だけ左右に伸びる線分。区間の中に真のθが入っているかは試行ごとに変わるθ̂ ± z_(α/2)·SE(信頼区間)点推定 θ̂真の母数θはここにあるかもしれないθの値

点推定θ̂を中心に、信頼区間の幅だけ左右に伸びる線分。区間の中に真のθが入っているかは試行ごとに変わる。

数式で表すと

θ^±zα/2SE\hat\theta \pm z_{\alpha/2}\cdot \mathrm{SE}

母数を一定の信頼度で挟む区間。点推定 ± (臨界値 × 標準誤差)で構成する。

信頼区間は、点推定値 θ^\hat\theta を中心に、標準誤差にある係数(臨界値)を掛けた幅を持たせて作る区間です:θ^±zα/2SE\hat\theta \pm z_{\alpha/2}\cdot SE。たとえば95%信頼区間なら z0.0251.96z_{0.025}\approx1.96 を使います。 「95%信頼区間」の意味は、母数θが固定された値であり、標本を取り直して同じ手順で区間を作ることを何度も繰り返した場合、その区間のうち約95%が真のθを含むということです。1つの具体的な区間について「真のθがこの区間に入る確率が95%」という表現は厳密には誤りで、頻度論的な解釈では区間がランダムであり、θは固定されています。 標本数nが大きいほどSEは小さくなり(concept: 標本平均)、区間の幅は狭くなります。母分散が未知の場合はt分布を使う、母比率の場合は標本比率の標準誤差を使うなど、対象や前提に応じて使う分布や標準誤差の式が変わります。

試験に出る性質

基本の形

θ^±zα/2SE\hat\theta \pm z_{\alpha/2}\cdot SE

95%信頼区間の臨界値

z0.0251.96z_{0.025}\approx1.96

解釈の正確さ

区間がランダム、母数は固定。「95%の確率で母数が入る」ではなく「手順を繰り返すと95%の区間が母数を含む」。

幅とnの関係

nが大きいほどSEが小さくなり、区間は狭くなる。

信頼度とのトレードオフ

信頼度を上げる(99%など)と臨界値が大きくなり区間は広くなる。

例で見る

標本平均X̄=50, SE=2のとき95%信頼区間は 50±1.96×2=[46.08, 53.92]50\pm1.96\times2=[46.08,\ 53.92]

つまずきポイント

  • 「95%の確率で母数がこの区間に入る」と表現する(正しくは手順を繰り返した場合の区間が母数を含む割合)
  • 信頼度を上げれば区間も狭くなると誤解する(信頼度を上げると臨界値が大きくなり、区間はむしろ広くなる)
  • nを増やさずに信頼区間を狭めようとして信頼度だけを下げる(信頼度を下げると区間は狭くなるが、信頼性自体は下がる)

定着クイズ

X̄=80, SE=3のとき、95%信頼区間の上限は?(z=1.96使用)

「95%信頼区間」の正しい解釈は?

信頼度を95%から99%に上げると区間の幅はどうなる?

この用語を扱う問題(11