acpass

確率用語

ひとことで言うと

「母集団の分散が分からず、手元の標本だけから平均を検定・推定したいとき」に使う、正規分布によく似た少し裾の厚い分布です。標本標準偏差で代用するぶんだけ不確実さが増え、その分だけ正規分布より裾が厚くなります。

こんなデータが従う

母分散未知での平均の区間推定小標本での平均の差の検定(t検定)回帰係数の有意性検定母平均の信頼区間の構成標本数が少ない平均値の検定

「母分散が未知で、標本の数も少ない」状況での平均の検定・推定に使います。自由度(標本サイズに関係する量)が大きくなるほど正規分布に近づき、実用上は標本が十分大きければ正規近似でも構いません。

標準正規分布とt分布(自由度3)を重ねた図。中心はt分布のほうが低く、両端の裾はt分布のほうが厚いt分布は正規より中心が低く、裾(両端)が厚い-303標準正規 N(0,1)t分布(自由度小)厚い裾tf(t)

標準正規分布(点線)とt分布(実線、自由度3)の比較。t分布は中心がやや低く、両端の裾が厚い。自由度が大きくなるほど正規分布に重なっていく。

数式で表すと

T=ZW/k, Wχ2(k)T=\dfrac{Z}{\sqrt{W/k}},\ W\sim\chi^2(k)

母分散未知・小標本での平均の検定/推定に使う分布。自由度 \to\inftyN(0,1)N(0,1) に収束。

t分布は、独立な標準正規 ZN(0,1)Z\sim N(0,1) とχ²分布 Wχ2(k)W\sim\chi^2(k) を使って T=ZW/kT=\dfrac{Z}{\sqrt{W/k}} で定義される分布で、kk を自由度と呼びます。分母の W/k\sqrt{W/k} は「標本から推定した標準偏差のばらつき」に対応し、これが分子の正規変数を割ることで、t分布特有の“裾の厚さ”が生まれます。 直感的には次のように理解できます。母分散 σ2\sigma^2 が既知なら、標準化した平均 Xˉμσ/n\dfrac{\bar X-\mu}{\sigma/\sqrt{n}} はちょうど N(0,1)N(0,1) に従います。ところが σ\sigma が未知で、標本標準偏差 SS で代用すると、XˉμS/n\dfrac{\bar X-\mu}{S/\sqrt{n}} は分母自体がランダムに揺らぐぶん追加の不確実性を抱え、その結果として裾が厚くなります。この“σ\sigmaSS で代用したときの分布”がt分布で、自由度は k=n1k=n-1 です。 自由度 kk が小さいほど(標本が少なく SS の信頼性が低いほど)裾は厚くなり、極端な値が出やすくなります。逆に kk\to\infty では SSσ\sigma にほぼ等しくなり、t分布は標準正規 N(0,1)N(0,1) に収束します。実務では、母分散未知・小標本での平均の区間推定や、平均の差を調べるt検定の基礎分布として使います。標本が大きい(自由度が大きい)ときは正規近似で済ませて構いません。

試験に出る性質

定義

T=ZW/kT=\dfrac{Z}{\sqrt{W/k}}ZN(0,1)Z\sim N(0,1)Wχ2(k)W\sim\chi^2(k) が独立)。kk は自由度。

正規より裾が厚い

σ\sigma を標本 SS で代用する不確実性のぶん、両端の裾が正規分布より厚い。

自由度で形が変わる

kk が小さいほど裾が厚く、kk\to\infty で標準正規 N(0,1)N(0,1) に収束する。

左右対称・平均0

0を中心に左右対称。平均は0(k>1k>1 のとき)、形は正規分布に似る。

t検定・区間推定

母分散未知・小標本での平均の検定(t検定)や信頼区間の構成に使う。自由度は n1n-1

例で見る

標本サイズ n=10n=10(自由度 k=n1=9k=n-1=9)で母分散が未知のとき、平均の検定統計量 T=XˉμS/nT=\dfrac{\bar X-\mu}{S/\sqrt{n}} は自由度9のt分布に従う。nn が大きくなるほどこの分布は N(0,1)N(0,1) に近づく。

つまずきポイント

  • 母分散が既知の場面でもt分布を使う(既知なら標準正規 N(0,1)N(0,1)、未知のときにt分布)
  • 自由度を nn とする(1標本の平均の検定では自由度は n1n-1
  • t分布を正規分布より裾が薄いと誤解する(実際は裾が厚く、極端な値が出やすい)

定着クイズ

t分布の定義 T=Z/W/kT=Z/\sqrt{W/k}WW が従う分布は?

自由度 kk\to\infty のとき、t分布はどの分布に近づく?

t分布が正規分布と比べてもつ特徴は?

この用語を扱う問題(3