acpass

標本サイズ

知識マップ

統計用語

ひとことで言うと

「どれくらいの精度がほしいか」から逆算して、必要な観測数 nn を先に決める作業です。信頼区間の幅(許容誤差 EE)を一定以下にしたいなら、ばらつき σ\sigma と必要な信頼水準から nn が決まります。誤差を半分にしたいなら標本は4倍要る、という2乗の関係が肝です。

必要標本数nと許容誤差Eの反比例カーブ。n≧(zσ/E)²でnはEの2乗に反比例し、信頼区間の幅を狭く(精度を高く)したいほど必要nが急増する。σ=20で誤差E=4以内なら必要nは約96で切り上げて97という例を示す必要n≧(zσ/E)²:許容誤差Eの2乗に反比例(E小→n急増)E=4n≈97必要n許容誤差 E

必要標本数 nn と許容誤差 EE の反比例カーブ。n(zσ/E)2n\ge(z\sigma/E)^2nnE2E^2 に反比例し、精度を上げる(EE を小さくする)ほど必要 nn が急増する。σ=20\sigma=20E=4E=4 なら必要 n96n\approx96 で切り上げて97。

数式で表すと

n(zσE)2n\ge\big(\tfrac{z\sigma}{E}\big)^2

必要な観測数 nn。精度や検出力の要求から逆算する。

標本サイズの設計とは、データを取る前に「求める精度を達成するには観測がいくつ必要か」を逆算する作業です。母平均の信頼区間(concept: 区間推定)は Xˉ±zσ/n\bar X\pm z\,\sigma/\sqrt{n} の形で、誤差の半幅(許容誤差)は E=zσ/nE=z\,\sigma/\sqrt{n} です。この EE を要求した値以下にしたい、という条件を nn について解くと n(zσE)2n\ge\Big(\dfrac{z\sigma}{E}\Big)^2 が得られます(zz は信頼水準に対応する正規分布の点、σ\sigma は母標準偏差、EE は許してよい誤差の大きさ)。式の形が語るのは、nnσ2\sigma^2 に比例し E2E^2 に反比例する、ということです。精度を2倍(EE を半分)にしたいなら必要 nn は4倍に跳ね上がります。図の反比例カーブがこの急増を示しています。 数値で計算します。母標準偏差が σ=20\sigma=20 と分かっており、95%信頼区間(z=1.96z=1.96)で誤差を E=4E=4 以内に抑えたいとします。公式に入れると n(1.96×204)2=(39.24)2=9.82=96.04n\ge\Big(\dfrac{1.96\times20}{4}\Big)^2=\Big(\dfrac{39.2}{4}\Big)^2=9.8^2=96.04 です。標本数は整数で、しかも要求精度を割り込んではいけないので、小数は必ず切り上げて n=97n=97 とします。切り捨てて96にすると、わずかとはいえ誤差が目標の E=4E=4 を超えてしまうおそれがあるためです。 ここで強調したいのが、目的の違う「もう一つの標本サイズ公式」との区別です。仮説検定の検出力を確保するための標本サイズは、concept: 検定設計で扱う n=σ2(zα+zβ)2/δ2n=\sigma^2(z_\alpha+z_\beta)^2/\delta^2 という別の式で決まります。こちらは『見つけたい差 δ\delta を検出力 1β1-\beta で検出する』ための数で、目的は仮説検定の検出力です。一方、本ページの n(zσ/E)2n\ge(z\sigma/E)^2 は『信頼区間の幅 EE を一定以下にする』ための数で、目的は区間推定の精度です。両方とも nn を逆算する話で見た目が似ていますが、効果量 δ\deltazβz_\beta が出てくるか否かで設計目的がまったく違います。

試験に出る性質

目的

信頼区間の許容誤差 EE を要求値以下にする必要観測数 nn を、事前に逆算する。

必要標本数の公式

n(zσ/E)2n\ge(z\sigma/E)^2zz は信頼水準の点、σ\sigma は母標準偏差、EE は許容誤差。

$\sigma^2$比例・$E^2$反比例

ばらつきが大きいほど nn 増、精度を上げる(EE 半減)と nn は4倍に急増する。

端数は切り上げ

nn は整数かつ精度を割らないよう必ず切り上げる。切り下げると誤差が目標を超える。

検定設計との区別

区間推定の精度目標 n(zσ/E)2n\ge(z\sigma/E)^2 と、検出力目標 n=σ2(zα+zβ)2/δ2n=\sigma^2(z_\alpha+z_\beta)^2/\delta^2(concept: 検定設計)は別物。

例で見る

σ=20\sigma=20、95%信頼区間(z=1.96z=1.96)で誤差を E=4E=4 以内に抑えたいとき n(1.96×20/4)2=9.82=96.04n\ge(1.96\times20/4)^2=9.8^2=96.04。 小数は必ず切り上げて n=97n=97。切り捨てると誤差が目標の E=4E=4 を超えるおそれがある。

つまずきポイント

  • 必要 nn を切り下げてしまう(要求精度を割り込む。nn は必ず切り上げる)
  • 区間推定の精度公式と検定の検出力公式を混同する(EE ベースか δ,zβ\delta,z_\beta ベースか。concept: 検定設計とは別物)
  • EEnn を線形だと思う(nnE2E^2 に反比例。EE を半分にすると nn は4倍)

定着クイズ

必要標本数の公式 n(zσ/E)2n\ge(z\sigma/E)^2EE は何か?

σ=20\sigma=20z=1.96z=1.96E=4E=4 のときの必要 nn は?

許容誤差 EE を半分にすると必要 nn はどうなる?

この用語を扱う問題(2