acpass

統計用語

ひとことで言うと

1つの説明変数xから1つの目的変数yを予測するために、データに最もよく合う直線y=b0+b1xを当てはめる方法です。

こんなデータが従う

保険金請求額と年齢の関係広告費と売上の関係気温とアイスクリーム売上の関係運動時間と体重減少量の関係保険料と契約年数の関係

2変数間の線形的な関係を定量化し、一方から他方を予測する最も基本的なモデルです。

散布図に最小二乗法で当てはめた直線。傾きb1と切片b0は実測値とのズレ(残差)の二乗和を最小にして決めるy=b0+b1xxy

散布図に最小二乗法で当てはめた直線。傾きb1と切片b0は実測値とのズレ(残差)の二乗和を最小にして決める。

数式で表すと

b1=SxySxx, b0=yˉb1xˉb_1=\dfrac{S_{xy}}{S_{xx}},\ b_0=\bar y-b_1\bar x

y=b0+b1xy=b_0+b_1x を最小二乗で当てはめる。傾きは Sxy/SxxS_{xy}/S_{xx}

単回帰は、データの組 (xi,yi)(x_i,y_i) に対して y=b0+b1xy=b_0+b_1x の形の直線を当てはめるモデルです。残差(実測値と予測値のズレ)の二乗和 (yib0b1xi)2\sum(y_i-b_0-b_1x_i)^2 を最小にする b0,b1b_0,b_1 を求める方法を最小二乗法と呼びます。 最小二乗法を解くと、傾きは b1=SxySxxb_1=\dfrac{S_{xy}}{S_{xx}}Sxy=(xixˉ)(yiyˉ)S_{xy}=\sum(x_i-\bar x)(y_i-\bar y)Sxx=(xixˉ)2S_{xx}=\sum(x_i-\bar x)^2)、切片は b0=yˉb1xˉb_0=\bar y-b_1\bar x となります。傾きb1の式の分子はxとyの共分散に相当する量(concept: 相関/共分散)で、xとyの関係の方向と強さを反映しています。 回帰直線の当てはまりの良さは決定係数 R2R^2(全変動のうち回帰で説明できる割合)で評価します。単回帰では R2R^2 は相関係数ρの2乗に等しくなります。回帰はあくまで線形の関係を当てはめるものであり、因果関係を示すものではない点に注意が必要です。

試験に出る性質

最小二乗法

残差二乗和 (yib0b1xi)2\sum(y_i-b_0-b_1x_i)^2 を最小化する。

傾き

b1=Sxy/Sxxb_1=S_{xy}/S_{xx}

切片

b0=yˉb1xˉb_0=\bar y-b_1\bar x(回帰直線は必ず点 (xˉ,yˉ)(\bar x,\bar y) を通る)。

決定係数R²

単回帰では R2=ρ2R^2=\rho^2(相関係数の2乗)。

因果関係ではない

回帰は相関的な関係を当てはめるのみで、因果を保証しない。

例で見る

データから Sxy=120, Sxx=40, xˉ=10, yˉ=50S_{xy}=120,\ S_{xx}=40,\ \bar x=10,\ \bar y=50 が得られたとき、b1=120/40=3, b0=503×10=20b_1=120/40=3,\ b_0=50-3\times10=20。回帰直線は y=20+3xy=20+3x

つまずきポイント

  • 傾きb1の符号と相関係数の符号の関係を取り違える(実際は同じ符号になる)
  • 回帰直線が必ず原点を通ると誤解する(正しくは点(x̄,ȳ)を通る)
  • 相関(当てはまりの良さ)があることを因果関係があることと同一視する

定着クイズ

Sxy=90, Sxx=30のとき、回帰直線の傾きb1は?

回帰直線が必ず通る点は?

単回帰における決定係数R²と相関係数ρの関係は?

この用語を扱う問題(2