単回帰

統計・用語

ひとことで言うと

1つの説明変数xから1つの目的変数yを予測するために、データに最もよく合う直線y=b0+b1xを当てはめる方法です。

保険金請求額と年齢の関係広告費と売上の関係気温とアイスクリーム売上の関係運動時間と体重減少量の関係保険料と契約年数の関係

2変数間の線形的な関係を定量化し、一方から他方を予測する最も基本的なモデルです。

散布図に最小二乗法で当てはめた直線。傾きb1と切片b0は実測値とのズレ（残差）の二乗和を最小にして決める。

$b_1=\dfrac{S_{xy}}{S_{xx}},\ b_0=\bar y-b_1\bar x$

$y=b_0+b_1x$ を最小二乗で当てはめる。傾きは $S_{xy}/S_{xx}$ 。

単回帰は、データの組

(x_i,y_i)

に対して

y=b_0+b_1x

の形の直線を当てはめるモデルです。残差（実測値と予測値のズレ）の二乗和

\sum(y_i-b_0-b_1x_i)^2

を最小にする

b_0,b_1

を求める方法を最小二乗法と呼びます。最小二乗法を解くと、傾きは

b_1=\dfrac{S_{xy}}{S_{xx}}

（

S_{xy}=\sum(x_i-\bar x)(y_i-\bar y)

、

S_{xx}=\sum(x_i-\bar x)^2

）、切片は

b_0=\bar y-b_1\bar x

となります。傾きb1の式の分子はxとyの共分散に相当する量（concept: 相関/共分散）で、xとyの関係の方向と強さを反映しています。回帰直線の当てはまりの良さは決定係数

R^2

（全変動のうち回帰で説明できる割合）で評価します。単回帰では

R^2

は相関係数ρの2乗に等しくなります。回帰はあくまで線形の関係を当てはめるものであり、因果関係を示すものではない点に注意が必要です。

最小二乗法

残差二乗和 $\sum(y_i-b_0-b_1x_i)^2$ を最小化する。

傾き

$b_1=S_{xy}/S_{xx}$ 。

切片

$b_0=\bar y-b_1\bar x$ （回帰直線は必ず点 $(\bar x,\bar y)$ を通る）。

決定係数R²

単回帰では $R^2=\rho^2$ （相関係数の2乗）。

因果関係ではない

回帰は相関的な関係を当てはめるのみで、因果を保証しない。

データから $S_{xy}=120,\ S_{xx}=40,\ \bar x=10,\ \bar y=50$ が得られたとき、 $b_1=120/40=3,\ b_0=50-3\times10=20$ 。回帰直線は $y=20+3x$ 。

Sxy=90, Sxx=30のとき、回帰直線の傾きb1は？

回帰直線が必ず通る点は？

単回帰における決定係数R²と相関係数ρの関係は？

この用語を扱う問題（2）