最小二乗法による重回帰パラメータの算出
- read.csv関数を使って,以下のURLのデータを読み込み,オブジェクト「S16」に代入(付値)するプログラムを書け.
- https://fnakai.web.nitech.ac.jp/data/14_LP/16Students.csv
- sum関数を用いて\(\sum x, \sum y, \sum z, \sum x^2, \sum z^2,\sum xy,\sum xz,\sum zy\)を求めよ.
- 重回帰パラメータを導出する正規方程式に,上記の値を当てはめた連立方程式を書け(解かなくて良い).
- lm関数を使ってパラメータ\(a,b,c\)を求め,回帰式を書け.
sum関数について
以下を実行してみてほしい.sum関数は,sum( )の括弧の中にベクトルを入れると,その成分の和を返すことがわかる.
a <- c(1,1,1,1,1,1)
sum(a)
以下を実行してみてほしい.「*」はかけ算の演算子である.また,S16$Weight[i]は,Weightのi番目の成分を意味する.ベクトル同士に対して「*」によるかけ算をおこなうことで,どのような演算結果が返されるか?
S16$Weight * S16$Height
S16$Weight[1] * S16$Height[1]
lm関数について
lm関数は,回帰モデルを求める関数である.以下のformulaでは回帰モデルの形を指定する.formulaにはいくつかの種類があるので,以下のWebサイトを参考にしてほしい.
参考ウェブサイト:回帰分析と重回帰分析
formulaを「y ~ x」と指定することで,モデル式 \(y = a + bx + \epsilon\)( \(\epsilon\)は誤差項)の回帰モデルを求めることができる.被説明変数 y と説明変数 x は,ベクトルで指定する.
lm(formula)
たとえば,以下は体重を被説明変数,身長を説明変数とした場合である.
lm(S16$Weight~S16$Height)
formulaを「y ~ x+z」と指定することで,モデル式 \(y = a + bx + cz + \epsilon\)の回帰モデルを求めることができる.
◆レポート提出課題(全10問)
1.read.csv関数を使って,以下のURLのデータを読み込み,オブジェクト「S16」に代入(付値)するプログラムを示しなさい.
2.「*」はかけ算の演算子である.ベクトル同士に対して「*」によるかけ算をおこなうことで,どのような演算結果が返されるか?以下を実行することにより,考察せよ.
S16$Weight * S16$Height
S16$Weight[1] * S16$Height[1]
S16$Weight[2] * S16$Height[2]
3.sum関数を用いて\(\sum x, \sum y, \sum z, \sum x^2, \sum z^2,\sum xy,\sum xz,\sum zy\)を求めるプログラムを示しなさい.
4.重回帰パラメータを導出する正規方程式に,上記の値を当てはめた連立方程式を書け(解かなくて良い).
5.lm関数を用いて,被説明変数に「身長」を,説明変数に「体重」と「胸囲」を置いた重回帰モデルを作成せよ.また,パラメータa,b,cを明示したうえで,重回帰式を示せ.
6.lm関数の結果をオブジェクト「result」に代入(付値)するプログラムを示しなさい.
7.summary(result)を実行せよ.また,以下の表を参考に,結果について以下の点を考察せよ.
- モデル式とデータの入力情報について日本語で説明せよ.
- 残差とは,回帰式と実データによって求められる偏差\(y_i – \overline{y}_{xz}\)のことである.その要約統計量を示しているのが,Residualsである.これより,残差についてわかることや,気が付いたことを説明せよ.
- 重決定係数の値を求めよ.また,sqrt関数を用いることにより,重相関係数を求めよ(sqrt関数については「?sqrt」と入力して,ヘルプを見ること).
R上の表記 | 説明 |
Call: | モデル式とデータの入力情報. |
Residuals: | 残差の四分位数に関する情報. |
Coefficients: | Estimate: 回帰係数の推計値\(\overline{y}_{xz}\) Std. Error:回帰係数の標準誤差 t value:回帰係数t値.推定値と標準誤差の比. Pr(>|t|):回帰係数のp値. |
Residual standard error: | 残差の標準誤差.誤差項の標準偏差の推定値. |
Multiple R-squared: | 決定係数(※通常の/演習でもとめている決定係数のこと) |
Adjusted R-squared: | 自由度調整済み決定係数 |
F-statistic: | F 値.回帰式が意味があるかどうかを検定する統計量。 |
p-value: | (F 検定に基づく)p 値.回帰式が意味が無い(全ての説明変数の係数がゼロである)確率 |
8.lm関数を用いて,被説明変数に「身長」を,説明変数に「体重」のみを置いた単回帰モデルを作成せよ.この結果は「result2」に代入せよ.また,パラメータa,bを明示したうえで,単回帰式を示せ.
9.8の単回帰モデルについて,summary(result2)を実行することにより,重回帰分析の時と同様に結果を考察せよ.
10.単回帰モデルの結果と重回帰モデルのsummary関数の実行結果をもとに結果の比較を行い,どちらのほうが「身長」をよく説明するモデルか,考察せよ.
◆レポートの作成方法と提出方法
作成方法
- wordファイルで作成すること.
- 以下の内容を必ず含むこと
- 講義名,学籍番号,名前,提出日
- 問の番号と問の内容,解答
- 図を貼りつける場合,図の番号と図のキャプション
提出方法
- moodle上で以下2点を提出すること.
- wordファイル
- 課題を解く際に作成したRのプログラム