重回帰分析

最小二乗法による重回帰パラメータの算出

  • read.csv関数を使って,以下のURLのデータを読み込み,オブジェクト「S16」に代入(付値)するプログラムを書け.
    • https://fnakai.web.nitech.ac.jp/data/14_LP/16Students.csv
  • sum関数を用いて\(\sum x, \sum y, \sum z, \sum x^2, \sum z^2,\sum xy,\sum xz,\sum zy\)を求めよ.
  • 重回帰パラメータを導出する正規方程式に,上記の値を当てはめた連立方程式を書け(解かなくて良い).
  • lm関数を使ってパラメータ\(a,b,c\)を求め,回帰式を書け.

sum関数について

以下を実行してみてほしい.sum関数は,sum( )の括弧の中にベクトルを入れると,その成分の和を返すことがわかる.

a <- c(1,1,1,1,1,1)
sum(a)

以下を実行してみてほしい.「*」はかけ算の演算子である.また,S16$Weight[i]は,Weightのi番目の成分を意味する.ベクトル同士に対して「*」によるかけ算をおこなうことで,どのような演算結果が返されるか?

S16$Weight * S16$Height
S16$Weight[1] * S16$Height[1]

lm関数について

lm関数は,回帰モデルを求める関数である.以下のformulaでは回帰モデルの形を指定する.formulaにはいくつかの種類があるので,以下のWebサイトを参考にしてほしい.

参考ウェブサイト:回帰分析と重回帰分析

formulaを「y ~ x」と指定することで,モデル式 \(y = a + bx + \epsilon\)( \(\epsilon\)は誤差項)の回帰モデルを求めることができる.被説明変数 y と説明変数 x は,ベクトルで指定する.

lm(formula)

たとえば,以下は体重を被説明変数,身長を説明変数とした場合である.

lm(S16$Weight~S16$Height)

formulaを「y ~ x+z」と指定することで,モデル式 \(y = a + bx + cz + \epsilon\)の回帰モデルを求めることができる.

◆レポート提出課題(全10問)

1.read.csv関数を使って,以下のURLのデータを読み込み,オブジェクト「S16」に代入(付値)するプログラムを示しなさい.

2.「*」はかけ算の演算子である.ベクトル同士に対して「*」によるかけ算をおこなうことで,どのような演算結果が返されるか?以下を実行することにより,考察せよ.

S16$Weight * S16$Height
S16$Weight[1] * S16$Height[1]
S16$Weight[2] * S16$Height[2]

3.sum関数を用いて\(\sum x, \sum y, \sum z, \sum x^2, \sum z^2,\sum xy,\sum xz,\sum zy\)を求めるプログラムを示しなさい.

4.重回帰パラメータを導出する正規方程式に,上記の値を当てはめた連立方程式を書け(解かなくて良い).

5.lm関数を用いて,被説明変数に「身長」を,説明変数に「体重」と「胸囲」を置いた重回帰モデルを作成せよ.また,パラメータa,b,cを明示したうえで,重回帰式を示せ.

6.lm関数の結果をオブジェクト「result」に代入(付値)するプログラムを示しなさい.

7.summary(result)を実行せよ.また,以下の表を参考に,結果について以下の点を考察せよ.

  • モデル式とデータの入力情報について日本語で説明せよ.
  • 残差とは,回帰式と実データによって求められる偏差\(y_i – \overline{y}_{xz}\)のことである.その要約統計量を示しているのが,Residualsである.これより,残差についてわかることや,気が付いたことを説明せよ.
  • 重決定係数の値を求めよ.また,sqrt関数を用いることにより,重相関係数を求めよ(sqrt関数については「?sqrt」と入力して,ヘルプを見ること).
R上の表記説明
Call:モデル式とデータの入力情報.
Residuals:残差の四分位数に関する情報.
Coefficients:Estimate: 回帰係数の推計値\(\overline{y}_{xz}\)
Std. Error:回帰係数の標準誤差
t value:回帰係数t値.推定値と標準誤差の比.
Pr(>|t|):回帰係数のp値.
Residual standard error:残差の標準誤差.誤差項の標準偏差の推定値.
Multiple R-squared:決定係数(※通常の/演習でもとめている決定係数のこと)
Adjusted R-squared:自由度調整済み決定係数
F-statistic:F 値.回帰式が意味があるかどうかを検定する統計量。

p-value:
(F 検定に基づく)p 値.回帰式が意味が無い(全ての説明変数の係数がゼロである)確率
summary(result)の結果の読み取り方

8.lm関数を用いて,被説明変数に「身長」を,説明変数に「体重」のみを置いた単回帰モデルを作成せよ.この結果は「result2」に代入せよ.また,パラメータa,bを明示したうえで,単回帰式を示せ.

9.8の単回帰モデルについて,summary(result2)を実行することにより,重回帰分析の時と同様に結果を考察せよ.

10.単回帰モデルの結果と重回帰モデルのsummary関数の実行結果をもとに結果の比較を行い,どちらのほうが「身長」をよく説明するモデルか,考察せよ.

◆レポートの作成方法と提出方法

作成方法

  • wordファイルで作成すること.
  • 以下の内容を必ず含むこと
    • 講義名,学籍番号,名前,提出日
    • 問の番号と問の内容,解答
    • 図を貼りつける場合,図の番号と図のキャプション

提出方法

  • moodle上で以下2点を提出すること.
    • wordファイル
    • 課題を解く際に作成したRのプログラム