MATLAB,Python,Scilab,Julia比較 第2章 その57【重回帰分析①】

MATLAB,Python,Scilab,Julia比較 第2章 その57【重回帰分析①】 数値計算
MATLAB,Python,Scilab,Julia比較 第2章 その57【重回帰分析①】

バックナンバーはこちら。
https://www.simulationroom999.com/blog/compare-matlabpythonscilabjulia2-backnumber/

はじめに

正規方程式を用いた、重回帰分析について。

登場人物

博識フクロウのフクさん

指差しフクロウ

イラストACにて公開の「kino_k」さんのイラストを使用しています。
https://www.ac-illust.com/main/profile.php?id=iKciwKA9&area=1

エンジニア歴8年の太郎くん

技術者太郎

イラストACにて公開の「しのみ」さんのイラストを使用しています。
https://www.ac-illust.com/main/profile.php?id=uCKphAW2&area=1

重回帰分析

フクさん
フクさん

今回から重回帰分析に突入する。

太郎くん
太郎くん

重回帰分析は名前は聞いたことあるけど、どんなものかわからん。

フクさん
フクさん

Wikipediaから引用しよう。

重回帰分析(じゅうかいきぶんせき)は、多変量解析の一つ。回帰分析において独立変数が2つ以上(2次元以上)のもの。独立変数が1つのものを単回帰分析という。

Wikipediaより(https://ja.wikipedia.org/wiki/%E9%87%8D%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90)
太郎くん
太郎くん

つまり?

フクさん
フクさん

入力の変数が多変量、つまり多変数、つまりベクトル、つまり複数になるってことだな。
2変数を想定すると以下のような式になる。
独立変数こと説明変数こと入力変数は\(x,y\)

\(
z=\alpha x+\beta y + \gamma
\)

太郎くん
太郎くん

なるほど。
2変数で1つの結果が得られるような多項式の係数を求めるのが重回帰分析ってことか。

フクさん
フクさん

そして、これも正規方程式を利用すると一撃で解ける。

重回帰分析の二乗和誤差関数

フクさん
フクさん

以下が先の多項式に対しての二乗和誤差関数になる。

\(
\displaystyle\sum_{i=1}^n \{(\alpha x_i+\beta y_i + \gamma)-z_i\}^2
\)

太郎くん
太郎くん

ちょっと頭の中でイメージしずらいけど、
単回帰分析を加味すると、まぁそうなるよねって気持ち。

フクさん
フクさん

多変量になると、イメージしずらくなる。
よって、次元が少ない状態からの拡張をイメージすることしかできなくなるな。
よって、太郎くんが言うように、単回帰分析のアナロジーとして重回帰分析を見た方が良いだろう。

正規方程式の各成分の定義

フクさん
フクさん

\((Ax-b)^2\)で最小化問題を解く場合はの各成分は以下となる。

\(
A=
\begin{bmatrix}
x_1 & y_1 & 1\\
x_2 & y_2 & 1\\
\vdots & \vdots & \vdots\\
x_n & y_n & 1\\
\end{bmatrix},
\vec{x}=
\begin{bmatrix}
\alpha\\
\beta\\
\gamma
\end{bmatrix},
\vec{b}=
\begin{bmatrix}
z_1\\
z_2\\
\vdots\\
z_n
\end{bmatrix}
\)

太郎くん
太郎くん

単回帰分析と比べると変数、係数が増えただけってことだね。

フクさん
フクさん

当然、項数が増えれば、それに合わせて各行列、ベクトルの要素も増える。
今回の2変数の場合はこうなるってところに気を付けよう。

重回帰分析の実施

フクさん
フクさん

あとは正規方程式に上記パラメータを入れるだけで求めたい多項式の各係数が求まる。
これは単回帰分析と同じだな。

\(
x=(A^TA)^{-1}A^Tb
\)

太郎くん
太郎くん

とすると単回帰分析と同じで以下の流れでやっていく感じかな。

  • サンプリングデータの用意
  • 正規方程式のパラメータへ成形
  • 正規方程式で各係数算出
  • サンプリングデータと求めらえた関数のプロット
フクさん
フクさん

一点問題があって、入力が2変数になったんで、サンプリングデータの使い回しが利かない。

太郎くん
太郎くん

あ、そっか。
単回帰分析の時は入力が1変数のデータを使っていたのか。

フクさん
フクさん

サンプリングデータに関しては以下の多項式をベースに乱数で\(\pm 1\)をしたものを使用しよう。
多少誤差は出るかもしれないが、同じ多項式が求まればOKって考え方だ。

\(
z=3x-2y+5
\)

太郎くん
太郎くん

係数として\(3,-2,5\)に近い値が求まればOKってことか。

フクさん
フクさん

そうそう。

まとめ

フクさん
フクさん

まとめだよ。

  • 正規方程式を使って重回帰分析を行う。
  • 重回帰分析の二乗和誤差関数の定義。
  • 正規方程式の各成分の定義。
  • サンプリングデータは特定の多項式に±1の乱数を載せたものを使用。
    • 特定の多項式と近い係数が求まればOK。

バックナンバーはこちら。

コメント

タイトルとURLをコピーしました