今後の予定
とりあえず、連鎖律の話がハッキリして、逆伝播に関連する情報はそろった。
というわけでプログラム化の話に入る。
しかし、いきなりプログラムと組むと言っても、
逆伝播は実際の動きが見えにくい。
よって、まずは逆伝播の挙動を見ることに特化したプログラムを作成する。
ここらへんは1歩ずつやってもらった方が良いだろう。
プログラムのフロー
というわけで、プログラムのフローを記載しておく。
- シグモイド関数の定義
- シグモイド関数の導関数の定義
- データセットの定義
- 順伝播
- 逆伝播
- パラメータの更新
- 重みの変化の経緯をplot
逆伝播の前に順伝播ってのが必要になる。
順伝播は、普通に入力して出力を見るだけの処理。
実際は、この出力と正解値であるラベルとの差を元に誤差\(E\)が確定する。
連鎖律としては誤差\(E\)が必要なので、
順伝播という普通の処理を一回実施する
ちなみに「順伝播」から「パラメータ更新」までの3つのプロセスは複数回ループさせる。
今回は200回くらいで良いだろう。
これにより、徐々に分類の決定境界を定める重みが更新される。
予測される適正値は?
予測される重み等の適正値を先に考えておく。
以前のシグモイド関数を形式ニューロンの活性化関数とし、
総当たり法で求めたときは、重み\(w_1,w_2\)ともに\(2.70\)、
バイアス\(b\)は\(-4.0\)だった
つまり、これに近い値になれば挙動としてはOKと言える。
しかし、バイアスの兼ね合いがあると、別の解に収束する可能性もあるため、
今回は、バイアス\(b\)を-4.0に固定し、
重みは\(w_1=1.0,w_2=6.0\)の状態で学習させてみる予定。
見るパラメータは2つくらいに絞ってあった方が分かり易そうというのと、
学習開始時の値も統一しておかないと、環境の差で結果が変わりそうなため。
ベクトル、行列演算を加味した場合の注意点
演算する場合、ベクトル、行列の都合がいれいろ出てくる。
ここでは、プログラム化する際の数式を記載しておく。
\(
\begin{eqnarray}
\displaystyle\frac{\partial E}{\partial W}&=&(A-Y)\cdot\sigma(Z)\{1-\sigma(Z)\}\cdot X\\
&=&\sum \Bigg\{\Bigg(\begin{bmatrix}a_1\\a_2\\a_3\\a_4\end{bmatrix}-\begin{bmatrix}0\\0\\0\\1\end{bmatrix}\Bigg)\Bigg\}\circ
\sigma\Bigg(\begin{bmatrix}z_1\\z_2\\z_3\\z_4\end{bmatrix}\Bigg)
\Bigg\{1-\sigma\Bigg(\begin{bmatrix}z_1\\z_2\\z_3\\z_4\end{bmatrix}\Bigg)\Bigg\}
\begin{bmatrix}1&1\end{bmatrix}
\begin{bmatrix}0&0\\0&1\\1&0\\1&1\end{bmatrix}
\end{eqnarray}
\)
途中の\(\begin{bmatrix}1&1\end{bmatrix}\)の位置づけがやや特殊。
入力\(X\)が2入力であり、その結果、入力が4×2行列になる。
特に2列であることが重要で、
その2列に合わせこむために\(\begin{bmatrix}1&1\end{bmatrix}\)と直積を取って、ベクトルから行列にしている。
その上でアダマール積を実施。
これをやらなくてもブロードキャストという機能で演算として通ってしまうこともあるようだが、
念のため合わせこみをしている。
(とりあえず、次元の合わせこみをしているって雰囲気だけは察してもらえれば・・・。)
まとめ
- 全体の位置づけと各偏導関数を確認。
- 入力、出力(ラベル)が複数であるが故に連鎖律のルートが複数になる。
- 入力、出力が複数であるが故の連鎖律の事情のもう一つの考え方。
- 逆伝播の確認用プログラムのフローを記載。
MATLAB、Python、Scilab、Julia比較ページはこちら
Pythonで動かして学ぶ!あたらしい線形代数の教科書
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
ゼロからはじめるPID制御
OpenCVによる画像処理入門
恋する統計学[回帰分析入門(多変量解析1)] 恋する統計学[記述統計入門]
Pythonによる制御工学入門
理工系のための数学入門 ―微分方程式・ラプラス変換・フーリエ解析
コメント