【入門】逆伝播③【数値計算】

今後の予定
プログラムのフロー
予測される適正値は？
ベクトル、行列演算を加味した場合の注意点
まとめ

今後の予定

とりあえず、連鎖律の話がハッキリして、逆伝播に関連する情報はそろった。
というわけでプログラム化の話に入る。

しかし、いきなりプログラムと組むと言っても、
逆伝播は実際の動きが見えにくい。
よって、まずは逆伝播の挙動を見ることに特化したプログラムを作成する。
ここらへんは1歩ずつやってもらった方が良いだろう。

プログラムのフロー

というわけで、プログラムのフローを記載しておく。

シグモイド関数の定義
シグモイド関数の導関数の定義
データセットの定義
順伝播
逆伝播
パラメータの更新
重みの変化の経緯をplot

逆伝播の前に順伝播ってのが必要になる。
順伝播は、普通に入力して出力を見るだけの処理。
実際は、この出力と正解値であるラベルとの差を元に誤差\(E\)が確定する。

連鎖律としては誤差\(E\)が必要なので、
順伝播という普通の処理を一回実施する

ちなみに「順伝播」から「パラメータ更新」までの3つのプロセスは複数回ループさせる。
今回は200回くらいで良いだろう。
これにより、徐々に分類の決定境界を定める重みが更新される。

予測される適正値は？

予測される重み等の適正値を先に考えておく。

以前のシグモイド関数を形式ニューロンの活性化関数とし、
総当たり法で求めたときは、重み\(w_1,w_2\)ともに\(2.70\)、
バイアス\(b\)は\(-4.0\)だった

つまり、これに近い値になれば挙動としてはOKと言える。

しかし、バイアスの兼ね合いがあると、別の解に収束する可能性もあるため、
今回は、バイアス\(b\)を-4.0に固定し、
重みは\(w_1=1.0,w_2=6.0\)の状態で学習させてみる予定。

見るパラメータは2つくらいに絞ってあった方が分かり易そうというのと、
学習開始時の値も統一しておかないと、環境の差で結果が変わりそうなため。

ベクトル、行列演算を加味した場合の注意点

演算する場合、ベクトル、行列の都合がいれいろ出てくる。
ここでは、プログラム化する際の数式を記載しておく。

\(
\begin{eqnarray}
\displaystyle\frac{\partial E}{\partial W}&=&(A-Y)\cdot\sigma(Z)\{1-\sigma(Z)\}\cdot X\\
&=&\sum \Bigg\{\Bigg(\begin{bmatrix}a_1\\a_2\\a_3\\a_4\end{bmatrix}-\begin{bmatrix}0\\0\\0\\1\end{bmatrix}\Bigg)\Bigg\}\circ
\sigma\Bigg(\begin{bmatrix}z_1\\z_2\\z_3\\z_4\end{bmatrix}\Bigg)
\Bigg\{1-\sigma\Bigg(\begin{bmatrix}z_1\\z_2\\z_3\\z_4\end{bmatrix}\Bigg)\Bigg\}
\begin{bmatrix}1&1\end{bmatrix}
\begin{bmatrix}0&0\\0&1\\1&0\\1&1\end{bmatrix}
\end{eqnarray}
\)

途中の\(\begin{bmatrix}1&1\end{bmatrix}\)の位置づけがやや特殊。

入力\(X\)が2入力であり、その結果、入力が4×2行列になる。
特に2列であることが重要で、
その2列に合わせこむために\(\begin{bmatrix}1&1\end{bmatrix}\)と直積を取って、ベクトルから行列にしている。
その上でアダマール積を実施。
これをやらなくてもブロードキャストという機能で演算として通ってしまうこともあるようだが、
念のため合わせこみをしている。
(とりあえず、次元の合わせこみをしているって雰囲気だけは察してもらえれば・・・。)