バックナンバーはこちら。
https://www.simulationroom999.com/blog/compare-matlabpythonscilabjulia4-backnumber/
はじめに
多層パーセプトロンの誤差逆伝播法について。
今回は、「プログラミングするための最適化」の続きで、プログラムのフローを考える。
登場人物
博識フクロウのフクさん
イラストACにて公開の「kino_k」さんのイラストを使用しています。
https://www.ac-illust.com/main/profile.php?id=iKciwKA9&area=1
エンジニア歴8年の太郎くん
イラストACにて公開の「しのみ」さんのイラストを使用しています。
https://www.ac-illust.com/main/profile.php?id=uCKphAW2&area=1
多層パーセプトロンの誤差逆伝播法の説明の流れ【再掲】
まずは、多層パーセプトロンの誤差逆伝播法の説明の流れを再掲。
- 誤差逆伝播法の全体像の確認(済)
- 出力層の重みとバイアスを求める誤差からの連鎖律(済)
- 隠れ層の重みとバイアスを求める誤差からの連鎖律(済)
- 上記をプログラミングするための最適化
今回は、「プログラミングするための最適化」の続き。
共通部分の算出
プログラムのフローを考えるわけだが、その前に共通部分の連鎖律の導出だけしておこう。
といっても今までの部品の組み合わせだけで対応可能だ。
それぞれ以下になる。
(
\displaystyle\Delta_2={\color{red}\frac{\partial E}{\partial A_2}\frac{\partial A_2}{\partial Z_2}}=(A_2-Y)\sigma^\prime(Z_2)
\)
\(
\displaystyle\Delta_1=\Delta_2{\color{blue}\frac{\partial Z_2}{\partial A_1}\frac{\partial A_1}{\partial Z_1}}=\Delta_2 W_2\sigma^\prime(Z_1)
\)
シグモイド関数の導関数はわかってるから、これは計算で出せるものなのは間違いないね。
変数を利用していろいろ算出
それでは、共通部分を変数化できたところで、各処理をまとめていこう。
隠れ層の重み\(W_2\)とバイアス\(b_2\)の勾配(\(\Delta W_2,\Delta b_2\))を特定
\(
\Delta W_2=\Delta_2 A_2
\)
\(
\Delta b_2=\Delta_2 1
\)
入力層の重み\(W_1\)とバイアス\(b_1\)の勾配(\(\Delta W_1,\Delta b_1\))を特定
\(
\Delta W_1=\Delta_1 X
\)
\(
\Delta b_1=\Delta_1 1
\)
各勾配から各重み、各バイアスを更新(学習率\(\mu\)を掛けておく)
\(
\begin{eqnarray}
W_1&=&W_1-\mu\Delta W_1\\
b_1&=&b_1-\mu\Delta b_1\\
W_2&=&W_2-\mu\Delta W_2\\
b_2&=&b_2-\mu\Delta b_2\\
\end{eqnarray}
\)
これで誤差逆伝播法による重みとバイアスの更新が可能となる。
いろいろとごちゃごちゃしてたけど、いざプログラム化してしまうとかなりシンプルになるね。
注意点としては、バイアス、重み以外は順伝播時に決定されるものだから、
事前に順伝播して、各内部変数を記憶しておく必要はある。
まぁ、ブロック図に則って順番に処理させれば自然と記憶されることになるけど。
シグモイド関数の導関数はわかってるから、これは計算で出せるものなのは間違いないね。
まとめ
まとめだよ。
- 連鎖律の共通部分の算出。
- いままでの部品の組み合わせで導出できる。
- 共通変数で実際の処理に相当する数式を書き出し。
- ついでに学習率を加味した各重み、各バイアスの更新式も記載。
バックナンバーはこちら。
Pythonで動かして学ぶ!あたらしい線形代数の教科書
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
ゼロからはじめるPID制御
OpenCVによる画像処理入門
恋する統計学[回帰分析入門(多変量解析1)] 恋する統計学[記述統計入門]
Pythonによる制御工学入門
理工系のための数学入門 ―微分方程式・ラプラス変換・フーリエ解析
コメント