G検定 強化学習対策

G検定対策のまとめ記事はこちら。
https://www.simulationroom999.com/blog/jdla-deep-learning-for-general-2020-1/

はじめに
G検定シラバス内の強化学習関連キーワード
強化学習関連のカテゴリ分けについて
まとめ

はじめに

G検定の強化学習についての勉強方法を聞かれたんで、とりあえず記事にしてみた。

正直、G検定の強化学習関連は情報も少なく、かなり学習し難いカテゴリになる。
法律/最近の動向系と比べるとややマシとは言えるが、これもG検定の魔境の一つと言えるだろう。
(公式テキスト、問題集にもほぼ記載されていない)
真面目に書くとかなりのボリュームになりそうなので、
G検定の範囲に於いての強化学習対策としての必要な基礎知識を簡単にまとめる。

よって、本格的に知りたい方は書籍等で学習した方が良いでしょう。

G検定シラバス内の強化学習関連キーワード

G検定のシラバスを確認すると、
強化学習関連としては以下のキーワードが存在。
これらは確実に押さえておいた方が良い。

割引率
- 強化学習環境側ダイナミクスのマルコフ決定過程内で利用される未来報酬の減衰率。
ε-greedy方策
- 最適行動が解っている際に確率1-εで最適行動、確率εでランダム行動を行う方策。(G検定に出そうなところ)
UCB方策
- 選択回数の少ない行動を積極的に選ぶ「探索」を行う。
- 対数関数を利用してある程度ステップが進んだ場合は探索側ではなく、最適な行動を選ぶ「活用」側が優位になる。(G検定に出そうなところ)
マルコフ性
- 次の状態は現在の状態のみに依存し、現在より前の状態（過去の状態）には依存しないという性質。(G検定に出そうなところ)
  サイコロの目が出る確率は過去に何の目が出たかは関係ない。など。(G検定に出そうなところ)
状態価値関数
- 価値関数のうち、状態\(s\)における価値を示すもの。
  \(V^{\pi}(s)\)と表現される。
- 例：ゴールに近い状態が価値(G検定に出そうなところ)
行動価値関数
- 価値関数のうち、行動\(a\)における価値を示すもの。
  \(Q^{\pi}(s,a)\)と表現される。
- 例：ゴールに近づく行動が価値(G検定に出そうなところ)
Q値
- 行動価値関数\(Q^{\pi}\)が返す値。
Q学習
- 方策オフ型TD制御。(G検定に出そうなところ)
- 行動価値関数\(Q^{\pi}\)が最大になるgreedyな(つまりランダム性は含めない)行動選択を行う。
方策勾配法
- 方策\(\pi\)をパラメータ\(\theta \)で表現される関数\(\pi_{\theta}\)として、そのパラメータ\(\theta \)を期待収益\(J\)の勾配を求めてパラメータ\(\theta \)を更新する方式。
- \(\theta←\theta + \alpha \nabla J(\theta)\)
  例：
REINFORCE
- 方策勾配法の一種で、全エピソード(結果が出るまでの一連の行動)の報酬の平均を価値関数\(Q^{\pi\theta}\)の近似とする。
- AlphaGoにも利用されているアルゴリズム。(G検定に出そうなところ)
Actor-Critic
- 行動を決めるActor(行動器)を直接改善しながら、方策を評価するCritic(評価器)も同時に学習させる。
A3C
- DQNと並列性の合わせ技のような手法。
- 2016年にDeepMind社が発表したアルゴリズムでAlphaGoZeroに利用されている。(G検定に出そうなところ)