G検定 強化学習対策

G検定 強化学習対策 G検定
G検定 強化学習対策

G検定対策のまとめ記事はこちら。
https://www.simulationroom999.com/blog/jdla-deep-learning-for-general-2020-1/

はじめに

G検定の強化学習についての勉強方法を聞かれたんで、とりあえず記事にしてみた。

正直、G検定の強化学習関連は情報も少なく、かなり学習し難いカテゴリになる。
法律/最近の動向系と比べるとややマシとは言えるが、これもG検定の魔境の一つと言えるだろう。
(公式テキスト、問題集にもほぼ記載されていない)
真面目に書くとかなりのボリュームになりそうなので、
G検定の範囲に於いての強化学習対策としての必要な基礎知識を簡単にまとめる。

よって、本格的に知りたい方は書籍等で学習した方が良いでしょう。

G検定シラバス内の強化学習関連キーワード

G検定のシラバスを確認すると、
強化学習関連としては以下のキーワードが存在。
これらは確実に押さえておいた方が良い。

  • 割引率
    • 強化学習環境側ダイナミクスのマルコフ決定過程内で利用される未来報酬の減衰率
  • ε-greedy方策
    • 最適行動が解っている際に確率1-εで最適行動、確率εでランダム行動を行う方策。(G検定に出そうなところ)
      ε-greedy方策 gifアニメーション
  • UCB方策
    • 選択回数の少ない行動を積極的に選ぶ「探索」を行う。
    • 対数関数を利用してある程度ステップが進んだ場合は探索側ではなく、最適な行動を選ぶ「活用」側が優位になる。(G検定に出そうなところ)
  • マルコフ性
    • 次の状態は現在の状態のみに依存し、現在より前の状態(過去の状態)には依存しないという性質。(G検定に出そうなところ)
      サイコロの目が出る確率は過去に何の目が出たかは関係ない。など。(G検定に出そうなところ)
  • 状態価値関数
    • 価値関数のうち、状態\(s\)における価値を示すもの。
      \(V^{\pi}(s)\)と表現される。
    • 例:ゴールに近い状態が価値(G検定に出そうなところ)状態価値観関数の例
  • 行動価値関数
    • 価値関数のうち、行動\(a\)における価値を示すもの。
      \(Q^{\pi}(s,a)\)と表現される。
    • 例:ゴールに近づく行動が価値(G検定に出そうなところ)
      行動価値関数の例
  • Q値
    • 行動価値関数\(Q^{\pi}\)が返す値。
  • Q学習
    • 方策オフ型TD制御。(G検定に出そうなところ)
    • 行動価値関数\(Q^{\pi}\)が最大になるgreedyな(つまりランダム性は含めない)行動選択を行う。
  • 方策勾配法
    • 方策\(\pi\)をパラメータ\(\theta \)で表現される関数\(\pi_{\theta}\)として、そのパラメータ\(\theta \)を期待収益\(J\)の勾配を求めてパラメータ\(\theta \)を更新する方式。
    • \(\theta←\theta + \alpha \nabla J(\theta)\)
      例:
      方策勾配法の例
  • REINFORCE
    • 方策勾配法の一種で、全エピソード(結果が出るまでの一連の行動)の報酬の平均を価値関数\(Q^{\pi\theta}\)の近似とする。
    • AlphaGoにも利用されているアルゴリズム。(G検定に出そうなところ)
  • Actor-Critic
    • 行動を決めるActor(行動器)を直接改善しながら、方策を評価するCritic(評価器)も同時に学習させる。
  • A3C
    • DQNと並列性の合わせ技のような手法。
    • 2016年にDeepMind社が発表したアルゴリズムでAlphaGoZeroに利用されている。(G検定に出そうなところ)

これらの単語について調べるだけでもそこそこOKだったりもするが、
ここはやはりある程度、構造的に把握して、単なる暗記から知識に昇格させておくのが吉。

強化学習関連のカテゴリ分けについて

知識に昇格するにはカテゴリ分けが重要
私の認識としてのカテゴリを記載してみる。
当然、人によっては異なる分け方をしていることは十分にあり得る。
(一応、G検定シラバスに乗っていた単語がどこのカテゴリに属しているかも記載した。)

  • 強化学習の基本モデル
    • 割引率、マルコフ性、状態価値関数、行動価値関数、Q値
  • 代表的な古典的強化学習概要
  • 動的計画法(DP法)
  • モンテカルロ法(MC法)
    • ε-greedy方策
  • 時間的差分学習(TD学習)
    • Q学習
  • 方策勾配による強化学習
    • 方策勾配法、REINFORCE
  • 深層強化学習概要
  • 各種深層強化学習
    • DQN、Actor-Critic、A3C

今後、暇を見て上記のカテゴリ別に記事を書くやら書かないやら・・・。

まとめ

  • G検定の強化学習関連は情報は少なめ。
  • G検定シラバス内の強化学習関連キーワードをベースに調べるのが手っ取り早い。
  • 本当に知識に昇華させたいならば、カテゴリ分けして各個撃破していった方が良い。

G検定対策のまとめ記事はこちら。

コメント

タイトルとURLをコピーしました