はじめに
ディープラーニングの合わせ技のようなものが存在。
それらについて記載する。
深層強化学習
強化学習
教師あり学習、教師なし学習以外に強化学習と呼ばれる分野も存在する。
強化学習とは「行動を学習する仕組み」になる。
教師あり学習と混同し易いが、一連の行動系列の結果としての報酬を最大とするように学習する。
明確な答えがあるわけではない。
教師あり学習よりも状態を如何に定義できるか、如何に行動を定義できるかが重要且つ難解。
深層強化学習
2013年DeepMind社がCNNと強化学習によりブロック崩しを実現。
ここで用いられた手法は強化学習のQ学習(Q learning)とディープラーニングを組み合わせていることから、DQN(Deep Q-Network)と呼ばれ、これ以降は以下の改良版モデルが研究される。
- Double DQN
- Dueling Network
- Categorical DQN
- Rainbow
これらの成果から深層強化学習の研究が活発となった。
2015年~2017年に再びDeepMind社のAlphaGo(アルファ碁)が世界チャンピオンを打ち破る。
AlphaGoもCNNを用いており、打つ手筋はモンテカルロ木探索を使用している。
また、囲碁の棋譜を全く使用せず、自己対局のみで学習していくAlphaGo ZeroがAlphaGoを超える強さとなる。
深層生成モデル
生成タスクアプローチ
最近のディープラーニングは認識、識別タスク以外に生成タスクにも応用されている。
生成タスクは大きく2種類。
- データを元に、新しいデータを生成
- 識別モデルの延長
- 音声生成
- WaveNet
- 音声生成
- 識別モデルの延長
- データそのものを生成
- 生成モデル
- 画像生成モデル
- ディープラーニングを組み合わせて深層生成モデル
- 画像生成モデル
- 生成モデル
画像生成モデル
深層生成モデルの研究に大きく2種類のモデルがある。
- 変分オートエンコーダ(Variational AutoEncoder:VAE)
- オートエンコーダの応用
- 圧縮ではなく統計分布に変換
- 平均と分散をパラメータとしている。
- 敵対的生成ネットワーク(Generative Adversarial Network:GAN)
- 2種類のネットワークで構成
- ジェネレータ(Generator)
- ランダムベクトルから画像生成
- ディスクリミネータ(Discriminator)
- 画像が本物かジェネレータが生成した偽物かを見破る
- 上記2種類のネットワークを競わせて精度を大幅に引き上げる
- ジェネレータ(Generator)
- 実際のCNNを利用したモデル名はDCGAN(Deep Convolutional GAN)
- 2種類のネットワークで構成
まとめ
- 答えのない目的を持たせた強化学習とディープラーニングの組み合わせとして深層強化学習が存在。
- 生成タスクとして、何もないところからデータを生成する深層生成モデルが存在。(画像生成モデル)
コメント