人工知能をめぐる動向
知識表現とエキスパートシステム
「インタビューシステム」という用語が追加されている。
インタビューシステムとは、AIを活用して専門家や対象者から効率的に知識や情報を引き出すシステム。
従来のインタビューでは、インタビュアーが事前に質問リストを作成し、それに沿って質問を進める必要があったが、
AIインタビューシステムでは、AIがリアルタイムで発言内容を分析し、最適な質問を自動生成する。
インタビューシステムはエキスパートシステムの一種として考えられることがある。
ディープラーニング
ImageNet、LLM(大規模言語モデル)が追加されている。
ImageNetはシラバス上では出てこないが、テキストや問題集ではILSVRCの関連で出てくるデータセット。
よって、既存の用語と思って良いだろう。
LLM(大規模言語モデル)は昨今のテキスト生成AIの流れに合わせて追加された用語となる。
機械学習の概要
やや統計に関連する情報が追加されている。
モデルの選択・評価
MSE・RMSE・MAE
MSE、RMSE、MAEは、回帰モデルの評価指標としてよく使われるもの。
MSE (Mean Squared Error)
- 定義: 予測値と実際の値の差の二乗の平均。
- 特徴: 大きな誤差を強調するため、外れ値に敏感。
- 数式: \(\displaystyle\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i – \hat{y}_i)^2\)
RMSE (Root Mean Squared Error)
- 定義: MSEの平方根を取ったもの。
- 特徴: 単位が元のデータと同じになるため、人間が解釈しやすい。
- 数式: \(\displaystyle\text{RMSE} = \sqrt{\text{MSE}} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i – \hat{y}_i)^2}\)
MAE (Mean Absolute Error)
- 定義: 予測値と実際の値の差の絶対値の平均。
- 特徴: 誤差を均等に扱うため、外れ値に対してMSEやRMSEほど敏感ではない。
- 数式: \(\displaystyle\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i – \hat{y}_i|\)
ベイズ情報量規準 (BIC)
ベイズ情報量規準 (BIC)は、統計モデルの選択に用いられる基準の一つ。
BICは、データに対するモデルの適合度とモデルの複雑さを考慮して、
最適なモデルを選択するために使用される。
BICは以下の式で計算される。
$$
\text{BIC} = -2 \log L + k \log n
$$
ここで、
- \( L \) はモデルの尤度(データに対する適合度)
- \( k \) はモデルのパラメータ数
- \( n \) はデータのサンプル数
BICの特徴
- モデルの適合度: BICはモデルがデータにどれだけ適合しているかを評価する。尤度 \( L \) が高いほど、モデルはデータに良く適合しているとされる。
- モデルの複雑さ: パラメータ数 \( k \) が多いほど、モデルは複雑になる。BICは複雑なモデルに対してペナルティを課すことで、過剰適合を防ぐ。
BICの利点と欠点
- 利点:
- モデルの適合度と複雑さのバランスを取ることができる。
- 大規模なデータセットに対しても適用可能。
- 欠点:
- サンプルサイズが小さい場合、BICは過剰に単純なモデルを選択する傾向がある。
- モデルの事前分布を考慮しないため、完全にベイズ的なアプローチではない。
ディープラーニングの概要
誤差逆伝播法
勾配消失問題は以前からあった用語だが、
似たような語呂の勾配爆発問題というものが追加されている。
勾配爆発問題
勾配爆発問題(Exploding Gradient Problem)は、
特に深層ニューラルネットワーク(DNN)や再帰型ニューラルネットワーク(RNN)で発生する現象。
この問題は、誤差逆伝播法を用いた学習中に、
勾配が急激に大きくなり、数値的な不安定性を引き起こすことを指す。
勾配爆発問題の原因
勾配爆発問題は、主に以下の要因で発生する。
- 重みの初期化: 重みが適切に初期化されていない場合、勾配が大きくなりやすい。
- 学習率: 学習率が高すぎると、勾配が急激に増加することがある。
- 逆伝播の計算: 特にRNNでは、時間ステップごとに勾配が累積されるため、勾配が指数関数的に増加することがある。
勾配爆発問題の対策
勾配爆発問題を防ぐための一般的な対策には以下のものがある。
- 重みの初期化: Xavier初期化やHe初期化など、適切な重みの初期化方法を使用する。
- 勾配クリッピング: 勾配の大きさが一定の閾値を超えないようにクリッピングする方法。これにより、勾配が発散するのを防ぐ。
- 正則化: L2正則化などを用いて、モデルの複雑さを抑えることができる。
- 適切な学習率: 学習率を適切に設定し、必要に応じて学習率を減少させるスケジューリングを行う。
ディープラーニングの要素技術
畳み込み層
可変サイズのデータへの適用
2021年版のシラバスにおいては、以下に該当するものになる。
- グローバルアベレージプーリング(GAP)
- パディング
- 最大値プーリング
- 平均値プーリング
疎結合
畳み込み層の疎結合(Sparse Connectivity)は、
畳み込みニューラルネットワーク(CNN)の特徴の一つで、
全結合層(Fully Connected Layer)とは異なり、
各ニューロンが全ての入力に接続されているわけではないことを指す。
具体的には、畳み込み層ではフィルタ(カーネル)が入力データの一部にのみ適用されるため、
各ニューロンは入力データの一部にしか接続されない。
※ 2021年版シラバスにおいての「局所結合構造」に該当
疎結合の利点
- 計算効率の向上: 全結合層に比べて、計算量が大幅に削減される。これは、フィルタが入力データの一部にのみ適用されるため。
- パラメータ数の削減: 全結合層では各ニューロンが全ての入力に接続されるため、パラメータ数が非常に多くなる。一方、畳み込み層ではフィルタのサイズが固定されているため、パラメータ数が少なくなる。
- 過学習の防止: パラメータ数が少ないため、過学習のリスクが減少する。これにより、モデルの汎化性能が向上する。
特徴マップ
2021年版のシラバスには記載されていないが、
畳み込み層の出力データであることから、自然と入ってくる用語ではある。
特徴マップは、入力データに対してフィルタ(カーネル)を適用することで得られるもので、
入力データの重要な特徴を抽出したもの。
特徴マップの生成プロセス
- フィルタの適用: 畳み込み層では、フィルタが入力データに対してスライドしながら適用される。フィルタは小さな行列で、入力データの局所的な領域に対して畳み込み演算を行う。
- 畳み込み演算: フィルタと入力データの対応する要素を乗算し、その和を計算する。この操作を入力データ全体に対して行い、各位置での結果を集めたものが特徴マップ。
- 活性化関数の適用: 畳み込み演算の結果に対して活性化関数(例えばReLU)を適用し、非線形性を導入する。これにより、特徴マップが生成される。
特徴マップの役割
- 特徴抽出: 特徴マップは、入力データの重要な特徴を抽出する役割を持つ。例えば、画像認識の場合、エッジやテクスチャなどの低レベルな特徴から、より抽象的な高レベルな特徴までを抽出する。
- 次の層への入力: 特徴マップは次の層への入力として使用され、さらに高次の特徴を抽出するために利用される。これにより、ネットワーク全体が階層的に特徴を学習する。
正則化層
正則化層としては、バッチ正規化が有名で、
2021年版シラバスでは、バッチ正規化のみ記載されていた。
2024年版シラバスには3つの正則化層が追加。
グループ正規化
グループ正規化は、ディープラーニングにおける正規化手法の一つで、
特にバッチサイズが小さい場合や、バッチ正規化がうまく機能しない場合に有効。
入力のチャネルをいくつかのサブグループに分割し、
それぞれのグループ内で平均と分散を計算して正規化を行う。
レイヤー正規化
レイヤー正規化は、ディープラーニングモデルの
トレーニングを安定化および加速するために使用される正規化手法。
バッチ正規化とは異なり、レイヤー正規化は各トレーニング例ごとに特徴全体で入力を正規化する
インスタンス正規化
インスタンス正規化は、ディープラーニングモデルの
トレーニングを安定化させるための正規化手法の一つ。
特に、スタイル転送や画像生成などのタスクでよく使用される。
各インスタンス(データポイント)ごとに正規化を行うため、
バッチサイズに依存しないという特徴がある。
プーリング層
特徴集約
2021年版シラバスに於ける以下に該当
- グローバルアベレージプーリング(GAP)
- 最大値プーリング
- 平均値プーリング
不変性の獲得
プーリング層の役割、効果で説明されることの多い用語。
プーリング層は、入力データの空間的な変動に対する不変性(Invariance)を獲得するために重要な役割を果たす。
具体的には、入力データの微小な位置の変化や回転、スケーリングに対してモデルの出力が安定するようにする。
スキップ結合
2024年版シラバスでは、ResNetの特徴を少し掘り下げている傾向がある。
ResNetが様々なモデルの部品として広く利用されているためと思われる。
逐次的な情報処理
スキップ結合を用いることで、以下のような逐次的な情報処理が可能になる。
- 特徴の保持:
- スキップ結合により、前の層の特徴が次の層に直接伝達されるため、重要な特徴が失われることなく保持される。
- これにより、深い層でも初期の特徴が活用される。
- 勾配の安定化:
- スキップ結合は、勾配が消失するのを防ぎ、逆伝播時に勾配が安定して伝わるようにする。
- これにより、深いネットワークでも効果的に学習が進む。
- 効率的な学習:
- スキップ結合により、ネットワークがより効率的に学習できるようになる。
- これは、各層が前の層の出力を直接利用できるため、学習が早く進むため。
ボトルネック
恐らく、ボトルネック構造のことを言っていると思われる。
ボトルネック構造は、ResNet(Residual Network)などの深層学習モデルで使用される手法で、
計算効率を向上させるために設計されている。
具体的には、1×1の畳み込み層を使用してチャネル数を圧縮し、
その後に3×3の畳み込み層を適用し、再度1×1の畳み込み層でチャネル数を元に戻すという構造。
ボトルネック構造の利点
- 計算効率の向上:
- 1×1の畳み込み層を使用してチャネル数を圧縮することで、3×3の畳み込み層での計算量を大幅に削減できる。
- これにより、全体の計算効率が向上する。
- パラメータ数の削減:
- チャネル数を一時的に減らすことで、必要なパラメータ数も減少する。
- これにより、モデルのメモリ使用量が減り、トレーニングが効率化される。
- 深いネットワークの実現:
- ボトルネック構造を使用することで、より深いネットワークを構築することが可能になる。
- これにより、より複雑な特徴を学習できるようになる。
回帰結合層
RNN関連のネットワークの初期のモデルが明確にシラバスに組み込まれた。
エルマンネットワーク
エルマンネットワーク(Elman Network)は、回帰型ニューラルネットワーク(RNN)の一種で、
特に時系列データの処理に適している。
このネットワークは、隠れ層の出力を「文脈ユニット」として保持し、
次のタイムステップの入力として使用することで、過去の情報を考慮に入れた予測を行う。
ジョルダンネットワーク
ジョルダンネットワークは、回帰型ニューラルネットワーク(RNN)の一種で、
エルマンネットワークと並んで初期のRNNモデルの一つ。
ジェフリー・エルマンによって提案されたエルマンネットワークに対して、
マイケル・I・ジョルダンによって提案されたため、この名前が付けられた。
ジョルダンネットワークの特徴は、隠れ層の出力が「文脈ユニット」として
次のタイムステップの入力にフィードバックされる点。
教師強制
教師強制は、回帰型ニューラルネットワーク(RNN)のトレーニング手法の一つで、
特に時系列データやシーケンスデータの予測タスクに使用される。
この手法では、各タイムステップでの入力に対して、
モデルが生成した出力ではなく、実際の目標出力(教師データ)を使用する
尚、通常のRNNトレーニングでは、各タイムステップでの出力を次のタイムステップの入力として使用する。
これにより、誤差が累積しやすくなってしまう。
Attention
昨今のLLMの根幹のなるTransformerアーキテクチャの基礎部分についての用語が強化されている。
キー、クエリ、バリュー
Attentionメカニズムは、入力データの中で重要な部分に焦点を当てることで、
モデルの性能を向上させる手法。
特に、Transformerモデルで広く使用されている。
Key, Query, Valueの役割
- Query (クエリ):
- クエリは、探索対象の情報を表す。
- 例えば、翻訳タスクでは、現在の単語に関連する情報を探すための指示となる。
- Key (キー):
- キーは、データベースのインデックスのような役割を果たす。
- クエリとキーの類似度を計算することで、どの情報が重要かを判断する。
- Value (バリュー):
- バリューは、実際の情報そのもの。
- キーとクエリの類似度に基づいて、どのバリューが重要かを決定し、最終的な出力を生成する。
Multi-Head Attention
Multi-Head Attentionは、Transformerモデルで提案されたアテンションメカニズムの一部で、
複数のアテンションヘッドを並列に実行することで、入力シーケンスの各トークン表現を変換する手法。
利点
- 多様な表現の学習:
- 複数のアテンションヘッドを使用することで、異なる部分に焦点を当てた多様な表現を学習できる。
- 計算効率の向上:
- 並列処理により、計算効率が向上し、大規模なデータセットでも高速に処理できる。
オートエンコーダ
画像生成AIではGANやVAEをベースとしたものが多い。
その兼ね合い化、VAE関連の具体的なモデルが2024年版シラバスに組み込まれている。
VQ-VAE
VQ-VAE(Vector Quantized Variational Autoencoder)は、変分オートエンコーダ(VAE)の一種で、
特にデータの離散的な表現を学習するために設計されている。
- ベクトル量子化:
- VQ-VAEは、潜在変数を連続的な値ではなく、離散的な値に量子化する。
- これにより、データの圧縮や生成がより効率的になります。
- コードブック:
- 高次元のデータを低次元の離散的な表現に変換するために、コードブック(辞書)を使用する。
- これにより、データの表現がよりコンパクトになる。
- 応用例:
- 画像生成や音声生成など、信号データの高次元表現を学習するのに適している。特に高解像度の画像生成に効果的。
info VAE
InfoVAEは、通常のVAEに情報理論の概念を取り入れ、
生成されたデータの品質と多様性を向上させることを目的としている。
- 情報最大化:
- InfoVAEは、潜在変数と生成データの間の相互情報量を最大化することで、より意味のある潜在表現を学習する。
- アーキテクチャ:
- 基本的な構造はVAEと同様で、エンコーダとデコーダから構成されるが、追加の正則化項を導入して情報最大化を実現する。
- 応用:
- 高品質な画像生成やデータの圧縮、異常検知など、さまざまな分野で利用されている。
β-VAE
β-VAEは、通常のVAEに比べて、潜在変数の「もつれ」を解く(disentanglement)能力を向上させることを目的としている。
- ハイパーパラメーター β:
- β-VAEは、潜在空間の分離度合いを制御するために、ハイパーパラメーター β を導入している。
- このパラメーターにより、潜在変数がより独立した特徴を表現するようになる。
- 特徴:
- 潜在空間の各次元が、入力データの独立した属性を表現するように学習される。
- これにより、生成されたデータの品質と解釈性が向上する。
- 応用:
- 画像生成や特徴抽出など、データの複雑な構造を理解するために利用される。
データ拡張
以下のデータ拡張が明示的に追加されている。
画像に関してのデータ拡張が多いが、
Paraphrasingのように文章データに対して行うものが追加されている。
- Contrast
- コントラストの調整は、画像の明暗の差を強調または弱めることで、画像の視覚的な特徴を変化させる。
- これにより、モデルが異なるコントラスト条件下でも正確に認識できるようになる。
- Brightness 明るさの調整は、画像全体の明るさを変更する手法。
- これにより、異なる照明条件下での画像認識性能を向上させることができる。
- Crop
- クロップは、画像の一部を切り取る手法。
- ランダムにクロップすることで、モデルが画像の異なる部分に対しても正確に認識できるようになる。
- Noising
- ノイジングは、画像にランダムなノイズを追加する手法。
- これにより、モデルがノイズの多い環境でも頑健に動作するようになる。
- Paraphrasing
- パラフレーズは、自然言語処理において、文の意味を保ちながら異なる表現に変換する手法。
- これにより、モデルが多様な表現に対しても正確に対応できるようになる。
- RandAugment
- RandAugmentは、複数のデータ拡張手法をランダムに適用する手法。
- これにより、データセットの多様性を高め、モデルの汎化性能を向上させる。
- Random Flip
- ランダムフリップは、画像をランダムに水平または垂直に反転させる手法。
- これにより、モデルが画像の向きに依存せずに認識できるようになる。
- Rotate
- 回転は、画像をランダムな角度で回転させる手法。
- これにより、モデルが異なる角度からの画像を正確に認識できるようになる。
次のページへ
次のページ以降は
ディープラーニングの応用例、AIの社会実装に向けて、AI に必要な数理・統計知識、AIに関する法律と契約、AI倫理・AIガバナンス
コメント