JDLA G検定 2021年版、2024年版シラバスを比較してみた

ディープラーニングの応用例

画像認識

Swin Transformer

Swin Transformerは、Microsoftによって提案された階層的なVision Transformerで、
Shifted Windowsを使用して自己注意機構を効率的に計算する手法。
これにより、計算量を線形に抑えつつ、高精度な画像認識を実現する

マルチスペクトラム画像

マルチスペクトラム画像は、複数の波長帯の電磁波を記録した画像のこと。
私たちが目で認識できる可視光線だけでなく、
紫外線や赤外線、遠赤外線などの不可視光線も含まれる。
これにより、人間が認識できない検出方法が実現可能となる。

自然言語処理

LLM依存するモデルやユースケースが追加されている。

chatGPT

ChatGPTは、OpenAIによって開発された高度な人工知能チャットボット。
ChatGPTは、GPT（Generative Pre-trained Transformer）アーキテクチャに基づいており、
自然な会話形式でユーザーの入力に応答することができる。
このモデルは、事前に大量のテキストデータでトレーニングされており、
さまざまなトピックについての知識を持っている。

主な特徴

対話形式の応答:
- ChatGPTは、ユーザーとの対話を通じて質問に答えたり、アドバイスを提供したり、アイデアを出したりすることができる。
多用途:
学習支援、文章作成、コードの修正、アイデアのブレインストーミングなど、さまざまな用途に利用できる。
強化学習:
- ChatGPTは、強化学習（Reinforcement Learning from Human Feedback, RLHF）を用いてトレーニングされており、ユーザーからのフィードバックを基に性能を向上させている。

PaLM

PaLMは、Googleが開発した大規模言語モデル（LLM）で、2022年4月に公開された。
このモデルは、自然言語処理（NLP）タスクにおいて高い性能を発揮するよう設計されている。

PaLM2は、PaLMの改良版で、さらに高性能なNLPタスクの処理が可能。
また、Geminiは、PaLM 2を基盤とした新しいモデルで、
特定のタスクに特化した性能を発揮する。。

情報検索

情報検索システムは、以下の主要なステップで構成される。

クエリの解析:
- ユーザーが入力したクエリを解析し、その意図を理解する。
  これには、形態素解析や構文解析が含まれる。
インデックス作成:
- 大量のテキストデータを効率的に検索できるように、インデックスを作成する。
- インデックスは、文書内の単語やフレーズの位置情報を保持するデータ構造。
検索とランキング:
- クエリに基づいてインデックスを検索し、関連する文書を見つける。
- その後、見つかった文書を関連性に基づいてランキングする。
- ランキングには、TF-IDF（Term Frequency-Inverse Document Frequency）やBM25などの手法が使用される。
結果の表示:
- ランキングされた結果をユーザーに表示する。
- ユーザーが求める情報を迅速に見つけられるように、スニペットやハイライト表示が行われる。

文書要約

文書要約は主に以下の2種類に分類される。

抽出型要約（Extractive Summarization）:
- 元の文書から重要な文やフレーズを抜き出して要約を作成する。
- 例えば、ニュース記事の要約で、重要な文をそのまま抜き出して要約を生成する方法。
抽象型要約（Abstractive Summarization）:
- 元の文書の内容を理解し、新しい文を生成して要約を作成する。
- これは、元の文書にない表現を使って要約を生成するため、より自然な文章が得られる。

音声処理

音声合成技術の向上、音声特徴、テキスト分析技術の向上に伴う用語が追加されている。

音声合成

音声合成にはいくつかの方式があるが、主なものは以下。

規則合成方式:
- 音響的、言語的規則に基づいて音声を生成する。
- この方式は比較的古く、生成される音声が不自然になることが多い。
波形接続型合成方式:
- 事前に録音された音声を小さな単位に分割し、それらを組み合わせて音声を生成する。
- これにより、より自然な音声が得られる。
統計モデル型音声合成方式:
- 大量の音声データを用いて機械学習モデルを訓練し、そのモデルに基づいて音声を生成する。
- これには、隠れマルコフモデル（HMM）やディープニューラルネットワーク（DNN）が使用される

感情分析

音声感情分析は、音声認識技術とテキスト分析技術を組み合わせて行われる。
具体的には、以下のステップで進行する：

音声特徴の抽出:
- 音声データからピッチ（音の高さ）、トーン（音色）、スピード（話す速度）、イントネーション（抑揚）などの特徴を抽出する。
特徴の分析:
- 抽出された音声特徴を基に、機械学習モデルやディープラーニングモデルを使用して感情を分類する。
- これには、怒り、喜び、悲しみ、驚きなどの感情が含まれる。
テキストとの統合:
- 音声認識技術を用いて音声をテキストに変換し、テキスト分析を行うことで、感情の識別精度を向上させる。

深層強化学習

既存の深層強化学習の組み合わせたモデルの登場や
LLMへの強化学習技術の応用に伴う用語が追加されている。

Agent57

Agent57は、GoogleのDeepMindが開発した深層強化学習エージェントで、
特に難易度の高いゲームを含む57種類のAtari 2600ゲームすべてで、
人間のパフォーマンスを上回ることに成功した初のシステム。

APE-X

APE-Xは、DeepMindが提案した深層強化学習アルゴリズムで、
分散学習と優先順位付き経験再生（Prioritized Experience Replay）を組み合わせた手法。

主な特徴

分散学習:
- APE-Xは、複数のアクター（Actor）が並行して環境を探索し、1つのリプレイメモリ（Replay Memory）に経験を蓄積する。
- これにより、学習効率が大幅に向上する。
優先順位付き経験再生:
- リプレイメモリに蓄積された経験は、重要度に基づいてサンプリングされる。
- これにより、重要な経験がより頻繁に学習に使用され、学習の効率と精度が向上する。
Dueling NetworkとDouble DQN:
- APE-Xは、Dueling NetworkアーキテクチャとDouble DQN（Deep Q-Network）を組み合わせて使用する。
- これにより、Q値の推定精度が向上し、より安定した学習が可能になる

PPO

PPOは、OpenAIが提案した深層強化学習アルゴリズムで、Trust Region Policy Optimization (TRPO) の改良版。
PPOは、実装の簡易さと高いパフォーマンスを兼ね備えており、
さまざまな強化学習タスクで広く使用されている。

主な特徴

クリップ付き目的関数:
- PPOは、方策の更新幅を制限するために、クリップ付き目的関数を使用する。
- これにより、方策の大幅な変更を防ぎ、安定した学習が可能になる。
計算効率の向上:
- TRPOに比べて計算が簡略化されており、計算コストが低いため、実用的な手法として多くの研究者や実践者に好まれている。
汎用性:
- PPOは、さまざまな環境やタスクに適用可能であり、特にロボティクスやゲームAIなどで高い性能を発揮する。

RLHF

RLHFは、人間のフィードバックを利用して強化学習モデルをトレーニングする手法。
この手法は、モデルが人間の意図や価値観に沿った出力を生成するように調整することを目的としている。

主な特徴

人間のフィードバック:
- モデルの出力に対して人間がフィードバックを行い、そのフィードバックを基にモデルをさらに学習させる。
- これにより、モデルの出力が人間の期待により近づく。
報酬モデルの学習:
- 人間のフィードバックを基に報酬モデルを学習する。
- この報酬モデルは、モデルの出力がどれだけ人間の意図に合致しているかを評価するために使用される。
強化学習によるファインチューニング: -報酬モデルを用いて、強化学習アルゴリズム（例えばPPO）を使用してモデルをファインチューニングする。
- これにより、モデルの性能がさらに向上する

データ生成

元もとGAN、VAEがメインの項目であったが、
昨今の生成モデルに関連する用語が追加されている。
従来のGAN、VAEも画像生成、動画生成の領域で活躍している。

Diffusion Model

拡散モデル（Diffusion Model）は、最近注目されている生成モデルの一つ。
特に画像生成AIでよく使われている。

基本概念:
- 拡散モデルは、画像にノイズを徐々に加えていき、最終的に完全にノイズ化された状態にする。
- このプロセスを「Forward Process」と呼ぶ。
- その後、ノイズを逆に取り除いて元の画像を再構成する「Reverse Process」を行う。
  -学習方法:
- モデルは、ノイズを加える過程と取り除く過程の両方を学習する。
- これにより、ノイズ化された画像から元の画像を高精度で再構成できるようになる。
応用例:
- 画像生成: テキストから画像を生成するDALL-EやStable Diffusionなどが有名。
- 画像変換: 既存の画像に対して特定のスタイルを適用するなどの応用もある。

NeRF

NeRF (Neural Radiance Fields) は、2D画像から3Dモデルを生成するための深層学習モデル。

仕組み: NeRFは、複数の2D画像を基にして、3D空間の各点での色や透明度を予測するネットワークを学習する。
用途: 主にVRやAR、映画、ゲーム、eコマース、教育などの分野で利用されている。
メリット: 高精度な3Dモデル生成が可能で、特に反射や屈折を含むシーンの再現に優れている。

音声生成

音声生成は、テキストや他の音声データから新しい音声を作り出す技術。

基本概念:
- 音声合成: テキストを入力すると、それを人間の声のように読み上げる技術。これには、特定の声を模倣することも含まれる
- 音声変換: 既存の音声データを別の声に変換する技術。例えば、ある人の声を別の人の声に変えることができる。
技術の進化:
- ディープラーニング: 最近の音声生成技術は、ディープラーニングを用いて非常に自然な音声を生成できるようになっている
- 感情表現: 音声生成AIは、感情を込めた音声を生成することも可能。これにより、より人間らしい表現が可能になる。

画像生成

画像生成は、AI技術を用いて新しい画像を自動的に作り出すプロセス。

基本概念:
- 画像生成AIは、大量の画像データを学習し、その特徴を捉えて新しい画像を生成する。
- テキストから画像生成: テキストの説明を基に画像を生成する技術もある。例えば、「猫が昼寝している」というテキストから、そのシーンの画像を生成できる。
主要な手法:
- GAN（敵対的生成ネットワーク）: 2つのネットワーク（生成器と識別器）が競い合うことで、リアルな画像を生成する。
- VAE（変分オートエンコーダ）: 画像を圧縮・復元する過程で特徴を学習し、新しい画像を生成する

文章生成

文章生成は、AI技術を用いて新しい文章を自動的に作り出すプロセス。

基本概念:
- 文章生成AIは、大量のテキストデータを学習し、その特徴を捉えて新しい文章を生成する。
- プロンプトと呼ばれる命令文を入力すると、それに基づいて文章を生成する。
主要な手法:
- Transformerモデル: 特に有名なものにGPT（Generative Pre-trained Transformer）がある。これは、大量のテキストデータを事前に学習し、自然な文章を生成する能力を持っている。
- RNN（リカレントニューラルネットワーク）: 時系列データを扱うのに適しており、文章生成にも利用される。

転移学習・ファインチューニング

Few-shot

Few-shot学習は、少数のサンプルから新しいタスクを学習する技術。

基本概念:
- Few-shot学習は、少数のデータポイント（例：数枚の画像や数行のテキスト）からモデルを学習させる手法。
- 転移学習と組み合わせることで、既存の大規模データセットで事前に学習したモデルを利用し、新しいタスクに迅速に適応させることができる。
ファインチューニング:
- ファインチューニングは、事前に学習したモデルの一部のパラメータを微調整することで、新しいタスクに適応させる手法。
- Few-shot学習では、少数のサンプルを用いてモデルをファインチューニングすることで、高い精度を維持しつつ新しいタスクに対応できる

One-shot

One-shot学習は、1つのサンプルから新しいタスクを学習する技術。
Few-shot学習の一種とも言えるが、サンプルが1つというのが特徴。

基本概念:
- One-shot学習は、1つのデータポイント（例：1枚の画像や1行のテキスト）からモデルを学習させる手法。
- 転移学習と組み合わせることで、既存の大規模データセットで事前に学習したモデルを利用し、新しいタスクに迅速に適応させることができる。
ファインチューニング:
- ファインチューニングは、事前に学習したモデルの一部のパラメータを微調整することで、新しいタスクに適応させる手法。
- One-shot学習では、1つのサンプルを用いてモデルをファインチューニングすることで、高い精度を維持しつつ新しいタスクに対応できる。

自己教師あり学習

自己教師あり学習（Self-Supervised Learning）は、ラベルなしデータから特徴を学習する手法。

基本概念:
- 自己教師あり学習は、データ自体からラベルを生成し、そのラベルを使って学習を行う。例えば、画像の一部を隠して、その隠れた部分を予測するタスクを設定することができる。
- 転移学習と組み合わせることで、事前に学習した特徴を新しいタスクに活用できる。
ファインチューニング:
- 自己教師あり学習で得た特徴を用いて、少量のラベル付きデータでモデルをファインチューニングすることができる。

事前学習済みモデル

事前学習済みモデル（Pre-trained Model）は、大規模なデータセットで事前に学習された汎用的な機械学習モデル。

基本概念:
- 事前学習済みモデルは、特定のタスクに対して高いパフォーマンスを発揮するために、大量のデータで事前にトレーニングされている。
- これにより、新しいタスクに対して少量のデータで迅速に適応できるようになる。
転移学習:
- 転移学習は、事前学習済みモデルの知識を新しいタスクに転用する手法。
- 例えば、画像認識モデルを使って、新しい種類の画像分類タスクに適応させることができる。
ファインチューニング:
- ファインチューニングにより、特定のタスクに対してさらに高い精度を実現できる。

破壊的忘却

破壊的忘却（Catastrophic Forgetting）は、転移学習やファインチューニングにおいて、
新しいタスクを学習する際に、以前に学習したタスクの知識が失われる現象。

基本概念:
- 破壊的忘却は、ニューラルネットワークが新しいデータを学習する際に、以前に学習した情報を忘れてしまう問題。
- これは特に、連続的に複数のタスクを学習する場合に顕著に現れる。
原因:
- 新しいタスクのデータが、以前のタスクのデータと異なる場合、モデルのパラメータが新しいタスクに適応するために更新され、以前のタスクの情報が上書きされてしまう。
対策:
- Elastic Weight Consolidation (EWC): 重要なパラメータの変更を抑制することで、以前のタスクの知識を保持する。
- Progressive Neural Networks: 新しいタスクごとに新しいネットワークを追加し、以前のネットワークの知識を保持する。
- Replay Methods: 以前のタスクのデータを再利用して、新しいタスクと一緒に学習させる方法。

マルチモーダル

2021年版シラバスの段階では、概念的だったマルチモーダルが、
2024年版では具体的なモデルの話が入ってきている。

CLIP

CLIP（Contrastive Language-Image Pre-training）は、OpenAIが開発したマルチモーダルモデルで、画像とテキストの両方を理解することができる。

基本概念: CLIPは、画像とテキストのペアを使って学習し、両者を共通の埋め込み空間にマッピングする。
学習方法: 大規模なデータセットを用いて、画像とテキストのペアを対比的に学習する。これにより、画像とテキストの関連性を高める。
応用例: 画像検索、キャプション生成、画像分類など、多岐にわたるタスクに応用可能。
利点: マルチモーダルな理解能力により、従来のモデルよりも柔軟で高精度なパフォーマンスを発揮する。

DALL-E

DALL-Eは、OpenAIによって開発されたマルチモーダルAIモデルで、
テキストから画像を生成する能力を持っている。

テキストから画像生成: DALL-Eは、与えられたテキストの説明に基づいて、ユニークで詳細な画像を生成する。
多様な生成能力: 動物、風景、架空のキャラクターなど、幅広いテーマの画像を生成できる。
創造性と応用: アート、デザイン、広告など、さまざまな分野での応用が期待されている。
技術的基盤: GPT-3と同様のトランスフォーマーモデルを基盤としており、膨大なデータセットでトレーニングされている。

Flamingo

Flamingoは、DeepMindによって開発されたマルチモーダルAIモデルの一つで、特に画像とテキストの両方を理解し、生成する能力を持っている。

マルチモーダル学習: 画像とテキストの両方を同時に学習し、相互に関連付けることができる。
生成能力: テキストから画像を生成したり、画像からテキストを生成することが可能。
応用範囲: 画像キャプション生成、ビジュアル質問応答、画像検索など、さまざまなタスクに応用できる。
最新技術: Transformerアーキテクチャを基盤にしており、高い性能を発揮する。

Image Captioning

画像キャプション生成（Image Captioning）は、画像の内容をテキストで説明する技術。

基本概念:
- 画像キャプション生成は、画像の視覚的な内容を理解し、それを自然言語で表現するプロセス。
- 例えば、犬がボールで遊んでいる画像に対して「犬がボールで遊んでいる」というキャプションを生成する。
技術的手法:
- CNN（畳み込みニューラルネットワーク）: 画像の特徴を抽出するために使用される。
- RNN（リカレントニューラルネットワーク）: 抽出された特徴を基に、自然言語のキャプションを生成する。
- Transformerモデル: 最近では、Transformerアーキテクチャが高精度なキャプション生成に利用されている。
応用例:
- 視覚障害者支援: 画像の内容を音声で説明することで、視覚障害者の情報アクセスを支援する。
- ソーシャルメディア: 画像の自動キャプション生成により、投稿の説明を簡単に行える。
- 医療: 医療画像の説明を自動生成し、診断支援に利用される。

Text-To-Image

Text-To-Imageは、テキストの説明を基に画像を生成する技術。
例えば、「青い空の下にある赤い車」というテキストから、その内容を反映した画像を生成する。

技術: 主にディープラーニングを使用し、特に生成モデル（例：GANやVAE）が利用される。
応用: 広告、デザイン、エンターテインメントなど、多岐にわたる分野で活用されている。

Visual Question Answering

マルチモーダルにおけるVisual Question Answering (VQA) とは、
画像とその画像に関する自然言語の質問をAIモデルに提示し、モデルが正確な回答を生成するタスクのこと

基本概念
- Visual Question Answering (VQA): 画像とその画像に関する自然言語の質問をAIモデルに提示し、モデルが正確な回答を生成するタスク。
- マルチモーダル: 画像（視覚情報）とテキスト（言語情報）の両方を理解し、統合する技術。
目的:
- 画像の内容を理解し、それに基づいて質問に答えることで、より人間に近いAIの視覚理解を実現する。
技術的手法
- 畳み込みニューラルネットワーク (CNN): 画像の特徴を抽出するために使用される。
- リカレントニューラルネットワーク (RNN): 時系列データの解析に適しており、質問の文脈を理解するために使用される。
- Transformerモデル: 画像とテキストの関係を深く理解するために使用される最新技術。
- アテンションメカニズム: 質問に応じて画像のどの部分に注目すべきかを決定する。
応用例
- 医療診断: 医療画像を解析し、診断に関する質問に答える。
- Eコマース: 商品画像に基づいてユーザーの質問に答えることで、ショッピング体験を向上させる。
- バーチャルパーソナルアシスタント: 画像を解析し、ユーザーの質問に対して適切な情報を提供する。
- 教育: 学習教材の画像に基づいて質問に答えることで、教育支援を行う

Unified-IO

異なる種類のデータ（テキスト、画像、音声など）を統一的に処理するマルチモーダルモデル。

基本概念
- 目的: 複数のタスクを一つのモデルで効率的に処理すること。
- 特徴: すべての入力と出力を共通の表現形式（離散的な語彙トークン）に変換し、統一的に処理する。
技術的手法
- トークン化: 画像、テキスト、音声、アクションなどの入力と出力を共通の語彙トークンに変換。
- エンコーダ・デコーダアーキテクチャ: 単一のエンコーダ・デコーダトランスフォーマーモデルを使用して、異なるモダリティを処理。
- マルチモーダル前処理コーパス: 多様なソースからの大規模なマルチモーダル前処理コーパスを使用してモデルをトレーニング。
- マルチモーダル指示のフォロー: マルチモーダル指示に従うスキルを学習するために、120以上のデータセットを使用してファインチューニング。
応用例
- 画像キャプション生成: 画像の内容を説明するキャプションを生成。
- 視覚質問応答 (VQA): 画像に基づいて自然言語の質問に答える。
- 音声生成: 画像やテキストから音声を生成。
- ロボット操作: ロボットの操作を理解し、指示に従う。
- 自然言語理解: テキストの理解と生成

zero-shot

Zero-shot学習は、モデルが事前に見たことのないクラスやタスクに対して、追加の学習なしで対応する能力を指す。

基本概念
- 目的: 新しいタスクやクラスに対して迅速に対応し、ラベル付きデータが不足している状況でも高いパフォーマンスを発揮すること。
- 特徴: 既存の知識を活用して、未学習のタスクを解決する。
技術的手法
- トランスフォーマーモデル: 自然言語処理や画像処理において、異なるモーダル情報を統合するために使用される。
- CLIP (Contrastive Language-Image Pre-training): 画像とテキストのペアを使って学習し、ゼロショットで画像分類や検索を行う。
- 埋め込みベクトル: テキストや画像を固定長のベクトルに変換し、類似度計算を行う。
- 転移学習: 既存のモデルを新しいタスクに適用するために使用される。
応用例
- 画像分類: 新しいクラスの画像を事前学習なしで分類。
- テキスト分類: 未学習のカテゴリに対しても高い精度で分類。
- 情報検索: テキストから関連する画像を検索、またはその逆。
- ロボット操作: 未知のタスクに対しても適応し、指示に従う。

基盤モデル

基盤モデルは、マルチモーダルタスクにおいて重要な役割を果たす。

基盤モデルの定義: マルチモーダルデータ（例えば、テキストと画像）を統合して処理するためのモデル。
代表的なモデル: CLIP、DALL-E、Flamingoなどがあり、これらは異なるモーダルのデータを効果的に結びつける。
応用例: 画像キャプション生成、テキストから画像生成、ビジュアル質問応答など、実世界での多様なタスクに利用される。

モデルの解釈性

2021年版シラバスからあったCAM、Grad-CAM、LIME、SHAPは2010年代初頭から中盤にかけて提案された手法。
そこに対して、2024年版シラバスでは、Permutation Importanceという2018年に提案された比較的新しい手法が組み込まれている。

Permutation Importance

Permutation Importance（順列重要度）は、機械学習モデルの解釈性を高めるための手法の一つ。
この手法は、モデルがどの特徴量（変数）を重要視しているかを評価するために使用される。

具体的には、以下の手順で行う。

元のモデルの性能を評価：まず、元のデータセットを使ってモデルの性能（例えば、精度や誤差）を計算する。
特徴量のシャッフル：次に、特定の特徴量の値をランダムにシャッフルする。これにより、その特徴量の情報が失われる。
シャッフル後のモデル性能を評価：シャッフルされたデータセットを使って再度モデルの性能を計算する。
性能の変化を比較：元のモデルの性能とシャッフル後のモデルの性能を比較し、性能がどれだけ低下したかを測定する。この性能低下が大きいほど、その特徴量がモデルにとって重要であることを示す。