【G検定対策】JDLAジェネラリスト検定2020~2024【カンペ、過去問、難易度、感想、チートシート?】

【G検定対策】 JDLAジェネラリスト検定 【カンペ、過去問、難易度、 感想、チートシート?】 G検定
【G検定対策】 JDLAジェネラリスト検定 【カンペ、過去問、難易度、 感想、チートシート?】

人工知能(AI)とは

項目レベル
検定出題数極少(1問)
検定難易度
Web情報量
過去問、問題集だけで対応可?OK

さらっと流してOKな部分。

AIの歴史とレベル。第1次AIブーム、第2次AIブーム、第3次AIブーム。汎用コンピュータの誕生、エニアック、ENIAC、ダートマス会議、ジョンマッカーシー、最初にAIを発言、マーヴィン・ミンスキー、アレン・ニューウェル、ハーバード・サイモン、最初のAIロジック・セオリストのデモ、推論・探索の時代、知識の時代、機械学習と特徴表現学習の時代、トイ・プロブレムが限界、エキスパートシステム、第五世代コンピュータプロジェクト、情報蓄積管理が困難、ビッグデータ、機械学習、特徴量、ディープラーニング

人工知能をめぐる動向

探索・推論、知識表現、機械学習、深層学習

項目レベル
検定出題数中(19問)
検定難易度
Web情報量
過去問、問題集だけで対応可?おおよそOK

情報量が多い割には出題数も少な目で難易度も低い。
逆説的に言うと落としてはいけない部分と言える。

探索木、ハノイの塔、コンピュータで処理できる形式に変換、幅優先対策、速度安定、メモリリソース大、深さ優先探索、速度運任せ、メモリリソース極小、コンピュータで処理できる形に変換

探索木の構造にすることで、コンピュータが処理できる形式にすることが重要。
仕組みが分かると知性は感じられない。と感じるのがAI効果。

STRIPS(Stanford Research Institute Program Solver)、SHRDLE:シュルドュル:テリー・ウィノグラード、Cycプロジェクト

「積み木の世界」を例とされることが多い。

  • STRIPS:ストリップス
  • SHRDLU:シュルドュル
オセロ、チェス、将棋、囲碁、探索規模、αカット、βカット、事前に点数が付いた探索木を構築、相手の番、自分の番、最大点数探索中の小数点の枝をカット、βカット、相手を不利にする、最小点数探索中に大点数の枝をカット、αカット、自分を有利にする、事前に点数が付いた探索木を構築

これも基本は探索木になる。
迷路の探索木に似ているが、「行動」と「結果」の連続した探索木となるが、局面が複雑化するタイプになると、それだけ膨大なツリーとなる。

モンテカルロ法、プルートフォース、ランダムにプロット、四角の中の点、丸の中の点、ゲームをある程度進める、ひたすら繰り返す、ランダムな打ち筋でAI同士シミュレーション、最も勝率の高そうな手筋を選択、計算能力による力任せ

推論、探索の時代は、基本、「初期状態」「行動」「結果」が明確であることをベースにしている。
後期に入るとモンテカルロ法の方な確率論が導入され始める。

エキスパートシステム、知識ベース、ELIZA、MYCIN(マイシン)、DENDRAL、チャットボット、イライザ効果、インタビューシステム、自然言語処理や機械学習

第2次AIブーム初期は単純なパターンマッチで知識を表現しようとした。
しかし、その知識の獲得や管理に課題が出てきた。
それを解決するために意味ネットワークやオントロジーの研究が注目される。

意味ネットワーク、オントロジー(記述方法論)、ヘビーオントロジー、ライトオントロジー、ウェブマイニング、データマイニング、ワトソン、東ロボくん、推移律

オントロジーにより、意味ネットワークが構築され、人の知識に近いものが出来てきた。
第1次AIブームと比べると現実世界に対して影響を持ち始めた時期となる。

機械学習、レコメンデーション、スパムフィルタ、統計的自然言語処理、ディープラーニング、誤差逆伝播法、自己符号化器(オートエンコーダ)、ILSVRC、2012年トロント大学のSuperVisionが圧倒的勝利。

ディープラーニングの元となるニューラルネットワーク自体は第1次AIブーム時から存在していた。
バックプロパゲーションなどの学習方法、コンピュータの処理能力、学習するデータ量により一気に進展し、ブレイクスルーへ。

人工知能分野の問題

トイプロブレム、フレーム問題、弱いAI、強いAI、身体性、シンボルグラウンディング問題、特徴量設計、チューリングテスト、シンギュラリティ

項目レベル
検定出題数少(4問)
検定難易度
Web情報量
過去問、問題集だけで対応可?おおよそOK

基本的にはお約束的な問題が出るのみ。
テキスト、問題集をやっていれば問題ない。

トイプロブレム、フレーム問題、チューリングテスト、強いAI、弱いAI、シンボルグラウンディング問題、身体性、おまちゃの問題、迷路、探索木、コンピュータで処理できる形式に変換、限定的な問題しか解けない、ロボットとバッテリーと爆弾、今しようとしていることに関係する事柄だけを選び出すことは非常に困難、Aさん、Bさん、AI、会話、果たしてAさんはAIを見抜けるか、哲学者ジョン・サール、ロジャー・ベンローズ、弱いAIでも強いAIのように見せられるよ、中国語の部屋、グラウンディング(結びつけ)ができればシマウマを連想できる、ボール、卵、体があり、モノに触れられるからグラウンディング(結びつけ)ができる

知能、知性に至るのは多くの課題がある。
ゴールを「便利な道具」とするか「人間のパートナー」とするかでも大きく変わる。

知識獲得のボトルネック、シンギュラリティ、特徴量設計の問題、ルールベース機械翻訳、統計的機械翻訳、人間が持ってる一般常識が膨大、2016年、ディープラーニング、問題をある程度解消、技術進化、技術進化速度が無限だい、人間、AI、AIが人間よりも賢く、2029年、2045年、データ、特徴量、機械学習、分類、予測、人間が選択、ディープラーニングはこの構成、入力、エッジ、輪郭、物体認識、物体特定、ニューラルネットワーク自身が複数のステップを学習

解決していない問題はあるが、ディープラーニングにより解決した問題も多い。
シンギュラリティ(技術的特異点)はもうすぐ。

機械学習の具体的手法

代表的な手法、データの扱い、応用

項目レベル
検定出題数極多(54問)
検定難易度
Web情報量
過去問、問題集だけで対応可?不足

出題数は最多の部分となる。
ただし、勉強し易い部分ともいえるので、ここで頑張って点を稼ぐ必要がある。

機械学習、教師あり学習、教師なし学習、強化学習、回帰、分類、クラスタリング、線形回帰、ランダムフォレスト、ブースティング、ロジスティック回帰、サポートベクターサポートマシン、ニューラルネットワーク、k-means、主成分解析

機械学習でも目的別にカテゴリ分けができる。(教師あり:回帰、分類、教師なし:クラスタリング)
ディープラーニングが流行りの世の中ではあるが、可能な限りシンプルな手法による解析が重要な場合を想定して、今回の手法を頭の片隅にでも置いておいた方が良い。

交差検証、過学習対策、評価指標、ホールドアウト検証、k-分割交差検証、オーバーフィッティング、アンダーフィッティング、L1正則化、ラッソ回帰、パラメータ軸線上に最適解が来やすい、L2正則化、リッジ回帰、0近傍に複数の解を集中させることで汎化性能を引き上げる、予測値、実際の値、accuracy、正解率、予測が正しかったもの、全数、precision、適合率、recall、再現率、Fmeasure、F値、適合率と再現率の調和平均

学習する際に学習結果を評価する必要がある。
単に正解率が高いが優秀とは限らず、間違い検知率が高いことが重要な場合もある。

G検定強化学習対策(概要編)

ディープラーニングの概要

ニューラルネットワークとディープラーニング、既存のニューラルネットワークにおける問題、ディープラーニングのアプローチ、CPU と GPU
ディープラーニングにおけるデータ量

項目レベル
検定出題数少(7問)
検定難易度
Web情報量
過去問、問題集だけで対応可?おおよそOK

ここは流してOK。

多層パーセプトロン、ディープラーニング、オートエンコーダ、積層オートエンコーダ、ハードウェアの進歩、ファインチューニング、ムーアの法則、CPU,GPU,GPGPU、TPU
  • ニューラルネットワークを元にさらに隠れ層を増やしたディープニューラルネットワークが登場。
  • しかし、隠れ層を増やしたことで勾配喪失や計算コストに課題が発生。
  • 計算コストはCPUやGPUの発展に助けられた部分はある。

ディープラーニングの手法

活性化関数、学習率の最適化、更なるテクニック、CNN、RNN
深層強化学習、深層生成モデル

項目レベル
検定出題数極多(46問)
検定難易度
Web情報量
過去問、問題集だけで対応可?不足

「機械学習の具体的手法」に続いて多い部分。
G検定のメインの部分なので当然と言えば当然。
一番調べやすい部分なので学習はし易い。

活性化関数、勾配降下法、学習アルゴリズム、ドロップアウト、初期値の工夫、バッチ正規化、tanh、ReLU、微分で勾配降下、大域最適化、局所最適解、モーメンタム、1990年代、元祖、Adagrad、Adadelta、RMSprop、現在主流、Adam、ランダムにニューロンを無効化、アンサンブル学習になる、正規化、標準化、白色化、散らばっているのを最大値1.0の四角にはめ込む、中心から外れたデカイ丸を小さい丸へ、一部の相関を無くして標準化、正規化層、オーバーフィッティングを抑制
  • 勾配降下法で楽に誤差関数を0に近づける手法が主流になった。
  • 活性化関数のバリエーションを増やすことで勾配を作りやすくした。
  • 局所最適解や鞍点に陥らないような学習アルゴリズムが登場。
  • さらに精度を高めたり、精度が上がることによるオーバーフィッティング抑制など手法自体も微調整される状況となった。
CNNの基本形、福島邦彦のネオコグニトロン、ヤン・ルカンのLeNet、畳み込み、プーリング、全結合層、データ拡張、CNNの発展形、転移学習、AlexNet、GoogLeNet、Skip connection、S細胞層、C細胞層、微分、add-if silent、畳み込み層、プーリング層、誤差逆伝播法、この行列を畳み込み行列と呼んだり、カーネルと呼んだりする、カーネルがシフトしながらその枠内の最大値を採用していく、畳み込み層、プーリング層、N回実施、全結合層、1次元化、要はテストデータの水増し、AlexNet、深層化、GoogLeNet、Inceptionモジュール構成で並列学習で拘束学習、精度向上、ResNet、Skip-Connection、ImageNetで学習済みのモデルが公開、再利用&目的に特化して強化可能
  • 画像による物体認識は長年の課題の一つであり、それが解決しつつある。
  • しかし、それには膨大な学習が必要となるが、公開されているネットワークも多い。
  • 公開ネットワークに層を追加しファインチューニングすることで手早く高性能なネットワークが獲得できる。
RNNの基本形、RNNの課題、LSTM、GRU、Bidirectional RNN、RNN Encoder-Decoder、Attention、入力、出力、前回の出力、RNNの課題、勾配消失問題、時系列データ固有の問題、LSTMで解決、忘却ゲート層、入力ゲート層、出力ゲート層、入力値、前回値によっては記憶セルを忘却、入力値、前回値によっては記憶セルを増減、出力を+-0で切替、忘却ゲート
リセットゲート、更新ゲート、
  • 時間の概念は本来であれば、微分積分の領域であるが、ニューラルネットワークでも過去、未来をデータとして持つことで表現可能
  • LSTMの考え方が重要で、それらの組み合わせ方でRNNの発展形が出来る。
強化学習、深層強化学習、画像生成モデル、生成タスク、Double DQN、Dueling Network、Categorical DQN、Rainbow、AlphaGo、AlphaGoZero、変分オートエンコーダ、Variational AutoEncoder、VAE、オートエンコーダの応用、圧縮ではなく統計分布に変換、平均と分散をパラメータとしている、敵対的生成ネットワーク、GAN、Generative Adversarial Network、2種類のネットワークで構成、ジェネレータ(Generator)、ランダムベクトルから画像生成、ディスクリミネータ(Discriminator)、画像が本物かジェネレータが生成した偽物かを見破る、DCGAN(Deep Convolutional GAN)、生成タスクは大きく2種類、データを元に新しいデータを生成、識別モデルの延長、音声生成、WaveNet、データそのものを生成、生成モデル、画像生成モデル、ディープラーニングを組み合わせて深層生成モデル
  • 答えのない目的を持たせた強化学習とディープラーニングの組み合わせとして深層強化学習が存在。
  • 生成タスクとして、何もないところからデータを生成する深層生成モデルが存在。(画像生成モデル)

強化学習特化記事

G検定強化学習対策(概要編)

ディープラーニングの研究分野

画像認識、自然言語処理、音声処理、ロボティクス (強化学習)、マルチモーダル

項目レベル
検定出題数中(38問)
検定難易度
Web情報量
過去問、問題集だけで対応可?大きく不足

先の「ディープラーニングの手法」が基礎とするならば、こちらは応用側となる。
若干調べにくく、点に差がつくところ。

2020#2ではU-Netの図解が出たらしい。
U-Net以外にFCN、SegNet、SSD、YOLOなどの構成図は一取り見ておいた方が良いだろう。

年々、急速に発展している部分なので、公式テキスト、問題集では直近3年分に関してはフォローできていない。この点を注意して対策する必要がある。

R-CNN(Regional CNN)、高速RCNN(fast RCNN)、FCN、SegNet、関心領域、特徴量、物体検出器、インスタンスセグメンテーション、SVM、分類、バウンディングボックス、特徴量、特徴抽出器、プーリング層、分類層、物体検出器、FCN、SegNet、セマンティックセグメンテーション、インスタンスセグメンテーション
  • 物体を検出することと、物体を認識することは別
  • しかし、「物体を認識」する過程で「物体を検出」している可能性もある
  • 物体検出は矩形のバンディングボックスと画素単位のセマンティックセグメンテーションに分けられる。
  • 双方をくみあわせることでインスタンスセグメンテーションが実現可能
word2vec、SKIPGRAM、CBOW、faseText、ELMo、画像注釈、視覚CNN、言語生成LSTM、ニューラルチューニングマシン、自然言語処理の基礎、王様-男性+女性=女王、SKIPGRAM、CBOW,fastText,2013年、トマス・ミコロフによって開発、訓練データになり単語、Out Of Vocabulary(OOV)への対応、ELMo、アレンインスティチュートによって考え出されたモデル、2層の双方向リカレントネットワークと言語モデルの内部状態を利用、マルチタスク言語モデルを持つ、次文または前文の予測、機械翻訳、構文解析、自然言語推論、視覚CNN,言語生成LSTM、木の枝にすずめが2羽とまっている。入力、出力、コントローラ、読み込みヘッド、書き込みヘッド、メモリ
  • 自然言語処理の基礎はword2vecことベクトル空間モデル、単語埋め込みモデル
  • 発展形のfastText、ELMoはマルチタスク学習が可能
  • 画像注釈はCNNとRNNの連携で実現
WaveNet、強化学習、報酬、行動、状態、モデル学習、経験の模倣(プラン更新)、方策(ポリシー)ベース(UNREAL)、行動・状態価値関数ベース(Q関数ベース)、モデルベース(A3C)
  • やや発展中の領域
  • 強化学習はセルフプレイにより、無限に強化される可能性を持っている。

ディープラーニングの応用に向けて

産業への応用、法律、倫理、現行の議論

項目レべる
検定出題数多(42問)
検定難易度極高
Web情報量
過去問、問題集だけで対応可?激しく不足

恐らくは受験者全員を苦しめた大魔境
テキスト、問題集が完全に無力化される。
Google先生に聞くにしても、適切なキーワードが思い浮かばないこともシバシバ。
この部分のGoogle検索時間を如何に稼ぐかが勝敗を分ける。

2020#2では、ややこの部分の問題数が増えているという情報あり。
70問という話も出ているが、恐らくは50問弱程度の問題数と思われる。

※ 2020#2で、私と同じように受験しながら問題の性質をメモっていた方がいたようで、その方の集計だと、40問弱程度。全体の問題数が減っているので割合としては2020#1と同等。私も2020#1を受けた直後は1/3は法規問題って印象だったが、実際に集計してみると思ったより遥かに少なかった。
2020#1、#2で共通して言えることは、開幕直後に法規問題ラッシュで精神削られるという点。仮に分からなくても、「きっと他の人も分からなくて苦しんでるんだろうな」程度で一旦流してしまった方が良い。ここで精神的に消耗すると後の解かなければならない問題を捌ききれなくなるリスクが上がってしまう。

「道路交通法改正で自動運転レベル3でのスマホ操作を解禁」
「自律型致死兵器システム(LAWS)」
の問題が出たらしい。

無人航空機(ドローン・ラジコン機等)の飛行ルール
は国土交通省のサイトを参照。

航空:無人航空機(ドローン・ラジコン機等)の飛行ルール - 国土交通省
国土交通省のウェブサイトです。政策、報道発表資料、統計情報、各種申請手続きに関する情報などを掲載しています。
ものづくり	不良品検出	"「不良品が発生する頻度が少ない」ことが課題。良品データのみの特徴を抽出し、その差分で不良品を検出。つまり、良品データでなければ不良品という考え方。AutoEncoderと相性が良い。"	画像認識
	予兆検知、予防保全	「作業員の熟練度に依存しない安定した生産」が目的。	画像認識
	バラ積みピッキング	"「ロボットに求められる作業レベルが高度化」が課題。Faster R-CNNによる検知と認識と相性が良い。"	"画像認識強化学習"
モビリティ	自動運転	"内閣官房IT総合戦略室では以下を目標としている。2020年:無人自動走行による移動サービス2022年:高速道路でのトラック隊列走行以下の検討も進められている・自動運転車両の安全基準・交通ルールの在り方・保険を含む責任関係の明確化・国際動向、イノベーションに配慮した制度設計"	画像認識
	ロボットタクシー	自動運転を前提としたロボットタクシーの開発も進められている。	画像認識
医療	診断支援	"ディープラーニングの特徴抽出能力と相性が良い。意思への負担緩和や見落としリスク軽減に期待されている。"	画像認識
	ゲノム解析	"2017年GoogleからDeepVariantが発表。解析は進むが根拠を示すことが困難という課題あり。"	画像認識
	介護	"着衣介助にも利用その他、介護コミュニーケーションや介護初心者へのコーチングにも利用。"	"画像認識強化学習"
インフラ、防犯、監視	メンテナンス効率化	コンクリートひび割れ検出、舗装道路損傷判断、送電線点検などに利用。	画像認識
	建設現場	トンネル切羽、掘削のり面の地質評価に利用。	画像認識
	産業廃棄物	人手不足解消	"画像認識強化学習"
	防犯、監視	パトロール要員の目視の代わりに利用。	画像認識
領域	事例	概要	技術要素
サービス、小売り、飲食店	タクシー需要予測	"人口統計、気象、運行の各種データで予測。抽象的で複雑な特徴を獲得するため、AutoEncoderの技術を使用。(Stacked denoisng AutoEncoder)"	-
	来店者情報	"テナントごとのデータ分析と活用。来店者の属性や行動から原因を把握。"	画像認識
	無人コンビニ	人手不足解消の観点から模索する動きあり。	画像認識
	多様な作業	人手不足解消の観点から双腕型マルチモーダルロボットを用いて、不定形物を扱う複数の作業に対しての取り組みあり。	"画像認識強化学習"
その他	物流	物流画像判別、倉庫運用最適化	画像認識
	農業	"高齢化に伴う離農に課題あり。これの対策として収穫ロボットの研究が進められている。また、農薬散布のピンポイント化による農薬コスト削減の取り組みもある。"	"画像認識強化学習"
	金融	時系列解析系ディープラーニングによる株価予想、不正取域検知が行われている。	画像認識
	学習	"オンライン講義サービスの利用が広まるに伴い、ユーザの効率的な学習サポートの試行が始まる。また、昨今の教育傾向として、「課題解決力」を求めることから「記述式解答」が増加。採点効率向上を狙って感じの認識率を引き上げる取り組みがある。"	"画像認識自然言語音声処理"
	インターネット関連	不適切コメント検知	自然言語
		画像商品検索	画像認識
		レコメンド	音声処理
		出品監視	画像認識
		音声認識	音声処理
		チャットボット	"自然言語音声処理"
AIプロダクトサイクル、AIを使いたいではなく、AIを使う必要があるかをまずは考えるべき。
ブラックボックス化せずプロセスが見えた方が良いなどの要望もあるかもしれない。
「バイ・デザイン」でポジティブサムを狙う
	プライバシー・バイ・デザイン(PbD)
	セキュリティ・バイ・デザイン(SbD)
	バリュー・センシティブ・デザイン
データの利用条件を確認する
	著作権法
	不正競争防止法
	個人情報保護法等
役割と責任を明確にして連携を進める
	認識のずれが後々問題となることも
ディープラーニングを用いる場合の注意点
AI・データの利用に関する契約ガイドライン
	①アセスメント段階、
	②PoC段階、
	③開発段階、
	④追加学習段階
データセットの隔たりに注意
プライバシーに配慮してデータを加工
アルゴリズム
	トレードオフ問題が発生し易い
	・個別性、社会性
	・透明性、セキュリティ
	・プライバシーと利便性
悪用へのセキュリティ対策
	コストが下がるほどセキュリティリスクが増加
	絶対安全な技術は無いと意識
AIに関する知的財産法
データの利用条件を再確認
個人情報を扱う場合、利用目的を出来る限り特定
EU一般データ保護規則(GDPR)
個人情報保護など開発時だけでなく運用時も監視・対策が必要
インセンティブ設計
体制
	クライシスマネジメント(危機管理)
	エスカレーションのしくみ
有事
	ソーシャルメディアの口コミ
	クライシスの規模・状況に応じて機動的に行動
社会と対話
	対応していても伝えて無ければ対応していないのと同じ
	透明性レポート
指針を作成
	AI at google
	Partnership on AI(PAI)
	アシロマAI原則

プロダクトは作ったら終わりではない。
そこから得た教訓を運用保守や次のプロダクト開発へと循環させていくサイクルが重要。

法律問題対策ページ

法律問題対策動画 前後編合体版

ディープラーニングの基礎数学

項目レベル
検定出題数極少(3問)
検定難易度
Web情報量
過去問、問題集だけで対応可?不足

ここは正直スルーでも良いかもしれない。

微分、微分係数の定義、導関数の公式、記法、偏微分、ベクトルの和、行列の和、行列の積、統計学、相関、正の相関、負の相関、強い相関、弱い相関

偏微分、ベクトル、行列、統計、ベイズの定理等を覚えておくと良い。

その他

以下の情報も整理しておく必要がある。

  • フレームワーク
    • Define-by-runタイプ
      • PyTorch
      • chainer
    • Define-and-runタイプ
      • TensorFlow
      • Caffe
  • CIFAR
    • 一般物体認識のベンチマーク用データセット
  • MNIST
    • 手書き数字画像データセット

次にG検定2020#3以降から出てきたやや特殊な問題について。

 

次のページへ

やや特殊な問題達。

コメント

  1. OnlyFans Hack より:

    It’s hard to find educated people about this subject, however, you seem like you know what you’re talking about!
    Thanks

タイトルとURLをコピーしました