【巧妙な罠】データサイエンティスト検定(リテラシーレベル) まとめ【DS検定対策】

【巧妙な罠】データサイエンティスト検定(リテラシーレベル) まとめ【DS検定対策】 データサイエンティスト検定
【巧妙な罠】データサイエンティスト検定(リテラシーレベル) まとめ【DS検定対策】

データサイエンティスト検定(DS検定)の難易度

まずは難易度としてはそれほど難しいものではないです。
2023年2月現在で3回しか実施されていなので今後難易度が変化する可能性はありますが、
スキルチェックリストがベースとなっているため、G検定と比べると試験内容が大きく変化することは考えずらいと思っています。

スキルチェックリスト

合格率は
第一回が66%。
第二回が50%。

私が受けた第三回はまだ不明ですが、
平均点が合格ラインの正答率80%を下回っているので、
第二回の50%と同じか、下手したらそれを下回る合格率になっていると思われます。
※ 予想通り50%を下回り42%でした。その後も50%を下回る合格率なので、40~50%あたりを狙った難易度にしていると予想されます。

DS検定の問題数

全部で90問(今は100問)ですが、3つのカテゴリに分かれます。
公式で公開はされていないと思いますが、
受験結果からの、各カテゴリの出題数を記載しておきます。
(毎回同じとは限らないし、下手したら、人によって違う場合もあり得る)

  • データサイエンス 40問
  • データエンジニアリング 30問
  • ビジネス 20問

配点は5点/問で、450点満点の試験となります。

合格ライン

公式サイトでは、
合格に必要なのは正答率が「80%」と表記されています。

この「約80%」をどう捉えるが悩ましい。
考えらえるパターンは以下。

  • 80%前後の振れ幅があり、80%ピッタリでも不合格があり得る
  • 各カテゴリ毎に足切りがあり得る。

ネット上を調べると80%ピッタリで合格していた人もいたので、
おそらく前者は無いと思って良いでしょう。

となると、後者の足切りの可能性を考えておいた方が良いかもしれないです。

例えば、以下の正答パターンでも正答率80%にはなります。

データサイエンス 40/40
データエンジニアリング 30/30
ビジネス 2/20
合計 72/90

問題はビジネスのカテゴリが正答率10%しかない点。
もし、各カテゴリの正答率が40%を切ったら総合点無関係に不合格ということはあり得るということになります。

ちなみにITパスポートなどはこのパターン。
ITパスポートの例で書くと、以下になります。

  • 各カテゴリが1000点満点で、合計600点が合格ライン。
  • しかし、各カテゴリが300点を下回ると足切り不合格となる。

よって、ある程度満遍なく正答できる状態にしておいた方が安全でしょう。

G検定と比較した場合の難易度

データサイエンス系のDS検定とディープラーニング系のG検定は良く比較されることが多いです。
内容、難易度共に近いためかと思います。

それぞれを比較すると以下になります。

DS検定G検定
時間90分→100分120分
問題数90問→100問191問
必要正答率約80%60%(推測値)
公式テキストだけで対応可能か?可能不可能

私の所感になりますが、DS検定の方が若干難しい気がします。
G検定の方が対策しにくいという性質はあるのですが、
やはり必要正答率の差は大きいです。
G検定は相当間違っても合格ラインに乗る可能性は高いですが。
DS検定は少しの取りこぼしが命運を分けそうです。

DS検定対策

公式テキストと問題集がそれぞれ1冊ずつあります。

最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第3版(通称、白本)
(通称、白本)

https://amzn.to/3YBU0km

徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応 徹底攻略シリーズ
(通称、黒本)

https://amzn.to/3OB0hZo

結論としては、この2冊のみで対策は可能です。
尚、両書籍とも誤植が多いので、それぞれの公式サイトに行って正誤表を確認しておいた方がよいです。
結構、クリティカルな誤植もあるので・・・。
(白本の問題解答にも誤植があるのでご注意を)

模擬問題としては、
白本の巻末に45問、白本購入特典でWebから入手可能な90問。
黒本に各章10問程度の練習問題、巻末に90問。
合計で300問近くあります。
これらを解くだけでもそこそこの正答率には到達します。

しかし、ここに若干のも感じています。

あと、最近は以下の書籍も増えてるようなので、対策強化用に追加しても良いかもしれません。

データサイエンティスト検定[リテラシーレベル] 最強の合格テキスト [徹底解説+良質問題+模試(PDF)]

https://amzn.to/3V8LAjJ

合格対策 データサイエンティスト検定[リテラシーレベル]教科書

Amazon.co.jp

DS検定対策の罠

この手の検定の対策の定石は「問題集を解きまくる」です。
G検定の場合は、「問題集を解きまくる」方式はあまり通用せず、出題者側が視点、論点をずらすなどで、丸暗記してきた受験者を振るいに書けるような出題のされかたでした。(通称、G検定過学習問題。問題集は解けるけど実際の検定問題は解けない現象)

DS検定の場合、この過学習問題は起きにくいと思って良いです。

で、実はここに微妙な罠を感じています。
おそらく、純粋に「問題集を解きまくる」方式のみの対策した場合、ギリギリ80%に届かないような問題設定をされているような気がします。
私の所感だと正答率75%くらいが限界な気がしています。
これはかなり巧妙な罠ではないかと・・・。
つまり、G検定ほどではないけれども、DS検定も見えない形で過学習問題が発生しているということになります。

ただ、DS検定の場合、公式テキストに載っていない内容はほぼ出題されないので、
問題を解くだけでなく、公式テキストをそれなりにまじめに読み込んでいれば、この罠は回避できると思います。
問題集だけで対策するようなことは避けた方が良いでしょう。

DS検定の試験範囲別の勉強方法

結論としては白本の読み込み具体がそのまま正答率に影響すると思ってよいです。

データサイエンス

試験範囲

統計数理基礎、線形代数基礎、微分・積分基礎、集合論基礎、統計情報への正しい理解、データ確認、俯瞰・メタ思考、データ理解、洞察、回帰・分類、評価、推定・検定、グルーピング、性質・関係性の把握、因果推論、サンプリング、データクレンジング、データ加工、特徴量エンジニアリング、方向性定義、軸だし、データ加工、表現・実装技法、意味抽出、時系列分析、機械学習、深層学習、自然言語処理、画像認識、映像認識、音声認識、パターン発見

一般社団法人データサイエンティスト協会(https://www.datascientist.or.jp/dskentei/)

大別すると、以下3つ

  • 基礎数学
  • 機械学習
  • 統計情報の扱い

基礎数学は文系の方はアレルギーが起きるかもしれませんが、それほど難しい問題は出ません。
計算のパターンを覚えてしまえば良いと思います。
機械学習も難しい問題は出ません。しっかり白本を読みこんでいれば問題無いでしょう。
統計情報の扱いは悩ましい問題が多いです。
いわゆる、「最も正しいと思うものを選べ」系である程度、問題慣れしておく必要があります。

データエンジニアリング

試験範囲

システム企画、システム設計、アーキテクチャ設計、クライアント技術、通信技術、データ抽出、データ収集、データ構造の基礎知識、テーブル定義、DWH、分散技術、クラウド、フィルタリング処理、ソート処理、結合処理、前処理、マッピング処理、サンプリング処理、集計処理、変換・演算処理、データ出力、データ展開、データ連携、基礎プログラミング、拡張プログラミング、アルゴリズム、分析プログラム、SQL、ITセキュリティの基礎知識、攻撃と防御手法、暗号化技術、認証、ソース管理、AutoML、MLOps、AIOps

一般社団法人データサイエンティスト協会(https://www.datascientist.or.jp/dskentei/)

大別すると、以下3つ

  • データベース
  • セキュリティ
  • 環境

ITエンジニアであれば、ほぼ問題ない領域になりますが、
私自身はITエンジニアではないので、個人的には苦戦しました。
基本的にはしっかり白本を読みこむことが対策になります。
基本的なSQL、正規化手法、暗号化方式(公開鍵、共通鍵)は押さえておいた方が良いでしょう。

ビジネス

試験範囲

ビジネスマインド、データ・AI倫理、コンプライアンス、契約、MECE、構造化能力、言語化能力、ストーリーライン、ドキュメンテーション、説明能力、AI活用検討、KPI、スコーピング、データ入手、分析アプローチ設計、データ理解、意味合いの抽出・洞察、評価・改善の仕組み、プロジェクト発足、リソースマネジメント、リスクマネジメント

一般社団法人データサイエンティスト協会(https://www.datascientist.or.jp/dskentei/)

先の2つのカテゴリと大きく変わって、社会的な話、マネジメント的な話になります。
大別すると、以下3つ

  • マネジメント
  • 法(主に個人情報保護法)
  • 問題解決

マネジメントは、特定の状況に対してどう対処すべきか、
個人情報保護法匿名加工仮名加工をした際のデータの扱いや範囲、
問題解決は、仮説の設定の仕方、課題の設定、解決方法、表現方法などがあります。
これも基本的には白本の読み込みが対策となります。

まとめ

  • データサイエンティスト検定リテラシーレベルを受けてきた。
  • 受験直後の結果レポートで正答率が分かる。
  • 合格時にさらに詳細なスコアシートが確認できる。
  • 白本、黒本での対策で十分。
    • ただし、問題集に慣らす方式だとギリギリ不合格になるようなラインに難易度設定されてる可能性がある。

最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第3版

https://amzn.to/3YBU0km

徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応 徹底攻略シリーズ

https://amzn.to/3J4AcP2

データサイエンティスト検定[リテラシーレベル] 最強の合格テキスト [徹底解説+良質問題+模試(PDF)]

https://amzn.to/3V8LAjJ

合格対策 データサイエンティスト検定[リテラシーレベル]教科書

Amazon.co.jp

ディープラーニングG検定(ジェネラリスト) 法律・倫理テキスト

https://amzn.to/3MyTqiB

コメント

タイトルとURLをコピーしました