【巧妙な罠】データサイエンティスト検定(リテラシーレベル) まとめ【DS検定対策】

【巧妙な罠】データサイエンティスト検定(リテラシーレベル) まとめ【DS検定対策】 データサイエンティスト検定
【巧妙な罠】データサイエンティスト検定(リテラシーレベル) まとめ【DS検定対策】

はじめに

2022年11月15日(火) ~ 2022年12月5日(月)
で行われたデータサイエンティスト検定(通称、DS検定)を受験してきました。

結果としては無事合格!
(まぁ不合格でも、それはそれで面白そうだから記事としては書こうかと思ってましたが)

いろいろ気付いた点もあるので、対策のまとめ記事を書こうと思います。

類似検定

データサイエンスでなく、ディープラーニングの検定としてG検定というものがあります。
それについても、記事にしているので興味ある方はどうぞ。

あと、AI実装検定B級も

そしてAI実装検定A級

過去問っぽい問題集とか

やたらと「DS検定 データサイエンティスト検定 過去問 問題集 一問一答」あたりのキーワードによる流入が多いので、期待に応じて問題集作ってみました。
問題数は随時増やしていきます。

DS検定(データサイエンティスト検定)リテラシーレベル問題集(ひたすら過去問ふぅ問題で鍛錬する所 一問一答 仮)

動画とか

【巧妙な罠】データサイエンティスト検定リテラシーレベル解説【DS検定】

【これも見直し戦略が重要】データサイエンティスト検定試験画面解説【DS検定】

入門 数値解析シリーズ

【入門】行列の存在意義【数値解析】G検定、DS検定で行列嫌いの方々向け
ベクトル、行列、連立方程式、線形代数、数値解析、逆行列、掃き出し法

【入門】線形代数の基礎 前編【数値解析】G検定、DS検定で行列嫌いの方々向け
ベクトル、行列、線形代数、数値解析、内積、余弦定理、三角比の基本公式

【入門】線形代数の基礎 後編【数値解析】G検定、DS検定で行列嫌いの方々向け。ニューラルネットワーク、畳み込み、フーリエ変換も実は・・・。
ベクトル、行列、線形代数、数値解析、内積、連立方程式、ニューラルネットワーク、畳み込み、フーリエ変換、逆フーリエ変換

【入門】ベクトル行列演算(MATLAB,Python(NumPy))【数値解析】G検定、DS検定で行列嫌いの方々向け。ツールに任せれば一撃で解決!

試験画面解説

こちらで試験画面について解説してます。
うろ覚えで書いてるので細部は間違ってるかも。
見直し戦略についても書いてます。

DS検定とは

データサイエンティスト協会が年一回(今後は二回、三回と増えていく?)開催しているデータサイエンティストのスキルを測るための検定です。
データサイエンティスト協会が定義しているデータサイエンティストのレベルは以下4段階。

  • アシスタントデータサイエンティスト
    • 見習いレベル
  • アソシエートデータサイエンティスト
    • 独り立ちレベル
  • フルデータサイエンティスト
    • 棟梁レベル
  • シニアデータサイエンティスト
    • 業界を代表するレベル

2023年2月現在のDS検定は、リテラシーレベルの一つだけで、
これは上記のアシスタントデータサイエンティストのレベルに到達しているかを確認するための検定になります。

公式サイトでは、スキルチェックリストがExcelファイルで公開されており、
その中の「必須スキル」に〇が付いているのが、リテラシーレベルで求められるスキルとなります。

データサイエンティストスキルチェックExce、基礎数学、統計数理基礎、順列や組合せの式 nPr, nCr を理解し、適切に使い分けることができる、確率に関する基本的な概念の意味を説明できる(確率、条件付き確率、期待値、独立など)、スキルチェックリスト 2021年版 <データサイエンス力>、必須スキル、スキルカテゴリ、スキルレベル、サブカテゴリ、チェック項目

※ 2024年6月の試験(第7回)からはスキルチェックリスト ver.5に代わるので注意

データサイエンティスト検定(DS検定)の位置づけ

経済産業省がオブザーバーとなっている、デジタル人材育成を目的としたデジタルリテラシー協議会というものがあり、
そこでデジタルリテラシーDi-Lite(ディーライト)について語られています。

詳細説明は割愛しますが、AI、データサイエンス、ITの3つの分野を横断するような人材が求められているということになります。

DS検定はこの中で数理・データサイエンスの領域のリテラシーを保有していることを証明する検定という位置づけのようです。

「Di-Lite 」とは、「デジタルを使う人材」であるために、全てのビジネスパーソンが、 共通して身につけるべきデジタルリテラシー範囲です。 「Di-Lite」は現在、「ITソフトウェア領域」「数理・データサイエンス領域」 「AI・ディープラーニング領域」の3領域として定義され、その学習すべき範囲として、 「ITパスポート試験」「G 検定」「データサイエンティスト検定」の 3つの試験のシラバス範囲が推奨されています。

データサイエンティスト検定(DS検定)の概要

名称データサイエンティスト検定(DS検定)
試験日年2回、6月頃と11月頃、但し、その年によって変動あり
受験方式CBT方式(受験日時と会場を選べる)https://cbt-s.com/examinee/testcenter/?type=cbt
受験費用一般10,000円、学生5,000円
受験資格なし
試験形式4択問題 90問 → 2024年6月からは100問
試験時間90分 → 2024年6月からは100分
合格ライン正答率80%
第1回合格率2021年9月 受検者数:約1,400名 合格者数:927名 合格率:約66%
第2回合格率2022年6月実績 受験者数:約2,900名 合格者数:1,453名 合格率:約50%
第3回合格率2022年11月 受験者数:約26,00名 合格者数:1088名 合格率42%
第4回合格率2023年6月 受験者数:約3,050名 合格者数:1,347名 合格率44%
第5回合格率2023年11月 受験者数:約約約3,750名 合格者数:1,427名 合格率38%
第6回合格率2024年3月 受験者数:約2,500名 合格者数:1,089名 合格率44%
合格発表試験の2,3か月後(正答率が記載された結果レポートはその場で印刷)
試験範囲(配分)データサイエンス(44.4%)、データエンジニアリング(33.3%)、ビジネス(22.2%)
電卓持ち込み不可、但し試験画面上に電卓あり。
メモ用紙ボールペンとメモ用紙が1枚配られる。

特徴としてはCBT(Computer Based Testing)方式の試験。
ただし、自宅受験ではなく、会場のPCで受験します。
会場は全国のテストセンターやパソコン教室になります。
以下のURLから会場を確認できます。

しかし、ここの記載されているからと言って必ず会場になる保証はないです。
また、会場になっていたとしても希望日に受験可能になっていなかったり
予約が埋まっている可能性もあります。
受験申込時に選択できるので、そこで正確な情報を確認した方が良いです。
私は、ものすごく近くに会場があり、一瞬喜んだのですが、
受験申込時に該当会場が出てこず、ちょっとガッカリしました。

受験後は、データサイエンス、データエンジニアリング、ビジネスのそれぞれの正答率とトータルの正答率がプリントアウトされます。
この段階で正答率が80%を上回っていれば、おおよそ合格と思ってよいでしょう。
ただし、詳細は後述しますが、条件によっては80%を超えても不合格のパターンはあり得るかもしれません。
各カテゴリが満遍なく80%超えていればかなり安心して良いと思います。

DS検定受験後の結果レポート

このような結果レポートを受験後すぐにプリントアウトされて渡されます。
CBT(Computer Based Testing)方式ならではの対応です。

DS検定結果レポート、氏名、ログインID、受験者ID、受験日、試験名:データサイエンティスト検定リテラシーレベル、試験に於ける全体及び各分野ごとの結果は以下の通りです。総合評価、総合スコア、82.2%、1.データサイエンス、2.データエンジニアリング、3.ビジネス、正答率、このレポートは紛失しないよう大切に保管してください。、本スコアは参考評価です。本検定の合否に関してはXXXX年X月上旬以降にマイページ(本試験を申し込んだウェブサイト)上で閲覧可能になります。詳しくは協会ホームページでご確認ください。

合格ラインが80%に対して、私の正答率82.2%・・・。
つまり結構ギリギリだったのです・・・。
(あと3問間違っていたらおそらく80%を切っていた)

合格通知

そして、翌年2月に受験申込時に登録したメールアドレス宛に合格通知が届きました。

データサイエンティスト検定 20XX年XX~XX月試験 受験者のみなさま

お世話になっております。
データサイエンティスト協会 事務局です。

本日X月X日(X)XX時に合否結果を通知いたしました。
受験者マイページよりご確認いただけます。

受験者マイページ:https://cbt-s.com/examinee/examination/datascientist.html
※合否の確認方法はこちらをご確認ください:https://cbt-s.com/files/examination/16629635221.pdf

◆合格の方
受験者マイページより、以下3点取得いただけます。
・オープンバッジ(※)
・合格証明書(PDFダウンロードのみで郵送は行っておりません)
・スコアシート
※本メールの後に、OpenBadge<XXXXXXXXXXX@XXXXXXXXXXX.XX.XX>より
 「オープンバッジ授与のお知らせ」というタイトルのメールが届きます。
 メールに記載の手順に沿って、オープンバッジを受領ください。

◆不合格の方
受験者マイページより、スコアシートが取得いただけます。

□受験者マイページ・合格証明書・スコアシートなどに関するお問い合わせ□
受験サポートセンター
TEL:XX-XXXX-XXXX (平日9:30~17:30)
受験に関するお問い合わせ
https://hw.cbt-s.info/inquiry/user/inquiry/2

□オープンバッジに関するお問い合わせ□
一般社団法人データサイエンティスト協会
HP:https://www.datascientist.or.jp/dskentei/

一般社団法人データサイエンティスト協会 合格メール通知

合格証名書とオープンバッジ

合格したので、当然、合格証明書も届きます。
紙媒体ではなくpdfです。紙媒体での発行はしていないようです。

DS検定合格証明書、データサイエンティスト検定リテラシーレベル★、認定番号、認定日、一般社団法人データサイエンティスト協会は上記の者がXXXX年度データサイエンティスト検定リテラシーレベルに合格したことを証明する、代表理事

あと、オープンバッジというものも届きます。
事前のオープンバッジウォレットを作成しておく必要があります。
私の場合は、G検定でオープンバッジウォレットを作っていたので、そこにそのまま届きました。

オープンバッジは、世界共通の技術標準規格に沿って発行されるデジタル証明・認証です。物ではなく、データとして授与され、自分専用の「オープンバッジウォレット」で一元管理されます。授与されたオープンバッジは、SNSでの共有ができるほか、後述する資格に対するオープンバッジであれば、その内容証明としても使用されます。
また、ブロックチェーン技術を活用することで、偽造や改ざんが困難な信頼性のある証明書として使用される事例もあります。たとえば、講座や研修、資格試験などの修了証明として活用することで、その人のスキルを可視化することができます。
デジタル推進委員等に任命された方には、任命状と共に、このブロックチェーン技術を活用したオープンバッジを発行・授与致します。

デジタル庁(https://www.digital.go.jp/policies/digital_promotion_staff_openbadge/)

ブロックチェーン技術により、信頼性のある証明書となり得るらしいですが、今のところこれと言った恩恵は無さそうです。
そのうち何か良いことがあるかも?(よくわからん)

こんな電子バッジが届きます。

DS検定オープンバッジ、発行者、一般社団法人データサイエンティスト協会、発行日、受領者

スコアシート

そして、詳細なスコアシートが受験申込時のサイトから参照できます。

DS検定スコアシート、スコアシート、データサイエンティスト検定リテラシーレベル★、氏名、受験日、サマリー、総合計得点、370、データサイエンス、180、データエンジニアリング、110、ビジネス、80、合格、スコア詳細、カテゴリ、あなたの正答率、平均正答率

データサイエンティスト検定(DS検定)の難易度

まずは難易度としてはそれほど難しいものではないです。
2023年2月現在で3回しか実施されていなので今後難易度が変化する可能性はありますが、
スキルチェックリストがベースとなっているため、G検定と比べると試験内容が大きく変化することは考えずらいと思っています。

スキルチェックリスト

合格率は
第一回が66%。
第二回が50%。

私が受けた第三回はまだ不明ですが、
平均点が合格ラインの正答率80%を下回っているので、
第二回の50%と同じか、下手したらそれを下回る合格率になっていると思われます。
※ 予想通り50%を下回り42%でした。その後も50%を下回る合格率なので、40~50%あたりを狙った難易度にしていると予想されます。

DS検定の問題数

全部で90問(今は100問)ですが、3つのカテゴリに分かれます。
公式で公開はされていないと思いますが、
受験結果からの、各カテゴリの出題数を記載しておきます。
(毎回同じとは限らないし、下手したら、人によって違う場合もあり得る)

  • データサイエンス 40問
  • データエンジニアリング 30問
  • ビジネス 20問

配点は5点/問で、450点満点の試験となります。

合格ライン

公式サイトでは、
合格に必要なのは正答率が「80%」と表記されています。

この「約80%」をどう捉えるが悩ましい。
考えらえるパターンは以下。

  • 80%前後の振れ幅があり、80%ピッタリでも不合格があり得る
  • 各カテゴリ毎に足切りがあり得る。

ネット上を調べると80%ピッタリで合格していた人もいたので、
おそらく前者は無いと思って良いでしょう。

となると、後者の足切りの可能性を考えておいた方が良いかもしれないです。

例えば、以下の正答パターンでも正答率80%にはなります。

データサイエンス 40/40
データエンジニアリング 30/30
ビジネス 2/20
合計 72/90

問題はビジネスのカテゴリが正答率10%しかない点。
もし、各カテゴリの正答率が40%を切ったら総合点無関係に不合格ということはあり得るということになります。

ちなみにITパスポートなどはこのパターン。
ITパスポートの例で書くと、以下になります。

  • 各カテゴリが1000点満点で、合計600点が合格ライン。
  • しかし、各カテゴリが300点を下回ると足切り不合格となる。

よって、ある程度満遍なく正答できる状態にしておいた方が安全でしょう。

G検定と比較した場合の難易度

データサイエンス系のDS検定とディープラーニング系のG検定は良く比較されることが多いです。
内容、難易度共に近いためかと思います。

それぞれを比較すると以下になります。

DS検定G検定
時間90分→100分120分
問題数90問→100問191問
必要正答率約80%60%(推測値)
公式テキストだけで対応可能か?可能不可能

私の所感になりますが、DS検定の方が若干難しい気がします。
G検定の方が対策しにくいという性質はあるのですが、
やはり必要正答率の差は大きいです。
G検定は相当間違っても合格ラインに乗る可能性は高いですが。
DS検定は少しの取りこぼしが命運を分けそうです。

DS検定対策

公式テキストと問題集がそれぞれ1冊ずつあります。

最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第3版(通称、白本)
(通称、白本)

Amazon.co.jp

徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応 徹底攻略シリーズ
(通称、黒本)

Amazon.co.jp

結論としては、この2冊のみで対策は可能です。
尚、両書籍とも誤植が多いので、それぞれの公式サイトに行って正誤表を確認しておいた方がよいです。
結構、クリティカルな誤植もあるので・・・。
(白本の問題解答にも誤植があるのでご注意を)

模擬問題としては、
白本の巻末に45問、白本購入特典でWebから入手可能な90問。
黒本に各章10問程度の練習問題、巻末に90問。
合計で300問近くあります。
これらを解くだけでもそこそこの正答率には到達します。

しかし、ここに若干のも感じています。

あと、最近は以下の書籍も増えてるようなので、対策強化用に追加しても良いかもしれません。

データサイエンティスト検定[リテラシーレベル] 最強の合格テキスト [徹底解説+良質問題+模試(PDF)]

Amazon.co.jp

合格対策 データサイエンティスト検定[リテラシーレベル]教科書

合格対策 データサイエンティスト検定[リテラシーレベル]教科書
「データサイエンティスト検定 リテラシーレベル」の対策書です(スキルチェックリスト ver.4対応)。 試験では非常に幅広い知識が求められ、暗記だけでは解けない問題も多数出題されます。本書では、初学者の方でもスムーズに学習できるように図を豊...

DS検定対策の罠

この手の検定の対策の定石は「問題集を解きまくる」です。
G検定の場合は、「問題集を解きまくる」方式はあまり通用せず、出題者側が視点、論点をずらすなどで、丸暗記してきた受験者を振るいに書けるような出題のされかたでした。(通称、G検定過学習問題。問題集は解けるけど実際の検定問題は解けない現象)

DS検定の場合、この過学習問題は起きにくいと思って良いです。

で、実はここに微妙な罠を感じています。
おそらく、純粋に「問題集を解きまくる」方式のみの対策した場合、ギリギリ80%に届かないような問題設定をされているような気がします。
私の所感だと正答率75%くらいが限界な気がしています。
これはかなり巧妙な罠ではないかと・・・。
つまり、G検定ほどではないけれども、DS検定も見えない形で過学習問題が発生しているということになります。

ただ、DS検定の場合、公式テキストに載っていない内容はほぼ出題されないので、
問題を解くだけでなく、公式テキストをそれなりにまじめに読み込んでいれば、この罠は回避できると思います。
問題集だけで対策するようなことは避けた方が良いでしょう。

DS検定の試験範囲別の勉強方法

結論としては白本の読み込み具体がそのまま正答率に影響すると思ってよいです。

データサイエンス

試験範囲

統計数理基礎、線形代数基礎、微分・積分基礎、集合論基礎、統計情報への正しい理解、データ確認、俯瞰・メタ思考、データ理解、洞察、回帰・分類、評価、推定・検定、グルーピング、性質・関係性の把握、因果推論、サンプリング、データクレンジング、データ加工、特徴量エンジニアリング、方向性定義、軸だし、データ加工、表現・実装技法、意味抽出、時系列分析、機械学習、深層学習、自然言語処理、画像認識、映像認識、音声認識、パターン発見

一般社団法人データサイエンティスト協会(https://www.datascientist.or.jp/dskentei/)

大別すると、以下3つ

  • 基礎数学
  • 機械学習
  • 統計情報の扱い

基礎数学は文系の方はアレルギーが起きるかもしれませんが、それほど難しい問題は出ません。
計算のパターンを覚えてしまえば良いと思います。
機械学習も難しい問題は出ません。しっかり白本を読みこんでいれば問題無いでしょう。
統計情報の扱いは悩ましい問題が多いです。
いわゆる、「最も正しいと思うものを選べ」系である程度、問題慣れしておく必要があります。

データエンジニアリング

試験範囲

システム企画、システム設計、アーキテクチャ設計、クライアント技術、通信技術、データ抽出、データ収集、データ構造の基礎知識、テーブル定義、DWH、分散技術、クラウド、フィルタリング処理、ソート処理、結合処理、前処理、マッピング処理、サンプリング処理、集計処理、変換・演算処理、データ出力、データ展開、データ連携、基礎プログラミング、拡張プログラミング、アルゴリズム、分析プログラム、SQL、ITセキュリティの基礎知識、攻撃と防御手法、暗号化技術、認証、ソース管理、AutoML、MLOps、AIOps

一般社団法人データサイエンティスト協会(https://www.datascientist.or.jp/dskentei/)

大別すると、以下3つ

  • データベース
  • セキュリティ
  • 環境

ITエンジニアであれば、ほぼ問題ない領域になりますが、
私自身はITエンジニアではないので、個人的には苦戦しました。
基本的にはしっかり白本を読みこむことが対策になります。
基本的なSQL、正規化手法、暗号化方式(公開鍵、共通鍵)は押さえておいた方が良いでしょう。

ビジネス

試験範囲

ビジネスマインド、データ・AI倫理、コンプライアンス、契約、MECE、構造化能力、言語化能力、ストーリーライン、ドキュメンテーション、説明能力、AI活用検討、KPI、スコーピング、データ入手、分析アプローチ設計、データ理解、意味合いの抽出・洞察、評価・改善の仕組み、プロジェクト発足、リソースマネジメント、リスクマネジメント

一般社団法人データサイエンティスト協会(https://www.datascientist.or.jp/dskentei/)

先の2つのカテゴリと大きく変わって、社会的な話、マネジメント的な話になります。
大別すると、以下3つ

  • マネジメント
  • 法(主に個人情報保護法)
  • 問題解決

マネジメントは、特定の状況に対してどう対処すべきか、
個人情報保護法匿名加工仮名加工をした際のデータの扱いや範囲、
問題解決は、仮説の設定の仕方、課題の設定、解決方法、表現方法などがあります。
これも基本的には白本の読み込みが対策となります。

まとめ

  • データサイエンティスト検定リテラシーレベルを受けてきた。
  • 受験直後の結果レポートで正答率が分かる。
  • 合格時にさらに詳細なスコアシートが確認できる。
  • 白本、黒本での対策で十分。
    • ただし、問題集に慣らす方式だとギリギリ不合格になるようなラインに難易度設定されてる可能性がある。

最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第3版

Amazon.co.jp

徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応 徹底攻略シリーズ

Amazon.co.jp

データサイエンティスト検定[リテラシーレベル] 最強の合格テキスト [徹底解説+良質問題+模試(PDF)]

Amazon.co.jp

合格対策 データサイエンティスト検定[リテラシーレベル]教科書

Amazon.co.jp

ディープラーニングG検定(ジェネラリスト) 法律・倫理テキスト

Amazon.co.jp

コメント

  1. いつも大変お世話になってます より:

    過去問ふうでお世話になってるので
    こちらの記事にも足を伸ばしました。
    だいぶ前に書かれているので致し方ないですが
    スキルチェックリストver5は2024年11月試験から適用です。

    こちらの方の過去問ふぅのおかげで
    G検定
    generative ai test
    合格の一押しになったと思いますので
    感謝しつつコメントさせていただきます。

    • KEI より:

      情報ありがとうございます。
      どうも2024年6月と書くところをtypoして2025年6月と記載してしまっていたようです。
      第7回から切り替わっているのも確認したので20224年6月の段階でver5のようです。

      修正しました。

タイトルとURLをコピーしました