DS検定問題集対策道場(ひたすら過去問ふぅ問題で鍛錬する所一問一答仮)(データサイエンティスト検定リテラシーレベル)

データサイエンティスト検定

DS検定 (データサイエンティスト検定) リテラシーレベル問題集

2023.12.142025.03.18

DS検定リテラシーレベルの問題集を設置。
(DS検定データサイエンティスト検定過去問問題集一問一答あたりのキーワードによる流入が多かったので作ってしまいました…)

一応、データサイエンティストスキルチェックリストver.5をベースにしている。

現状は318問ほど放り込んでいる。
問題は随時追加予定。

尚、どこかの情報商材に問題を丸パクされていると通報があったため、コピー不可の処置を取っています。(HTMLソース参照されたらどうしようも無いのですが・・・)

(問題を解いてこのページに飛んできた場合、解答はこのページの下部に表示されてます。)

まとめ記事

DS検定リテラシーレベルのまとめ記事や解説動画へのリンクはこちら

【巧妙な罠】データサイエンティスト検定(リテラシーレベル) まとめ【DS検定対策】

データサイエンティスト検定リテラシーレベルを受けてきた。受験直後の結果レポートで正答率が分かる。合格時にさらに詳細なスコアシートが確認できる。白本、黒本での対策で十分。ただし、問題集に慣らす方式だとギリギリ不合格になるようなラインに難易度設定されてる可能性がある。

動画とか

【巧妙な罠】データサイエンティスト検定リテラシーレベル解説【DS検定】

【巧妙な罠】データサイエンティスト検定リテラシーレベル解説【DS検定】

データサイエンティスト検定(DS検定)リテラシーレベルの解説。基本的には簡単な検定ではあるが、受けた感じ、巧妙な罠が仕掛けられている感じが・・・。チャンネル登録よろしくお願いします。データサイエンティス...

【これも見直し戦略が重要】データサイエンティスト検定試験画面解説【DS検定】

【これも見直し戦略が重要】データサイエンティスト検定試験画面解説【DS検定】

データサイエンティスト検定(DS検定)リテラシーレベルの試験画面を解決と思いきや見直し戦略の話。チャンネル登録よろしくお願いします。データサイエンティスト検定(DS検定)リテラシーレベルのまとめ記事はこ...

問題集と動画連携解説

本問題集とYoutube動画を連携させた利用方法の解説動画
&
スキルチェックリストベース出題して絨毯爆撃的に知識を付けるとか。

DS検定対策スキルチェックベースで問題つくろう

DS検定のスキルチェックシートをベースに絨毯爆撃的に問題作って解いて慣らしていくための動画。各動画の概要欄のまとめページにリンクされている問題集と連携するといい感じに学習が進むかも？

学習書籍

最短突破　データサイエンティスト検定（リテラシーレベル）公式リファレンスブック　第3版
(通称、白本)

Amazon.co.jp

徹底攻略データサイエンティスト検定問題集［リテラシーレベル］対応徹底攻略シリーズ
(通称、黒本)

Amazon.co.jp

データサイエンティスト検定［リテラシーレベル］　最強の合格テキスト　［徹底解説＋良質問題＋模試（PDF）］

Amazon.co.jp

合格対策データサイエンティスト検定[リテラシーレベル]教科書

Amazon.co.jp

ディープラーニングG検定（ジェネラリスト）　法律・倫理テキスト

Amazon.co.jp

問題

DS検定リテラシーレベルのまとめ記事や解説動画へのリンクはこちら

【巧妙な罠】データサイエンティスト検定(リテラシーレベル) まとめ【DS検定対策】

山本力より:

2024年3月16日 11:18 AM

非階層クラスター分析の問題ですが、あらかじめクラスター数を指定するのが正解なのではないでしょうか？

返信
- KEI より:
  
  2024年3月16日 1:57 PM
  
  ありがとうございます。
  ご指摘の通り、非階層クラスター分析はあらかじめクラスター数を指定します。
  修正します。
  
  返信
スギサキヒロユキより:

2024年3月30日 1:39 AM

60 66 75 80 81 83 88 94 100 の第一四分位　中央値を除いた前半が　60 66 75 80　と偶数個なので　66と75の中間　70.5とすべきではないでしょうか？

返信
- KEI より:
  
  2024年3月30日 3:31 AM
  
  データが9個の場合、間隔は8個。
  4等分で2間隔置きに第一四分位、第二四分位、第三四分位
  60⇔66⇔(Q1:75)⇔80⇔(Q2:81)⇔83⇔(Q3:88)⇔94⇔100
  
  よって、
  第一四分位：75
  第二四分位(中央値)：81
  第三四分位：88
  
  と思ったのですが、
  調べてみると、そもそも四分位の算出はいろいろバリエーションがありそうです。
  私の算出方法はQ0,Q4包括するパターンで、
  スギサキヒロユキさんはQ0,Q4排他するパターンのようです。
  これ以外にもいろいろありそうなのですが、ちょっと調べきれませんでした。
  
  Excelなどが分かりやすく、以下2種類のようです。
  QUARTILE.INC→Q0,Q4包括パターン
  QUARTILE.EXC→Q0,Q4排他パターン
  
  これはおそらくパーセンタイルでも発生する事象です。
  
  DS検定としてはどちらにすべきはわかりません。
  包括or排他と明示してくれているか、選択肢から察するか、そもそもこれに関する計算問題は出ない可能性があります。
  
  返信
  - KEI より:
    
    2024年3月30日 5:51 AM
    
    なかなか包括的な説明も見つからないのですが、
    Wikipedia(英語)のQuartileが一番包括的な感じです。
    https://en.wikipedia.org/wiki/Quartile
    
    私のイメージはこの中のmethod 3に該当します。
    PythonのNumPy,Pandasなどはこのページの説明だとmethod 3のようです。
    Rはmethod 2ではありますが、これも中央値包括なので、今回に関しては類似手法に該当します。
    
    返信
    - KEI より:
      
      2024年3月30日 7:14 AM
      
      実際に計算させてみると、
      Wikipedia上の情報でmethod 3と書かれているExcelのQUARTILE.INC、PythonのNumPy,Pandasはmethod 2の振る舞いをしますね。
      Juliaもmethod 2です。
      MATLAB、Scilabがmethod 3の振る舞いをしました。
      
      返信
りかより:

2024年6月5日 8:38 AM

MAEを計算させる問題の解答がMSEになっています。

返信
- KEI より:
  
  2024年6月5日 9:47 AM
  
  ありがとうございます。
  修正しました。
  
  返信
鋼鉄の戦士より:

2024年11月1日 8:37 AM

協調フィルタリングとコンテンツベースフィルタリングの説明逆な気がします。

返信
- KEI より:
  
  2024年11月1日 2:27 PM
  
  ありがとうございます。
  修正しました。
  
  正解選択肢の内容が間違ってますね。
  逆というか、協調フィルタリング側が間違っている状態でした。
  コンテンツベースの方も間違っているように見えますが、
  「ユーザーの過去の行動や好み」もアイテムの属性であり、意図的にアイテムやコンテンツを選択肢に記載しない問題にしたため、
  私自身が混乱してしまっていたようです・・・。
  
  回答後の説明文はあっている状態でした。
  
  返信
鋼鉄の戦士より:

2024年11月1日 12:56 PM

画像フレームレートは動画のフレームレート(fps)のことでしょうか？

返信
- KEI より:
  
  2024年11月1日 2:44 PM
  
  はい。
  一般的な動画のfpsに近いものと思ってもらってOKです。
  
  ※以下、たぶんDS検定では聞かれないと思いますが念のため…
  
  画像フレームレートという表現ですが、世間一般の表現ではありません。
  動画関連の処理も結局は画像処理であり、画像処理の段階では動画とは見なしていない場合の文脈で出てきやすいです。
  (物体識別、物体検出、姿勢推定等)
  注意点としては、1秒間に処理できる画像の数であって、解析対象の動画fpsと一致しないこともある点です。
  一定周期で間引いたり、リアルタイム性が求められ且つ処理が間に合わないことがはっきりしている場合は、ベストエフォートで処理されるため、周期性がないこともあります。
  
  返信
Ken より:

2024年11月26日 2:48 PM

このサイトでいつも勉強させてもらっています。
１箇所、気になる箇所がありますので、ご確認いただけませんでしょうか。

【問題】
ある都市の住宅価格データの分析で、「広さ」の特徴に注目した場合、中央値のデータ活用の利点について正しい選択肢を回答する問題

【気になる点】
正解は「中央値は外れ値の影響を受けにくい・・・データのゆがみが軽減され、妥当な特徴を把握できる」なのですが、「×」となっています。解説では、これが正解とかいてあるので、単純に正解設定がずれているのかもしれません。ご確認お願いします。

返信
- KEI より:
  
  2024年11月26日 6:45 PM
  
  ありがとうございます。
  ご指摘の通り、解説側が正しく、選択肢側の設定がずれていました。
  ご認識の解釈で問題ありません。
  
  選択肢の正解項目は修正しました。
  
  返信
さいとうですより:

2024年12月25日 2:16 PM

既にどなたかが記述していましたらすみません。
”分散分析は３つ以上の群の平均値の差の比較”ではなく、２群以上で適用可能ではないでしょうか？スチューデントt検定（独立標本）は２群の1WAY-ANOVAと等価と記憶しています。また、対応２標本のt検定があり、これは2WAY-ANOVAの特殊型と記憶していますが、いかがでしょうか？

返信
- KEI より:
  
  2024年12月25日 4:23 PM
  
  おっしゃる通りだと思います。
  
  少し補足させていただくと、ここは追及しだすと結構複雑で、（カテゴライズの話と条件次第では計算過程が一致してしまう話）
  DS検定の範囲としては、以下記載の「主な用途」に着目した方が適切だと思っています。
  
  計算方法が一致するという理屈を持ってきてしまうと、
  おそらく手法のカテゴライズを無視したものとなってしまうため、
  t検定と分散分析は分けておいた方が良いと思っています。
  
  ■ t検定
  
  ◇ スチューデントt検定（独立2標本t検定）
  ・2つの独立したグループの平均値を比較する。
  ・例: AクラスとBクラスのテストの平均点を比較する。
  ・主な用途: 2群間の平均値の差の検定。
  
  ◇ 対応のあるt検定（ペアt検定）
  ・同じ被験者に対して2つの条件を比較する。
  ・例: ダイエット前後の体重を比較する。
  ・主な用途: 同一被験者の2条件間の平均値の差の検定。
  
  ◇ 1標本t検定
  ・1つのグループの平均値が既知の値と異なるかどうかを検定する。
  ・例: あるクラスの平均点が全国平均と異なるかどうかを検定する。
  ・主な用途: 1群の平均値と既知の値の差の検定。
  
  ■ 分散分析（ANOVA）
  
  ◇ 1WAY-ANOVA
  ・一つの独立変数（因子）を持つ分散分析。
  ・例: 異なる肥料が植物の成長に与える影響を調べる。
  ・主な用途: 3群以上の平均値の差の検定。
  
  ◇ 2WAY-ANOVA
  ・二つの独立変数（因子）を持つ分散分析。
  ・例: 肥料の種類と日照時間が植物の成長に与える影響を同時に調べる。
  ・主な用途: 複数の因子が従属変数に与える影響の検定。
  
  返信
  - さいとうですより:
    
    2024年12月26日 7:36 AM
    
    ご回答ありがとうございました。
    なるほど、DS検定用の対策が必要そうですね。勉強になります。
    
    返信
いつも大変お世話になってますより:

2025年3月4日 8:54 PM

ある新しい音楽ストリーミングサービスが〜
で始まる問題において
唐突に「問」の文字が入っている。

返信
- KEI より:
  
  2025年3月4日 9:20 PM
  
  ありがとうございます。
  修正しました。
  
  返信
いつも大変お世話になってますより:

2025年3月13日 8:18 AM

LLMを利用して某システムのテストデータを作成したい
の設問で
選択肢①の解説
むしろ〜であるべきところ
もしろ〜となっている

返信
- KEI より:
  
  2025年3月13日 2:09 PM
  
  ありがとうございます。
  修正しました。
  
  返信
いつも大変お世話になってますより:

2025年3月16日 12:54 PM

データの散布図を作成する際
における縦軸に要因、横軸に結果が逆ではないでしょうか。

返信
- KEI より:
  
  2025年3月16日 9:13 PM
  
  どうもです。確認しました。
  確かに逆でした・・・。
  
  返信