DS検定 問題集(ひたすら過去問ふぅ問題で鍛錬する所 一問一答 仮)(データサイエンティスト検定リテラシーレベル)

DS検定 (データサイエンティスト検定) リテラシーレベル 問題集 データサイエンティスト検定
DS検定 (データサイエンティスト検定) リテラシーレベル 問題集

DS検定リテラシーレベルの問題集を設置。
(DS検定 データサイエンティスト検定 過去問 問題集 一問一答あたりのキーワードによる流入が多かったので作ってしまいました…)

現状は318問ほど放り込んでいる。
問題は随時追加予定。
(問題を解いてこのページに飛んできた場合、解答はこのページの下部に表示されてます。)

まとめ記事

DS検定リテラシーレベルのまとめ記事や解説動画へのリンクはこちら

動画とか

【巧妙な罠】データサイエンティスト検定リテラシーレベル解説【DS検定】

【これも見直し戦略が重要】データサイエンティスト検定試験画面解説【DS検定】

問題集と動画連携解説

本問題集とYoutube動画を連携させた利用方法の解説動画
&
スキルチェックリストベース出題して絨毯爆撃的に知識を付けるとか。

学習書籍

最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第3版
(通称、白本)

徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応 徹底攻略シリーズ
(通称、黒本)

https://amzn.to/484ZM0E

データサイエンティスト検定[リテラシーレベル] 最強の合格テキスト [徹底解説+良質問題+模試(PDF)]

https://amzn.to/3V8LAjJ

合格対策 データサイエンティスト検定[リテラシーレベル]教科書

Amazon.co.jp

ディープラーニングG検定(ジェネラリスト) 法律・倫理テキスト

https://amzn.to/3MyTqiB

問題

DS検定リテラシーレベル

ある機械学習モデルが二値分類タスクにおいて以下の混同行列(Confusion Matrix)を持っている。

  予測 Positive 予測 Negative
実際 Positive 80 20
実際 Negative 10 90

この混同行列を用いて、特異度(Specificity)を計算した場合、最も近い値はどれか?

DS検定リテラシーレベルのまとめ記事や解説動画へのリンクはこちら

コメント

  1. 山本力 より:

    非階層クラスター分析の問題ですが、あらかじめクラスター数を指定するのが正解なのではないでしょうか?

    • KEI より:

      ありがとうございます。
      ご指摘の通り、非階層クラスター分析はあらかじめクラスター数を指定します。
      修正します。

  2. スギサキヒロユキ より:

    60 66 75 80 81 83 88 94 100 の第一四分位 中央値を除いた前半が 60 66 75 80 と偶数個なので 66と75の中間 70.5とすべきではないでしょうか?

    • KEI より:

      データが9個の場合、間隔は8個。
      4等分で2間隔置きに第一四分位、第二四分位、第三四分位
      60⇔66⇔(Q1:75)⇔80⇔(Q2:81)⇔83⇔(Q3:88)⇔94⇔100

      よって、
      第一四分位:75
      第二四分位(中央値):81
      第三四分位:88

      と思ったのですが、
      調べてみると、そもそも四分位の算出はいろいろバリエーションがありそうです。
      私の算出方法はQ0,Q4包括するパターンで、
      スギサキヒロユキさんはQ0,Q4排他するパターンのようです。
      これ以外にもいろいろありそうなのですが、ちょっと調べきれませんでした。

      Excelなどが分かりやすく、以下2種類のようです。
      QUARTILE.INC→Q0,Q4包括パターン
      QUARTILE.EXC→Q0,Q4排他パターン

      これはおそらくパーセンタイルでも発生する事象です。

      DS検定としてはどちらにすべきはわかりません。
      包括or排他と明示してくれているか、選択肢から察するか、そもそもこれに関する計算問題は出ない可能性があります。

      • KEI より:

        なかなか包括的な説明も見つからないのですが、
        Wikipedia(英語)のQuartileが一番包括的な感じです。
        https://en.wikipedia.org/wiki/Quartile

        私のイメージはこの中のmethod 3に該当します。
        PythonのNumPy,Pandasなどはこのページの説明だとmethod 3のようです。
        Rはmethod 2ではありますが、これも中央値包括なので、今回に関しては類似手法に該当します。

        • KEI より:

          実際に計算させてみると、
          Wikipedia上の情報でmethod 3と書かれているExcelのQUARTILE.INC、PythonのNumPy,Pandasはmethod 2の振る舞いをしますね。
          Juliaもmethod 2です。
          MATLAB、Scilabがmethod 3の振る舞いをしました。

  3. りか より:

    MAEを計算させる問題の解答がMSEになっています。

  4. 鋼鉄の戦士 より:

    協調フィルタリングとコンテンツベースフィルタリングの説明逆な気がします。

    • KEI より:

      ありがとうございます。
      修正しました。

      正解選択肢の内容が間違ってますね。
      逆というか、協調フィルタリング側が間違っている状態でした。
      コンテンツベースの方も間違っているように見えますが、
      「ユーザーの過去の行動や好み」もアイテムの属性であり、意図的にアイテムやコンテンツを選択肢に記載しない問題にしたため、
      私自身が混乱してしまっていたようです・・・。

      回答後の説明文はあっている状態でした。

  5. 鋼鉄の戦士 より:

    画像フレームレートは動画のフレームレート(fps)のことでしょうか?

    • KEI より:

      はい。
      一般的な動画のfpsに近いものと思ってもらってOKです。

      ※以下、たぶんDS検定では聞かれないと思いますが念のため…

      画像フレームレートという表現ですが、世間一般の表現ではありません。
      動画関連の処理も結局は画像処理であり、画像処理の段階では動画とは見なしていない場合の文脈で出てきやすいです。
      (物体識別、物体検出、姿勢推定等)
      注意点としては、1秒間に処理できる画像の数であって、解析対象の動画fpsと一致しないこともある点です。
      一定周期で間引いたり、リアルタイム性が求められ且つ処理が間に合わないことがはっきりしている場合は、ベストエフォートで処理されるため、周期性がないこともあります。

タイトルとURLをコピーしました