DS検定リテラシーレベルの問題集を設置。
(DS検定 データサイエンティスト検定 過去問 問題集 一問一答あたりのキーワードによる流入が多かったので作ってしまいました…)
現状は318問ほど放り込んでいる。
問題は随時追加予定。
(問題を解いてこのページに飛んできた場合、解答はこのページの下部に表示されてます。)
まとめ記事
DS検定リテラシーレベルのまとめ記事や解説動画へのリンクはこちら
動画とか
【巧妙な罠】データサイエンティスト検定リテラシーレベル解説【DS検定】
【これも見直し戦略が重要】データサイエンティスト検定試験画面解説【DS検定】
問題集と動画連携解説
本問題集とYoutube動画を連携させた利用方法の解説動画
&
スキルチェックリストベース出題して絨毯爆撃的に知識を付けるとか。
学習書籍
最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第3版
(通称、白本)
徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応 徹底攻略シリーズ
(通称、黒本)
Amazon.co.jp
データサイエンティスト検定[リテラシーレベル] 最強の合格テキスト [徹底解説+良質問題+模試(PDF)]
Amazon.co.jp
合格対策 データサイエンティスト検定[リテラシーレベル]教科書
Amazon.co.jp
ディープラーニングG検定(ジェネラリスト) 法律・倫理テキスト
Amazon.co.jp
問題
DS検定リテラシーレベルのまとめ記事や解説動画へのリンクはこちら
コメント
非階層クラスター分析の問題ですが、あらかじめクラスター数を指定するのが正解なのではないでしょうか?
ありがとうございます。
ご指摘の通り、非階層クラスター分析はあらかじめクラスター数を指定します。
修正します。
60 66 75 80 81 83 88 94 100 の第一四分位 中央値を除いた前半が 60 66 75 80 と偶数個なので 66と75の中間 70.5とすべきではないでしょうか?
データが9個の場合、間隔は8個。
4等分で2間隔置きに第一四分位、第二四分位、第三四分位
60⇔66⇔(Q1:75)⇔80⇔(Q2:81)⇔83⇔(Q3:88)⇔94⇔100
よって、
第一四分位:75
第二四分位(中央値):81
第三四分位:88
と思ったのですが、
調べてみると、そもそも四分位の算出はいろいろバリエーションがありそうです。
私の算出方法はQ0,Q4包括するパターンで、
スギサキヒロユキさんはQ0,Q4排他するパターンのようです。
これ以外にもいろいろありそうなのですが、ちょっと調べきれませんでした。
Excelなどが分かりやすく、以下2種類のようです。
QUARTILE.INC→Q0,Q4包括パターン
QUARTILE.EXC→Q0,Q4排他パターン
これはおそらくパーセンタイルでも発生する事象です。
DS検定としてはどちらにすべきはわかりません。
包括or排他と明示してくれているか、選択肢から察するか、そもそもこれに関する計算問題は出ない可能性があります。
なかなか包括的な説明も見つからないのですが、
Wikipedia(英語)のQuartileが一番包括的な感じです。
https://en.wikipedia.org/wiki/Quartile
私のイメージはこの中のmethod 3に該当します。
PythonのNumPy,Pandasなどはこのページの説明だとmethod 3のようです。
Rはmethod 2ではありますが、これも中央値包括なので、今回に関しては類似手法に該当します。
実際に計算させてみると、
Wikipedia上の情報でmethod 3と書かれているExcelのQUARTILE.INC、PythonのNumPy,Pandasはmethod 2の振る舞いをしますね。
Juliaもmethod 2です。
MATLAB、Scilabがmethod 3の振る舞いをしました。
MAEを計算させる問題の解答がMSEになっています。
ありがとうございます。
修正しました。
協調フィルタリングとコンテンツベースフィルタリングの説明逆な気がします。
ありがとうございます。
修正しました。
正解選択肢の内容が間違ってますね。
逆というか、協調フィルタリング側が間違っている状態でした。
コンテンツベースの方も間違っているように見えますが、
「ユーザーの過去の行動や好み」もアイテムの属性であり、意図的にアイテムやコンテンツを選択肢に記載しない問題にしたため、
私自身が混乱してしまっていたようです・・・。
回答後の説明文はあっている状態でした。
画像フレームレートは動画のフレームレート(fps)のことでしょうか?
はい。
一般的な動画のfpsに近いものと思ってもらってOKです。
※以下、たぶんDS検定では聞かれないと思いますが念のため…
画像フレームレートという表現ですが、世間一般の表現ではありません。
動画関連の処理も結局は画像処理であり、画像処理の段階では動画とは見なしていない場合の文脈で出てきやすいです。
(物体識別、物体検出、姿勢推定等)
注意点としては、1秒間に処理できる画像の数であって、解析対象の動画fpsと一致しないこともある点です。
一定周期で間引いたり、リアルタイム性が求められ且つ処理が間に合わないことがはっきりしている場合は、ベストエフォートで処理されるため、周期性がないこともあります。
このサイトでいつも勉強させてもらっています。
1箇所、気になる箇所がありますので、ご確認いただけませんでしょうか。
【問題】
ある都市の住宅価格データの分析で、「広さ」の特徴に注目した場合、中央値のデータ活用の利点について正しい選択肢を回答する問題
【気になる点】
正解は「中央値は外れ値の影響を受けにくい・・・データのゆがみが軽減され、妥当な特徴を把握できる」なのですが、「×」となっています。解説では、これが正解とかいてあるので、単純に正解設定がずれているのかもしれません。ご確認お願いします。
ありがとうございます。
ご指摘の通り、解説側が正しく、選択肢側の設定がずれていました。
ご認識の解釈で問題ありません。
選択肢の正解項目は修正しました。
既にどなたかが記述していましたらすみません。
”分散分析は3つ以上の群の平均値の差の比較”ではなく、2群以上で適用可能ではないでしょうか?スチューデントt検定(独立標本)は2群の1WAY-ANOVAと等価と記憶しています。また、対応2標本のt検定があり、これは2WAY-ANOVAの特殊型と記憶していますが、いかがでしょうか?
おっしゃる通りだと思います。
少し補足させていただくと、ここは追及しだすと結構複雑で、(カテゴライズの話と条件次第では計算過程が一致してしまう話)
DS検定の範囲としては、以下記載の「主な用途」に着目した方が適切だと思っています。
計算方法が一致するという理屈を持ってきてしまうと、
おそらく手法のカテゴライズを無視したものとなってしまうため、
t検定と分散分析は分けておいた方が良いと思っています。
■ t検定
◇ スチューデントt検定(独立2標本t検定)
・2つの独立したグループの平均値を比較する。
・例: AクラスとBクラスのテストの平均点を比較する。
・主な用途: 2群間の平均値の差の検定。
◇ 対応のあるt検定(ペアt検定)
・同じ被験者に対して2つの条件を比較する。
・例: ダイエット前後の体重を比較する。
・主な用途: 同一被験者の2条件間の平均値の差の検定。
◇ 1標本t検定
・1つのグループの平均値が既知の値と異なるかどうかを検定する。
・例: あるクラスの平均点が全国平均と異なるかどうかを検定する。
・主な用途: 1群の平均値と既知の値の差の検定。
■ 分散分析(ANOVA)
◇ 1WAY-ANOVA
・一つの独立変数(因子)を持つ分散分析。
・例: 異なる肥料が植物の成長に与える影響を調べる。
・主な用途: 3群以上の平均値の差の検定。
◇ 2WAY-ANOVA
・二つの独立変数(因子)を持つ分散分析。
・例: 肥料の種類と日照時間が植物の成長に与える影響を同時に調べる。
・主な用途: 複数の因子が従属変数に与える影響の検定。
ご回答ありがとうございました。
なるほど、DS検定用の対策が必要そうですね。勉強になります。