MATLAB,Python,Scilab,Julia比較 第2章 その23【最小二乗法㉒】

バックナンバーはこちら。
https://www.simulationroom999.com/blog/compare-matlabpythonscilabjulia2-backnumber/

はじめに
登場人物
不偏？標本？
標本分散と不偏分散の数式比較
不偏分散とは
なぜ不偏分散の話が出た？
共分散の方
まとめ

はじめに

平均、分散、共分散を用いた1次関数最小二乗法の係数算出について。
前回で数式としては導出できたが、
分散、共分散について一部説明しておく必要がある。
(不偏分散、不偏共分散)

登場人物

博識フクロウのフクさん

イラストACにて公開の「kino_k」さんのイラストを使用しています。
https://www.ac-illust.com/main/profile.php?id=iKciwKA9&area=1

エンジニア歴8年の太郎くん

イラストACにて公開の「しのみ」さんのイラストを使用しています。
https://www.ac-illust.com/main/profile.php?id=uCKphAW2&area=1

不偏？標本？

太郎くん

さて、今回から実際にMATLABとかつかって計算してみるって感じだね。

フクさん

ちょい待ち。

太郎くん

なに？(また妙な話ぶっこむ気だな・・・。)

フクさん

実際にプログラムを組む際に
不偏分散、不偏共分散、標本分散、標本共分散の話にぶち当たる可能性が高い。

太郎くん

なんじゃそりゃー！！！

標本分散と不偏分散の数式比較

フクさん

まず標本分散と不偏分散を数式で確認してみよう。

標本分散

\(
\displaystyle\sigma^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2
\)

不偏分散

\(
\displaystyle s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2
\)

太郎くん

標本分散の方が僕がしってる分散だね。

不偏分散とは

太郎くん

でも、不偏分散ってなんだ？

フクさん

まず、統計としては、
全データを対象とした記述統計と
母集団から一部をサンプルして、母集団を推定する推測統計に分かれる。

太郎くん

推測統計側は全データがそろってないけど、母集団を推測するには十分なデータがそろってる前提ってことだね。

フクさん

そこで標本分散と不偏分散を見比べてると、
標本分散＜不偏分散
となることがわかる。

太郎くん

\(\displaystyle \frac{1}{n}\)と\(\displaystyle \frac{1}{n-1}\)の差でそうなるね。

太郎くん

でもなんでこんなことを？？？

フクさん

まぁ、推測統計に於いて、標本分散を行うと実際の分散より小さくなる傾向があるんだよ。
証明方法は割愛するが、以下のイメージになる。

正規分布の母集団とサンプルの関係、正規分布の母集団からサンプルをとると、おおよそ平均値に近い部分が多く取り出されやすい、ここの部分がサンプルされる可能性は低い。

フクさん

前提として母集団は正規分布に従うとしている。
ポイントは正規分布に対してサンプルをとると、平均値に近い部分からサンプルが取り出される可能性が高い点。
そうなると、分散はどうなるか？

太郎くん

母集団の分散より、サンプルした方の分散の方が小さくなる！

フクさん

そのため、不偏分散ではやや大きくして、母集団の分散に近づけている。
\(\displaystyle \frac{1}{n}\)と\(\displaystyle \frac{1}{n-1}\)の\(n\)が大きくなれば、
両者の差を減っていくので、サンプル数が多くなると、標本分散でも母集団の分散に近付くのもわかるだろう。

太郎くん

こんな仕掛けがあったとは・・・。

なぜ不偏分散の話が出た？

太郎くん

で、なんで今回、不偏分散の話になったの？
どっち道、最小二乗法で使うのは標本分散の方でしょ？

フクさん

各ツール、各言語で分散、共分散を計算してくれる関数があるんだけど、
大体がデフォルトで不偏分散を算出してくるんだよね。

太郎くん

え？！
欲しいのは標本分散なんだけど？！

フクさん

一応、オプションを追加することで、標本分散を取得できることが多い。
だけど、標本分散、不偏分散の存在とその意味を理解してないとたぶん迷子になる。

太郎くん

それで事前に標本分散と不偏分散の話を出したわけか・・・。

太郎くん

まぁそういうった種類があることはわかったから、
そこに気を付けながら各ツール、各言語を使えばOKだね。

共分散の方

フクさん

理屈は一緒だが、
共分散も母集団全体か標本かで2パターンになる。
これも各ツール、各言語の関数で得られるがオプションでの切り替えが必要になるだろう。

標本共分散

\(
\displaystyle \sigma_{xy}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})
\)

不偏共分散

\(
\displaystyle s_{xy}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})
\)

まとめ

フクさん

まとめだよ。

標本分散と不偏分散について説明。
- 証明方法は割愛。
- 図を見て、不偏分散の必要性を察っするレベルで確認。
各ツール、各言語で分散を求める関数等があるが、大体が不偏分散。
- オプション指定で標本分散にすることも恐らく可能。

バックナンバーはこちら。

MATLAB,Python,Scilab,Julia比較第2章その23【最小二乗法㉒】

はじめに

登場人物

不偏？標本？

標本分散と不偏分散の数式比較

不偏分散とは

なぜ不偏分散の話が出た？

共分散の方

まとめ

コメント