分散はnで割るのかn-1で割るのか?n-1で割ったほうをなぜ不偏分散と呼ぶのか

スポンサーリンク

統計の教科書を読み始めてすぐに挫折する理由は、分散の説明が教科書によってまちまちなせいで頭が混乱させられるからです。分散の定義がある教科書では 1/n Σ (xi-m)^2なのに別の教科書だと 1/(n-1) Σ (xi-m)^2 のようにnでなくn-1で割っています(nは標本の数、mは標本の平均)。そして、n-1で割るほうを不偏分散と呼んでいます。

ちゃんとした教科書であれば、それぞれを正しく呼び分けていることも多いのですが、統計ソフトの場合、分散と言えば、n-1で割るほう(不偏分散)で、統計ソフトの使い方の教科書などでは特に、不偏分散のことを単に分散と呼んでいたりするので、混乱するわけです。

不偏という耳慣れない日本語の意味を知りたいのですが、「偏りが無い」と日本語で説明されても意味不明です。もうこのあたりで嫌気が差して教科書を閉じることになります。

ちゃんと理解したければ、「不偏推定量」なる概念を理解する必要がありました。前提として、「母集団」から標本を抽出するという操作の理解も大事です。母集団には母集団の分布の特性を表す量があります。例えば、平均値(母平均と呼ぶ)などが特性を表す値の一例です。母集団から標本をとってきた場合に、標本から計算される平均値(標本平均と呼ぶ)もあります。標本平均と母平均との関係はどうなっているの?というのが大事なポイントになります。分散についても同様に考えることができます。母集団の分散(母分散と呼ぶ)と、標本から得られた分散(標本分散)との関係はどうなっているのでしょうか。

標本を得るという操作を行うごとに、実際に得られる標本の値は毎回異なるわけですから、標本抽出を何回も行えば、標本平均も毎回異なります。標本分散も毎回異なります。そこで、「標本平均」の期待値や、標本分散の期待値を考えることになります。標本平均の期待値がもし母平均と一致していれば、標本平均は不偏推定量であるという言い方をします。実際、標本平均の期待値を計算すると母平均に一致するので、標本平均は不偏推定量です。分散の場合はどうでしょうか。標本分散の期待値を計算すると、実は母分散とは一致しません。なので標本分散(nで割る方)は不変推定量ではないのです。じゃあ、母分散の不偏推定量になっているのは、どのような量なのでしょうか?実はn-1で割る方が、期待値を計算したときに母分散に一致するので、不偏推定量になっているのです。このことから、n-1で割る定義のほうを不偏分散と呼ぶわけです。不偏推定量になっている分散なので不偏分散と呼ぶ、なるほど納得です。

標本分散の期待値を実際に計算してみると、このことが良くわかります。母分散がσ^2だったとして、標本分散s^2の期待値を計算すると、

期待値E[s^2] = …. = (n-1)/n σ^2 となります。母分散であるσ^2には一致せず、(n-1)/n という係数がかかるという違いがあるわけです。なので(n-1)/n の逆数であるn/(n-1)を標本分散にかけておけば、つまり、

n/(n-1)1/n Σ (xi-m)^2 = 1/(n-1) Σ (xi-m)^2 なる数を考えれば、その期待値は母分散に一致します。なので、不偏分散 1/(n-1) Σ (xi-m)^2 は、 分母にn-1が来ているのです。

これらの議論は少し詳しい統計の教科書や数理統計学の教科書に説明されています。自分が参考にしたのは、松本裕行・宮原孝夫『数理統計学入門』学術図書出版社(1990年)です(72ページ目)。

 

モバイルバージョンを終了
タイトルとURLをコピーしました