正規分布N(μ、σ^2)に従う確率変数Xを変数変換して
Z=X-μ / σ とするとZは標準正規分布N(0, 1)に従うのでした。
正規分布N(μ、σ^2)の母集団からn個の標本を抽出してつくった平均値がどんな分布に従うか?というと、N(μ、(σ/√n)^2)という正規分布に従います(定理)。ちなみに、母集団が正規分布であるという仮定を外して、一般の分布の母集団の話とした場合には、nが大きければ、N(μ、(σ/√n)^2)という正規分布に近づくことも示されています。
- 松本裕行・宮原孝夫 数理統計入門 学術図書出版社 57~58ページ
さて母集団は正規分布だったとして話を続けると、標準偏差がσだったのが、標本の分布では、標準偏差はその√n分の1に小さくなるわけですね。母分散σ^2(もしくは母標準偏差σ)が既知であれば、
(標本Xの平均値-μ) / (σ/√n)が標準正規分布に従うという定理を利用して、区間推定ができます。標準正規分布の95%信頼区間は-1.96から1.96までの間なので、
-1.96 ≦(標本Xの平均値-母平均μ)/(σ/√n))≦ 1.96
という不等式を立てることが出来ます。標本抽出をしたわけですから、上の不等式のなかの変数のうち標本Xの平均値、標本数nは既知です今、母標準偏差σも既知の場合を考えるので、未知数は母平均μだけです。よってμについて不等式を解けば、μの範囲(95%信頼区間)が求まるというわけです。
さて、母標準偏差σが既知ならこれでいいのですが、一般的には母標準偏差σが未知であることのほうが多いでしょう。それでも母平均μを推定したいというのが、課せられた問題なわけです。じゃあどうするのか?単純に考えると、わからないものは仕方がないから近いもので代用すればいいんじゃね?という発想があります。つまり母標準偏差σ(未知)のところに標本標準偏差s(既知)を入れてしまえというわけですね。
- 小島寛之 完全独習 統計学入門 182ページ
しかしそれではあまり正確ではありません。nが大きければsはσにより近づくでしょうからいいかもしれませんが、通常何かを観察するときに標本数を大きくすることはできませんので、σのかわりにsを使うのは都合が悪いのです。仕事で統計解析を使っているが、正確な分析ができなくて困っていたゴセットさん。いい分析手法が存在しなかったので、ついに自分で編み出してしまったのです。賢い!
t分布(統計量T)を発見したゴセットさんは、μは含むがσは含まないようなうまい統計量を考えだしました。それが統計量Tであり、Tが従う分布というものも見つけだしました。
T = (標本Xの平均値-μ) /(s/√(n-1))
上で示した (標本Xの平均値-μ) / (σ/√n) の式にちょっと似ていますが、ちょっと違います。
σのところがsに置き換わっていますが、nもn-1になっています。そしてこのTという量は、t分布という分布に従うのです。t分布の形は正規分布によくにていますが同じではありません。ただしnが大きくなれば、正規分布に近づきn無限大の極限で正規分布になるような分布です。
どうやって「μは含むがσは含まないようなうまい統計量」を見つけたのでしょうか?それは、σを含む、分布が既知の2つの統計量をそれぞれ分子と分母に持つような統計量を考えたのでした。分子と分母の両方にσが現れるのでそれらは約分されて消えてくれるというわけです。
- 小島寛之 完全独習 統計学入門 185ページ