t検定とは何でしょうか?一番分かりやすい説明をしてみますと、t分布に従う検定量Tをつくって検定する方法と言えます。t検定を理解するためには、そもそもの大前提として、「検定とは何か」を理解しておく必要があります。それさえわかれば、ナニナニ検定などの内容を個別に理解する必要がなくなり、統一的な理解が可能になります。
検定の基本をおさらいしておくと、帰無仮説(棄却したい仮説)とその逆の関係である対立仮説(こちらであってほしいと期待する仮説)を用意します。帰無仮説の内容が起こる確率を計算してそれが0.05未満であれば、そんなまれにしか起きないことが起きたとは思えないので、帰無仮説の内容は間違っているものとして棄却する、すなわち、対立仮説が正しいと結論づけるものです。この検定の考え方は、全ての検定方法で共通することなので、まずはこの概念の理解が大事です。t検定は1変数だの2変数だのあって、初学者は混乱させられますが、上記の考え方をわかっていると、自分が知りたいことがどっちで、何をすればいいのかがわかります。
これをおさえておけば、t検定だろうが、ナニ検定だろうが何も恐れることはありません。なにがしかの「検定量」とその検定量が示す「分布」が分かっていること、計算できることが必須です。そうすればその検定量が得られる確率が求められるので、稀にしか起きないことなのか、全然起きてもおかしくないことなのかの判断ができるわけです。稀にしか起きないのであれば、そもそもの最初の仮説(帰無仮説)が間違いだったよねと結論して、対立仮説が正しいと言えます。
正規分布N(μ、σ^2)に従う確率変数Xを変数変換して
Z=X-μ / σ とするとZは標準正規分布N(0, 1)に従うのでした。
正規分布N(μ、σ^2)の母集団からn個の標本を抽出してつくった平均値がどんな分布に従うか?というと、N(μ、(σ/√n)^2)という正規分布に従います(定理)。ちなみに、母集団が正規分布であるという仮定を外して、一般の分布の母集団の話とした場合には、nが大きければ、N(μ、(σ/√n)^2)という正規分布に近づくことも示されています。
- 松本裕行・宮原孝夫 数理統計入門 学術図書出版社 57~58ページ
さて母集団は正規分布だったとして話を続けると、標準偏差がσだったのが、標本の分布では、標準偏差はその√n分の1に小さくなるわけですね。母分散σ^2(もしくは母標準偏差σ)が既知であれば、
(標本Xの平均値-μ) / (σ/√n)が標準正規分布に従うという定理を利用して、区間推定ができます。標準正規分布の95%信頼区間は-1.96から1.96までの間なので、
-1.96 ≦(標本Xの平均値-母平均μ)/(σ/√n))≦ 1.96
という不等式を立てることが出来ます。標本抽出をしたわけですから、上の不等式のなかの変数のうち標本Xの平均値、標本数nは既知です今、母標準偏差σも既知の場合を考えるので、未知数は母平均μだけです。よってμについて不等式を解けば、μの範囲(95%信頼区間)が求まるというわけです。
さて、母標準偏差σが既知ならこれでいいのですが、一般的には母標準偏差σが未知であることのほうが多いでしょう。それでも母平均μを推定したいというのが、課せられた問題なわけです。じゃあどうするのか?単純に考えると、わからないものは仕方がないから近いもので代用すればいいんじゃね?という発想があります。つまり母標準偏差σ(未知)のところに標本標準偏差s(既知)を入れてしまえというわけですね。
- 小島寛之 完全独習 統計学入門 182ページ
しかしそれではあまり正確ではありません。nが大きければsはσにより近づくでしょうからいいかもしれませんが、通常何かを観察するときに標本数を大きくすることはできませんので、σのかわりにsを使うのは都合が悪いのです。仕事で統計解析を使っているが、正確な分析ができなくて困っていたゴセットさん。いい分析手法が存在しなかったので、ついに自分で編み出してしまったのです。賢い!
t分布(統計量T)を発見したゴセットさんは、μは含むがσは含まないようなうまい統計量を考えだしました。それが統計量Tであり、Tが従う分布というものも見つけだしました。
T = (標本Xの平均値-μ) /(s/√(n-1))
上で示した (標本Xの平均値-μ) / (σ/√n) の式にちょっと似ていますが、ちょっと違います。
σのところがsに置き換わっていますが、nもn-1になっています。そしてこのTという量は、t分布という分布に従うのです。t分布の形は正規分布によくにていますが同じではありません。ただしnが大きくなれば、正規分布に近づきn無限大の極限で正規分布になるような分布です。
どうやって「μは含むがσは含まないようなうまい統計量」を見つけたのでしょうか?それは、σを含む、分布が既知の2つの統計量をそれぞれ分子と分母に持つような統計量を考えたのでした。分子と分母の両方にσが現れるのでそれらは約分されて消えてくれるというわけです。
- 小島寛之 完全独習 統計学入門 185ページ