実験データでアウトライヤーをはじくとに2SD離れているものを捨てるという処理をしている例を見たことがあります。正規分布の場合、1SDつまり平均値+/-1SDの中には、データの68.26%が入っています。また平均値+/-2SDにはおよそ95%(95.44%)が入ります。つまり平均よりも2SD以上離れた値というのは、全体のおよそ5%、もし片側で考えれば全体のトップ2.5%もしくはビリ2.5%というわけです。
- 68–95–99.7則(ウィキペディア)
SDというのは標準偏差のことで(Standard Deviation;SD)、データにばらつきがあるほど大きな値になります。計算は、データから平均値を引いて2乗したものを、各データに関して足し合わせて、データの数nで割って得られる「分散」の平方根が標準偏差です。標準偏差には種類がありますが、今の場合は標本データに関する標準偏差です。
偏差値
1SDや2SDの感覚をつかむのに一番馴染がある例は、偏差値ではないでしょうか。
学力の指標としてよくみながつかう「偏差値」はまさに「標準偏差」そのものです。ただし、標準正規分布の平均値が0、標準偏差が1なのに対して、いわゆる偏差値の場合は、平均値が50、標準偏差の大きさが10になるように変数変換されています。1SDや2SDがどれくらいの割合かを知っていれば、偏差値60の人がトップ何%なのかがすぐにわかります。偏差値60=平均+1SD なので、正規分布を仮定した場合はその右側の面積は32%の半分の16%です。つまり仮に1000人の学生がいたとして、その1000人がテストを受けた結果得られた偏差値だったとした場合は、偏差値60の学生は1000人中160番くらいに位置しているということになります。同様に、偏差値70(つまり平均より2SD右側)だった学生は、1000人中上位25番(1000人の5%は50人で、上位側に25人、下位側に25人いるので)に位置しています。ちなみに平均値+/-3SDの間には99.7%のデータが入りますので、偏差値80の学生は、上位0.15%、すなわち1000人中トップ1.5人に入ります。要するに1000人の学生の中で1番か2番ということになりますね。
標本標準偏差
名称が混乱しそうですが、これとは別の標準偏差として、「標本標準偏差」(sample standard deviation)があります。標本標準偏差とは、母集団の標準偏差の推定量すなわち不偏分散の正の平方根をとったもの。この場合はnでなくn-1で割ります。
- https://bellcurve.jp/statistics/glossary/1168.html
- 宮川 基本統計学 第5版 201ページ nの代わりにn-1を使った次の式 $\hat\sigma^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i – \bar{x})^2$ で定義される。 $\hat\sigma^2$は、標本分散、$\hat\sigma$ は標本標準偏差と呼ばれる。