クラスカル・ウォリス検定 (Kruskal-Wallis test) とは?わかりやすい説明
クラスカル・ウォリス検定 (Kruskal-Wallis test) に関するわかりやすい説明を纏めました。
クラスカル・ウォリス検定は、ノンパラメトリック検定の一つです。ノンパラメトリック検定とは、パラメトリック検定に対する言葉で、パラメトリック検定とは、母集団として正規分布など何かしらの分布を仮定しておき、その仮定のもとでなにがしかの検定統計量を計算し、その検定統計量が従う分布を用いて仮説検定を行うものです。それに対して、ノンパラメトリック検定は、そのような母集団の分布の仮定を置きません。ノンパラメトリック検定における基本的なやり方は、観察された値(データ)を大きさの順に並べて、その順位を使った検定統計量を計算し、その検定統計量が従う分布を利用して仮説検定を行うところに特徴があります。
クラスカル・ウォリス検定は複数の群(2群でもよいし、3群でも、3群以上でもOK)の間に分布の差があるかどうかを調べます。仮説検定を行うときの帰無仮説は、「群間に分布の差はない」、帰無仮説が棄却された場合には、「(どれとどれとの間にかはわからないが)群間で差がある」といいうことになります。
実際の計算はというと、仮にA群、B群、C群とあったとすると、それぞれのデータの値を総データにおける「順位」(小さい順。一番小さいものが1)に変換しておきます。
統計検定量H = 12/総データ数*(総データ数+1) * (A群のデータ数*(A群の順位和の平均 – 総データ数の中央値)^2 + B群に関して同様 + C群に関して同様)
という数式から統計検定量Hを計算します。上の式をみると、この統計検定量Hを計算する際、データの実際の値は使われておらず。そのデータの順位だけが考慮されていることがわかります。この統計検定量Hは、自由度(群の数 -1)のχ2乗分布に従うので、Hの値より上側の面積が、そのHもしくはそれより高い値が得られる確率(すなわちp値)になります。
データの値を順位に変換するのは、pythonなどのプログラミング言語を利用すると比較的簡単にできるので、上の式を用いて全部自分で計算することが可能です。
クラスカル・ウォリス検定と一元配置分散分析との違い
3群以上の群間の差を調べる方法としては、一元配置分散分析とクラスカル・ウォリス検定がありますが、一元配置分散分析が群間で平均値の差を検定するのに対して、クラスカル・ウォリス検定では中央値の差を検定しているというところが違いです。一元配置分散分析法(One-factor ANOVA)のノンパラメトリック版だと考えると、どういうときに使うのかが覚えやすいかもしれません。
- 経済情報処理 講義ノート 第8回 仮説検定 2017年5月29日(月)4限 担当教員:唐渡 広志 (PDF u-toyama.ac.jp )
クラスカル・ウォリス検定をした後は
他群間の比較をする目的は、たいていの場合、どの群とどの群との間に差があるのかです。しかし、クラスカル・ウォリス検定は、全ての群が同じということではない、と結論してくれますが、じゃあ、どの群が違ているのかまでは教えてくれません。そのため、クラスカル・ウォリス検定で有意差が認めらたとしても、そこで解析を終わるわけにはいきません。
事後の比較として多重比較の手順を必要とします。 多重比較の手法としては、Steel-Dwass test(スティール・デュワス検定)や Mann-Whitney U test(マン・ホイットニーのU検定)による2群比較を行ってBonferroni(ボンフェローニ)による調整を行う方法などが知られています (Kruskal-Wallis検定の後の多重比較の手法 Stats Guild)
参考図書
- 統計学実践ワークブック 日本統計学会編 学術図書出版社 日本統計学会公式認定 統計検定 準一級対応
原著論文
- Use of Ranks in One-Criterion Variance Analysis Author(s): William H. Kruskal and W. Allen WallisSource: Journal of the American Statistical Association, Dec., 1952, Vol. 47, No. 260 (Dec., 1952), pp. 583-621