【統計誤用例】マン・ホイットニー検定で平均値の有意差を述べるのは間違い

正規分布する2群(対象群と実験群)の平均値に有意差があるかどうかを検討する場合には、t検定が使われます。では、正規分布するかどうかわからない、もしくは正規分布しているようには見えない2群の平均値の有意差をみるには、どうすればいいでしょうか?

マン・ホイットニー検定を用いて2群の平均値の有意差をみればよい?自分はうっかり、そう思っていたのですが、それは間違いでした。自分と同じ誤解をしている人も多いのではないかと思い、生成AIとの会話を書いておきます。

 

質問:正規分布でなく、未知の分布に従う観測量に関して、実験群と対照群の間に平均値の差があるかないかを調べる統計学的手法は何?その場合は、t検定ではないいよね?マン・ホイットニー検定だっけ?

Gemini 2.5 Pro:

おっしゃる通り、データが正規分布に従うという仮定ができない場合、2群の平均値の差を検定するためにt検定を使うのは適切ではありません。

ご指摘の「ホイットニー検定」(一般にはマン・ホイットニーのU検定、またはウィルコクソンの順位和検定と呼ばれます)は、まさにそのような正規分布を仮定しない(ノンパラメトリックな)場合に用いられる代表的な手法です。

ただし、厳密な意味で「平均値」の差を直接検定しているわけではない点に、少し注意が必要です。

マン・ホイットニーのU検定 (Mann-Whitney U test)

  • 何を検定しているか?
    • この検定は、データを順位(ランク)に変換して扱います。
    • 検定している帰無仮説は「2つの群の分布が同じである」ということです。
    • 対立仮説は「2つの群の分布の位置が異なる(一方が他方より大きい値を取りやすい)」となります。
  • 「平均値」ではなく「中央値」
    • この検定は、分布の「平均値」よりも「中央値」の差に敏感です。
    • もし「2つの群の分布の形状は同じだが、位置だけが異なる」という仮定を置けるのであれば、この検定は「中央値の差の検定」と解釈することができます。
    • 正規分布を仮定しない場合、外れ値などの影響を受けにくい中央値の差を見るマン・ホイットニーのU検定が、t検定の代わりとして最も一般的に使われます。

「平均値」の差を検定する他のノンパラメトリック手法

もし、どうしても「中央値」ではなく「平均値」の差にこだわりたい場合、以下の計算機集約的な手法(リサンプリング法)があります。

  1. ブートストラップ法 (Bootstrap method)
    • 各群の観測データから、復元抽出し(同じデータを何度も選んでよい)、元のサンプルサイズと同じ大きさの「ブートストラップ・サンプル」を多数(例:10,000回)作成します。
    • 各ブートストラップ・サンプルペアの平均値の差を計算し、その差の分布(信頼区間など)を経験的に構築します。
    • 観測された実際の平均値の差が、この分布において統計的に有意かどうかを評価します。
  2. 順列検定 (Permutation test)
    • 「2群間に差がない」という帰無仮説のもと、両群の全データ(例:実験群10人、対照群12人、合計22人)をごちゃ混ぜにします。
    • その22人のデータから、ランダムに10人を「新しい実験群」、12人を「新しい対照群」として割り当てる、という操作を多数(例:10,000回)繰り返します。
    • 各繰り返しで平均値の差を計算し、「ランダムな割り当てで生じる平均値の差の分布」を作ります。
    • 実際に観測された平均値の差が、この分布の中でどの程度稀な(極端な)値であるかを評価し、p値を算出します。

まとめ

  • t検定: 正規分布を仮定する場合は、平均値の差の検定に使えますが、今回は不適切です。
  • マン・ホイットニーのU検定: ご指摘の通り、正規分布を仮定しない場合の最も一般的な代替手法です。ただし、厳密には「中央値(分布の位置)」の差を見ています。
  • ブートストラップ法 / 順列検定: 分布を仮定せず、かつ「平均値」の差を直接検定したい場合に強力な手法です。

臨床研究や生物学の実験データでは、正規分布に従わないことも多いため、マン・ホイットニーのU検定が非常に頻繁に用いられます。

研究の文脈で「代表値の差を見たい」のであれば、マン・ホイットニーのU検定(中央値の差)を採用するのが一般的かと思います。もし「平均値」そのものの差をノンパラメトリックに検定する必要がある場合は、ブートストラップ法などを検討することになります。

 

質問:自分がこれまで読んできた科学研究論文はほぼ全てで、平均値の差の有無を調べるために、マンホイットニー検定をしてたと思うんだけど、「マンホイットニー検定の結果、平均値に有意な差があった」という言い方は、厳格にいうと、間違いってこと?つまり中央値に差はあったとしても、実は平均値には差が無いということもありうる?

Gemini 2.5 Pro:

はい、非常に鋭いご指摘です。その疑問は統計学を実践で使う上でとても重要です。

結論から申し上げます。

  1. 厳密には間違いか?
    • はい、厳密に言えば「マン・ホイットニーのU検定(MWU検定)の結果、平均値に有意な差があった」という記述は間違いです。
    • MWU検定は、あくまで**順位(ランク)**に基づいており、「分布の位置(多くの場合、中央値で代表される)が異なる」ことを検出する検定です。
  2. 中央値に差があるが、平均値に差がないケースはありうるか?
    • はい、ありえます。
    • これは、一方の群に極端な「外れ値」があり、それが平均値を大きく引っ張っている(歪めている)場合に発生します。

🤔 現実的に、その言い方は許容されているのか?

ここが最も悩ましい実務上の問題です。

お察しの通り、多くの科学論文(特に生物医学分野)で、正規分布を仮定できないデータに対してMWU検定を使い、その結果を(暗黙的に)「平均値の差」のように記述しているケースは非常に多く見られます

これは、以下の背景があるためです。

  1. 歴史的経緯と慣習: t検定が「平均値の差」を検定する代表的な手法であったため、そのノンパラメトリック版であるMWU検定も、t検定と同じ目的(=代表値の差)で使われるという慣習が根付いています。
  2. 実質的な結論の重視: 研究者が知りたいのは「薬Aは薬Bより効果があるか(=値が大きくなるか)」であり、その代表値が平均値であれ中央値であれ、実質的な結論は変わらないことが多いです。分布が極端に歪んでいない限り、平均値が大きければ中央値も大きい傾向があります。
  3. 外れ値への頑健性: 生物データなどは外れ値が出やすいため、平均値は外れ値に引っ張られて「代表値」として不適切になることがあります。その場合、中央値の方がデータの中心的な傾向をよりよく表します。そのため、「平均値」を比較するt検定よりも「中央値」を比較するMWU検定の方が、データの性質上望ましいと判断されます。

望ましい記述(ベストプラクティス)

統計学的に最も厳格で正確な記述は以下のようになります。

「実験群と対照群の比較にはマン・ホイットニーのU検定を用いた。その結果、両群の分布には統計的に有意な差が認められた (p < 0.05)。」

(または、中央値に言及して)

「…その結果、実験群の中央値は、対照群の中央値と比較して有意に高かった (p < 0.05)。」

この場合、グラフも「平均値±標準誤差 (Mean ± SEM)」ではなく、「中央値と四分位範囲 (Median with IQR)」を示す箱ひげ図を使うのが最も整合性が取れます。

現実(よくある記述)

「両群の比較にはマン・ホイットニーのU検定を用いた。その結果、実験群は対照群と比較して有意な増加を示した (p < 0.05)。」

このように「平均値」という言葉を意図的に避け、「増加」や「差」といった曖昧な言葉で表現することも多いです。


結論として: 「MWU検定で平均値の差を見た」という記述は、厳密な統計学の観点からは不正確です。しかし、多くの研究分野において「正規分布しないデータに対してt検定の代わりに行った検定」という文脈で、慣習的に(あるいは不正確さを承知の上で)そのように解釈・記述されているのが実情です。

もしご自身で論文を書かれる際は、「中央値の差」または「分布の差」と記述するか、グラフを箱ひげ図にして中央値を示すのが最も安全で正確です。

このあたりの統計手法の「厳密さ」と「現場での使われ方」のギャップは、多くの研究者が悩むところですね。

 

質問:マンホイットニー検定をしたのに、Mean ± SEMで表記していたら、それは、間違った行為 といえるわけね。箱ひげ図で示すべきだったというわけね。

Gemini 2.5 Pro:

はい、その通りです。厳密に言えば、**「間違った行為」または「統計的に一貫性のない(misleadingな)行為」**と言えます。

🚨 なぜ一貫性がないのか?

  1. 検定手法の目的:
    • マン・ホイットニーのU検定 (MWU検定) は、データが正規分布していない、あるいは外れ値がある可能性を考慮し、**中央値(Median)**や分布全体の位置を比較するために選択されるノンパラメトリック検定です。
    • この検定を選ぶ時点で、「平均値 (Mean) は、このデータの代表値としてふさわしくない」と判断していることになります。
  2. グラフ・記述統計の目的:
    • Mean ± SEM(平均値 ± 標準誤差)は、平均値を中心的な代表値とみなし、その推定精度を示すものです。これはt検定のようなパラメトリック検定と相性が良い記述方法です。
  3. 矛盾:
    • 検定では「平均値は信頼できないので中央値を見ます」と言っておきながら、グラフでは「やはり平均値で示します」と言っていることになり、論理的な矛盾が生じます。
    • MWU検定で得られたp値は、あくまで中央値(あるいは分布)の差に対するものであり、グラフに示されたMean ± SEMの差に直接対応するものではありません。

📈 あるべき姿

おっしゃる通り、MWU検定を行った場合の記述統計とグラフは、以下のようにするのが統計的に一貫しています。

グラフ: 箱ひげ図 (Box plot)を用いる。 * 箱ひげ図は、MWU検定が注目している中央値 (Median)四分位範囲 (IQR)、およびデータの全体の広がりを視覚的に完璧に表現します。

  • 本文や表での記述: 「中央値 (四分位範囲)」、すなわち Median (IQR) を記載する。
    • 例: 「実験群の中央値は 10.5 (IQR: 8.2-13.7) であり、対照群の 5.3 (IQR: 3.1-7.4) と比較して…」

この「検定手法」と「記述・グラフ」の一貫性は、論文の査読(レビュー)においても非常に重要視されるポイントです。MWU検定を使っているのにMean ± SEMの棒グラフが示されていると、査読者から「なぜ中央値で示さないのか?」と指摘される可能性が十分にあります。

 

平均値が同じで中央値に有意差がつくデータ例

平均値が同じで中央値が異なり、有意差がつくデータ例を、Geminiに作ってもらいました。

# Group A: 中央値は低いが、外れ値が平均値を引き上げる
group_a = np.array([
100, 101, 102, 103, 104, 105, 106, 107, 108, 164
])

# Group B: 中央値は高いが、平均値はAと同一
group_b = np.array([
105, 106, 107, 108, 109, 110, 111, 112, 113, 119
])

群A 平均値: 110.00
群A 中央値: 104.50
群B 平均値: 110.00
群B 中央値: 109.50

MWU検定 (両側): p = 0.0171
MWU検定 (片側 B > A): p = 0.9931
t検定 (参考): p = 1.0000

 

質問:データ、正規分布じゃないからマンホイットニー使いましたって言いたい場合に、正規性の検定はどうすればいいの?散布済みて明らか とは言えないよね。

Gemini 2.5 Pro:

おっしゃる通り、「散布図を見て明らか」というのは主観的であり、論文などで正規性を否定する根拠としては弱いです。

そのために、正規性の検定 (Normality Test) という統計学的手法を用います。

1. シャピロ・ウィルク検定 (Shapiro-Wilk Test)

最も一般的で、検出力の高い(=正規分布から少しでも外れているのを見抜く力が強い)正規性の検定手法です。

  • 帰無仮説 ($H_0$): 「このデータは正規分布に従う
  • 対立仮説 ($H_1$): 「このデータは正規分布に従わない

したがって、検定結果の p値 の見方は、t検定やMWU検定とはになります。

  • $p < 0.05$ の場合: 帰無仮説が棄却される
    • → 「データは正規分布に従わない」と結論できる
    • → t検定は不適切。マン・ホイットニーのU検定(MWU検定)を使う強力な根拠となる。
  • $p \ge 0.05$ の場合: 帰無仮説は棄却されない
    • → 「データが正規分布に従わないとは言えない」(正規分布と仮定してもよい)
    • → t検定を使ってもよい、という根拠になる。

重要な注意点: t検定を使うには、両方の群が正規性の検定をパスする($p \ge 0.05$)必要があります。片方でも $p < 0.05$ となれば、両群の比較にはMWU検定を使うべきです。