まず単変量で回帰分析を行ってから次に多変量の回帰分析をすることの是非

多変量回帰分析(重回帰分析)で悩ましい問題について。何かの現象を引き起こす要因を同定するために、候補となる要因を複数リストアップして、多変量の回帰分析(重回帰分析)を行い、どの要因が最も寄与が大きいかを調べるということが良く行われます。その際、多変量の回帰分析の前に、個々の要因(独立変数)に関してまず単変量での回帰分析(単回帰分析)を行うという記述を良く見かけます。そのあたりの統計解析の実際的な手順について情報をまとめておきます。

疑問:多変量の前にまず単変量?

多変量解析をするのなら、わざわざ単変量で個別に解析する必要はないのでは?と思ったのですが、同じような疑問を持つ人が多いようです。

ある病気の予後に関して関係があると予想した因子A,B,C,D,E,Fに関して単変量解析をしたら、A,B,Cが有意と考えられた場合、次に多変量解析を行う場合は、A,B,C,D,E,Fのすべての因子で解析して判断すべきでしょうか?それとも関連がありそうなA,B,Cによるモデルで解析するべきでしょうか?(教えて!goo 2009年

上司の発表スライドなどを参考に解析をしております。その中に、単変量解析をしたうえで、そのP値を参考に多変量解析に組み込んで解析しているスライドがあり、そういうものなのかと考えておりました。ただ、ネットで調べますと、それは解析ツールが未発達な時代の方法であり、今は共変量をしぼらず多変量解析に組み込むのが正しいという記述も散見されました。(YAHOO!JAPAN知恵袋2020年)

多変量解析の手順:いきなり多変量はやらない?

多変量解析は、多くの要素の相互関連を分析できますが、最初から多くの要素を一度に分析するわけではありません。下図のように、まずは単変量解析や2変量解析データの特徴を掴んで、それから多変量解析を実施するのが基本です。(多変量解析とは?入門者にも理解しやすい手順や具体的な手法をわかりやすく解説 Udemy 2019年

単変量解析、2変量解析を経て、多変量解析に進みます。多変量解析の結果が思わしくない場合、単変量解析に戻って、再度2変量解析、多変量解析に進むこともあります。(Albert Data Analysis

多変量解析の手順:本当にいきなり多変量はやらないの?

正しい方法は、先行研究の知見や臨床的判断に基づき、被説明変数との関連性が臨床的に示唆される説明変数をできるだけ多く強制投入するやり方です。… 重要な説明変数のデータが入手できない場合、正しいモデルを設定することはできないので、注意が必要です。アウトカムに影響を及ぼしそうな要因に関して、先行研究を含めて予備的な知見がない場合や不足している場合、次善の策として、網羅的に収集されたデータから単変量回帰である程度有意(P<0.10など)な説明変数のみを選択し、多変量回帰分析に強制投入する方法もありです。(第3回 実践!正しい多変量回帰分析 臨床疫学 康永秀生(東京大学) 2018年5月23日 m3.com)

上の説明がしっくり来ました。単変量解析をスキップするのがむしろ正しいようですが、現実的には説明変数の数を絞り込みたいので(サンプル数の数が限られていると、説明変数の数は増やせないので)、単変量解析を事前に行うことはOKとのことのようです。

「なるべく少ない変数:x を投入」が 原則です。  よくある手法としては、まずは単変量解析で独立変数:x 1つ1つの有意差を検定します。  その後、影響があると思われる独立変数:x 数個を多変 量解析に投入します。(医学研究初心者のための やっぱりわかりにくい統計道場 Shingo Hatakeyama 2016)

多変量解析の手順:一番厳格な方法

上の康永秀生氏の説明にもありますが、一番正しい方法は、データを見ずに(=単変量解析をやらずに)いきなり多変量解析を行うことのようです。下のように、新谷歩氏の説明も同様でした。

(6)データを一切見ず,文献や医学的見地を参照し,アウトカムである死亡に対するリスク因子の中からリスクの大きい順に5つ選び出す。

いずれもよく用いられる方法ですが,正解は(6)です。(1)から(5)は,データを用いてP値を一番小さくする方法として知られていますが … 多変量解析における「見過ぎによる出過ぎ」は専門用語では「Overfitting」と呼ばれ,雑誌によっては先ほど示した(1)から(5)の方法を使用しないよう指示している場合もあります2)。(多変量解析―説明変数の選び方(新谷歩)連載2011.10.17 今日から使える医療統計学講座【Lesson6】多変量解析――説明変数の選び方 新谷歩(米国ヴァンダービルト大学准教授・医療統計学))

統計は絶対正しい方法でないとだめということでもないようで、研究領域やジャーナルによって、習慣的にOKとされることがあるようです。

多変量解析の前に単変量解析をやってはいけない

実際にはみなやっているのでOKなのでしょうが、厳格なことを言えば正しくないようです。

The use of bivariable selection (BVS) for selecting variables to be used in multivariable analysis is inappropriate despite its common usage in medical sciences. (Journal of Clinical Epidemiology VOLUME 49, ISSUE 8, P907-916, AUGUST 01, 1996 Inappropriate use of bivariable analysis to screen risk factors for use in multivariable analysis Guo-Wen Sun Thomas L. Shook Gregory L. Kay)

When they say bivariable they mean what you refer to as univariate. (Danger of univariate analysis before multiple regression StackExchange) 1変量解析のことを2変量解析と呼ぶ流儀もあるようです。独立変数1個、従属変数1個を合わせて2変数ということでしょう。

多変量解析の前に単変量解析をやらずにどうするのか

まず単変量解析をやって多変量解析に使う独立変数を決めるというのは、統計学者はNGと言っているにも関わらず、実際の臨床研究の現場では普通に行われているように思います。しかし、ダメなものはダメなのだとしたら、どうすればよいのでしょうか。

重ロジスティック回帰分析や Cox の比例ハザードモデルによる生存時間解析などの多変量回帰分析において,モデルに入れる説明変数を単一因子解析で選定する方法は,誤った解析結果を導く可能性があることを示した.多変量回帰分析では,モデルに入れる変数を逐次変数選択法を含む適切な手法で選ぶことが必要である.

(査読者の立場から見た医学論文における統計解析の留意点 新潟大学医歯学総合病院医療情報部 赤澤 宏平 日本臨床外科学会雑誌 2019 年 11 月 16 日受付 臨床研究の基礎講座 日本臨床外科学会・日本外科学会共催(第 81 回日本臨床外科学会総会開催時)第 23 回臨床研究セミナー)

単変量を最初にやらずとも、逐次変数選択法という方法があるそうです。これで解決かと思いきや、専門家でも異なる考え方があるようです。

 「ステップワイズ法(逐次選択法)」は、統計ソフトが自動的に説明変数を1個ずつ入れたり出したりして、適合度の良いモデルを選択する方法です。この方法は基本的に使わない方がよいでしょう。ステップワイズ法を使うのは、臨床を知らない統計屋がやることです。 正しい方法は、先行研究の知見や臨床的判断に基づき、被説明変数との関連性が臨床的に示唆される説明変数をできるだけ多く強制投入するやり方です。(第3回 実践!正しい多変量回帰分析 臨床疫学 安永英雄(東京大学) 2018年5月23日 m3.com)

悩ましいですね。数学的に正しいこと、統計学的に正しいことであっても、臨床の現場には適用できないということでしょうか。

「まず単変量解析」はダメ、ステップワイズ法もダメ、じゃあどうしろと?

新谷歩先生のウェブサイトの統計学解説記事がとてもわかりやすく(初学者に優しく)好きなので、自分は新谷先生の書いた教科書は全部買いました。ウェブ記事を読むよりも本を読むほうが、自分は落ち着いて勉強ができるので、そういうタイプの人には書籍をお勧めいたします。で、『みんなの医療統計 多変量解析編』に非常にはっきりと、どうすればいいか、何をしてはいけないかが書いてありました。とても重要なことですし、今だに多くの人がまず単変量解析をして有意差が出た変数を多変量に投入すると、当然のように考えているので、ちょっと紹介させていただきます。

やってはいけない例

  1. 単変量解析を行って有意差が出たもののみを多変量回帰モデルに入れる
  2. ステップワイズ法を使って有意差が出た説明変数だけを多変量回帰モデルに入れる
  3. 単変量解析で有意差が出たもののみをステップワイズ法に入れて、最終的に有意差が出たもののみを説明変数として多変量モデルに入れる

参照 216ページ 新谷歩『みんなの医療統計 多変量解析編』

ではどうするのかというと、

何がアウトカムと因果関係をもつかをデータを見ずに、先行文献や医学的観点から考え、アウトカムとの関連性の上で重要なものか選ぶ。臨床的な判断で決める。

参照 215ページ

ということです。

新谷歩『みんなの医療統計 多変量解析編』(アマゾン)初学者に寄り添う優し解説

結局どうすればいいの?

多変量解析の教科書を読んでみても、最初に単変量解析を行っているものを結構見かけます。多変量解析に用いる独立変数の選択方法に関しても、上でやってはいけないこととされていることを当然のように解説している「実践的な統計解析の教科書」のほうがむしろ多数派ではないでしょうか。

科学的に(数学的に)正しいかどうかよりも、自分が所属している研究領域の慣習に従うほうが現実的のような気がします。なぜなら、論文を出すときに査読者がどう考えるかで、自分の論文がリジェクトされるかアクセプトされるかが決まるからです。古い頭の査読者を説得することに失敗して論文が出せなくなっては困ります。あまり無責任なことは言いたくありませんが、自分なら現実的な判断をします。