投稿者「PhD」のアーカイブ

重回帰分析の実際的な手順  

重回帰分析はSPSSでやると一瞬ですが、高価なソフトウェアがなくても無料のpythonやRを使って分析することも比較的簡単にできるようです。実際的な手順を解説したサイトを纏めておきます。

得られた予測式の係数の解釈について:注意点など

  • 回帰係数にはデータ単位があり、目的変数のデータ単位と同じ
  • 回帰係数から『説明変数の目的変数に対する貢献度』がわかります。
  • データ単位が変われば係数の値も変わることを理解してください。したがって、関係式の回帰係数を比較し、値が大きい説明変数ほど目的変数に貢献しているとか重要であるいうことはいえません。重回帰分析では、回帰係数とは別の統計量「標準回帰係数」を算出し、この値を使って売上を予測するのに重要な説明変数のランキング(順番)を把握します。

引用元:多変量解析の手法別解説>重回帰分析(2/3) アイスタット

 

  • 特に注意しないといけない点は,回帰分析は決して因果関係を表しているわけではないということです.従属変数を独立変数で「予測」するのが回帰分析というと,いかにも「独立変数⇒従属変数」という矢印つきの因果関係を想定しがちですが,決して因果関係と断定はできません.あくまで回帰係数は相関関係です.例えば単回帰分析の場合,独立変数と従属変数を入れ替えても,標準化された回帰係数は全く変わらず,しかもその値は普通の単相関係数なのです.
  • 「従属変数の予測力」と「具体的にどの独立変数が従属変数にどのような形で効いているかを理解できること」ということは別問題です.後述するように,偏回帰係数の解釈は独立変数の数が増えるほど困難になります.社会学のように,とにかく社会事象の予測の精度を目的にする場合では,独立変数を増やしてその予測力を高めることには一定の意味があると思いますが,例えば教育心理学研究のように独立変数と従属変数の具体的な関係を吟味し,そのメカニズムを解明したり独立変数を操作して介入に生かしていこうという場合には,多くの独立変数を投入した重回帰分析は結果の解釈が困難で,実質的に無意味になることが多いです.

(重回帰分析について 1.単回帰・重回帰分析における基本的な注意点 koumurayama.com)

  1. 決定係数や標準化偏回帰係数が高いと「影響力が強い」といえるのか?ryotamugiyama.com/
  2. 重回帰分析とは?(手法解析から注意点まで)surveroid.jp

重回帰分析により、従属変数をうまく表現する予測モデル(式)が得られますが、その式に現れる係数(回帰係数や標準化回帰係数)は、予測モデルにおける貢献の度合い、影響の大きさを表しているにすぎず、「原因としての大きさ」と無考えに解釈していいわけではないようです。所詮、単なる数式なので、何を独立変数として、何を従属変数とするかに関しても、別に数学的には制約はないわけで、独立変数を従属変数を入れ替えても(つまり、原因と思っていたことと、結果と思っていたことを入れ替えても)重回帰分析はできてしまうことを考えれば、重回帰分析は因果関係を直ちに教えてくれるものでは決してないということが理解できます。

 

変数の正規化について

偏回帰係数は、どの説明変数がどの程度目的変数に影響を与えているかを直接的には表していません。身長を(cm)で計算した場合と(m)で計算した場合とでは全く影響度の値が異なってしまうことからも明らかです。各変数を平均 0,分散 1 に標準化して求めた「標準偏回帰係数」を用いれば、各説明変数のばらつきの違いによる影響を除去されるので、影響度が算出されます。(重回帰分析とは albert2005.co.jp)

購入額の予測値=5,000+30×(年齢)+300×(性別)+450×(家族人数)+0.001×(年収)

この関係式において、説明変数(属性)が、購入額(目的変数)に対しておよぼす影響の大きさを知りたいということがよくあります。上の関係式では、年齢や年収は単位が違います。したがって年齢の項の偏回帰係数30と年収の項の偏回帰係数0.001は直接比較できません。そこで、あらかじめ説明変数を平均0、分散1に標準化()しておくと、単位が同一の条件下で分析できます。(回帰分析のモデルと基本式 macromill.com)

ダミー変数について

一般線形モデルでは,質的な独立変数(つまり,分散分析の要因)を,(水準数-1)個のダミー変数を使って表す。ダミー変数とは,ある水準に属していることを1で表し,属していないことを0で表す変数のことである。‥ このような(水準数-1)個のダミー変数を独立変数として重回帰分析を行うと,重回帰モデルの有意性検定の自由度,F値,p値が,対応のない1要因分散分析と同じ値になる。回帰式を最小二乗法で推定すれば,予測値は各水準の母平均の最小二乗推定値となる。詳しくは南風原(₂₀₀₂)のpp. ₂₁₆-₂₁₉,₂₇₅-₂₇₆を参照されたい。(統計モデルの違いを理解する 一般線形モデル・一般化線形モデル・階層線形モデル・階層的重回帰モデル The Annual Report of Educational Psychology in Japan₂₀₁₈, Vol. ₅₇, 302-308 PDF

  1. 第7章 ダミー変数 osaka-u.ac.jp

 

pythonを用いた重回帰分析

pandasとscikit-learnを使うと、SPSSでできることがpythonでもあっさりとできるようです。下記のウェブサイトを参考に自分のデータで計算してみたところ、pythonでもSPSSでも同じような結果が得られました。

  1. Pythonで基礎から機械学習 「重回帰分析」 @karaage0703 デフォルトは以下のようです。ややこし過ぎですね。 scikit-learn: 分散  pandas: 不偏分散  numpy: 分散  R言語: 不偏分散 ‥ このように、偏差回帰係数と標準化偏差回帰係数は簡単に変換できるので、正規化しないで重回帰分析をして偏回帰係数を求め、後から必要に応じて標準化偏回帰係数を求める方が計算上は楽です。
  2. 重回帰分析の概要とpython 実装 実践ケモインフォマティクス
  3. scikit-learn で線形回帰 (単回帰分析・重回帰分析) pythondatascience.plavox.info 各変数がどの程度目的変数に影響しているかを確認するには、各変数を正規化 (標準化) し、平均 = 0, 標準偏差 = 1 になるように変換した上で、重回帰分析を行うと偏回帰係数の大小で比較することができるようになります。

 

Rを用いた重回帰分析

  1. 18. 重回帰分析 1 (単回帰と重回帰)takushoku-u.ac.jp

 

論文出版の際のまとめ方

  1. 3.結果のまとめと解釈 rikkyo.ac.jp 分析結果は、学術論文では以下のような形式のにまとめる。図の方が一般向けには分かりやすい。各説明変数の偏回帰係数有意か、モデル全体の説明力はどうか、なぜそのような結果が出たのかなどについて検討し、結果の解釈や考察を行うこと。

 

参考

  1. 12 重回帰分析の使用上の注意 kwansei.ac.jp
  2. 回帰分析を理解しよう!-回帰分析の由来と概念、そして分析結果の評価について- 生活研究部 主任研究員・ヘルスケアリサーチセンター・ジェロントロジー推進室兼任 金 明中 ニッセイ基礎研究所

数量化1類、ダミー変数を用いた重回帰分析の実際

男か女かといった質的変数は、重回帰分析の独立変数に用いるときには、ダミー変数として取り扱います。性別という「アイテム」において、「男」というカテゴリー変数は1か0の値を通り、男なら1、男でなければ0とします。同様に、「女」というカテゴリー変数は1か0の値をとり女なら1、女でなければ0になります。ある人に関して、性別のアイテムの行は、カテゴリー変数男とカテゴリー変数女の和は1になるわけです。カテゴリー変数が複数の場合も、同様に和は1になります。例えば「曜日」という「アイテム」で、カテゴリー変数「月曜日」は1か0、「火曜日」も1か0という具合です。あるデータに関しては、いずれかの曜日なのでどれかの曜日が1で他の曜日が0とい値になっており、和は1です。こうして作ったダミー変数を重回帰分析の独立変数として用いればよいわけです。ただし、独立変数は独立であってほしいわけですが、こうやってつくったダミー変数は明らかに「カテゴリー変数の数―1」個のカテゴリーが決まれば、残りの一個は決まってしまいます(和が1になるようにつくったので)ので、ひとつのカテゴリー変数は除去しておく必要があります。

ダミー変数の作り方と作る際の注意

あるアイテム変数の持つ情報をダミー変数で表現するとき、アイテム変数がk個のカテゴリーを持つ場合には、0か1かのいずれかを持つ二値データk個のダミー変数に展開される。例えば、あるアイテム変数がiという値を持つ場合、i番目のダミー変数は値1を持ち、残りのダミー変数は値0を持つ。表1に示したデータ中の3つのアイテム変数のデータは、表2のように、延べ9個のダミー変数(D11,…,D33)に展開されるしかし、このダミー変数は冗長な情報を持つ。例えば、k−1個のダミー変数が0であるとき、残りの1個のダミー変数は必ず1である。そこで、多変量解析においては、各アイテム変数に対応する複数のダミー変数のうちの1つを除いて解析に使用する。どのダミー変数を除いてもよい(数量化 I 類はダミー変数を用いた重回帰分析である 青木繁伸 2005 年 10 月 17 日)

下のB表はカテゴリーデータを1,0の数量データに変換したものです。‥ このデータは、曜日の7列のデータを合計すると、どの日も1となります。(天候、巨人勝敗、競馬についても同様です。)そこで、4項目からそれぞれ任意の1列を削除します。この例では、曜日は土、天候は雨、巨人勝敗は無、競馬は無の最後の列を削除しました。(《数量化1類(2/3) 》 カテゴリースコアの求め方 アイスタット)

ダミー変数は「1か0(ゼロ)」の2つの値しかとりません。「1」は「○○である」、「0」は「○○でない」ということを表します。「○○」を「合格」とすれば「1=合格/0=不合格」、「不合格」とすれば「1=不合格/0=合格」ということになります。(ロジスティック回帰分析(4)─ダミー変数 統計WEB)

カテゴリーが k種類あれば,k-1個のダミー変数を用意する。上の例でダミー変数を一個だけ用意して,鉄骨=0,軽量鉄骨=1,木造=2のようにしてはいけない。(アパートの家賃(2) ダミー変数を用いた重回帰分析 cuc.ac.jp)

データ: 従属変数と独立変数は量的でなければなりません。宗教、専攻、居住地区などのカテゴリー変数は、2 値 (ダミー) 変数またはその他の種類の対比変数として再割り当てする必要があります。(IBM SPSS Statistics Base 26

3カテゴリーの時に、ダミー変数を3つ作らないように注意。(分析実習資料 2021/06/ SPSSによる重回帰分析 村瀬 洋一)

https://geolog.mydns.jp/www.geocities.jp//databooster2/mydoc/sreg-qt1.pdf

SPSSを用いた解析

具体的な例が説明されている本としては、内田治著『SPSSによる回帰分析』(オーム社 平成25年8月23日第1版)があります。第4章 質的変数とダミー変数 としてかなりのページ数を割いて実際に適用した例が示されています。

『SPSSによる回帰分析』目次

  1. 第1章 回帰分析入門 1.1 回帰分析の概要 回帰分析とは 回帰分析の用語 回帰分析の用途 1.2 回帰分析におけるデータ データの種類 測定の尺度 変数の種類
  2. 第2章 単回帰分析 2.1 単回帰分析の基本 例題1 回帰式 回帰式の有意性 回帰式の有効性 母回帰係数の信頼区間 2.2 残差の検討 個々の残差 残差のヒストグラム 標準化残差の正規確率プロット 2.3 区間推定 母回帰式の信頼区間 個々のデータの予測区間 2.4 SPSS の手順 単回帰分析 散布図
  3. 第3章 重回帰分析 3.1 重回帰分析における予備的解析 例題2 3.1.1 1変数の解析 要約統計量 データのグラフ化 3.1.2 2変数の解析 相関行列 散布図行列 3.1.3 説明変数ごとの単回帰分析 x1による単回帰分析 x2による単回帰分析 x3による単回帰分析 x4による単回帰分析 単回帰分析のまとめ 3.2 重回帰分析の実際 3.2.1 重回帰分析の基本 回帰式 回帰式の有意性 回帰式の有効性 回帰係数の有意性 標準偏回帰係数 3.2.2 残差の検討 個々の残差 残差のヒストグラム 3.2.3 回帰診断 てこ比 Cook の距離 DfBeta 3.2.4 相互検証法とリサンプリング法(1)予測精度の検証 Hold out 法 K-fold 法 Leave-One-Out 法(2)回帰係数の検証 Jackknife 法 Bootstrap 法 3.3 SPSS の手順 要約統計量 ヒストグラム・箱ひげ図・幹葉図 ドットプロット 相関行列 散布図行列 3次元散布図 単回帰分析 重回帰分析 回帰診断 Bootstrap法
  4. 第4章 質的変数とダミー変数 4.1 質的変数を含んだ回帰分析 例題3 データのグラフ化 4.1.1 質的変数とダミー変数 4.1.2 ダミー変数の使い方 数値例1 数値例2 数値例3 4.1.3 カテゴリの数が3 つ以上のダミー変数 4.1.4 ダミー変数の作成 4.2 数量化理論Ⅰ類と共分散分析 4.2.1 数量化理論Ⅰ類 例題4 4.2.2 一般線形モデル 4.2.3 共分散分析 例題5 質的変数を含んだ重回帰分析 データのグラフ化 ダミー変数による重回帰分析の結果 共分散分析の結果 4.3 SPSS手順
  5. 第5章 回帰分析における説明変数の選択 5.1 変数選択の方法 5.1.1 変数選択の必要性 重要な変数と不要な変数 良い回帰式 説明変数の選択方法 変数選択の基準 5.1.2 ステップワイズ法 例題6 変数選択基準の設定 ステップワイズ法の結果 5.1.3 ベストサブセット法 5.2 説明変数の組合せで生じる問題 5.2.1 多重共線性 多重共線性とは 許容度 VIF 例題7 説明変数同士の相関行列 説明変数ごとの単回帰分析 回帰係数の符号逆転 5.2.2 解の一意性 例題8 5.2.3 欠損値の扱い 例題9 リストごとに除外した解析結果 ペアごとに除外した解析結果 平均値で置き換えた解析結果 5.3 SPSS の手順 重回帰分析(ステップワイズ法) ベストサブセット法
  6. 第6章 ロジスティック回帰分析 6.1 ロジスティック回帰の基本 6.1.1 ロジスティック回帰とは 例題10 ロジスティック回帰の概念 データのグラフ化 ロジスティック回帰の結果 6.1.2 完全分離 例題11 6.1.3 SPSS の手順 6.2 ロジスティック回帰の実践 6.2.1 多重ロジスティック回帰 ロジスティック回帰の種類 例題12 ロジスティック回帰の結果 データのグラフ化 ロジスティック回帰の結果 6.2.2 変数選択 変数選択の方法 変数選択の結果 6.3 SPSS の手順 ロジスティック回帰 ロジスティック回帰(尤度比による変数減少法)
  7. 第7章 生存分析とCox 回帰 7.1 生存分析 7.1.1 Kaplan- Meier 法による生存率曲線 例題13 生存分析とは 生存率 生存率曲線 7.1.2 生存率曲線の比較と検定 例題14 2つの生存率の違いに関する検定 ログランク検定の結果 7.2 Cox 回帰 7.2.1 比例ハザードモデル 例題15 比例ハザードモデル Cox回帰の結果 7.2.2 複数の説明変数を含むCox 回帰 例題16 複数の説明変数 7.3 SPSS の手順 Kaplan- Meier 法による生存率曲線の作成 ログランク検定 Cox 回帰 複数の説明変数を含むCox 回帰
  8. 第8章 パス解析と因果分析 8.1 因果関係の解析 8.1.1 説明変数間の因果関係 因果関係の整理 8.1.2 パス解析の概念 パス図 パス解析 8.2 パス解析の実際 8.2.1 回帰分析を用いたパス解析 x1を説明変数、x2を目的変数とする回帰分析 x1を説明変数、x3を目的変数とする回帰分析 x2とx3を説明変数、x4を目的変数とする回帰分析 x4を説明変数、yを目的変数とする回帰分析 8.2.2 共分散構造分析を用いたパス解析 共分散構造分析 AMOS による解析結果

参考

  1. SPSSにおけるカテゴリー変数のとりあつかい 2012年
  2. 04. 重回帰分析 京都大学 加納 学

重回帰分析の結果を解釈する際の注意点、よくある誤り・間違い

SPSSなどの統計ソフトを用いると重回帰分析を行うこと自体は非常に簡単です。エクセルで独立変数や従属変数をまとめておいて、SPSSでそのエクセルファイルを読み込み、どの列が従属変数でどの列が独立変数かを選べば、ワンクリック、一瞬で分析が終わります。しかし難しいのは、結果の解釈です。

  1. 多変量解析の手法別解説 > 重回帰分析 アイスタット

予測」は,重回帰分析の目的の一つであり,そこでの変量間の関係は回帰関係である.ただし,それが因果関係となるかどうかには注意深い考察が必要となる.得られた回帰式y=a+bxにおいて,b >0のとき『xが1単位大きければyが平均的にbだけ大きい』という解釈は妥当であるが,それは『xを1単位大きくすればyは平均的にbだけ大きくなる』ことを一般に意味しない.その解釈が成立するためには因果関係が必要となる (統計的因果推論の視点による重回帰分析 岩崎 学 日本統計学会誌第50巻,第2号, 2021年3月 363頁ー379頁

偏回帰係数とは:解釈する際の注意点 

他の独立変数を一定にした上で,x1を動かしてみたらyがどう変わるか」という,x1からyへの直接的な効果を示しているのが偏回帰係数です.(重回帰分析について 1.単回帰・重回帰分析における基本的な注意点 koumurayama.com)

(標準)偏回帰係数は,「他の独立変数から当該の独立変数を予測する回帰分析における残差」と「従属変数(ないし,他の独立変数から従属変数を予測する回帰分析における残差)」の関係を示すものであり,「当該の独立変数そのもの」と「従属変数」の関係を示しているものではない。すなわち,偏回帰係数は,当該の独立変数を「他の独立変数から説明される成分」と「説明されない(他の独立変数とは無相関であるために,一般に『独自なものである』という言葉で表現されている)残りの成分」に直交分解したときの後者の成分の従属変数との関係を示すものであり,後者の成分に関する値は,「他の独立変数の値を一定に統制したときの当該の独立変数の値」と言えるものであるとともに,「各対象の当該の独立変数の値が『他の独立変数の値のわりに』どの程度大きいか,または,小さいか」ということを意味しているものである(ただし,これは「変数間の関係が線形であるとともに,独立変数同士の交互作用効果が存在していない」という前提のもとでのことである)。(心理学的研究における重回帰分析の適用に関わる諸問題 心理学研究2021年

重回帰分析における多重共線性の問題

多重共線性に注意するために、回帰分析を行う際には、まず説明変数間の相関行列を見て、相関がとても強いものがあれば、片方は説明変数から除く、といったことが必要である。(分析実習資料2015/6SPSSによる重回帰分析村瀬洋一)

  1. 多変量解析の前に相関行列を見よう 2019年3月21日 投稿者: ADMIN muscle-hypertrophy.com 「分析」→「相関」→「2変量…」を選択

因果関係について

重回帰分析では、従属変数を独立変数を含む数式で表すので、あたかもそこに因果関係があるかのように感じる人もいると思います。しかし、この数式の意味するところは、あくまで、従属変数がこの数式によってうまく表現できるというだけのことです。因果関係を示すものではありません。

  1. 心理データ解析 第6回(1) 多変量解析とは 「因果関係がある」というためには少なくとも以下の3点を満たす必要がある 1独立変数(説明変数)が従属変数(基準変数)よりも時間的に先行していること 2理論的な観点からも因果の関係に必然性と整合性があること 3他の変数の影響をのぞいても,2つの変数の間に共変関係があること

参考

  1. 重回帰分析 日経リサーチ 重回帰分析の結果を得たら、そのまま鵜呑みにして直ちに結果の解釈をするのではなく、重回帰モデルが適切か否かを、まず評価する。統計ソフトウエアには以下のような評価指標も出力される。
  2. 人事データ活用入門 第4回 因果関係を分析する一手法「回帰分析」とは リクルートマネージメントソリューションズ
  3. SPSSで回帰分析を実施する方法!結果が有意でない場合の解釈は いちばんやさしい、医療統計
  4. 読めば納得。重回帰分析で失敗しがちな事例10|マーケティングと重回帰分析 − その3 ADVA MAGELLAN 2021年3月23日
  5. アパートの家賃(2)ダミー変数を用いた重回帰分析 cuc.ac.jp

 

共分散構造分析とは:講義ノート(チュートリアル)や解説書などの紹介

複数の要因(独立変数)で、「結果」がどのように説明できるかを調べる手法が重回帰分析ですが、重回帰分析においては、個々の独立変数が互いに影響しあっていない(多重共線性が無い)ことが必要です。しかし多くの場合には、互いに影響しあっているため、それを考慮できる方法としてパス解析があります。パス解析では観測できる量だけからなる独立変数、従属変数の関係性を調べますが、さらには、直接には観測できない量(例えば、性格の朗らかさ)も想定した関係性を調べたい場合に、共分散構造分析が使われます。

共分散構造分析という言葉は、構造方程式モデリング(Structural equation modeling; SEM)とほぼ同義に使われているようです。共分散分析(ANCOVA)は共分散構造分析と名前が似ていて紛らわしいですが別物のようです。

  1. 共分散構造分析の基礎と実際—-基礎編—-狩野 裕(大阪大学大学院人間学研究科 2002年11月11日SSJデータ・アーカイブ  第66回公開セミナー: StructuralEquationModeling構造方程式モデル(モデリング)–近年は共分散構造分析よりもメジャーな名称

共分散構造分析とは

  1. 共分散構造分析を行う際は最初に仮説を立て、構造モデルを作る必要があります。
  2. 仮説を立ててモデルを作ったものの、想定した要素を表すデータがとれないと共分散構造分析を行うことができません
  3. 共分散構造分析はたくさんの要素間の関係性を一度に計算することができます。これは相関分析や重回帰分析などではできないことで、共分散構造分析の最大のメリットです。
  4. CFIの値はこのモデルの適合度(妥当性)を表す指標の一つで、0から1までの範囲に収まります。1に近いほど適合が良く、一般には0.95以上であればよいモデルと判断します。

https://www.nttcoms.com/service/research/dataanalysis/sem/  NTTコムオンライン

共分散構造分析とは、わかりやすく言うと、直接観測できない「潜在変数」を導入し、導入した潜在変数と観測変数との間の因果関係を同定する統計学的手法のことです。

  1. 共分散構造分析の基礎と実際—-基礎編—- SSJデータ・アーカイブ第6回公開セミナー 2002年年11月月11日
  2. 共分散構造分析の基礎と実際—-応用編—- 狩野 裕(大阪大学大学院人間学研究科)
  3. 共分散構造分析 多変量解析の手法別解説 統計分析研究所アイスタット

共分散構造分析と重回帰分析との違い

単回帰分析、重回帰分析、パス解析、共分散構造分析(SEM)の違いは、下のサイトの図がわかりやすい。

  1. 単回帰分析・重回帰分析・共分散構造分析とパス解析 GMORESEARCH

従属変数(結果)が1個、独立変数(要因)が1個でそれらの関係を調べるのが単回帰分析。要因が複数、つまり独立変数が複数あってそれらと従属変数との関係を調べるのが重回帰分析。独立変数同士にも関連性があることを想定した解析手法が、パス解析。測定可能ではない量「潜在変数」まで考えて関連性を調べることができるのが共分散構造分析ということになります。

共分散構造分析におけるパス解析(パス図)とは

仮説的なパス図を描く上での決め事があります。アンケート調査や観測によって得られたデータを「観測変数」といい、 パス図では四角に囲んで表現します。また、アンケート調査や観測では得られなかったが、仮説的に存在するであろうと思う変数項目を 「潜在変数」と言い、パス図では楕円で囲んで表現します。因果関係において原因に当たる変数を「原因項目」、 結果に当たる変数を「結果項目」とし、それぞれを矢印の始点と終点で結びます。原因項目同士の因果関係を表す場合、 その項目間の時間的な意味を勘案して時間的に前にある項目を始点とします。

https://www.cross-m.co.jp/analysis/amos/

  1. パス解析 日経リサーチ
  2. 顧客理解を可能とするパス解析|因果関係を徹底的に探る KOTODORI
  3. 分析2:調在データの分析 人工知能学会誌21巻5号(2006年9月
  4. パス解析とは?共分散構造分析との違いもわかりやすく解説2021年10月04日 GMO RESEARCH https://gmo-research.ai/research-column/path-analytics

構造方程式モデリングとは

  1. SEMは心理学に何をもたらしたか? The Annual Report of Educational Psychology in Japan2020, Vol. 59, 292-303 ・時流に乗った,数学的には高度な新しい分析法を使った,脱常識性が感じられない研究,データと大きく乖離した主張をしている研究の量産 ・時流に乗った,数学的には高度な新しい分析法を使った研究が優れた研究であるという思い込み(?)の蔓延 ・データの収集法に関して工夫をして,脱常識性の高い因果関係を提示しようとする姿勢の阻害・相関と因果,測定の妥当性,相関的研究における変動因の問題などの,心理学にとって基本的で非常に重要なことを踏まえない傾向の助長
  2. 製品開発のためのマーケティングリサーチへの構造方程式モデリングの応用
  3. SEMによる因果分析入門–パス解析から傾向スコアまで– 大阪大学 大学院基礎工学研究科 狩野 裕
  4. 産後の抑うつ状態の複雑な予測

共分散構造分析の手順

SPSSによる共分散構造分析

Rによる共分散構造分析

『共分散構造分析 R編』

pythonによる共分散構造分析

エクセルによる共分散構造分析

共分散構造分析の教科書

『共分散構造分析 入門編』

『共分散構造分析 応用編』

『共分散構造分析 疑問編』

SPSSとAmosによる心理・調査データ解析

小塩真司『SPSSとAmosによる心理・調査データ解析 : 因子分析・共分散構造分析まで』第3版  東京図書, 2018.

図解でわかる共分散構造分析

涌井良幸, 涌井貞美『図解でわかる共分散構造分析 : データから「真の原因」を探り出す新しい統計分析ツール』日本実業出版社, 2003.

 

参考

  1. 統計分析法の分類  予測・説明関係を検討する統計的検定法の分類 予測・説明関係を検討する多変量データ解析法の分類
  2. 看護学における多変量解析の利用―国内文献の検討結果から― 飯島 純夫
  3. 高等教育研究のための計量手法の整理 中尾走、樊怡舟 広島大学大学院教育学研究科 広島大学高等教育研究開発センター(RIHE)では,大学教員に対する調査がこれまで何度も行われており,研究生産性というテーマで大学教員の論文数を従属変数にして分析
  4. 構造方程式モデリングは,因子分析,分散分析,パス解析のすべてにとって代わるのか? 狩野 裕 行動計量学 第29巻第 2号 (通巻57号)2002年,138~159
  5. 「討論:共分散構造分析」の特集にあたって 豊田秀樹  行動計量学 第29巻第 2号 (通巻57号)2002年,135~137

 

 

医療統計ソフトSPSSの使い方に関する教科書・書籍

医療統計ソフトは無料のもの(Rなど)から非常に高価なものまで(SPSSなど)いろいろありますが、医学研究の分野ではSPSS(IBM社)が定番のようです。SPSSの使い方に関する教科書・書籍が多数ありますので、まとめておきます。

 

SPSSによる回帰分析

内田 治『SPSSによる回帰分析』(オーム社 2013年8月23日 )

  1. 第1章 回帰分析入門 ◇1.1 回帰分析の概要 ■回帰分析とは ■回帰分析の用語 ■回帰分析の用途 ◇1.2 回帰分析におけるデータ ■データの種類 ■測定の尺度 ■変数の種類
  2. 第2章 単回帰分析 ◇2.1 単回帰分析の基本 ■例題1 ■回帰式 ■回帰式の有意性 ■回帰式の有効性 ■母回帰係数の信頼区間 ◇2.2 残差の検討 ■個々の残差 ■残差のヒストグラム ■標準化残差の正規確率プロット ◇2.3 区間推定 ■母回帰式の信頼区間 ■個々のデータの予測区間 ◇2.4 SPSS の手順 ■単回帰分析 ■散布図
  3. 第3章 重回帰分析 ◇3.1 重回帰分析における予備的解析 ■例題2 ○3.1.1 1変数の解析 ■要約統計量 ■データのグラフ化 ○3.1.2 2変数の解析 ■相関行列 ■散布図行列 ○3.1.3 説明変数ごとの単回帰分析 ■x1による単回帰分析 ■x2による単回帰分析 ■x3による単回帰分析 ■x4による単回帰分析 ■単回帰分析のまとめ ◇3.2 重回帰分析の実際 ○3.2.1 重回帰分析の基本 ■回帰式 ■回帰式の有意性 ■回帰式の有効性 ■回帰係数の有意性 ■標準偏回帰係数 ○3.2.2 残差の検討 ■個々の残差 ■残差のヒストグラム ○3.2.3 回帰診断 ■てこ比 ■Cook の距離 ■DfBeta ○3.2.4 相互検証法とリサンプリング法 (1)予測精度の検証 ■Hold out 法 ■K-fold 法 ■Leave-One-Out 法 (2)回帰係数の検証 ■Jackknife 法 ■Bootstrap 法 ◇3.3 SPSS の手順 ■要約統計量 ■ヒストグラム・箱ひげ図・幹葉図 ■ドットプロット ■相関行列 ■散布図行列 ■3次元散布図 ■単回帰分析 ■重回帰分析 ■回帰診断 ■Bootstrap法
  4. 第4章 質的変数とダミー変数 ◇4.1 質的変数を含んだ回帰分析 ■例題3 ■データのグラフ化 ○4.1.1 質的変数とダミー変数 ○4.1.2 ダミー変数の使い方 ■数値例1 ■数値例2 ■数値例3 ○4.1.3 カテゴリの数が3 つ以上のダミー変数 ○4.1.4 ダミー変数の作成 ◇4.2 数量化理論Ⅰ類と共分散分析 ○4.2.1 数量化理論Ⅰ類 ■例題4 ○4.2.2 一般線形モデル ○4.2.3 共分散分析 ■例題5 ■質的変数を含んだ重回帰分析 ■データのグラフ化 ■ダミー変数による重回帰分析の結果 ■共分散分析の結果 ◇4.3 SPSS手順
  5. 第5章 回帰分析における説明変数の選択 ◇5.1 変数選択の方法 ○5.1.1 変数選択の必要性 ■重要な変数と不要な変数 ■良い回帰式 ■説明変数の選択方法 ■変数選択の基準 ○5.1.2 ステップワイズ法 ■例題6 ■変数選択基準の設定 ■ステップワイズ法の結果 ○5.1.3 ベストサブセット法 ◇5.2 説明変数の組合せで生じる問題 ○5.2.1 多重共線性 ■多重共線性とは ■許容度 ■VIF ■例題7 ■説明変数同士の相関行列 ■説明変数ごとの単回帰分析 ■回帰係数の符号逆転 ○5.2.2 解の一意性 ■例題8 ○5.2.3 欠損値の扱い ■例題9 ■リストごとに除外した解析結果 ■ペアごとに除外した解析結果 ■平均値で置き換えた解析結果 ◇5.3 SPSS の手順 ■重回帰分析(ステップワイズ法) ■ベストサブセット法
  6. 第6章 ロジスティック回帰分析 ◇6.1 ロジスティック回帰の基本 ○6.1.1 ロジスティック回帰とは ■例題10 ■ロジスティック回帰の概念 ■データのグラフ化 ■ロジスティック回帰の結果 ○6.1.2 完全分離 ■例題11 ○6.1.3 SPSS の手順 ◇6.2 ロジスティック回帰の実践 ○6.2.1 多重ロジスティック回帰 ■ロジスティック回帰の種類 ■例題12 ■ロジスティック回帰の結果 ■データのグラフ化 ■ロジスティック回帰の結果 ○6.2.2 変数選択 ■変数選択の方法 ■変数選択の結果 ◇6.3 SPSS の手順 ■ロジスティック回帰 ■ロジスティック回帰(尤度比による変数減少法)
  7. 第7章 生存分析とCox 回帰 ◇7.1 生存分析 ○7.1.1 Kaplan- Meier 法による生存率曲線 ■例題13 ■生存分析とは ■生存率 ■生存率曲線 ○7.1.2 生存率曲線の比較と検定 ■例題14 ■2つの生存率の違いに関する検定 ■ログランク検定の結果 ◇7.2 Cox 回帰 ○7.2.1 比例ハザードモデル ■例題15 ■比例ハザードモデル ■Cox回帰の結果 ○7.2.2 複数の説明変数を含むCox 回帰 ■例題16 ■複数の説明変数 ◇7.3 SPSS の手順 ■Kaplan- Meier 法による生存率曲線の作成 ■ログランク検定 ■Cox 回帰 ■複数の説明変数を含むCox 回帰
  8. 第8章 パス解析と因果分析 ◇8.1 因果関係の解析 ○8.1.1 説明変数間の因果関係 ■因果関係の整理 ○8.1.2 パス解析の概念 ■パス図 ■パス解析 ◇8.2 パス解析の実際 ○8.2.1 回帰分析を用いたパス解析 ■x1を説明変数、x2を目的変数とする回帰分析 ■x1を説明変数、x3を目的変数とする回帰分析 ■x2とx3を説明変数、x4を目的変数とする回帰分析 ■x4を説明変数、yを目的変数とする回帰分析 ○8.2.2 共分散構造分析を用いたパス解析 ■共分散構造分析AMOS による解析結果
  9. 付録 ◇付録(1) 一般化線形モデル ◇付録(2) 曲線回帰 ◇付録(3) 回帰木と分類木 ■決定木 ■回帰木の例 ■分類木の例 ◇付録(4) 多重共線性の診断 ◇付録(5) ケースの数と説明変数の数

SPSSを使って重回帰分析をやりたければ、実際的な手順の説明などはこの本が一番詳細だと思います。数式による説明はほとんどないので、そういう説明が苦手な人には読みやすい。

参考

  1. 本書のウェブサイト(データダウンロードサイト
  2. 著者ウェブサイト:内田治 准教授 教員情報 東京情報大学 

 

SPSSによる統計データ解析

柳井 晴夫, 緒方 裕光 編著 改訂新版『SPSSによる統計データ解析 医学・看護学、生物学、心理学の例題による統計学入門』April 1, 2006 現代数学社

  1. 第1章 SPSSの基本的使い方 1.1 データファイルの作成手法 1.2 データの加工(椎名久美子)
  2. 第2章 データの要約 2.1 度数分布表 2.2 単純集計のグラフ表現 2.3 代表値と散らばりの指標 2.4 クロス集計表とグラフ表現 2.5 相関係数 2.6 層別の分析(椎名久美子)
  3. 第3章 統計的推論 3.1 平均値についての推論 3.2 分散についての推論 3.3 相関係数についての推論 3.4 分割表についての推論 3.5 比率についての推論(石井秀宗)
  4. 第4章 分散分析 4.1 一元配置分散分析 4.2 多重比較 4.3 多元配置分散分析(緒方祐光)
  5. 第5章 回帰分析 5.1 単回帰分析 5.2 重回帰分析(佐伯圭一郎)
  6. 第6章 測定の信頼性と妥当性 6.1 測定の信頼性 6.2 測定の妥当性(石井秀宗)
  7. 第7章 主成分分析 7.1 主成分分析の概要 7.2 相関行列に基づく主成分分析 7.3 分散共分散行列に基づく主成分分析 7.4 主成分分析による多変量外れ値の検出(伊藤圭)
  8. 第8章 因子分析 8.1 因子分析の概要 8.2 因子の抽出 8.3 因子の回転 8.4 その他の分析(西川浩昭)
  9. 第9章 クラスター分析 9.1 ケースのクラスタリング 9.2 変数のクラスタリング(西川浩昭)
  10. 第10章 判別分析 10.1 判別分析の概要 10.2 解析例1(3グループの場合) 10.3 解析例2(2グループの場合) 10.4 判別分析に関するその他の問題(Q&A)(林篤裕)
  11. 第11章 ロジスティック回帰分析 11.1 2項ロジスティック回帰 11.2 多項ロジスティック回帰(緒方祐光)
  12. 第12章 対数線形モデル 12.1 基本モデル 12.2 ロジット対数線形モデル(緒方祐光)
  13. 第13章 生存時間データの解析 13.1 生命表 13.2 カプラン・マイヤー法 13.3 比例ハザードモデル(吉本泰彦)
  14. 第14章 さらに進んだ分析法ー多変量解析法を中心としてー(柳井晴夫)

数学書の出版で定評のある現代数学社から出ているSPSSを用いた統計解析の解説書。初版が2006年ですから、信頼のおけるロングセラーです。SPSSがどんどんバージョンアップしているのでそれに合わせるために改訂版が出たそうです。

SPSSのメニューのド個をクリックしてみたいな実際的な手順がある一方で、極めて簡潔ながら理屈に関する説明も多少あって、バランスが良いスタイル。

 

SPSSで学ぶ医療系データ解析

対馬 栄輝『SPSSで学ぶ医療系データ解析 第2版』December 7, 2016 東京図書

  1. 第1章 データの設定 §1.1 データ入力の方法 §1.2 値ラベルの設定:数値データを日本語表示する
  2. 第2章 データ解析の基本事項 §2.1 データとは §2.2 標本と母集団 §2.3 データの尺度 §2.4 データ縮約のための記述統計量 §2.5 データの分布(確率分布) §2.6 標本分布 §2.7 信頼区間(区間推定) §2.8 SPSSによる記述統計量 §2.9 グラフ
  3. 第3章 統計的検定の基礎 §3.1 統計的仮説とは §3.2 統計的「有意」とは §3.3 第I 種の誤り, 第II 種の誤り §3.4 両側検定, 片側検定 §3.5 パラメトリック検定とノンパラメトリック検定 §3.6 パラメトリック検定,ノンパラメトリック検定の選択法 §3.7 SPSSによるShapiro-Wilk検定
  4. 第4章 検定の選択方法 §4.1 標本の数の数え方 §4.2 データどうしの差を検定したい(2つまでのデータの差) §4.3 データ列どうしの関連性を見たい §4.4 名義尺度データの頻度の偏りや関連度を見たい §4.5 3 つ以上の標本・変数の差をみたい §4.6 測定の信頼性を知りたい
  5. 第5章 差の検定 §5.1 差の検定とは §5.2 平均に関する検定(パラメトリックな法) §5.3 分布中心の差に関する検定(ノンパラメトリックな手法) §5.4 差の検定における注意事項
  6. 第6章 相関・回帰分析 §6.1 相関とは §6.2 回帰分析とは §6.3 相関と回帰分析における注意事項 §6.4 相関における注意点 §6.5 回帰分析における注意点
  7. 第7章 分割表の検定 §7.1 分割表の検定とは §7.2 連関係数とは §7.3 リスク比オッズ比 §7.4 Mantel-Haenszel推定量 §7.5 分割表検定における注意事項
  8. 第8章 1元配置分散分析 §8.1 分散分析とは §8.2 t検定のくり返しによる検定多重性の問題 §8.3 1元配置分散分析(パラメトリックな手法) §8.4 Kruskal-Wallis検定(ノンパラメトリックな手法) §8.5 分散分析における注意事項
  9. 第9章 多重比較法 §9.1 多重比較法とは §9.2 パラメトリックな手法(等分散性が仮定できるとき) §9.3 パラメトリックな手法(等分散性が仮定できないとき) §9.4 SPSSによる多重比較法 §9.5 ノンパラメトリックな手法 §9.6 多重比較法における注意事項 §9.7 多重比較法の手法選択
  10. 第10章 2元配置分散分析 §10.1 2元配置分散分析とは §10.2 交互作用 §10.3 要因について §10.4 SPSSによる2元配置分散分析(くり返しのある) §10.5 2元配置分散分析結果の読み方 §10.6 交互作用が有意であったときの対応 §10.7 SPSSによる2元配置分散分析(くり返しのない) §10.8 実験計画 §10.9 2元配置分散分析における注意事項
  11. 第11章 反復測定による分散分析 §11.1 反復測定による分散分析とは §11.2 SPSSによる反復測定による分散分析 §11.3 Friedman検定(ノンパラメトリックな手法) §11.4 元配置以上の分散分析と反復測定による分散分析の関係 §11.5 反復測定による分散分析における注意事項
  12. 第12章 検者間・検者内信頼性係数 §12.1 級内相関係数(ICC)とは §12.2 級内相関係数(ICC)の基礎理論 §12.3 級内相関係数(パラメトリックな手法) §12.4 SPSSによる級内相関係数 §12.5 カッパ係数とは(ノンパラメトリックな手法) §12.6 SPSSによるカッパ係数 §12.7 検者間・検者内信頼性係数における注意事項
  13. 第13章 重回帰分析 §13.1 重回帰分析とは §13.2 重回帰式を作るための基礎知識(変数選択の手順) §13.3 重回帰分析の結果を判定する指標 §13.4 モデルの適合度評価 §13.5 SPSSによる重回帰分析 §13.6 重回帰分析の結果の読み方 §13.7 重回帰分析における注意事項 §13.8 関連するその他の手法
  14. 第14章 多重ロジスティック回帰分析 §14.1 多重ロジスティック回帰分析とは §14.2 解析のしくみ §14.3 変数選択の方法 §14.4 多重ロジスティック回帰分析の結果を判定する指標 §14.5 モデルの適合度評価 §14.6 変数の加工 §14.7 SPSSによる多重ロジスティック回帰 §14.8 多重ロジスティック回帰分析における注意事項と類似手法の紹介

この本は、実験で頻出する「反復測定」のデータの解析に関してひとつの章を割いて説明していて、自分には役立ちました。よくある実験デザインなのに、その解析方法に関して十分な紙面を割いた本は意外と少ないため。

参考

  1. 著者ウェブサイト:対馬栄輝研究室 弘前大学 医学部 保健学科 理学療法学専攻 著者略歴:弘前大学医療技術短期大学部理学療法学科(保健衛生学士)、弘前大学 大学院 理学研究科 (修士課程)、弘前大学大学院 医学研究科 社会医学系 公衆衛生学講座(博士課程)、弘前大学大学院保健学研究科(教授)

 

SPSSとAmosによる心理・調査データ解析

小塩真司『SPSSとAmosによる心理・調査データ解析 : 因子分析・共分散構造分析まで 第3版 』東京図書, 2018.

  1. 第1章 データ解析の基本事項――データの形式,入力と代表値
  2. 第2章 相関と相関係数――データの関連を見る
  3. 第3章 χ2検定・t 検定――2変数の相違を見る
  4. 第4章 分散分析――3変数以上の相違の検討
  5. 第5章 重回帰分析――連続変数間の因果関係
  6. 第6章 因子分析――潜在因子からの影響を探る
  7. 第7章 因子分析を使いこなす――尺度作成と信頼性の検討
  8. 第8章 共分散構造分析――パス図の流れをつかむ
  9. 第9章 共分散構造分析を使いこなす――多母集団の同時解析とさまざまなパス図
  10. 第10章 カテゴリを扱う多変量解析――クラスタ分析・判別分析・ロジスティック回帰分析・コレスポンデンス分析

数量化I類:量的結果を説明する要因を同定するための多変量解析

アウトカムが連続変数で、原因となっている因子の候補がカテゴリー変数(有か無か)で複数ある場合にどの因子の寄与が一番大きいのかを調べたい、そんなときにつかう多変量解析の手法が、「数量化I類」と呼ばれるものです。

多変量解析と一言でいっても条件によって選ぶべき手法は異なりますので、混同しないことが大事。要因(説明変数、独立変数)と結果(従属変数、目的変数)が、連続的な数なのかそれともカテゴリー変数なのかに着目すると、選ぶべき多変量解析の手法が自ずと定まります。

多変量解析の手法の選択基準

独立変数:連続量、従属変数:連続量なら、重回帰分析

独立変数:連続量、従属変数:カテゴリーなら、判別分析

独立変数:カテゴリー、従属変数:連続量なら、数量化I類

独立変数:カテゴリー、従属変数:カテゴリーなら、数量化II類

となります。

  1. 第4章多変量解析4.外的基準が分類の場合の分析方法(https://www.bunkyo.ac.jp/~hotta/lab/courses/2003seminar/ch4-4_5_hotta.pdf)
  2. 統計分析法の分類(https://www.educa.nagoya-u.ac.jp/~ishii-h/materials/analysis_methods.pdf)

数量化1類では、独立変数がカテゴリーですがそれをダミー変数に置き換えてしまうので、そうなるとあとは重回帰分析と全く同じということになります。ダミー変数というのは例えばアンケート調査項目で、リンゴの嗜好に関して好き、普通、嫌いという選択肢があった場合に、回答者の回答で該当するものを1、他を0といった具合に、一つだけ1にして後は0にしてしまうものです。ここで、「好き」、「普通」、「嫌い」はカテゴリー変数と呼ばれます。「リンゴの嗜好」という項目のことは、アイテムと呼ばれます。

 

判別分析とロジスティック回帰分析との違い

連続量⇒カテゴリー という流れでいうと、判別分析とロジスティック回帰分析は似ていますが、何が違うのでしょうか。

  1. 判別分析とロジスティック回帰分析について CGL通信 vol39 「多変量解析の宝石学への応用」
  2. ロジスティック回帰 アイスタット ロジスティック回帰分析と似ている多変量解析に判別分析があります。‥ 両者の違いを調べてみます。

数量化I類を適用できる例数

  1. 多変量解析の手法別解説>数量化1類 アイスタット 個体数>カテゴリー総数-説明変数個数+1

数量化I類を適用する具体的な事例

多変量解析の手法別解説>数量化1類 アイスタット

目的変数:海外旅行回数

説明変数:性別(男性、女性)、年齢(若年、中年、高年)、血液型(A,B,O,AB) (カテゴリー総数=2+3+4=9、説明変数の個数=3)

目的変数:1日の新聞売り上げ部数

説明変数:曜日(月・火・水・木・金・土・日)、天候(晴・雨・小雨)、前日の野球の試合での巨人の勝敗(勝・負)、当日および前後の競馬の有無(有・無)

数量化1類 日経リサーチ

目的変数:立候補者の得票率

説明変数:政党(自民・民進・無所属)、職歴(元・現・新)、性別(男・女)

https://www.bunkyo.ac.jp/~hotta/lab/courses/2003seminar/ch4-3_huang.files/frame.htm

目的変数:英語の小テストの点

説明変数:英語が好きかどうかの質問

 

多変量解析の教科書

  1. 柳井 晴夫, 竹内 啓『射影行列・一般逆行列・特異値分解』(UP応用数学選書10 )新装版  2018/9/25  東京大学出版会 多変量解析の数学的な原理である線形代数を学ぶのに良さげな本。
  2. 足立 堅一『多変量解析入門』2005/12/20  ‎ 篠原出版新社 多変量解析の数学的な基盤である線形代数をわかりやすく解説した本。多変量解析への応用という強いモチベーションを持ちつつ、線形代数が学べるという点に特色があるのかも。
  3. 柳井晴夫『多変量データ解析法 理解と応用』(行動計量学シリーズ8)朝倉書店1994年12月5日定価3399円(本体3300円)図書館で借りて読みましたが、多変量解析の手法が網羅的に解説されています。数学的な根拠も説明されています。巻末の16ページに、本書で用いた線形代数の定理が簡潔にまとめられており、必要な数学を俯瞰できて便利。数量化I類の説明は103~105ページ
  4. 柳井 晴夫, 高根 芳雄『多変量解析法』 (現代人の統計) 新版 1985/6/1 朝倉書店
  5. 竹内啓, 柳井晴夫『多変量解析の基礎―線型空間への射影による方法』1972年 東洋経済新報社

新型コロナウイルス変異株オミクロンとCOVID-19パンデミック収束の期待

新型コロナウイルス蔓延によるCOVID-19により世界の生活が全て一変してしまいましたが、最近興ってきた変異株オミクロンは病原性がデルタ株などよりも弱くて感染力は強いので、デルタ株などを駆逐して、COVID-19パンデミックを収束に向かわせるのではないかという期待感があるようです。

WASHINGTON (TND) — The World Health Organization is predicting the omicron variant could change the course of the pandemic. WHO Director-General Tedros Adhanom Ghebreyesus says the exact impact is “still difficult to know,” as recent reports suggest the variant appears to be less mild. “This actually is very encouraging news. The World Health Organization so far says there has not been one reported death from omicron in the world,” said Dr. Jeffrey Singer to The National Desk’s Jan Jeffcoat. “Since this appears to be four times more contagious than a delta variant, hopefully, this will crowd out the delta variant eventually.” Singer says COVID-19 could become nothing more than a recurring endemic cold. (Omicron variant could change COVID-19 to just a ‘recurring endemic cold,’ says doctor by ELISSA SALAMY, The National DeskFriday, December 10th 2021 thenationaldesk.com)

 

  1. オミクロン株は「終わりの始まり」説 コロナとの戦い、もうすぐ終了の期待 2021年12月10日20時10分 J-CASTトレンド  米ブルームバーグも同日、「オミクロンは感染力がこれまでの変異株よりも強い可能性がある一方、初期の報告によれば致死性は低いともみられる。これは歴史的に観察されたウイルスの進化パターンに合致している」「オミクロン株は新型コロナパンデミックの終焉(しゅうえん)が近いことを示唆している可能性がある」という米国大手証券会社の専門家の見方を伝えた。

2本以上の直線で部分的に近似する方法 複数の回帰直線の境界の同定

実験して得れた2つのパラーメータの関係を、散布図をプロットしてなんでもかんでも直線で近似してしまう例を見かけます。どんなランダムなデータでも最小二乗法の計算は可能なので、なんらかの直線は引けてしまいますし、相関係数なども計算できてしまいます。しかし、パッと見が直線関係に見えないデータに対して、回帰直線を引くことになんの意味があるのでしょうか。実験者の頭の中に、これとこれとが相関していて欲しい、これがこれの原因であって欲しいという気持ちがあるために、無理やり直線を引いてしまっているのではないかと思われる場合があります。

どんな曲線(直線)でデータを表すのかは、研究者の恣意的な判断です。Uの字型のデータ分布に直線を当てはめるのはナンセンスでしょう。つまり、カーブフィッティングの際の近似式の選択は、実験者の仮説が入り込んでいるわけです。

一本の直線で表すのは無理そうでも、部分部分でみると直線性があることがあります。だったら、区間を分けて複数の直線を当てはめてみるのも一つの手です。もちろん、そうする動機、すなわち仮説、すなわちデータの分布に対する合理的な説明(仮説)が存在するという前提です。

この解析手法で用いられる関数の名前は英語では、piece-wise linear functionと呼ぶようです。piece-wise linear functionでグーグル検索すると多数のサイトがヒットしました。

複数の直線によるフィッティング

https://www.codeproject.com/Articles/5282014/Segmented-Linear-Regression

https://datacadamia.com/data_mining/linear_spline

http://yetanothermathprogrammingconsultant.blogspot.com/2018/03/piecewise-linear-regression.html

https://slidetodoc.com/chapter-9-special-topics-in-regression-optional-copyright/

複数の直線による回帰の方法(Python利用例)

区間に分けて直線回帰を行うことは英語だと、piecewise linear regressionというようです。ピースワイズ、つまり「部分ごとに」ということ。

  1. How to apply piecewise linear fit in Python? stack overflow

 

https://datascience.stackexchange.com/questions/8457/python-library-for-segmented-regression-a-k-a-piecewise-regression

https://www.researchgate.net/profile/Charles-Jekel-2/publication/331231072_pwlf_A_Python_Library_for_Fitting_1D_Continuous_Piecewise_Linear_Functions/links/5c9107f945851564fae8aa57/pwlf-A-Python-Library-for-Fitting-1D-Continuous-Piecewise-Linear-Functions.pdf?origin=publication_detail

https://medium.com/@kangeugine/optimize-piecewise-linear-function-f47b8610993d

https://stackoverflow.com/questions/35415372/piecewise-regresion-python

https://stackoverflow.com/questions/19955686/fit-a-curve-for-data-made-up-of-two-distinct-regimes

https://online.stat.psu.edu/stat501/lesson/8/8.8

https://stats.stackexchange.com/questions/14538/not-usual-piecewise-linear-regression

Rによる複数の直線の回帰

http://yetanothermathprogrammingconsultant.blogspot.com/2018/03/piecewise-linear-regression.html

複数の直線による回帰の方法(MATLABの利用例)

https://jp.mathworks.com/matlabcentral/answers/426524-how-to-curve-fit-a-data-with-multiple-linear-line-which-regression-method-suits

セグメントごとの直線回帰(GraphPadの利用例)

GraphPadでは2つの区間に分けて行う直線回帰はサポートしているようです。3つの区間の場合も手作業でできるようです。

https://www.graphpad.com/guides/prism/latest/curve-fitting/reg_segmental_linear_regression.htm

 

論文

 

https://www.ams.org/journals/mcom/1961-15-073/S0025-5718-1961-0119390-6/S0025-5718-1961-0119390-6.pdf

 

Muggeo, V. M. (2003). Estimating regression models with unknown breakpoints. Statistics in medicine, 22(19), 3055-3071.

https://www.hindawi.com/journals/cmmm/2019/9810675/

ADHDの脳波

 

  1. Abnormal modulation of theta oscillations in children with attention-deficit/hyperactivity disorder NeuroImage: Clinical Volume 27, 2020, 102314
  2. Guo et al., 2019 When attention was directed by social cues, the weakened alpha modulation in children with ADHD was mainly manifested in the left hemisphere and that was correlated with inattentive symptoms
  3. ter Huurne et al., 2017  ADHD adults have been reported to have an attenuated modulation in the mu rhythm while engaged in the task response
  4. Wang et al., 2016 In children with ADHD, the ERP components related to target selection and distractor suppression were inhibited in a visual search task
  5. Vollebregt et al., 2016 the posterior alpha modulation was attenuated in covert spatial attention in children with ADHD.
  6. Cross-Villasana et al., 2015 the event-related potential (ERP) component related to target selection was delayed in adults with ADHD
  7. ter Huurne et al., 2013 the posterior alpha modulation was attenuated in covert spatial attention in adults  with ADHD.