因子分析(要因分析)とは
因子分析とは
因子分析(要因分析とも呼ばれる)とはどんな分析手段なのでしょうか?因子分析とは、複数の観測値(例えば、国語のテストの点数、算数のテストの点数、理科のテストの点数、他の教科いろいろ)があったときに、これらの教科数よりももっと少ない種類の一般的な能力(例えば、言語能力、数理的能力)の存在を仮定して、それらの組み合わせ(線形結合)および、一般的な能力では説明がつかない個々の教科特有の能力との和とするモデルを考える分析手法です。
- 要因分析(コトバンク)
- 永田靖・棟近雅彦『多変量解析法入門』13.3因子分析pp197-205
因子分析と主成分分析との違い
- 主成分分析は因子分析ではない! 狩野裕 大阪大学大学院人間科学研究科 主成分分析(PrincipalCompotent Analysis; PCA) と因子分析(Factor Analysis; FA) との論争の歴史は長い.例えば,多変量実験心理学会の機関紙であるMultivariate Behavioral Research が 1989 年に特集を組んでおり ‥ PCAとFAは因果の方向が逆だという明確な違いが存在する
- 主成分分析とは? R を使った分析例や因子分析との違いを解説 Quest 主成分分析はデータの情報量を削減してデータの特徴を可視化したり要約したりするのに使われます。対して因子分析では複数のデータからその背後にある潜在的要素を発見するのに使われます
- 因子分析 mLAB 主成分分析は観測された変数を合成することが目的であるのに対し, 因子分析は観測された変数そのものが 潜在変数(因子) の合成であるとみなします.(説明の図がわかりなすい)
- 主成分分析と因子分析との比較 (SD法による庭景観写真の評価) u-tokyo.ac.jp 主成分分析は,「対象」のもつ変動を少数の次元で説明することを目的としている. つまり,「対象」の実現値を できるだけ少数の変数で近似することが目的である.‥ 因子分析は「変量」の構造をモデル化し,データがそのモデルに適合しているか といったことに関心がある.
- 心理データ解析 補足説明(1) 因子分析をする目的は「共通因子を見つけること」 主成分分析の目的は「情報を縮約すること」
- 因子分析(アイスタット)主成分分析の潜在変数は、一つは総合力があり、それ以外の潜在変数は相反する概念のもの、例えば、文系能力と理系能力、お笑い系能力とアイドル系能力など、となります。これに対し因子分析の潜在変数は、総合力が存在しません。そして潜在変数一つ一つが一つの概念、例えば、1番目潜在変数は文系能力、2番目潜在変数は理系能力を現します。
主成分分析と因子分析に纏わる間違い
- 主成分分析 -因子分析との比較- 2013.7.10. 心理データ解析演習 M1 枡田 恵 SPSSでは、因子分析のデフォルトが「主成分分析」になっているために、因子分析をするつもりが、誤って主成分分析を行ってしまうケースがある
pythonで行う主成分分析と因子分析
- 主成分分析と因子分析について juki juki 2020年10月26日 16:49 note.com
因子分析の創始者
因子分析は心理学の分野で多用されていますが、それは人間の能力やパーソナリティをできるでけ少ない数の基本要素によって説明したいという要請があるせいです。C. Spearmanが、心理学の研究で人間の知能を定量的に表すために使ったのが最初だそう。
- “General Intelligence,” Objectively Determined and Measured Author(s): C. Spearman Source: The American Journal of Psychology , Apr., 1904, Vol. 15, No. 2 (Apr., 1904), pp. 201-292 Published by: University of Illinois Press
- Two-factor theory of intelligence (Wikipedia)
参考
- 探索的因子分析と主成分分析との使い分け 奥 喜正
HALBAUによる多変量解析の実践 現代数学社
HALBAUによる多変量解析の実践
『HALBAUによる多変量解析の実践』現代数学社1995年1月25日
HALBAUという統計ソフトは現代数学社から(当時?)売れているものだそう。愛称「ハル坊」は、NECのPC9801で走る統計プログラムパッケージで、High-quality Analysis Libraries for Business and Academic Users)とのこと。PC9801っていつの時代だよ?って思います。HALBAUによる という書籍タイトルですが、別にHALBAUを使う必要はいまどきありません。本の中身は具体例が多くて、興味深いものです。編著者の名前でこの本に辿り着いたのですが、期待を裏切らないいい教科書だと思いました。理屈の部分が結構数式できっちり説明されています。
アマゾンで1円で売られていますが、HALBAUの部分を除いて考えても、とてもよい、コンパクトにまとまった多変量解析の教科書なので、お買い得かも。
『多変量解析の展開 隠れた構造と因果を推定推理する』(統計科学のフロンティア5 岩波書店 2002年12月10日)
『多変量解析の展開 隠れた構造と因果を推定推理する』(統計科学のフロンティア5 岩波書店 2002年12月10日)
図書館で借りました。
共著ですが各チャプターの著者がその領域の第一人者ばかりで、それだけでも刺激的な本であることがわかります。
目次
第I部 独立成分分析とその周辺 甘利俊一
1 信号の混合と分離独立成分分析の枠組み 2 問題の定式化 3 独立成分分析,主成分分析,因子分析 4 確率変数の従属性コスト関数 5 最急降下学習法 6 自然勾配学習法 7 独立成分分析における最急降下学習 8 推定関数と学習アルゴリズム 9 独立成分の逐次的抽出 10 信号の時間相関を利用する方法 11 時間的な混合とデコンボリューション 12 画像の分解と独立成分解析 参考文献
第II部 構造方程式モデリング,因果推論,そして非正規性 狩野裕
1 因果推論何が問題か 2 検証的因果推論パス解析 3 探索的因果推論共分散選択 4 構造方程式モデリング 5 因果の大きさを正確に測定する 6 因果の方向を同定する 7 回帰分析の役割 8 非正規性の問題 9 構造方程式モデリングの役割まとめに代えて 参考文献
第III部 疫学・臨床研究における因果推論 佐藤俊哉・松山裕
1 因果を探る 2 因果モデル 3 因果グラフ 4 因果パラメータの推定 5 因果は巡る 参考文献
補論A 分布の非正規性の利用 竹内啓
補論B 多次元AR モデルと因果関係 石黒真木夫
マンホイットニーのU検定とウィルコクソンの順位和検定とウィルコクソンの符号順位検定の違い
マンホイットニーのU検定とウィルコクソンの順位和検定とウィルコクソンの符号順位検定は、名前が似ていたり、内容が似ていたりして、普段t検定ばかりつかっていると、すぐに何がなんだったのかを忘れてしまいます。
パラメトリック検定であるt検定(つまり2群間の比較)で対応が無い場合に対応するノンパラメトリック版が、マンホイットニーのU検定およびそれと全く同値であるウィルコクソンの順位和検定です。マンホイットニーのU検定とウィルコクソンの順位和検定はやっていることが同一(同値)なので、どちらを使っても構いません。対応がある場合のt検定のノンパラメトリック版が、ウィルコクソンの符号順位検定です。「対応がある」のですから、比べたい2群のそれぞれのデータ数はもちろん同じでなくてはなりません。それに対して、マンホイットニーのU検定やウィルコクソンの順位和検定では、比べたい2群のそれぞれのデータ数(サンプル数)は異なっていても構いません。
参考図書
- 狩野克己、高橋秀人『基礎 医学統計学 改訂第6版』 この本がスッキリとした説明でなおかつ、計算式および簡単な実例を解説しているので、検定の中身がブラックボックスにならず、自分で何をやっているのかが自分で納得できるというメリットがあります。厳密な理論は理解したいとまでは思わないけど、検定で何をやっているのか計算式くらいは知っておきたいというスタンスの人に丁度手頃な教科書。きわめて整然と多数の手法がまとめられているので、自分の頭の中をスッキリと整理するのに役立つ本。2019年に第7版が出ています。フォントが変わったりして見やすくなったが、内容に変更はないようです。統計学の勉強のための最初の一冊としても申し分ないし、日常的に使うためのリファレンスとしても良い本なので、是非手元に置いておきたい本です。
ピアソンの相関係数の意味、求め方、解釈の仕方、ありがちな間違い
ピアソンの相関係数とは:定義
ピアソンの相関係数とは、わかりやすく言うと、2つの量にどの程度の相関があるかを表す指標です。正式名称は、ピアソンの積率相関係数と言います。
相関係数って何?と思って統計の教科書を開いたときに、相関係数の定義が載っているわけですが、教科書によって大きく分けて2つの説明があります。一つは、確率変数X,Yに関する相関の定義。もう一つは、実際に観察されたデータの変数X,Yに関する相関の定義です。この区別を頭の中でできていない状態で教科書を見ると、本によって書いてあることが違うような気がして頭が混乱します。
例えば稲垣宣生『数理統計学』のような数学的な内容の教科書だと、確率変数X,Yを基準化したものの共分散を相関係数と呼ぶと説明しています。他方、豊川・柳井(編著)『医学・保健学の例題による 統計学』の相関係数の説明を読むと(51ページ)、データ(xi, yi)に関して相関係数の計算式を紹介しています。
ウィキペディアの説明も注意深く読むと2つの状況に関して書いてあります。
相関係数(そうかんけいすう、英: correlation coefficient)とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である。(ウィキペディア)
日本統計学会(編)『統計学実践ワークブック』の相関係数の説明を読むと、確率変数X,Yに関する説明がありますが、そのあとで実際のデータに関する言及の前に補足的な説明がちゃんとされていました。
データの特性値 これまで紹介してきた特性値は分布(母集団)に関する特性値である。実際に観測されたデータに対する特性値もほぼ同様に計算される。(日本統計学会(編)『統計学実践ワークブック』 17ページ)
自分のような初学者はこんな、そもそも今何について考えているのか、といった当たり前すぎることで混乱し躓いたりするのですが、日本統計学会(編)『統計学実践ワークブック』はコンパクトなわりに、よくよく読むと結構親切に書かれていることがわかります。
ピアソンの相関係数を使ってはいけない例
ピアソンの相関係数は、2つの変数XとYのデータにどれくらいの直線的な関係があるかを示すものです。そもそもYとXとの間に直線関係が無い場合は、いくらXとYとが密接に関連していたとしても、ピアソンの相関係数は1に近くはなりません。もともと直線性が仮定できないようなデータX,Yに対してピアソンの相関係数を計算することはナンセンスです。そのため、ピアソンの相関係数を求めるまえにまずXとYの散布図を描画してみて、線形性があるかどうかを見ておくことが大事です。
ピアソンの相関係数の求め方と計算式
XとYという2つの変数(データ)がn個ずつあったとき、ピアソンの積率相関係数は、
ピアソンの積率相関係数 = XとYの共分散 / Xの標準偏差とYの標準偏差との積
という数式で求められます。
- ピアソンの積率相関係数 ウェブリオ辞書
- ピアソンの積率相関係数 Pearson product-moment correlation coefficient BellCurb統計用語集
ピアソンの相関係数の意味
定義式からわかるように、ピアソンの相関係数はXとYが完全に相関しているとき、すなわち直線関係にあるときに1になり、まったく相関がないときに0になります。XとYが逆相関しているときは-1を取ります。-1から1までの間の数をとることになります。
ピアソンの相関係数のp値とは
相関係数が0でないかどうかを調べるために検定が行われます。p値が小さいから相関が強いと解釈するのは間違いです。相関の強さは相関係数が1に近いかどうかです。
SPSSによるピアソンの相関係数の求め方
Rを用いたピアソンの相関係数の求め方
ピアソンの相関係数とスピアマンの相関係数との違いと使い分け方
Pearson の相関係数には、対称的な量的変数を使用し、Spearman のローおよび Kendall のタウ bには、量的変数または順序付けされたカテゴリー変数を使用します。(2 変量の相関分析 SPSS Statistics 27.0.0 IBM)
- データ尺度の違いによる相関関係を数値化する方法の種類
- ピアソンの相関の方法とスピアマンの相関の方法の比較 menu Minitab® 18サポート
ピアソンの相関係数を英語でいうと
ピアソンの相関係数は英語で、Pearson’s Correlation Coefficient (PCC)あるいはPearson’s Product-Moment Correlation Coefficient (PPMCC)あるいはPearson’s rなどと言われるようです。
参考
多変量解析を理解するための線形代数の教科書
線形代数 基礎と応用
新井諭之『線形代数 基礎と応用』日本評論社
古い本で絶版になっており、アマゾンで5万円もの高値がついています。古書検索をやっても他にでてきません。自分は図書館で借りて読みましたが、500ページという大著で、応用上重要な事項が全部説明されています。コテコテの数学書でもなくて、まあ数学書なのですが(定義、定理、証明が延々続くという意味で)、ところどころのページに「しっかり覚えてね」といったコメントが入っていたりして、読者への気持ちが感じられる良書。手元に欲しくてヤフオク、メルカリ、古書サイトを探しているんですが、本当に見つかりません。
多変量解析入門
足立 堅一『多変量解析入門 線形代数から多変量解析へ』 篠原出版新社 December 20, 2005
書名は多変量解析入門ですが、中身は多変量解析で使われる線形代数の解説だそうです。多変量解析の基盤となっている数学的な原理に関する解説書としては、もっともわかりやすく(数学が苦手な人にもわかるように)書かれているみたいです。
射影行列・一般逆行列・特異値分解
柳井・竹内『射影行列・一般逆行列・特異値分解』 新装版 2018
第6章応用 のところでようやく多変量解析などの話題が出てきます。第5章まではひたすら数学的な準備といったところでしょうか。自分は図書館で借りてみましたが、自分の数学的能力では読み進めるのが辛すぎて挫折しました。数学の本に手を出す場合には、身の丈にあった本にすべきだと痛感。
多変量解析の基礎
柳井・竹内『多変量解析の基礎』1972
重回帰分析の実際的な手順
重回帰分析はSPSSでやると一瞬ですが、高価なソフトウェアがなくても無料のpythonやRを使って分析することも比較的簡単にできるようです。実際的な手順を解説したサイトを纏めておきます。
得られた予測式の係数の解釈について:注意点など
- 回帰係数にはデータ単位があり、目的変数のデータ単位と同じ
- 回帰係数から『説明変数の目的変数に対する貢献度』がわかります。
- データ単位が変われば係数の値も変わることを理解してください。したがって、関係式の回帰係数を比較し、値が大きい説明変数ほど目的変数に貢献しているとか重要であるいうことはいえません。重回帰分析では、回帰係数とは別の統計量「標準回帰係数」を算出し、この値を使って売上を予測するのに重要な説明変数のランキング(順番)を把握します。
引用元:多変量解析の手法別解説>重回帰分析(2/3) アイスタット
- 特に注意しないといけない点は,回帰分析は決して因果関係を表しているわけではないということです.従属変数を独立変数で「予測」するのが回帰分析というと,いかにも「独立変数⇒従属変数」という矢印つきの因果関係を想定しがちですが,決して因果関係と断定はできません.あくまで回帰係数は相関関係です.例えば単回帰分析の場合,独立変数と従属変数を入れ替えても,標準化された回帰係数は全く変わらず,しかもその値は普通の単相関係数なのです.
- 「従属変数の予測力」と「具体的にどの独立変数が従属変数にどのような形で効いているかを理解できること」ということは別問題です.後述するように,偏回帰係数の解釈は独立変数の数が増えるほど困難になります.社会学のように,とにかく社会事象の予測の精度を目的にする場合では,独立変数を増やしてその予測力を高めることには一定の意味があると思いますが,例えば教育心理学研究のように独立変数と従属変数の具体的な関係を吟味し,そのメカニズムを解明したり独立変数を操作して介入に生かしていこうという場合には,多くの独立変数を投入した重回帰分析は結果の解釈が困難で,実質的に無意味になることが多いです.
(重回帰分析について 1.単回帰・重回帰分析における基本的な注意点 koumurayama.com)
- 決定係数や標準化偏回帰係数が高いと「影響力が強い」といえるのか?ryotamugiyama.com/
- 重回帰分析とは?(手法解析から注意点まで)surveroid.jp
重回帰分析により、従属変数をうまく表現する予測モデル(式)が得られますが、その式に現れる係数(回帰係数や標準化回帰係数)は、予測モデルにおける貢献の度合い、影響の大きさを表しているにすぎず、「原因としての大きさ」と無考えに解釈していいわけではないようです。所詮、単なる数式なので、何を独立変数として、何を従属変数とするかに関しても、別に数学的には制約はないわけで、独立変数を従属変数を入れ替えても(つまり、原因と思っていたことと、結果と思っていたことを入れ替えても)重回帰分析はできてしまうことを考えれば、重回帰分析は因果関係を直ちに教えてくれるものでは決してないということが理解できます。
変数の正規化について
偏回帰係数は、どの説明変数がどの程度目的変数に影響を与えているかを直接的には表していません。身長を(cm)で計算した場合と(m)で計算した場合とでは全く影響度の値が異なってしまうことからも明らかです。各変数を平均 0,分散 1 に標準化して求めた「標準偏回帰係数」を用いれば、各説明変数のばらつきの違いによる影響を除去されるので、影響度が算出されます。(重回帰分析とは albert2005.co.jp)
購入額の予測値=5,000+30×(年齢)+300×(性別)+450×(家族人数)+0.001×(年収)
この関係式において、説明変数(属性)が、購入額(目的変数)に対しておよぼす影響の大きさを知りたいということがよくあります。上の関係式では、年齢や年収は単位が違います。したがって年齢の項の偏回帰係数30と年収の項の偏回帰係数0.001は直接比較できません。そこで、あらかじめ説明変数を平均0、分散1に標準化()しておくと、単位が同一の条件下で分析できます。(回帰分析のモデルと基本式 macromill.com)
ダミー変数について
一般線形モデルでは,質的な独立変数(つまり,分散分析の要因)を,(水準数-1)個のダミー変数を使って表す。ダミー変数とは,ある水準に属していることを1で表し,属していないことを0で表す変数のことである。‥ このような(水準数-1)個のダミー変数を独立変数として重回帰分析を行うと,重回帰モデルの有意性検定の自由度,F値,p値が,対応のない1要因分散分析と同じ値になる。回帰式を最小二乗法で推定すれば,予測値は各水準の母平均の最小二乗推定値となる。詳しくは南風原(₂₀₀₂)のpp. ₂₁₆-₂₁₉,₂₇₅-₂₇₆を参照されたい。(統計モデルの違いを理解する 一般線形モデル・一般化線形モデル・階層線形モデル・階層的重回帰モデル The Annual Report of Educational Psychology in Japan₂₀₁₈, Vol. ₅₇, 302-308 PDF)
- 第7章 ダミー変数 osaka-u.ac.jp
pythonを用いた重回帰分析
pandasとscikit-learnを使うと、SPSSでできることがpythonでもあっさりとできるようです。下記のウェブサイトを参考に自分のデータで計算してみたところ、pythonでもSPSSでも同じような結果が得られました。
- Pythonで基礎から機械学習 「重回帰分析」 @karaage0703 デフォルトは以下のようです。ややこし過ぎですね。 scikit-learn: 分散 pandas: 不偏分散 numpy: 分散 R言語: 不偏分散 ‥ このように、偏差回帰係数と標準化偏差回帰係数は簡単に変換できるので、正規化しないで重回帰分析をして偏回帰係数を求め、後から必要に応じて標準化偏回帰係数を求める方が計算上は楽です。
- 重回帰分析の概要とpython 実装 実践ケモインフォマティクス
- scikit-learn で線形回帰 (単回帰分析・重回帰分析) pythondatascience.plavox.info 各変数がどの程度目的変数に影響しているかを確認するには、各変数を正規化 (標準化) し、平均 = 0, 標準偏差 = 1 になるように変換した上で、重回帰分析を行うと偏回帰係数の大小で比較することができるようになります。
Rを用いた重回帰分析
- 18. 重回帰分析 1 (単回帰と重回帰)takushoku-u.ac.jp
論文出版の際のまとめ方
- 3.結果のまとめと解釈 rikkyo.ac.jp 分析結果は、学術論文では以下のような形式の表にまとめる。図の方が一般向けには分かりやすい。各説明変数の偏回帰係数は有意か、モデル全体の説明力はどうか、なぜそのような結果が出たのかなどについて検討し、結果の解釈や考察を行うこと。
参考
- 12 重回帰分析の使用上の注意 kwansei.ac.jp
- 回帰分析を理解しよう!-回帰分析の由来と概念、そして分析結果の評価について- 生活研究部 主任研究員・ヘルスケアリサーチセンター・ジェロントロジー推進室兼任 金 明中 ニッセイ基礎研究所
重回帰分析の結果を解釈する際の注意点、よくある誤り・間違い
SPSSなどの統計ソフトを用いると重回帰分析を行うこと自体は非常に簡単です。エクセルで独立変数や従属変数をまとめておいて、SPSSでそのエクセルファイルを読み込み、どの列が従属変数でどの列が独立変数かを選べば、ワンクリック、一瞬で分析が終わります。しかし難しいのは、結果の解釈です。
- 多変量解析の手法別解説 > 重回帰分析 アイスタット
「予測」は,重回帰分析の目的の一つであり,そこでの変量間の関係は回帰関係である.ただし,それが因果関係となるかどうかには注意深い考察が必要となる.得られた回帰式y=a+bxにおいて,b >0のとき『xが1単位大きければyが平均的にbだけ大きい』という解釈は妥当であるが,それは『xを1単位大きくすればyは平均的にbだけ大きくなる』ことを一般に意味しない.その解釈が成立するためには因果関係が必要となる (統計的因果推論の視点による重回帰分析 岩崎 学 日本統計学会誌第50巻,第2号, 2021年3月 363頁ー379頁)
偏回帰係数とは:解釈する際の注意点
「他の独立変数を一定にした上で,x1を動かしてみたらyがどう変わるか」という,x1からyへの直接的な効果を示しているのが偏回帰係数です.(重回帰分析について 1.単回帰・重回帰分析における基本的な注意点 koumurayama.com)
(標準)偏回帰係数は,「他の独立変数から当該の独立変数を予測する回帰分析における残差」と「従属変数(ないし,他の独立変数から従属変数を予測する回帰分析における残差)」の関係を示すものであり,「当該の独立変数そのもの」と「従属変数」の関係を示しているものではない。すなわち,偏回帰係数は,当該の独立変数を「他の独立変数から説明される成分」と「説明されない(他の独立変数とは無相関であるために,一般に『独自なものである』という言葉で表現されている)残りの成分」に直交分解したときの後者の成分の従属変数との関係を示すものであり,後者の成分に関する値は,「他の独立変数の値を一定に統制したときの当該の独立変数の値」と言えるものであるとともに,「各対象の当該の独立変数の値が『他の独立変数の値のわりに』どの程度大きいか,または,小さいか」ということを意味しているものである(ただし,これは「変数間の関係が線形であるとともに,独立変数同士の交互作用効果が存在していない」という前提のもとでのことである)。(心理学的研究における重回帰分析の適用に関わる諸問題 心理学研究2021年)
重回帰分析における多重共線性の問題
多重共線性に注意するために、回帰分析を行う際には、まず説明変数間の相関行列を見て、相関がとても強いものがあれば、片方は説明変数から除く、といったことが必要である。(分析実習資料2015/6SPSSによる重回帰分析村瀬洋一)
- 多変量解析の前に相関行列を見よう 2019年3月21日 投稿者: ADMIN muscle-hypertrophy.com 「分析」→「相関」→「2変量…」を選択
因果関係について
重回帰分析では、従属変数を独立変数を含む数式で表すので、あたかもそこに因果関係があるかのように感じる人もいると思います。しかし、この数式の意味するところは、あくまで、従属変数がこの数式によってうまく表現できるというだけのことです。因果関係を示すものではありません。
- 心理データ解析 第6回(1) 多変量解析とは 「因果関係がある」というためには少なくとも以下の3点を満たす必要がある 1独立変数(説明変数)が従属変数(基準変数)よりも時間的に先行していること 2理論的な観点からも因果の関係に必然性と整合性があること 3他の変数の影響をのぞいても,2つの変数の間に共変関係があること
参考
- 重回帰分析 日経リサーチ 重回帰分析の結果を得たら、そのまま鵜呑みにして直ちに結果の解釈をするのではなく、重回帰モデルが適切か否かを、まず評価する。統計ソフトウエアには以下のような評価指標も出力される。
- 人事データ活用入門 第4回 因果関係を分析する一手法「回帰分析」とは リクルートマネージメントソリューションズ
- SPSSで回帰分析を実施する方法!結果が有意でない場合の解釈は いちばんやさしい、医療統計
- 読めば納得。重回帰分析で失敗しがちな事例10|マーケティングと重回帰分析 − その3 ADVA MAGELLAN 2021年3月23日
- アパートの家賃(2)ダミー変数を用いた重回帰分析 cuc.ac.jp
医療統計ソフトSPSSの使い方に関する教科書・書籍
医療統計ソフトは無料のもの(Rなど)から非常に高価なものまで(SPSSなど)いろいろありますが、医学研究の分野ではSPSS(IBM社)が定番のようです。SPSSの使い方に関する教科書・書籍が多数ありますので、まとめておきます。
SPSSによる回帰分析
内田 治『SPSSによる回帰分析』(オーム社 2013年8月23日 )
- 第1章 回帰分析入門 ◇1.1 回帰分析の概要 ■回帰分析とは ■回帰分析の用語 ■回帰分析の用途 ◇1.2 回帰分析におけるデータ ■データの種類 ■測定の尺度 ■変数の種類
- 第2章 単回帰分析 ◇2.1 単回帰分析の基本 ■例題1 ■回帰式 ■回帰式の有意性 ■回帰式の有効性 ■母回帰係数の信頼区間 ◇2.2 残差の検討 ■個々の残差 ■残差のヒストグラム ■標準化残差の正規確率プロット ◇2.3 区間推定 ■母回帰式の信頼区間 ■個々のデータの予測区間 ◇2.4 SPSS の手順 ■単回帰分析 ■散布図
- 第3章 重回帰分析 ◇3.1 重回帰分析における予備的解析 ■例題2 ○3.1.1 1変数の解析 ■要約統計量 ■データのグラフ化 ○3.1.2 2変数の解析 ■相関行列 ■散布図行列 ○3.1.3 説明変数ごとの単回帰分析 ■x1による単回帰分析 ■x2による単回帰分析 ■x3による単回帰分析 ■x4による単回帰分析 ■単回帰分析のまとめ ◇3.2 重回帰分析の実際 ○3.2.1 重回帰分析の基本 ■回帰式 ■回帰式の有意性 ■回帰式の有効性 ■回帰係数の有意性 ■標準偏回帰係数 ○3.2.2 残差の検討 ■個々の残差 ■残差のヒストグラム ○3.2.3 回帰診断 ■てこ比 ■Cook の距離 ■DfBeta ○3.2.4 相互検証法とリサンプリング法 (1)予測精度の検証 ■Hold out 法 ■K-fold 法 ■Leave-One-Out 法 (2)回帰係数の検証 ■Jackknife 法 ■Bootstrap 法 ◇3.3 SPSS の手順 ■要約統計量 ■ヒストグラム・箱ひげ図・幹葉図 ■ドットプロット ■相関行列 ■散布図行列 ■3次元散布図 ■単回帰分析 ■重回帰分析 ■回帰診断 ■Bootstrap法
- 第4章 質的変数とダミー変数 ◇4.1 質的変数を含んだ回帰分析 ■例題3 ■データのグラフ化 ○4.1.1 質的変数とダミー変数 ○4.1.2 ダミー変数の使い方 ■数値例1 ■数値例2 ■数値例3 ○4.1.3 カテゴリの数が3 つ以上のダミー変数 ○4.1.4 ダミー変数の作成 ◇4.2 数量化理論Ⅰ類と共分散分析 ○4.2.1 数量化理論Ⅰ類 ■例題4 ○4.2.2 一般線形モデル ○4.2.3 共分散分析 ■例題5 ■質的変数を含んだ重回帰分析 ■データのグラフ化 ■ダミー変数による重回帰分析の結果 ■共分散分析の結果 ◇4.3 SPSS手順
- 第5章 回帰分析における説明変数の選択 ◇5.1 変数選択の方法 ○5.1.1 変数選択の必要性 ■重要な変数と不要な変数 ■良い回帰式 ■説明変数の選択方法 ■変数選択の基準 ○5.1.2 ステップワイズ法 ■例題6 ■変数選択基準の設定 ■ステップワイズ法の結果 ○5.1.3 ベストサブセット法 ◇5.2 説明変数の組合せで生じる問題 ○5.2.1 多重共線性 ■多重共線性とは ■許容度 ■VIF ■例題7 ■説明変数同士の相関行列 ■説明変数ごとの単回帰分析 ■回帰係数の符号逆転 ○5.2.2 解の一意性 ■例題8 ○5.2.3 欠損値の扱い ■例題9 ■リストごとに除外した解析結果 ■ペアごとに除外した解析結果 ■平均値で置き換えた解析結果 ◇5.3 SPSS の手順 ■重回帰分析(ステップワイズ法) ■ベストサブセット法
- 第6章 ロジスティック回帰分析 ◇6.1 ロジスティック回帰の基本 ○6.1.1 ロジスティック回帰とは ■例題10 ■ロジスティック回帰の概念 ■データのグラフ化 ■ロジスティック回帰の結果 ○6.1.2 完全分離 ■例題11 ○6.1.3 SPSS の手順 ◇6.2 ロジスティック回帰の実践 ○6.2.1 多重ロジスティック回帰 ■ロジスティック回帰の種類 ■例題12 ■ロジスティック回帰の結果 ■データのグラフ化 ■ロジスティック回帰の結果 ○6.2.2 変数選択 ■変数選択の方法 ■変数選択の結果 ◇6.3 SPSS の手順 ■ロジスティック回帰 ■ロジスティック回帰(尤度比による変数減少法)
- 第7章 生存分析とCox 回帰 ◇7.1 生存分析 ○7.1.1 Kaplan- Meier 法による生存率曲線 ■例題13 ■生存分析とは ■生存率 ■生存率曲線 ○7.1.2 生存率曲線の比較と検定 ■例題14 ■2つの生存率の違いに関する検定 ■ログランク検定の結果 ◇7.2 Cox 回帰 ○7.2.1 比例ハザードモデル ■例題15 ■比例ハザードモデル ■Cox回帰の結果 ○7.2.2 複数の説明変数を含むCox 回帰 ■例題16 ■複数の説明変数 ◇7.3 SPSS の手順 ■Kaplan- Meier 法による生存率曲線の作成 ■ログランク検定 ■Cox 回帰 ■複数の説明変数を含むCox 回帰
- 第8章 パス解析と因果分析 ◇8.1 因果関係の解析 ○8.1.1 説明変数間の因果関係 ■因果関係の整理 ○8.1.2 パス解析の概念 ■パス図 ■パス解析 ◇8.2 パス解析の実際 ○8.2.1 回帰分析を用いたパス解析 ■x1を説明変数、x2を目的変数とする回帰分析 ■x1を説明変数、x3を目的変数とする回帰分析 ■x2とx3を説明変数、x4を目的変数とする回帰分析 ■x4を説明変数、yを目的変数とする回帰分析 ○8.2.2 共分散構造分析を用いたパス解析 ■共分散構造分析 ■AMOS による解析結果
- 付録 ◇付録(1) 一般化線形モデル ◇付録(2) 曲線回帰 ◇付録(3) 回帰木と分類木 ■決定木 ■回帰木の例 ■分類木の例 ◇付録(4) 多重共線性の診断 ◇付録(5) ケースの数と説明変数の数
SPSSを使って重回帰分析をやりたければ、実際的な手順の説明などはこの本が一番詳細だと思います。数式による説明はほとんどないので、そういう説明が苦手な人には読みやすい。
参考
- 本書のウェブサイト(データダウンロードサイト)
- 著者ウェブサイト:内田治 准教授 教員情報 東京情報大学
SPSSによる統計データ解析
柳井 晴夫, 緒方 裕光 編著 改訂新版『SPSSによる統計データ解析 医学・看護学、生物学、心理学の例題による統計学入門』April 1, 2006 現代数学社
- 第1章 SPSSの基本的使い方 1.1 データファイルの作成手法 1.2 データの加工(椎名久美子)
- 第2章 データの要約 2.1 度数分布表 2.2 単純集計のグラフ表現 2.3 代表値と散らばりの指標 2.4 クロス集計表とグラフ表現 2.5 相関係数 2.6 層別の分析(椎名久美子)
- 第3章 統計的推論 3.1 平均値についての推論 3.2 分散についての推論 3.3 相関係数についての推論 3.4 分割表についての推論 3.5 比率についての推論(石井秀宗)
- 第4章 分散分析 4.1 一元配置分散分析 4.2 多重比較 4.3 多元配置分散分析(緒方祐光)
- 第5章 回帰分析 5.1 単回帰分析 5.2 重回帰分析(佐伯圭一郎)
- 第6章 測定の信頼性と妥当性 6.1 測定の信頼性 6.2 測定の妥当性(石井秀宗)
- 第7章 主成分分析 7.1 主成分分析の概要 7.2 相関行列に基づく主成分分析 7.3 分散共分散行列に基づく主成分分析 7.4 主成分分析による多変量外れ値の検出(伊藤圭)
- 第8章 因子分析 8.1 因子分析の概要 8.2 因子の抽出 8.3 因子の回転 8.4 その他の分析(西川浩昭)
- 第9章 クラスター分析 9.1 ケースのクラスタリング 9.2 変数のクラスタリング(西川浩昭)
- 第10章 判別分析 10.1 判別分析の概要 10.2 解析例1(3グループの場合) 10.3 解析例2(2グループの場合) 10.4 判別分析に関するその他の問題(Q&A)(林篤裕)
- 第11章 ロジスティック回帰分析 11.1 2項ロジスティック回帰 11.2 多項ロジスティック回帰(緒方祐光)
- 第12章 対数線形モデル 12.1 基本モデル 12.2 ロジット対数線形モデル(緒方祐光)
- 第13章 生存時間データの解析 13.1 生命表 13.2 カプラン・マイヤー法 13.3 比例ハザードモデル(吉本泰彦)
- 第14章 さらに進んだ分析法ー多変量解析法を中心としてー(柳井晴夫)
数学書の出版で定評のある現代数学社から出ているSPSSを用いた統計解析の解説書。初版が2006年ですから、信頼のおけるロングセラーです。SPSSがどんどんバージョンアップしているのでそれに合わせるために改訂版が出たそうです。
SPSSのメニューのド個をクリックしてみたいな実際的な手順がある一方で、極めて簡潔ながら理屈に関する説明も多少あって、バランスが良いスタイル。
SPSSで学ぶ医療系データ解析
対馬 栄輝『SPSSで学ぶ医療系データ解析 第2版』December 7, 2016 東京図書
- 第1章 データの設定 §1.1 データ入力の方法 §1.2 値ラベルの設定:数値データを日本語表示する
- 第2章 データ解析の基本事項 §2.1 データとは §2.2 標本と母集団 §2.3 データの尺度 §2.4 データ縮約のための記述統計量 §2.5 データの分布(確率分布) §2.6 標本分布 §2.7 信頼区間(区間推定) §2.8 SPSSによる記述統計量 §2.9 グラフ
- 第3章 統計的検定の基礎 §3.1 統計的仮説とは §3.2 統計的「有意」とは §3.3 第I 種の誤り, 第II 種の誤り §3.4 両側検定, 片側検定 §3.5 パラメトリック検定とノンパラメトリック検定 §3.6 パラメトリック検定,ノンパラメトリック検定の選択法 §3.7 SPSSによるShapiro-Wilk検定
- 第4章 検定の選択方法 §4.1 標本の数の数え方 §4.2 データどうしの差を検定したい(2つまでのデータの差) §4.3 データ列どうしの関連性を見たい §4.4 名義尺度データの頻度の偏りや関連度を見たい §4.5 3 つ以上の標本・変数の差をみたい §4.6 測定の信頼性を知りたい
- 第5章 差の検定 §5.1 差の検定とは §5.2 平均に関する検定(パラメトリックな法) §5.3 分布中心の差に関する検定(ノンパラメトリックな手法) §5.4 差の検定における注意事項
- 第6章 相関・回帰分析 §6.1 相関とは §6.2 回帰分析とは §6.3 相関と回帰分析における注意事項 §6.4 相関における注意点 §6.5 回帰分析における注意点
- 第7章 分割表の検定 §7.1 分割表の検定とは §7.2 連関係数とは §7.3 リスク比・オッズ比 §7.4 Mantel-Haenszel推定量 §7.5 分割表検定における注意事項
- 第8章 1元配置分散分析 §8.1 分散分析とは §8.2 t検定のくり返しによる検定多重性の問題 §8.3 1元配置分散分析(パラメトリックな手法) §8.4 Kruskal-Wallis検定(ノンパラメトリックな手法) §8.5 分散分析における注意事項
- 第9章 多重比較法 §9.1 多重比較法とは §9.2 パラメトリックな手法(等分散性が仮定できるとき) §9.3 パラメトリックな手法(等分散性が仮定できないとき) §9.4 SPSSによる多重比較法 §9.5 ノンパラメトリックな手法 §9.6 多重比較法における注意事項 §9.7 多重比較法の手法選択
- 第10章 2元配置分散分析 §10.1 2元配置分散分析とは §10.2 交互作用 §10.3 要因について §10.4 SPSSによる2元配置分散分析(くり返しのある) §10.5 2元配置分散分析結果の読み方 §10.6 交互作用が有意であったときの対応 §10.7 SPSSによる2元配置分散分析(くり返しのない) §10.8 実験計画 §10.9 2元配置分散分析における注意事項
- 第11章 反復測定による分散分析 §11.1 反復測定による分散分析とは §11.2 SPSSによる反復測定による分散分析 §11.3 Friedman検定(ノンパラメトリックな手法) §11.4 元配置以上の分散分析と反復測定による分散分析の関係 §11.5 反復測定による分散分析における注意事項
- 第12章 検者間・検者内信頼性係数 §12.1 級内相関係数(ICC)とは §12.2 級内相関係数(ICC)の基礎理論 §12.3 級内相関係数(パラメトリックな手法) §12.4 SPSSによる級内相関係数 §12.5 カッパ係数とは(ノンパラメトリックな手法) §12.6 SPSSによるカッパ係数 §12.7 検者間・検者内信頼性係数における注意事項
- 第13章 重回帰分析 §13.1 重回帰分析とは §13.2 重回帰式を作るための基礎知識(変数選択の手順) §13.3 重回帰分析の結果を判定する指標 §13.4 モデルの適合度評価 §13.5 SPSSによる重回帰分析 §13.6 重回帰分析の結果の読み方 §13.7 重回帰分析における注意事項 §13.8 関連するその他の手法
- 第14章 多重ロジスティック回帰分析 §14.1 多重ロジスティック回帰分析とは §14.2 解析のしくみ §14.3 変数選択の方法 §14.4 多重ロジスティック回帰分析の結果を判定する指標 §14.5 モデルの適合度評価 §14.6 変数の加工 §14.7 SPSSによる多重ロジスティック回帰 §14.8 多重ロジスティック回帰分析における注意事項と類似手法の紹介
この本は、実験で頻出する「反復測定」のデータの解析に関してひとつの章を割いて説明していて、自分には役立ちました。よくある実験デザインなのに、その解析方法に関して十分な紙面を割いた本は意外と少ないため。
参考
- 著者ウェブサイト:対馬栄輝研究室 弘前大学 医学部 保健学科 理学療法学専攻 著者略歴:弘前大学医療技術短期大学部理学療法学科(保健衛生学士)、弘前大学 大学院 理学研究科 (修士課程)、弘前大学大学院 医学研究科 社会医学系 公衆衛生学講座(博士課程)、弘前大学大学院保健学研究科(教授)
SPSSとAmosによる心理・調査データ解析
小塩真司『SPSSとAmosによる心理・調査データ解析 : 因子分析・共分散構造分析まで 第3版 』東京図書, 2018.
- 第1章 データ解析の基本事項――データの形式,入力と代表値
- 第2章 相関と相関係数――データの関連を見る
- 第3章 χ2検定・t 検定――2変数の相違を見る
- 第4章 分散分析――3変数以上の相違の検討
- 第5章 重回帰分析――連続変数間の因果関係
- 第6章 因子分析――潜在因子からの影響を探る
- 第7章 因子分析を使いこなす――尺度作成と信頼性の検討
- 第8章 共分散構造分析――パス図の流れをつかむ
- 第9章 共分散構造分析を使いこなす――多母集団の同時解析とさまざまなパス図
- 第10章 カテゴリを扱う多変量解析――クラスタ分析・判別分析・ロジスティック回帰分析・コレスポンデンス分析
大学レベルの医療統計学の教科書のおすすめ 検定と推定、数理統計学
統計学の教科書は何が一番いいのかは自分でも悩みますし、人にお勧めの教科書は何ですかと聞かれることもあります。結局、手持ちのデータがすでにあって解析をただちにしたいのかそれとも理屈を知りたいのかといった目的と、読むのに使える時間と、どのくらい数学的原理的なことから根本的に理解しておきたいかというモチベーションなどによって、最適の一冊が変わってきます。
インターネットに統計学のチュートリアルサイトが多数存在しており、つまみ食いてきに必要な情報を得ることができますが、統計学を俯瞰したければやはり定評のある教科書を一冊通読しておく必要があります。一読して全部を理解できなくても、何度も繰り返して読むに値する本を選びたいところです。
医学・保健学の例題による統計学
『医学・保健学の例題による 統計学』 1982/10/1 豊川 裕之, 柳井晴夫 (編)
- 豊川裕之 第1章 統計学を学ぶに当たって
- 丸井英二 第2章 統計データと調査
- 三宅由子 第3章 記述統計
- 丸井英二 第4章 相関と回帰
- 高木廣文 第5章 確率分布
- 高木廣文 第6章 標本分布
- 青木繁伸 第7章 検定と推定の考え方
- 青木繁伸 第8章 検定と推定の実際
- 柳井晴夫 第9章 実験計画法
本書は、推薦文の説明によると、東京大学医学部保健学科で実施されている統計・情報処理講義演習の内容を整理する形で纏められたものだそうです。図書館で借りて読みましたが、実に丁寧に書かれた教科書でした。統計の教科書は、数学音痴のためにことさらわかりやすさを強調したものが多いですが、この本はそういった最近よく見る統計の本よりもむしろ説明が丁寧でわかりやすい印象を持ちました。
【特徴】古い本のため、プログラミングやエクセルなどで計算することを想定していないのか、手で計算できそうなくらいの親切な説明があり、理解するためにはとても良いと思います。統計学の根本を数学的な原理から理解するための本ではありませんが、数式でもって基本事項を押さえて実際のデータに統計を適用したい人向けの本だと思います。いわゆるコテコテの数学書としての「数理統計学」がカバーすることは他書に譲るとして、この教科書は実際に使う立場で理解しておくべき数学的な説明がなされています。
【わかりやすさ】医学・保健学の例題によるというサブタイトルの通り、医学や保健学からの例題が多数掲載されており、自分が解析したいことが何に相当するのか、同じ例題が見つかりやすいので、適用すべき統計学的手法がどれになるかがわかりやすいです。
【購入】古い本のため絶版になってはいますがアマゾンなどで、古書が低価格で容易に入手可能なので、医学や保健学領域で統計をやる人は手元に置いておくと大変重宝するのではないかと思います。もちろん他分野の人でも統計学をマスターするための教科書として大変勉強しやすい本です。書かれた年代は古いのですが、実にしっかりと丁寧な説明があることに感激して、自分は古書を買いました。