月別アーカイブ: 2022年1月

HALBAUによる多変量解析の実践 現代数学社

HALBAUによる多変量解析の実践

『HALBAUによる多変量解析の実践』現代数学社1995年1月25日

HALBAUという統計ソフトは現代数学社から(当時?)売れているものだそう。愛称「ハル坊」は、NECのPC9801で走る統計プログラムパッケージで、High-quality Analysis Libraries for Business and Academic Users)とのこと。PC9801っていつの時代だよ?って思います。HALBAUによる という書籍タイトルですが、別にHALBAUを使う必要はいまどきありません。本の中身は具体例が多くて、興味深いものです。編著者の名前でこの本に辿り着いたのですが、期待を裏切らないいい教科書だと思いました。理屈の部分が結構数式できっちり説明されています。

アマゾンで1円で売られていますが、HALBAUの部分を除いて考えても、とてもよい、コンパクトにまとまった多変量解析の教科書なので、お買い得かも。

『多変量解析の展開 隠れた構造と因果を推定推理する』(統計科学のフロンティア5 岩波書店 2002年12月10日)

『多変量解析の展開 隠れた構造と因果を推定推理する』(統計科学のフロンティア5 岩波書店 2002年12月10日)

図書館で借りました。

共著ですが各チャプターの著者がその領域の第一人者ばかりで、それだけでも刺激的な本であることがわかります。

目次

第I部 独立成分分析とその周辺 甘利俊一

1 信号の混合と分離独立成分分析の枠組み 2 問題の定式化 3 独立成分分析,主成分分析,因子分析 4 確率変数の従属性コスト関数 5 最急降下学習法 6 自然勾配学習法 7 独立成分分析における最急降下学習 8 推定関数と学習アルゴリズム 9 独立成分の逐次的抽出 10 信号の時間相関を利用する方法 11 時間的な混合とデコンボリューション 12 画像の分解と独立成分解析 参考文献

第II部 構造方程式モデリング,因果推論,そして非正規性 狩野裕

1 因果推論何が問題か 2 検証的因果推論パス解析 3 探索的因果推論共分散選択 4 構造方程式モデリング 5 因果の大きさを正確に測定する 6 因果の方向を同定する 7 回帰分析の役割 8 非正規性の問題 9 構造方程式モデリングの役割まとめに代えて 参考文献

第III部 疫学・臨床研究における因果推論 佐藤俊哉・松山裕

1 因果を探る 2 因果モデル 3 因果グラフ 4 因果パラメータの推定 5 因果は巡る 参考文献

補論A 分布の非正規性の利用 竹内啓

補論B 多次元AR モデルと因果関係 石黒真木夫

柳井 晴夫『多変量データ解析法―理論と応用』 朝倉書店

柳井 晴夫『多変量データ解析法―理論と応用』(行動計量学シリーズ)1994/12/1 朝倉書店 を図書館で借りて読みましたが、多変量解析で用いられる手法の数学的な理論の解説でした。線形代数を知らない人にはチンプンカンプンの書物でしょう。目次は、

1. 多変量データ解析概論
1.1 多変量データ解析とは
1.2 多変量データ解析の各種方法
1.3 多変量データ解析の最近の動向
2. 基本的数理
2.1 ベクトルによる分散と相関の表現
2.2 多変量データとその行列による表現
2.3 質的データの相関
2.4 多変量データ間の距離
2.5 確率変数による分散共分散行列とその表現
3. 多変量データの構造分析
3.1 主成分分析
3.2 主成分分析の利用法
3.3 データが類似度で与えられる場合の分析法
4. 予測と判別
4.1 重回帰分析
4.2 重回帰分析の諸問題
4.3 多変量回帰分析
4.4 判別分析
5. 多群の変量間の関連分析―正準相関分析
5.1 正準相関分析
5.2 正準相関分析の諸性質(その1)
5.3 正準相関分析の諸性質(その2)
5.4 正準相関分析の適用例
5.5 正準相関分析における新展開
6. 質的データの数量化―数量化理論と関連手法
6.1 数量化の基本概念
6.2 数量化Ⅰ,Ⅱ類
6.3 数量化Ⅲ類と対応分析
6.4 偏対応分析とその性質
6.5 その他の話題―対応分析の新しい展開
7. 潜在変数分析―因子分析と共分散構造分析
7.1 潜在変数モデルとは
7.2 因子分析法
7.3 共分散構造分析
7.4 項目反応理論
8. その他の手法
8.1 多重配列データの解析法
8.2 生存時間データに関する多変量データ解析
8.3 多変量解析の応用と多変量解析パッケージ
9. 付録:数学的性質
9.1 ベクトルの行列
9.2 固有値,固有ベクトルとその性質
9.3 直交射影行列とその性質
9.4 一般逆行列とその性質
9.5 一般逆行列と射影行列
9.6 行列の諸性質

数学を用いて、多変量解析の種々の技法を数学的な原理からスッキリと理解したい人向け。自分には読むのが極めて困難な本でした。

マンホイットニーのU検定とウィルコクソンの順位和検定とウィルコクソンの符号順位検定の違い

マンホイットニーのU検定とウィルコクソンの順位和検定とウィルコクソンの符号順位検定は、名前が似ていたり、内容が似ていたりして、普段t検定ばかりつかっていると、すぐに何がなんだったのかを忘れてしまいます。

パラメトリック検定であるt検定(つまり2群間の比較)で対応が無い場合に対応するノンパラメトリック版が、マンホイットニーのU検定およびそれと全く同値であるウィルコクソンの順位和検定です。マンホイットニーのU検定とウィルコクソンの順位和検定はやっていることが同一(同値)なので、どちらを使っても構いません。対応がある場合のt検定のノンパラメトリック版が、ウィルコクソンの符号順位検定です。「対応がある」のですから、比べたい2群のそれぞれのデータ数はもちろん同じでなくてはなりません。それに対して、マンホイットニーのU検定やウィルコクソンの順位和検定では、比べたい2群のそれぞれのデータ数(サンプル数)は異なっていても構いません。

参考図書

  1. 狩野克己、高橋秀人『基礎 医学統計学 改訂第6版』 この本がスッキリとした説明でなおかつ、計算式および簡単な実例を解説しているので、検定の中身がブラックボックスにならず、自分で何をやっているのかが自分で納得できるというメリットがあります。厳密な理論は理解したいとまでは思わないけど、検定で何をやっているのか計算式くらいは知っておきたいというスタンスの人に丁度手頃な教科書。きわめて整然と多数の手法がまとめられているので、自分の頭の中をスッキリと整理するのに役立つ本。2019年に第7版が出ています。フォントが変わったりして見やすくなったが、内容に変更はないようです。統計学の勉強のための最初の一冊としても申し分ないし、日常的に使うためのリファレンスとしても良い本なので、是非手元に置いておきたい本です。

ピアソンの相関係数の意味、求め方、解釈の仕方、ありがちな間違い

ピアソンの相関係数とは:定義

ピアソンの相関係数とは、わかりやすく言うと、2つの量にどの程度の相関があるかを表す指標です。正式名称は、ピアソンの積率相関係数と言います。

相関係数って何?と思って統計の教科書を開いたときに、相関係数の定義が載っているわけですが、教科書によって大きく分けて2つの説明があります。一つは、確率変数X,Yに関する相関の定義。もう一つは、実際に観察されたデータの変数X,Yに関する相関の定義です。この区別を頭の中でできていない状態で教科書を見ると、本によって書いてあることが違うような気がして頭が混乱します。

例えば稲垣宣生『数理統計学』のような数学的な内容の教科書だと、確率変数X,Yを基準化したものの共分散を相関係数と呼ぶと説明しています。他方、豊川・柳井(編著)『医学・保健学の例題による 統計学』の相関係数の説明を読むと(51ページ)、データ(xi, yi)に関して相関係数の計算式を紹介しています。

ウィキペディアの説明も注意深く読むと2つの状況に関して書いてあります。

相関係数(そうかんけいすう、英: correlation coefficient)とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である。(ウィキペディア

日本統計学会(編)『統計学実践ワークブック』の相関係数の説明を読むと、確率変数X,Yに関する説明がありますが、そのあとで実際のデータに関する言及の前に補足的な説明がちゃんとされていました。

データの特性値 これまで紹介してきた特性値は分布(母集団)に関する特性値である。実際に観測されたデータに対する特性値もほぼ同様に計算される。(日本統計学会(編)『統計学実践ワークブック』 17ページ)

自分のような初学者はこんな、そもそも今何について考えているのか、といった当たり前すぎることで混乱し躓いたりするのですが、日本統計学会(編)『統計学実践ワークブック』はコンパクトなわりに、よくよく読むと結構親切に書かれていることがわかります。

ピアソンの相関係数を使ってはいけない例

ピアソンの相関係数は、2つの変数XとYのデータにどれくらいの直線的な関係があるかを示すものです。そもそもYとXとの間に直線関係が無い場合は、いくらXとYとが密接に関連していたとしても、ピアソンの相関係数は1に近くはなりません。もともと直線性が仮定できないようなデータX,Yに対してピアソンの相関係数を計算することはナンセンスです。そのため、ピアソンの相関係数を求めるまえにまずXとYの散布図を描画してみて、線形性があるかどうかを見ておくことが大事です。

  1. データの関係性を表せる「相関係数」と2つの落とし穴
  2. 相関係数について相関係数の注意点

ピアソンの相関係数の求め方と計算式

XとYという2つの変数(データ)がn個ずつあったとき、ピアソンの積率相関係数は、

ピアソンの積率相関係数 = XとYの共分散 / Xの標準偏差とYの標準偏差との積

という数式で求められます。

  1. ピアソンの積率相関係数 ウェブリオ辞書
  2. ピアソンの積率相関係数 Pearson product-moment correlation coefficient BellCurb統計用語集

ピアソンの相関係数の意味

定義式からわかるように、ピアソンの相関係数はXとYが完全に相関しているとき、すなわち直線関係にあるときに1になり、まったく相関がないときに0になります。XとYが逆相関しているときは-1を取ります。-1から1までの間の数をとることになります。

ピアソンの相関係数のp値とは

相関係数が0出ないかどうかを調べるために検定が行われます。

SPSSによるピアソンの相関係数の求め方

Rを用いたピアソンの相関係数の求め方

ピアソンの相関係数とスピアマンの相関係数との違いと使い分け方

Pearson の相関係数には、対称的な量的変数を使用し、Spearman のローおよび Kendall のタウ bには、量的変数または順序付けされたカテゴリー変数を使用します。(2 変量の相関分析 SPSS Statistics 27.0.0 IBM)

  1. データ尺度の違いによる相関関係を数値化する方法の種類
  2. ピアソンの相関の方法とスピアマンの相関の方法の比較 menu Minitab® 18サポート

ピアソンの相関係数を英語でいうと

ピアソンの相関係数は英語で、Pearson’s Correlation Coefficient (PCC)あるいはPearson’s Product-Moment Correlation Coefficient (PPMCC)あるいはPearson’s rなどと言われるようです。

参考

  1. 標準偏差の名付け親は,相関係数で有名なピアソン,不偏標準偏差の話題と共に

多変量解析を理解するための線形代数の教科書

線形代数 基礎と応用

新井諭之『線形代数 基礎と応用』日本評論社

古い本で絶版になっており、アマゾンで5万円もの高値がついています。古書検索をやっても他にでてきません。自分は図書館で借りて読みましたが、500ページという大著で、応用上重要な事項が全部説明されています。コテコテの数学書でもなくて、まあ数学書なのですが(定義、定理、証明が延々続くという意味で)、ところどころのページに「しっかり覚えてね」といったコメントが入っていたりして、読者への気持ちが感じられる良書。手元に欲しくてヤフオク、メルカリ、古書サイトを探しているんですが、本当に見つかりません。

多変量解析入門

足立 堅一『多変量解析入門 線形代数から多変量解析へ』 篠原出版新社 December 20, 2005

書名は多変量解析入門ですが、中身は多変量解析で使われる線形代数の解説だそうです。多変量解析の基盤となっている数学的な原理に関する解説書としては、もっともわかりやすく(数学が苦手な人にもわかるように)書かれているみたいです。

射影行列・一般逆行列・特異値分解

柳井・竹内『射影行列・一般逆行列・特異値分解』 新装版 2018

第6章応用 のところでようやく多変量解析などの話題が出てきます。第5章まではひたすら数学的な準備といったところでしょうか。自分は図書館で借りてみましたが、自分の数学的能力では読み進めるのが辛すぎて挫折しました。数学の本に手を出す場合には、身の丈にあった本にすべきだと痛感。

多変量解析の基礎

柳井・竹内『多変量解析の基礎』1972

多変量解析に関する入門書 お勧め、定番、超初心者向けなど

医学研究を進めるうえで医療統計学の知識、特に多変量解析の知識が欠かせません。SPSSなどのソフトにただデータを入れれば、何かしらの結果は出ますが、それだと結果の解釈の段階で途方にくれてしまいます。やはり多変量解析の原理的な部分を抑えておく必要があるでしょう。どれだけ数学的なバックグラウンドがあるか、数学的な原理から理解したいという動機があるかによって、お勧めの教科書は変わってきます。

一口に多変量解析の教科書といっても、対象とする読者は数学的な原理はともかく使えればいい人、定理の厳密な証明はいいけど数学的な基礎はある程度理解しておきたい人、仕事ですぐに使いたい人、統計学を勉強中の理系大学生・大学院生、勉強する時間があまり取れない実務に携わる多忙な社会人など様々なので、自分が想定された読者なのかどうかを判断する必要があります。

線形代数がメインの書籍はまた別記事にします。

→ 多変量解析を理解するための線形代数の教科書

Rによる多変量解析入門

川端 一光, 岩間 徳兼, 鈴木 雅之『Rによる多変量解析入門 データ分析の実践と理論』オーム社  July 19, 2018

手元にデータがあってすぐに分析をしたい人にピッタリの本。理論的な説明はないかわりに、結果の解釈の際の注意事項の説明が詳細。説明の順番は、データの解析、結果、解釈や数学的な理屈の順になっています。Rそのものに関しては紙面をあまり割いていないので、pythonで勉強したい人にとっても紙面が無駄になっておらず、ためになります。数学的な理屈に関してはおいおい勉強するとして、とりあえず仕事ですぐに多変量解析をやらなきゃいけない人にとってはベストの教科書ではないでしょうか。

出版社の書籍紹介によれば、

多くの多変量解析についての学習書は、理論的な説明に終始し、実務場面でどのように利用されているかについて、殆ど配慮がないのが現状です。そこで本書は、多変量解析手法の理論と実践をバランスよく解説することで、統計が得意ではない大学生や実務者にも利用しやすい構成とし、本書1冊で多変量解析手法を実務に応用できるまで習得できる内容となっています。

とのことですが、看板に偽りなしです。目次は、以下の通り。

第Ⅰ部 多変量解析の基礎
第1章 多変量解析の基礎を学びたい―R による多変量データの基本的な統計処理
第2章 R によるデータハンドリングを学びたい ―アンケートデータと ID-POS データのハンドリング
第Ⅱ部 量的変数の説明・予測
第3章 現象を説明・予測する統計モデルを作りたい (1) ―重回帰分析
第4章 現象を説明・予測する統計モデルを作りたい (2) ―階層的重回帰分析
第5章 さまざまな集団から得られたデータを分析したい―マルチレベルモデル
第6章 複雑な仮説を統計モデルとして表したい (1)―パス解析
第Ⅲ部 心理尺度の分析
第7章 心理尺度を開発したい (1) ―探索的因子分析
第8章 心理尺度を開発したい (2) ―確認的因子分析
第9章 複雑な仮説を統計モデルとして表したい (2) ―潜在変数を伴うパス解析
第Ⅳ部 質的変数の説明・予測
第10章 クロス集計表をもっとていねいに分析したい―対数線形モデル
第11章 カテゴリに所属する確率を説明・予測したい―ロジスティック回帰分析
第Ⅴ部 個体と変数の分類
第12章 似たもの同士にグループ分けしたい―クラスター分析
第13章 質的変数間の連関を視覚化したい―コレスポンデンス分析
第Ⅵ部 多変量解析を使いこなす
第14章 データが持つ情報を視覚化したい―パッケージggplot2による描画
第15章 多変量解析を実践で生かしたい―手法の組み合わせ

 

多変量解析入門

小西 貞則『多変量解析入門――線形から非線形へ』January 27, 2010 岩波書店

目次

  1. 1 はじめに 1.1 現象のモデル化 1.2 識別・判別 1.3 次元圧縮 1.4 分類
  2. 2 線形回帰モデル 2.1 2変数間の関係を捉える 2.2 多変数間の関係を捉える
  3. 3 非線形回帰モデル 3.1 現象のモデル化 3.2 基底関数に基づくモデル 3.3 基底展開法 3.4 正則化法
  4. 4 ロジスティック回帰モデル 4.1 リスク予測モデル 4.2 複合リスク予測モデル 4.3 非線形ロジスティック回帰モデル
  5. 5 モデル評価基準 5.1 予測誤差に基づく評価基準 5.2 情報量基準 5.3 ベイズ型モデル評価基準
  6. 6 判別分析 6.1 フィッシャーの線形判別 6.2 マハラノビス距離に基づく判別法 6.3 多群判別 6.4 変数選択 6.5 正準判別
  7. 7 ベイズ判別 7.1 ベイズの定理 7.2 ベイズ判別法 7.3 ロジスティック判別
  8. 8 サポートベクターマシーン 8.1 分離超平面の構成 8.2 線形分離可能でない場合のテクニック 8.3 線形から非線形へ
  9. 9 主成分分析 9.1 主成分の構成 9.2 カーネル主成分分析
  10. 10 クラスター分析 10.1 階層的分類法 10.2 非階層的分類法 10.3 混合分布モデル
  11. 付録A ブートストラップ法 付録B ラグランジュの未定乗数法 付録C EMアルゴリズム

著者の略歴は、広島大学理学部数学科卒、文部省統計数理研究所を経て九州大学大学院数理学研究院教授。専門は,非線形多変量解析,情報量統計学(岩波書店)。

アマゾンのレビューを読むと、データから数理モデルを組み立てるというアプローチとして多変量解析が解説されている、モデルを線形から非線形に拡張するように丁寧な議論となっていて、特にSVMの解説は分かりやすい、数式は多いが、出てくる数式や式展開は、パターン化していてしかも数学的な説明が丁寧なので、読みやすく大変理解しやすいとのこと。

 

多変量解析法入門

永田 靖, 棟近 雅彦『多変量解析法入門』 (ライブラリ新数学大系) サイエンス社 April 1, 2001

アマゾンのレビューを読む限り、数学が苦手な人でも追えるような丁寧さで、数式によって説明を進めているそう。目次は、

  1. 1 多変量解析法とは 1.1 多変量データ 1.2 重回帰分析とは 1.3 数量化1類とは 1.4 判別分析とは 1.5 数量化2類とは 1.6 主成分分析とは 1.7 数量化3類とは 1.8 多次元尺度構成法とは 1.9 クラスター分析とは
  2. 2 統計的方法の基礎知識 2.1 データのまとめ方 2.2 確率分布 2.3 検定と推定 練習問題
  3. 3 線形代数のまとめ 3.1 行列とベクトル 3.2 固有値と固有ベクトル 3.3 ベクトルによる微分 3.4 変数ベクトルによる期待値と分散・共分散 練習問題
  4. 4 単回帰分析 4.1 適用例と解析ストーリー 4.2 解析方法 4.3 行列とベクトルによる表現 練習問題
  5. 5 重回帰分析 5.1 適用例と解析ストーリー 5.2 説明変数が2個の場合の解析方法 5.3 説明変数がp個の場合の解析方法 5.4 行列とベクトルによる表現 練習問題
  6. 6 数量化1類 6.1 適用例と解析ストーリー 6.2 説明変数が1個の場合の解析方法 6.3 説明変数が2個以上の場合の解析方法 6.4 説明変数に量的変数と質的変数が混在する場合 練習問題
  7. 7 判別分析 7.1 適用例と解析ストーリー 7.2 変数が1個の場合の解析方法 7.3 変数が2個以上の場合の解析方法 7.4 行列とベクトルによる表現 練習問題
  8. 8 数量化2類 8.1 適用例と解析ストーリー 8.2 説明変数が1個の場合の解析方法 8.3 説明変数が2個以上の場合の解析方法 8.4 説明変数に量的変数と質的変数が混在する場合
  9. 9 主成分分析 9.1 適用例と解析ストーリー 9.2 説明変数が2個の場合の解析方法 9.3 説明変数がp個の場合の解析方法 9.4 行列とベクトルによる表現
  10. 10 数量化3類 10.1 適用例と解析ストーリー 10.2 数量化3類の基本的な考え方と解析方法 練習問題
  11. 11 多次元尺度構成法 11.1 適用例と解析ストーリー 11.2 非計量MDSの解析方法 11.3 計量MDSの考え方 練習問題
  12. 12 クラスター分析 12.1 適用例と解析ストーリー 12.2 変数が2個の場合のクラスター分析 12.3 変数がp個の場合のクラスター分析 12.4 クラスター間の距離 12.5 ウォード法 練習問題
  13. 13 その他の方法 13.1 パス解析 13.2 グラフィカルモデリング 13.3 因子分析 13.4 正準相関分析 13.5 多段層別分析 練習問題

 

多変量データ解析

杉山 高一 (著), 小椋 透 (著), 藤越 康祝『多変量データ解析』 (シリーズ“多変量データの統計科学”)  朝倉書店  November 25, 2014

出版社の説明によれば、

シグマ記号さえ使わずに平易に多変量解析を解説する」という方針で書かれた’83年刊のロングセラー入門書に,因子分析正準相関分析の2章および数理的補足を加えて全面的に改訂。主成分分析,判別分析,重回帰分析を含め基礎を確立。

とのこと。数学恐怖症の人向けのようです。

もくじ

  1. 1 相関係数 1.1 成績データの相関係数 1.2 手のデータの相関係数 1.3 相関係数の安定性 1.4 分散と共分散 1.5 数理的補足–相関係数
  2. 2 主成分分析 2.1 主成分分析とは 2.2 共分散行列による主成分分析–手のデータ 2.3 相関行列による主成分分析(1) –成績のデータ 2.4 相関行列による主成分分析(2)–被服のデータ 2.5 因子負荷量–漢字テストの分析 2.6 歯の咬耗度に基づく主成分分析 2.7 主成分スコア低次元空間表現 2.8 主成分軸の回転 2.9 固有値の信頼区間 2.10 固有ベクトルの信頼性 2.11 数理的補足–主成分分析
  3. 3 判別分析 3.1 判別分析とは 3.2 マハラノビスの距離 3.3 判別分析の考え方 3.4 2変量の判別分析 3.5 線形判別関数 3.6 多変量の判別分析–筆跡鑑定のデータ 3.7 変数選択による判別分析–逐次法(1) 3.8 変数選択による判別分析–逐次法(2) 3.9 変数選択による判別分析–AIC 規準・誤判別確率 3.10 線形判別分析の頑健性 3.11 逐次法における規準値とAIC 規準 3.12 数理的補足–判別分析
  4. 4 重回帰分析 4.1 重回帰式とは 4.2 1変数の場合の回帰式 4.3 2変数の回帰分析 4.4 残差分散, 重相関係数 4.5 回帰係数の信頼区間 4.6 多重共線性 4.7 説明変数の選択–逐次法 4.8 説明変数の選択–AIC とCp 4.9 逐次法における規準値とAIC 規準 4.10 主成分回帰 4.11 偏相関係数 4.12 数理的補足–重回帰分析
  5. 5 因子分析 5.1 因子分析とは 5.2 因子分析モデルと回転 5.3 推測法 5.4 白人の手のデータ 5.5 数理的補足–因子分析
  6. 6 正準相関分析 6.1 正準相関とは 6.2 正準相関–成績のデータ 6.3 寄与率と次元 6.4 正準相関分析–歯の咬耗度データ 6.5 正準相関の安定性 6.6 数理的補足–正準相関
  7. A 行列・固有値 A.1 行列 A.2 多変量データと基礎統計量の行列表示 A.3 行列式と逆行列 A.4 固有値・固有ベクトル
  8. B 多変量分布 B.1 身長の分布と正規分布 B.2 2次元正規分布 B.3 数理的補足–多変量正規分布

 

重回帰分析の実際的な手順  

重回帰分析はSPSSでやると一瞬ですが、高価なソフトウェアがなくても無料のpythonやRを使って分析することも比較的簡単にできるようです。実際的な手順を解説したサイトを纏めておきます。

得られた予測式の係数の解釈について:注意点など

  • 回帰係数にはデータ単位があり、目的変数のデータ単位と同じ
  • 回帰係数から『説明変数の目的変数に対する貢献度』がわかります。
  • データ単位が変われば係数の値も変わることを理解してください。したがって、関係式の回帰係数を比較し、値が大きい説明変数ほど目的変数に貢献しているとか重要であるいうことはいえません。重回帰分析では、回帰係数とは別の統計量「標準回帰係数」を算出し、この値を使って売上を予測するのに重要な説明変数のランキング(順番)を把握します。

引用元:多変量解析の手法別解説>重回帰分析(2/3) アイスタット

 

  • 特に注意しないといけない点は,回帰分析は決して因果関係を表しているわけではないということです.従属変数を独立変数で「予測」するのが回帰分析というと,いかにも「独立変数⇒従属変数」という矢印つきの因果関係を想定しがちですが,決して因果関係と断定はできません.あくまで回帰係数は相関関係です.例えば単回帰分析の場合,独立変数と従属変数を入れ替えても,標準化された回帰係数は全く変わらず,しかもその値は普通の単相関係数なのです.
  • 「従属変数の予測力」と「具体的にどの独立変数が従属変数にどのような形で効いているかを理解できること」ということは別問題です.後述するように,偏回帰係数の解釈は独立変数の数が増えるほど困難になります.社会学のように,とにかく社会事象の予測の精度を目的にする場合では,独立変数を増やしてその予測力を高めることには一定の意味があると思いますが,例えば教育心理学研究のように独立変数と従属変数の具体的な関係を吟味し,そのメカニズムを解明したり独立変数を操作して介入に生かしていこうという場合には,多くの独立変数を投入した重回帰分析は結果の解釈が困難で,実質的に無意味になることが多いです.

(重回帰分析について 1.単回帰・重回帰分析における基本的な注意点 koumurayama.com)

  1. 決定係数や標準化偏回帰係数が高いと「影響力が強い」といえるのか?ryotamugiyama.com/
  2. 重回帰分析とは?(手法解析から注意点まで)surveroid.jp

重回帰分析により、従属変数をうまく表現する予測モデル(式)が得られますが、その式に現れる係数(回帰係数や標準化回帰係数)は、予測モデルにおける貢献の度合い、影響の大きさを表しているにすぎず、「原因としての大きさ」と無考えに解釈していいわけではないようです。所詮、単なる数式なので、何を独立変数として、何を従属変数とするかに関しても、別に数学的には制約はないわけで、独立変数を従属変数を入れ替えても(つまり、原因と思っていたことと、結果と思っていたことを入れ替えても)重回帰分析はできてしまうことを考えれば、重回帰分析は因果関係を直ちに教えてくれるものでは決してないということが理解できます。

 

変数の正規化について

偏回帰係数は、どの説明変数がどの程度目的変数に影響を与えているかを直接的には表していません。身長を(cm)で計算した場合と(m)で計算した場合とでは全く影響度の値が異なってしまうことからも明らかです。各変数を平均 0,分散 1 に標準化して求めた「標準偏回帰係数」を用いれば、各説明変数のばらつきの違いによる影響を除去されるので、影響度が算出されます。(重回帰分析とは albert2005.co.jp)

購入額の予測値=5,000+30×(年齢)+300×(性別)+450×(家族人数)+0.001×(年収)

この関係式において、説明変数(属性)が、購入額(目的変数)に対しておよぼす影響の大きさを知りたいということがよくあります。上の関係式では、年齢や年収は単位が違います。したがって年齢の項の偏回帰係数30と年収の項の偏回帰係数0.001は直接比較できません。そこで、あらかじめ説明変数を平均0、分散1に標準化()しておくと、単位が同一の条件下で分析できます。(回帰分析のモデルと基本式 macromill.com)

ダミー変数について

一般線形モデルでは,質的な独立変数(つまり,分散分析の要因)を,(水準数-1)個のダミー変数を使って表す。ダミー変数とは,ある水準に属していることを1で表し,属していないことを0で表す変数のことである。‥ このような(水準数-1)個のダミー変数を独立変数として重回帰分析を行うと,重回帰モデルの有意性検定の自由度,F値,p値が,対応のない1要因分散分析と同じ値になる。回帰式を最小二乗法で推定すれば,予測値は各水準の母平均の最小二乗推定値となる。詳しくは南風原(₂₀₀₂)のpp. ₂₁₆-₂₁₉,₂₇₅-₂₇₆を参照されたい。(統計モデルの違いを理解する 一般線形モデル・一般化線形モデル・階層線形モデル・階層的重回帰モデル The Annual Report of Educational Psychology in Japan₂₀₁₈, Vol. ₅₇, 302-308 PDF

  1. 第7章 ダミー変数 osaka-u.ac.jp

 

pythonを用いた重回帰分析

pandasとscikit-learnを使うと、SPSSでできることがpythonでもあっさりとできるようです。下記のウェブサイトを参考に自分のデータで計算してみたところ、pythonでもSPSSでも同じような結果が得られました。

  1. Pythonで基礎から機械学習 「重回帰分析」 @karaage0703 デフォルトは以下のようです。ややこし過ぎですね。 scikit-learn: 分散  pandas: 不偏分散  numpy: 分散  R言語: 不偏分散 ‥ このように、偏差回帰係数と標準化偏差回帰係数は簡単に変換できるので、正規化しないで重回帰分析をして偏回帰係数を求め、後から必要に応じて標準化偏回帰係数を求める方が計算上は楽です。
  2. 重回帰分析の概要とpython 実装 実践ケモインフォマティクス
  3. scikit-learn で線形回帰 (単回帰分析・重回帰分析) pythondatascience.plavox.info 各変数がどの程度目的変数に影響しているかを確認するには、各変数を正規化 (標準化) し、平均 = 0, 標準偏差 = 1 になるように変換した上で、重回帰分析を行うと偏回帰係数の大小で比較することができるようになります。

 

Rを用いた重回帰分析

  1. 18. 重回帰分析 1 (単回帰と重回帰)takushoku-u.ac.jp

 

論文出版の際のまとめ方

  1. 3.結果のまとめと解釈 rikkyo.ac.jp 分析結果は、学術論文では以下のような形式のにまとめる。図の方が一般向けには分かりやすい。各説明変数の偏回帰係数有意か、モデル全体の説明力はどうか、なぜそのような結果が出たのかなどについて検討し、結果の解釈や考察を行うこと。

 

参考

  1. 12 重回帰分析の使用上の注意 kwansei.ac.jp
  2. 回帰分析を理解しよう!-回帰分析の由来と概念、そして分析結果の評価について- 生活研究部 主任研究員・ヘルスケアリサーチセンター・ジェロントロジー推進室兼任 金 明中 ニッセイ基礎研究所

数量化1類、ダミー変数を用いた重回帰分析の実際

男か女かといった質的変数は、重回帰分析の独立変数に用いるときには、ダミー変数として取り扱います。性別という「アイテム」において、「男」というカテゴリー変数は1か0の値を通り、男なら1、男でなければ0とします。同様に、「女」というカテゴリー変数は1か0の値をとり女なら1、女でなければ0になります。ある人に関して、性別のアイテムの行は、カテゴリー変数男とカテゴリー変数女の和は1になるわけです。カテゴリー変数が複数の場合も、同様に和は1になります。例えば「曜日」という「アイテム」で、カテゴリー変数「月曜日」は1か0、「火曜日」も1か0という具合です。あるデータに関しては、いずれかの曜日なのでどれかの曜日が1で他の曜日が0とい値になっており、和は1です。こうして作ったダミー変数を重回帰分析の独立変数として用いればよいわけです。ただし、独立変数は独立であってほしいわけですが、こうやってつくったダミー変数は明らかに「カテゴリー変数の数―1」個のカテゴリーが決まれば、残りの一個は決まってしまいます(和が1になるようにつくったので)ので、ひとつのカテゴリー変数は除去しておく必要があります。

ダミー変数の作り方と作る際の注意

あるアイテム変数の持つ情報をダミー変数で表現するとき、アイテム変数がk個のカテゴリーを持つ場合には、0か1かのいずれかを持つ二値データk個のダミー変数に展開される。例えば、あるアイテム変数がiという値を持つ場合、i番目のダミー変数は値1を持ち、残りのダミー変数は値0を持つ。表1に示したデータ中の3つのアイテム変数のデータは、表2のように、延べ9個のダミー変数(D11,…,D33)に展開されるしかし、このダミー変数は冗長な情報を持つ。例えば、k−1個のダミー変数が0であるとき、残りの1個のダミー変数は必ず1である。そこで、多変量解析においては、各アイテム変数に対応する複数のダミー変数のうちの1つを除いて解析に使用する。どのダミー変数を除いてもよい(数量化 I 類はダミー変数を用いた重回帰分析である 青木繁伸 2005 年 10 月 17 日)

下のB表はカテゴリーデータを1,0の数量データに変換したものです。‥ このデータは、曜日の7列のデータを合計すると、どの日も1となります。(天候、巨人勝敗、競馬についても同様です。)そこで、4項目からそれぞれ任意の1列を削除します。この例では、曜日は土、天候は雨、巨人勝敗は無、競馬は無の最後の列を削除しました。(《数量化1類(2/3) 》 カテゴリースコアの求め方 アイスタット)

ダミー変数は「1か0(ゼロ)」の2つの値しかとりません。「1」は「○○である」、「0」は「○○でない」ということを表します。「○○」を「合格」とすれば「1=合格/0=不合格」、「不合格」とすれば「1=不合格/0=合格」ということになります。(ロジスティック回帰分析(4)─ダミー変数 統計WEB)

カテゴリーが k種類あれば,k-1個のダミー変数を用意する。上の例でダミー変数を一個だけ用意して,鉄骨=0,軽量鉄骨=1,木造=2のようにしてはいけない。(アパートの家賃(2) ダミー変数を用いた重回帰分析 cuc.ac.jp)

データ: 従属変数と独立変数は量的でなければなりません。宗教、専攻、居住地区などのカテゴリー変数は、2 値 (ダミー) 変数またはその他の種類の対比変数として再割り当てする必要があります。(IBM SPSS Statistics Base 26

3カテゴリーの時に、ダミー変数を3つ作らないように注意。(分析実習資料 2021/06/ SPSSによる重回帰分析 村瀬 洋一)

https://geolog.mydns.jp/www.geocities.jp//databooster2/mydoc/sreg-qt1.pdf

SPSSを用いた解析

具体的な例が説明されている本としては、内田治著『SPSSによる回帰分析』(オーム社 平成25年8月23日第1版)があります。第4章 質的変数とダミー変数 としてかなりのページ数を割いて実際に適用した例が示されています。

『SPSSによる回帰分析』目次

  1. 第1章 回帰分析入門 1.1 回帰分析の概要 回帰分析とは 回帰分析の用語 回帰分析の用途 1.2 回帰分析におけるデータ データの種類 測定の尺度 変数の種類
  2. 第2章 単回帰分析 2.1 単回帰分析の基本 例題1 回帰式 回帰式の有意性 回帰式の有効性 母回帰係数の信頼区間 2.2 残差の検討 個々の残差 残差のヒストグラム 標準化残差の正規確率プロット 2.3 区間推定 母回帰式の信頼区間 個々のデータの予測区間 2.4 SPSS の手順 単回帰分析 散布図
  3. 第3章 重回帰分析 3.1 重回帰分析における予備的解析 例題2 3.1.1 1変数の解析 要約統計量 データのグラフ化 3.1.2 2変数の解析 相関行列 散布図行列 3.1.3 説明変数ごとの単回帰分析 x1による単回帰分析 x2による単回帰分析 x3による単回帰分析 x4による単回帰分析 単回帰分析のまとめ 3.2 重回帰分析の実際 3.2.1 重回帰分析の基本 回帰式 回帰式の有意性 回帰式の有効性 回帰係数の有意性 標準偏回帰係数 3.2.2 残差の検討 個々の残差 残差のヒストグラム 3.2.3 回帰診断 てこ比 Cook の距離 DfBeta 3.2.4 相互検証法とリサンプリング法(1)予測精度の検証 Hold out 法 K-fold 法 Leave-One-Out 法(2)回帰係数の検証 Jackknife 法 Bootstrap 法 3.3 SPSS の手順 要約統計量 ヒストグラム・箱ひげ図・幹葉図 ドットプロット 相関行列 散布図行列 3次元散布図 単回帰分析 重回帰分析 回帰診断 Bootstrap法
  4. 第4章 質的変数とダミー変数 4.1 質的変数を含んだ回帰分析 例題3 データのグラフ化 4.1.1 質的変数とダミー変数 4.1.2 ダミー変数の使い方 数値例1 数値例2 数値例3 4.1.3 カテゴリの数が3 つ以上のダミー変数 4.1.4 ダミー変数の作成 4.2 数量化理論Ⅰ類と共分散分析 4.2.1 数量化理論Ⅰ類 例題4 4.2.2 一般線形モデル 4.2.3 共分散分析 例題5 質的変数を含んだ重回帰分析 データのグラフ化 ダミー変数による重回帰分析の結果 共分散分析の結果 4.3 SPSS手順
  5. 第5章 回帰分析における説明変数の選択 5.1 変数選択の方法 5.1.1 変数選択の必要性 重要な変数と不要な変数 良い回帰式 説明変数の選択方法 変数選択の基準 5.1.2 ステップワイズ法 例題6 変数選択基準の設定 ステップワイズ法の結果 5.1.3 ベストサブセット法 5.2 説明変数の組合せで生じる問題 5.2.1 多重共線性 多重共線性とは 許容度 VIF 例題7 説明変数同士の相関行列 説明変数ごとの単回帰分析 回帰係数の符号逆転 5.2.2 解の一意性 例題8 5.2.3 欠損値の扱い 例題9 リストごとに除外した解析結果 ペアごとに除外した解析結果 平均値で置き換えた解析結果 5.3 SPSS の手順 重回帰分析(ステップワイズ法) ベストサブセット法
  6. 第6章 ロジスティック回帰分析 6.1 ロジスティック回帰の基本 6.1.1 ロジスティック回帰とは 例題10 ロジスティック回帰の概念 データのグラフ化 ロジスティック回帰の結果 6.1.2 完全分離 例題11 6.1.3 SPSS の手順 6.2 ロジスティック回帰の実践 6.2.1 多重ロジスティック回帰 ロジスティック回帰の種類 例題12 ロジスティック回帰の結果 データのグラフ化 ロジスティック回帰の結果 6.2.2 変数選択 変数選択の方法 変数選択の結果 6.3 SPSS の手順 ロジスティック回帰 ロジスティック回帰(尤度比による変数減少法)
  7. 第7章 生存分析とCox 回帰 7.1 生存分析 7.1.1 Kaplan- Meier 法による生存率曲線 例題13 生存分析とは 生存率 生存率曲線 7.1.2 生存率曲線の比較と検定 例題14 2つの生存率の違いに関する検定 ログランク検定の結果 7.2 Cox 回帰 7.2.1 比例ハザードモデル 例題15 比例ハザードモデル Cox回帰の結果 7.2.2 複数の説明変数を含むCox 回帰 例題16 複数の説明変数 7.3 SPSS の手順 Kaplan- Meier 法による生存率曲線の作成 ログランク検定 Cox 回帰 複数の説明変数を含むCox 回帰
  8. 第8章 パス解析と因果分析 8.1 因果関係の解析 8.1.1 説明変数間の因果関係 因果関係の整理 8.1.2 パス解析の概念 パス図 パス解析 8.2 パス解析の実際 8.2.1 回帰分析を用いたパス解析 x1を説明変数、x2を目的変数とする回帰分析 x1を説明変数、x3を目的変数とする回帰分析 x2とx3を説明変数、x4を目的変数とする回帰分析 x4を説明変数、yを目的変数とする回帰分析 8.2.2 共分散構造分析を用いたパス解析 共分散構造分析 AMOS による解析結果

参考

  1. SPSSにおけるカテゴリー変数のとりあつかい 2012年
  2. 04. 重回帰分析 京都大学 加納 学

重回帰分析の結果を解釈する際の注意点、よくある誤り・間違い

SPSSなどの統計ソフトを用いると重回帰分析を行うこと自体は非常に簡単です。エクセルで独立変数や従属変数をまとめておいて、SPSSでそのエクセルファイルを読み込み、どの列が従属変数でどの列が独立変数かを選べば、ワンクリック、一瞬で分析が終わります。しかし難しいのは、結果の解釈です。

  1. 多変量解析の手法別解説 > 重回帰分析 アイスタット

予測」は,重回帰分析の目的の一つであり,そこでの変量間の関係は回帰関係である.ただし,それが因果関係となるかどうかには注意深い考察が必要となる.得られた回帰式y=a+bxにおいて,b >0のとき『xが1単位大きければyが平均的にbだけ大きい』という解釈は妥当であるが,それは『xを1単位大きくすればyは平均的にbだけ大きくなる』ことを一般に意味しない.その解釈が成立するためには因果関係が必要となる (統計的因果推論の視点による重回帰分析 岩崎 学 日本統計学会誌第50巻,第2号, 2021年3月 363頁ー379頁

偏回帰係数とは:解釈する際の注意点 

他の独立変数を一定にした上で,x1を動かしてみたらyがどう変わるか」という,x1からyへの直接的な効果を示しているのが偏回帰係数です.(重回帰分析について 1.単回帰・重回帰分析における基本的な注意点 koumurayama.com)

(標準)偏回帰係数は,「他の独立変数から当該の独立変数を予測する回帰分析における残差」と「従属変数(ないし,他の独立変数から従属変数を予測する回帰分析における残差)」の関係を示すものであり,「当該の独立変数そのもの」と「従属変数」の関係を示しているものではない。すなわち,偏回帰係数は,当該の独立変数を「他の独立変数から説明される成分」と「説明されない(他の独立変数とは無相関であるために,一般に『独自なものである』という言葉で表現されている)残りの成分」に直交分解したときの後者の成分の従属変数との関係を示すものであり,後者の成分に関する値は,「他の独立変数の値を一定に統制したときの当該の独立変数の値」と言えるものであるとともに,「各対象の当該の独立変数の値が『他の独立変数の値のわりに』どの程度大きいか,または,小さいか」ということを意味しているものである(ただし,これは「変数間の関係が線形であるとともに,独立変数同士の交互作用効果が存在していない」という前提のもとでのことである)。(心理学的研究における重回帰分析の適用に関わる諸問題 心理学研究2021年

重回帰分析における多重共線性の問題

多重共線性に注意するために、回帰分析を行う際には、まず説明変数間の相関行列を見て、相関がとても強いものがあれば、片方は説明変数から除く、といったことが必要である。(分析実習資料2015/6SPSSによる重回帰分析村瀬洋一)

  1. 多変量解析の前に相関行列を見よう 2019年3月21日 投稿者: ADMIN muscle-hypertrophy.com 「分析」→「相関」→「2変量…」を選択

因果関係について

重回帰分析では、従属変数を独立変数を含む数式で表すので、あたかもそこに因果関係があるかのように感じる人もいると思います。しかし、この数式の意味するところは、あくまで、従属変数がこの数式によってうまく表現できるというだけのことです。因果関係を示すものではありません。

  1. 心理データ解析 第6回(1) 多変量解析とは 「因果関係がある」というためには少なくとも以下の3点を満たす必要がある 1独立変数(説明変数)が従属変数(基準変数)よりも時間的に先行していること 2理論的な観点からも因果の関係に必然性と整合性があること 3他の変数の影響をのぞいても,2つの変数の間に共変関係があること

参考

  1. 重回帰分析 日経リサーチ 重回帰分析の結果を得たら、そのまま鵜呑みにして直ちに結果の解釈をするのではなく、重回帰モデルが適切か否かを、まず評価する。統計ソフトウエアには以下のような評価指標も出力される。
  2. 人事データ活用入門 第4回 因果関係を分析する一手法「回帰分析」とは リクルートマネージメントソリューションズ
  3. SPSSで回帰分析を実施する方法!結果が有意でない場合の解釈は いちばんやさしい、医療統計
  4. 読めば納得。重回帰分析で失敗しがちな事例10|マーケティングと重回帰分析 − その3 ADVA MAGELLAN 2021年3月23日
  5. アパートの家賃(2)ダミー変数を用いた重回帰分析 cuc.ac.jp