数量化1類、ダミー変数を用いた重回帰分析の実際

男か女かといった質的変数は、重回帰分析の独立変数に用いるときには、ダミー変数として取り扱います。性別という「アイテム」において、「男」というカテゴリー変数は1か0の値を通り、男なら1、男でなければ0とします。同様に、「女」というカテゴリー変数は1か0の値をとり女なら1、女でなければ0になります。ある人に関して、性別のアイテムの行は、カテゴリー変数男とカテゴリー変数女の和は1になるわけです。カテゴリー変数が複数の場合も、同様に和は1になります。例えば「曜日」という「アイテム」で、カテゴリー変数「月曜日」は1か0、「火曜日」も1か0という具合です。あるデータに関しては、いずれかの曜日なのでどれかの曜日が1で他の曜日が0とい値になっており、和は1です。こうして作ったダミー変数を重回帰分析の独立変数として用いればよいわけです。ただし、独立変数は独立であってほしいわけですが、こうやってつくったダミー変数は明らかに「カテゴリー変数の数―1」個のカテゴリーが決まれば、残りの一個は決まってしまいます(和が1になるようにつくったので)ので、ひとつのカテゴリー変数は除去しておく必要があります。

ダミー変数の作り方と作る際の注意

あるアイテム変数の持つ情報をダミー変数で表現するとき、アイテム変数がk個のカテゴリーを持つ場合には、0か1かのいずれかを持つ二値データk個のダミー変数に展開される。例えば、あるアイテム変数がiという値を持つ場合、i番目のダミー変数は値1を持ち、残りのダミー変数は値0を持つ。表1に示したデータ中の3つのアイテム変数のデータは、表2のように、延べ9個のダミー変数(D11,…,D33)に展開されるしかし、このダミー変数は冗長な情報を持つ。例えば、k−1個のダミー変数が0であるとき、残りの1個のダミー変数は必ず1である。そこで、多変量解析においては、各アイテム変数に対応する複数のダミー変数のうちの1つを除いて解析に使用する。どのダミー変数を除いてもよい(数量化 I 類はダミー変数を用いた重回帰分析である 青木繁伸 2005 年 10 月 17 日)

下のB表はカテゴリーデータを1,0の数量データに変換したものです。‥ このデータは、曜日の7列のデータを合計すると、どの日も1となります。(天候、巨人勝敗、競馬についても同様です。)そこで、4項目からそれぞれ任意の1列を削除します。この例では、曜日は土、天候は雨、巨人勝敗は無、競馬は無の最後の列を削除しました。(《数量化1類(2/3) 》 カテゴリースコアの求め方 アイスタット)

ダミー変数は「1か0(ゼロ)」の2つの値しかとりません。「1」は「○○である」、「0」は「○○でない」ということを表します。「○○」を「合格」とすれば「1=合格/0=不合格」、「不合格」とすれば「1=不合格/0=合格」ということになります。(ロジスティック回帰分析(4)─ダミー変数 統計WEB)

カテゴリーが k種類あれば,k-1個のダミー変数を用意する。上の例でダミー変数を一個だけ用意して,鉄骨=0,軽量鉄骨=1,木造=2のようにしてはいけない。(アパートの家賃(2) ダミー変数を用いた重回帰分析 cuc.ac.jp)

データ: 従属変数と独立変数は量的でなければなりません。宗教、専攻、居住地区などのカテゴリー変数は、2 値 (ダミー) 変数またはその他の種類の対比変数として再割り当てする必要があります。(IBM SPSS Statistics Base 26

3カテゴリーの時に、ダミー変数を3つ作らないように注意。(分析実習資料 2021/06/ SPSSによる重回帰分析 村瀬 洋一)

https://geolog.mydns.jp/www.geocities.jp//databooster2/mydoc/sreg-qt1.pdf

SPSSを用いた解析

具体的な例が説明されている本としては、内田治著『SPSSによる回帰分析』(オーム社 平成25年8月23日第1版)があります。第4章 質的変数とダミー変数 としてかなりのページ数を割いて実際に適用した例が示されています。

『SPSSによる回帰分析』目次

  1. 第1章 回帰分析入門 1.1 回帰分析の概要 回帰分析とは 回帰分析の用語 回帰分析の用途 1.2 回帰分析におけるデータ データの種類 測定の尺度 変数の種類
  2. 第2章 単回帰分析 2.1 単回帰分析の基本 例題1 回帰式 回帰式の有意性 回帰式の有効性 母回帰係数の信頼区間 2.2 残差の検討 個々の残差 残差のヒストグラム 標準化残差の正規確率プロット 2.3 区間推定 母回帰式の信頼区間 個々のデータの予測区間 2.4 SPSS の手順 単回帰分析 散布図
  3. 第3章 重回帰分析 3.1 重回帰分析における予備的解析 例題2 3.1.1 1変数の解析 要約統計量 データのグラフ化 3.1.2 2変数の解析 相関行列 散布図行列 3.1.3 説明変数ごとの単回帰分析 x1による単回帰分析 x2による単回帰分析 x3による単回帰分析 x4による単回帰分析 単回帰分析のまとめ 3.2 重回帰分析の実際 3.2.1 重回帰分析の基本 回帰式 回帰式の有意性 回帰式の有効性 回帰係数の有意性 標準偏回帰係数 3.2.2 残差の検討 個々の残差 残差のヒストグラム 3.2.3 回帰診断 てこ比 Cook の距離 DfBeta 3.2.4 相互検証法とリサンプリング法(1)予測精度の検証 Hold out 法 K-fold 法 Leave-One-Out 法(2)回帰係数の検証 Jackknife 法 Bootstrap 法 3.3 SPSS の手順 要約統計量 ヒストグラム・箱ひげ図・幹葉図 ドットプロット 相関行列 散布図行列 3次元散布図 単回帰分析 重回帰分析 回帰診断 Bootstrap法
  4. 第4章 質的変数とダミー変数 4.1 質的変数を含んだ回帰分析 例題3 データのグラフ化 4.1.1 質的変数とダミー変数 4.1.2 ダミー変数の使い方 数値例1 数値例2 数値例3 4.1.3 カテゴリの数が3 つ以上のダミー変数 4.1.4 ダミー変数の作成 4.2 数量化理論Ⅰ類と共分散分析 4.2.1 数量化理論Ⅰ類 例題4 4.2.2 一般線形モデル 4.2.3 共分散分析 例題5 質的変数を含んだ重回帰分析 データのグラフ化 ダミー変数による重回帰分析の結果 共分散分析の結果 4.3 SPSS手順
  5. 第5章 回帰分析における説明変数の選択 5.1 変数選択の方法 5.1.1 変数選択の必要性 重要な変数と不要な変数 良い回帰式 説明変数の選択方法 変数選択の基準 5.1.2 ステップワイズ法 例題6 変数選択基準の設定 ステップワイズ法の結果 5.1.3 ベストサブセット法 5.2 説明変数の組合せで生じる問題 5.2.1 多重共線性 多重共線性とは 許容度 VIF 例題7 説明変数同士の相関行列 説明変数ごとの単回帰分析 回帰係数の符号逆転 5.2.2 解の一意性 例題8 5.2.3 欠損値の扱い 例題9 リストごとに除外した解析結果 ペアごとに除外した解析結果 平均値で置き換えた解析結果 5.3 SPSS の手順 重回帰分析(ステップワイズ法) ベストサブセット法
  6. 第6章 ロジスティック回帰分析 6.1 ロジスティック回帰の基本 6.1.1 ロジスティック回帰とは 例題10 ロジスティック回帰の概念 データのグラフ化 ロジスティック回帰の結果 6.1.2 完全分離 例題11 6.1.3 SPSS の手順 6.2 ロジスティック回帰の実践 6.2.1 多重ロジスティック回帰 ロジスティック回帰の種類 例題12 ロジスティック回帰の結果 データのグラフ化 ロジスティック回帰の結果 6.2.2 変数選択 変数選択の方法 変数選択の結果 6.3 SPSS の手順 ロジスティック回帰 ロジスティック回帰(尤度比による変数減少法)
  7. 第7章 生存分析とCox 回帰 7.1 生存分析 7.1.1 Kaplan- Meier 法による生存率曲線 例題13 生存分析とは 生存率 生存率曲線 7.1.2 生存率曲線の比較と検定 例題14 2つの生存率の違いに関する検定 ログランク検定の結果 7.2 Cox 回帰 7.2.1 比例ハザードモデル 例題15 比例ハザードモデル Cox回帰の結果 7.2.2 複数の説明変数を含むCox 回帰 例題16 複数の説明変数 7.3 SPSS の手順 Kaplan- Meier 法による生存率曲線の作成 ログランク検定 Cox 回帰 複数の説明変数を含むCox 回帰
  8. 第8章 パス解析と因果分析 8.1 因果関係の解析 8.1.1 説明変数間の因果関係 因果関係の整理 8.1.2 パス解析の概念 パス図 パス解析 8.2 パス解析の実際 8.2.1 回帰分析を用いたパス解析 x1を説明変数、x2を目的変数とする回帰分析 x1を説明変数、x3を目的変数とする回帰分析 x2とx3を説明変数、x4を目的変数とする回帰分析 x4を説明変数、yを目的変数とする回帰分析 8.2.2 共分散構造分析を用いたパス解析 共分散構造分析 AMOS による解析結果

参考

  1. SPSSにおけるカテゴリー変数のとりあつかい 2012年
  2. 04. 重回帰分析 京都大学 加納 学