ピアソンの相関係数の意味、求め方、解釈の仕方、ありがちな間違い

ピアソンの相関係数とは:定義

ピアソンの相関係数とは、わかりやすく言うと、2つの量にどの程度の相関があるかを表す指標です。正式名称は、ピアソンの積率相関係数と言います。

相関係数って何?と思って統計の教科書を開いたときに、相関係数の定義が載っているわけですが、教科書によって大きく分けて2つの説明があります。一つは、確率変数X,Yに関する相関の定義。もう一つは、実際に観察されたデータの変数X,Yに関する相関の定義です。この区別を頭の中でできていない状態で教科書を見ると、本によって書いてあることが違うような気がして頭が混乱します。

例えば稲垣宣生『数理統計学』のような数学的な内容の教科書だと、確率変数X,Yを基準化したものの共分散を相関係数と呼ぶと説明しています。他方、豊川・柳井(編著)『医学・保健学の例題による 統計学』の相関係数の説明を読むと(51ページ)、データ(xi, yi)に関して相関係数の計算式を紹介しています。

ウィキペディアの説明も注意深く読むと2つの状況に関して書いてあります。

相関係数(そうかんけいすう、英: correlation coefficient)とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である。(ウィキペディア

日本統計学会(編)『統計学実践ワークブック』の相関係数の説明を読むと、確率変数X,Yに関する説明がありますが、そのあとで実際のデータに関する言及の前に補足的な説明がちゃんとされていました。

データの特性値 これまで紹介してきた特性値は分布(母集団)に関する特性値である。実際に観測されたデータに対する特性値もほぼ同様に計算される。(日本統計学会(編)『統計学実践ワークブック』 17ページ)

自分のような初学者はこんな、そもそも今何について考えているのか、といった当たり前すぎることで混乱し躓いたりするのですが、日本統計学会(編)『統計学実践ワークブック』はコンパクトなわりに、よくよく読むと結構親切に書かれていることがわかります。

ピアソンの相関係数を使ってはいけない例

ピアソンの相関係数は、2つの変数XとYのデータにどれくらいの直線的な関係があるかを示すものです。そもそもYとXとの間に直線関係が無い場合は、いくらXとYとが密接に関連していたとしても、ピアソンの相関係数は1に近くはなりません。もともと直線性が仮定できないようなデータX,Yに対してピアソンの相関係数を計算することはナンセンスです。そのため、ピアソンの相関係数を求めるまえにまずXとYの散布図を描画してみて、線形性があるかどうかを見ておくことが大事です。

  1. データの関係性を表せる「相関係数」と2つの落とし穴
  2. 相関係数について相関係数の注意点

ピアソンの相関係数の求め方と計算式

XとYという2つの変数(データ)がn個ずつあったとき、ピアソンの積率相関係数は、

ピアソンの積率相関係数 = XとYの共分散 / Xの標準偏差とYの標準偏差との積

という数式で求められます。

  1. ピアソンの積率相関係数 ウェブリオ辞書
  2. ピアソンの積率相関係数 Pearson product-moment correlation coefficient BellCurb統計用語集

ピアソンの相関係数の意味

定義式からわかるように、ピアソンの相関係数はXとYが完全に相関しているとき、すなわち直線関係にあるときに1になり、まったく相関がないときに0になります。XとYが逆相関しているときは-1を取ります。-1から1までの間の数をとることになります。

ピアソンの相関係数のp値とは

相関係数が0出ないかどうかを調べるために検定が行われます。

SPSSによるピアソンの相関係数の求め方

Rを用いたピアソンの相関係数の求め方

ピアソンの相関係数とスピアマンの相関係数との違いと使い分け方

Pearson の相関係数には、対称的な量的変数を使用し、Spearman のローおよび Kendall のタウ bには、量的変数または順序付けされたカテゴリー変数を使用します。(2 変量の相関分析 SPSS Statistics 27.0.0 IBM)

  1. データ尺度の違いによる相関関係を数値化する方法の種類
  2. ピアソンの相関の方法とスピアマンの相関の方法の比較 menu Minitab® 18サポート

ピアソンの相関係数を英語でいうと

ピアソンの相関係数は英語で、Pearson’s Correlation Coefficient (PCC)あるいはPearson’s Product-Moment Correlation Coefficient (PPMCC)あるいはPearson’s rなどと言われるようです。

参考

  1. 標準偏差の名付け親は,相関係数で有名なピアソン,不偏標準偏差の話題と共に