ピアソンの相関係数の意味、求め方、解釈の仕方、ありがちな間違い

ピアソンの相関係数とは:定義

ピアソンの相関係数とは、わかりやすく言うと、2つの量にどの程度の相関があるかを表す指標です。正式名称は、ピアソンの積率相関係数と言います。

相関係数って何?と思って統計の教科書を開いたときに、相関係数の定義が載っているわけですが、教科書によって大きく分けて2つの説明があります。一つは、確率変数X,Yに関する相関の定義。もう一つは、実際に観察されたデータの変数X,Yに関する相関の定義です。この区別を頭の中でできていない状態で教科書を見ると、本によって書いてあることが違うような気がして頭が混乱します。

例えば稲垣宣生『数理統計学』のような数学的な内容の教科書だと、確率変数X,Yを基準化したものの共分散を相関係数と呼ぶと説明しています。他方、豊川・柳井(編著)『医学・保健学の例題による 統計学』の相関係数の説明を読むと(51ページ)、データ(xi, yi)に関して相関係数の計算式を紹介しています。

ウィキペディアの説明も注意深く読むと2つの状況に関して書いてあります。

相関係数(そうかんけいすう、英: correlation coefficient)とは、2つのデータまたは確率変数の間にある線形な関係の強弱を測る指標である。(ウィキペディア

日本統計学会(編)『統計学実践ワークブック』の相関係数の説明を読むと、確率変数X,Yに関する説明がありますが、そのあとで実際のデータに関する言及の前に補足的な説明がちゃんとされていました。

データの特性値 これまで紹介してきた特性値は分布(母集団)に関する特性値である。実際に観測されたデータに対する特性値もほぼ同様に計算される。(日本統計学会(編)『統計学実践ワークブック』 17ページ)

自分のような初学者はこんな、そもそも今何について考えているのか、といった当たり前すぎることで混乱し躓いたりするのですが、日本統計学会(編)『統計学実践ワークブック』はコンパクトなわりに、よくよく読むと結構親切に書かれていることがわかります。

ピアソンの相関係数を使ってはいけない例

ピアソンの相関係数は、2つの変数XとYのデータにどれくらいの直線的な関係があるかを示すものです。そもそもYとXとの間に直線関係が無い場合は、いくらXとYとが密接に関連していたとしても、ピアソンの相関係数は1に近くはなりません。もともと直線性が仮定できないようなデータX,Yに対してピアソンの相関係数を計算することはナンセンスです。そのため、ピアソンの相関係数を求めるまえにまずXとYの散布図を描画してみて、線形性があるかどうかを見ておくことが大事です。

  1. データの関係性を表せる「相関係数」と2つの落とし穴
  2. 相関係数について相関係数の注意点

ピアソンの相関係数の求め方と計算式

XとYという2つの変数(データ)がn個ずつあったとき、ピアソンの積率相関係数は、

ピアソンの積率相関係数 = XとYの共分散 / Xの標準偏差とYの標準偏差との積

という数式で求められます。

  1. ピアソンの積率相関係数 ウェブリオ辞書
  2. ピアソンの積率相関係数 Pearson product-moment correlation coefficient BellCurb統計用語集

ピアソンの相関係数の意味

定義式からわかるように、ピアソンの相関係数はXとYが完全に相関しているとき、すなわち直線関係にあるときに1になり、まったく相関がないときに0になります。XとYが逆相関しているときは-1を取ります。-1から1までの間の数をとることになります。

ピアソンの相関係数のp値とは

相関係数が0でないかどうかを調べるために検定が行われます。p値が小さいから相関が強いと解釈するのは間違いです。相関の強さは相関係数が1に近いかどうかです。

SPSSによるピアソンの相関係数の求め方

Rを用いたピアソンの相関係数の求め方

ピアソンの相関係数とスピアマンの相関係数との違いと使い分け方

Pearson の相関係数には、対称的な量的変数を使用し、Spearman のローおよび Kendall のタウ bには、量的変数または順序付けされたカテゴリー変数を使用します。(2 変量の相関分析 SPSS Statistics 27.0.0 IBM)

  1. データ尺度の違いによる相関関係を数値化する方法の種類
  2. ピアソンの相関の方法とスピアマンの相関の方法の比較 menu Minitab® 18サポート

ピアソンの相関係数を英語でいうと

ピアソンの相関係数は英語で、Pearson’s Correlation Coefficient (PCC)あるいはPearson’s Product-Moment Correlation Coefficient (PPMCC)あるいはPearson’s rなどと言われるようです。

参考

  1. 標準偏差の名付け親は,相関係数で有名なピアソン,不偏標準偏差の話題と共に

 

ChatGPTに聞くピアソンの相関係数の説明

ピアソンの相関係数(Pearson’s correlation coefficient)は、2つの連続変数の間の線形な関係を測定する統計的指標です。この係数は、変数間の相関がどれだけ強いかを示し、その方向(正の相関または負の相関)も示します。ピアソンの相関係数は、-1から1の範囲で値をとります。

  • 1に近い場合:完全な負の線形関係があることを示します。1つの変数が増加すると、もう一方の変数は減少します。
  • 1に近い場合:完全な正の線形関係があることを示します。1つの変数が増加すると、もう一方の変数も増加します。
  • 0に近い場合:相関がほとんどないことを示し、変数間には線形関係がほとんど存在しないか、非線形の関係がある可能性があります。

臨床研究の例を通じてピアソンの相関係数を説明しましょう。

臨床研究の例: 体重と血圧の関係

研究の背景: 研究者は、患者の体重と血圧の関係を調査し、これらの変数の相関を明らかにしようとしています。血圧が高い人々は、通常、体重が増加しているのか、それとも相関は存在しないのかを調べる必要があります。

データ収集: 100人の患者から、各人の体重(kg)と収縮期血圧(mmHg)のデータが収集されました。

データ解析: これらのデータを使用して、ピアソンの相関係数を計算します。相関係数が正であれば、体重と収縮期血圧が一緒に増加する傾向があり、相関が強いほど、その関係が強いことを示します。負の相関係数は、一方の変数が増加すると他方が減少することを示し、相関が強いほどその関係が強いことを示します。

結果: ピアソンの相関係数を計算した結果、体重と収縮期血圧の間に正の相関があることが示されました。相関係数が+0.65であるため、体重が増加すると、収縮期血圧も増加する傾向があります。この情報は、臨床医や研究者にとって、体重が高血圧に対するリスク要因である可能性を示唆しています。

このように、ピアソンの相関係数は2つの変数の関係を定量化し、臨床研究において異なる変数間の相関を評価するために広く使用されます。

(参照:chat.openai.com)