医療統計学」カテゴリーアーカイブ

χ2乗分布、χ2乗検定とは? χ2乗(カイにじょう)の一番わかりやすい説明

χ2乗とは何でしょうか?χ2乗分布、χ2乗検定とは? χ2乗(カイにじょう)に関して一番わかりやすく解説。

χ2乗検定とは、χ2乗分布に従う検定統計量に関するいくつかの検定方法の総称です。まずはχ2乗分布とは何かから押さえておく必要があります。

χ2乗分布とは

χ2乗分布の定義(数式)は別の解説に譲るとして、一番馴染みやすい言い方をすれば、χ2乗分布(chi-square distribution)とは、標準正規分布N(0,1)から標本をいくつか取り出したときに、それらの標本の各々の値のの2乗を足し合わせた合計値が従う分布になります(これは、定義から導かれる定理)。

少し堅い言い方で言い直せば、標準正規分布N(0,1)に従う独立な確率変数Z1,Z2,…, Znがあったときに、それら確率変数の2乗和

S^2=Z1^2 + Z2^2 + … + Zn^2

が従う分布のことです。この分布を自由度nのχ(かい)2乗分布と呼び、χ2nと書きます。

  1. Step1. 基礎編22. 母分散の区間推定 22-1. カイ二乗分布  BellCurve 統計WEB
  2. 稲垣宣生 数理統計学 1990年11月20日 裳華房 106ページ 6.3 正規分布から誘導される分布

χ(かい)2乗分布は、標準正規分布から数学的に導かれます。様々な分布は互いに関連しているので、どの分布からどの分布が導かれるのかを押さえておくと、数学的な理解の見通しが良くなると思います。

ベルヌーイ分布B(1,p) → 二項分布B(n、p) → 正規分布N(μ、σ^2) → 標準正規分布N(0,1) → χ2乗分布χ2(n) →F分布 F(n1, n2)

また、

二項分布B(n、p) → ポワソン分布P(m)

二項分布B(n、p) ←→ 超幾何分布H(n,p,N)

ポワソン分布P(m)→ 正規分布N(μ、σ^2)

正規分布N(0,1) および χ2乗分布χ2(n) → t分布t(n)

F分布 F(n1, n2) ←→  t分布t(n)

t分布t(n) → 標準正規分布N(0,1)

  1. 宮川公男 基本統計学 第5版 2022年4月1日 有斐閣 212ページ 図7.15 いろいろな確率分布と標本分布の間の関係

χ2乗検定とは

χ2乗分布に従う統計量の検定が、χ2乗検定と呼ばれ、いくつかの種類があります。

9.4 分散の検定ーーーχ2分布の応用 269ページ~

9.5 適合度の検定ーーーχ2分布の応用 270ページ~

9.6 分割表の検定ーーーχ2分布の応用 272ページ~

宮川公男『基本統計学 第5版』有斐閣

χ2乗検定を用いた独立性の検定

単にχ2乗検定というと、「χ2乗検定を用いた独立性の検定」(分割表クロス集計表ともいう)の検定)を指すことが多いようです。その場合は、検定したい内容は「フィッシャーの正確確率検定」と全く同じです。

関連記事:フィッシャーの正確検定(Fisher’s exact test)とは

χ2乗検定とフィッシャーの正確確率検定との使い分けですが、得られたデータの数値の期待度数(下記参照)が5以下のものが含まれている場合にはχ2乗検定では正確ではないため、フィッシャーの正確確率検定が使われます。

さて、カイ二乗検定による独立性の検定(分割表の検定)の説明で、一番わかりやすいと自分が思ったのは『基礎医学統計学』(加納、高橋 共著 南江堂)(改訂第6版 69ページ~)です。

この教科書の説明に則ってカイ二乗検定をわかりやすく説明すると以下のようになります。

2x2の分割表があったときに、それぞれのセルの「期待度数」を考えます。行と列が独立であれば、単純な掛け算になります。

Σ (セルの値ーそのセルの期待度数)^2 / そのセルの期待度数  という統計量が、カイ2乗分布に従うことから、この統計量がどれくらい生じやすいかを調べることにより、行と列が独立(これが帰無仮説)だったかどうかを判断しようというわけです。これがカイ二乗検定の考え方になります。自由度は、列の数だけあるセルの合計したものを固定して考えるので、列の数ー1、行に関し得も同様に、行の数ー1の自由度があります。そのため、R行xC列の場合は、その組み合わせで(R-1)x(C-1)が自由度になります。

  1. 25-5. 独立性の検定 統計WEB
  2. カイ二乗検定とは?検定手法を解説 2023年08月10日 GMOリサーチ t検定は平均値の差に意味があるのかを検定するもので、カイ二乗検定は割合の差に意味があるのかを検定するもの

適合度の検定

例えば100回何かを観測したときに、その観測値がある既知の分布(正規分布など)に従うかどうかを検定します。観測値から標本平均と標本標準偏差(不偏標準偏差とも呼ばれる。nでなくn-1で割ったほう)を求めて、

(標本平均-標本標準偏差)未満

(標本平均-標本標準偏差)から標本平均の間

標本平均から(標本平均+標本標準偏差)までの間

(標本平均+標本標準偏差)より上

の4つの区間を考えますと、それぞれの区間に標本が観察される確率は、16%、34%、34%、16%になります。100回分の観測値のそれぞれの区間での数(度数と呼ぶ)が15個、30個、38個、17個だったとします。ここで

Σ(観測された度数-期待される度数)^2 / 期待される度数

という統計量(この式により値が一つ定まる)がχ2と呼ばれるもので、文字通りχ2分布に従います。

  1. 尾畑伸明 数理統計学の基礎 230ページ 定理8.19 証明は省略する。
  2. 日本統計学会編 統計検定1級対応  統計学 269ページ ピアソンはクロス表のデータに関して(O-E)法という方法を編み出した。
  3. Chapter 56 – Karl Pearson, paper on the chi square goodness of fit test (1900). M.E. Magnello Landmark Writings in Western Mathematics 1640-1940 2005, Pages 724-731 This technique is “chi-square contingency coefficient” to test differences between observed cell frequencies and theoretically expected cell frequencies.

今の場合自由度3(区間の数-1)のχ2乗分布に従います。よってχ2乗分布の表を参照すると、それがどれくらい起こりやすいのか起こりにくいのかの確率がわかります。

区間をどうわけるかは自由ですが、度数が少なすぎる(5未満)にならないようにします。また区間の数は4以上にします。つまり、5x4=20で、最低でも20回以上の観察をした場合でないと、そもそもカイ2乗検定はできません。

今の例は正規分布でしたが、実際には既知の分布であれば何でも構いません。その観測で得られる値がどんな分布に従いそうかが分かっていることが大事です。

  1. J. R. Taylor 計測における誤差解析入門 2000年3月16日 東京化学同人 264ページ  12.分布に対するカイ二乗検定
  2. 統計WEB BellCurve Step1. 基礎編25. さまざまな検定 25-4. 適合度の検定
  3. 調査・統計用語集 カイ二乗検定 日経リサーチ
  4. 適合度検定とは?カイ二乗検定を使う理由や独立性の検定との違いを解説! いちばんやさしい、医療統計 適合度検定とカイ二乗検定(独立性の検定)の計算方法はほとんど同じです。唯一違うのは、理論値の定め方だけです。適合度検定の理論値→事前に決めた値 独立性の検定の理論値→2群の差がないと仮定した時の値

χ2乗検定における95%信頼区間の求め方

95%信頼区間の求め方は、検定の種類によらず同じ考え方でできます。ある検定統計量(検定するためにつくった統計量)とその検定統計量が従う確率分布(t分布やχ2乗分布、正規分布など)があったときに、95%を含む区間(両端で2.5%を含む区間)の境界の値(a, b)をまず知る必要があります(t分布や分布が左右対称だったのに対して、χ2乗分布は左右対称ではないという違いがありますが、本質的ではありません)。そうすれば、

a≦検定統計量≦b という式が立ち、検定統計量の式の中に自分が知りたい値が未知数として一つだけ存在しているので、それについてこの不等式を解けば

下限値≦未知の数≦上限値

として求まります。

カイ二乗検定に関する参考サイト

  1. 独立性の検定―最もポピュラーなカイ二乗検定 2017/08/13 統計WEB BellCurve
  2. 25-5. 独立性の検定 統計WEB BellCurve
  3. カイ二乗検定 日経リサーチ

ウェブ統計計算ツール

  1. js-STAR XR release 1.1.6j 

 

その他参考

  1. Pearson, K. (1900) On the Criterion That a Given System of Deviations from the Probable in the Case of a Correlated System of Variables Is Such That It Can Be Reasonably Supposed to Have Arisen from Random Sampling. Philosophical Magazine Series, 5, 157-175. https://doi.org/10.1080/14786440009463897 https://zenodo.org/records/1430618/files/article.pdf
  2. KARL PEARSON’S CHI-SQUARED GOODNESS-OF-FIT TEST Book Author(s):Prakash Gorroochurn First published: 17 March 2016 Classic Topics on the History of Modern Mathematical Statistics: From Laplace to More Recent Times Chapter 3 https://doi.org/10.1002/9781119127963.ch3
  3. PROFESSOR KARL PEARSON AND T H E METHOD O F MOMENTS BY R. A. FISHER, Sc.D., F.R.S. https://onlinelibrary.wiley.com/doi/pdf/10.1111/j.1469-1809.1937.tb02149.x
  4. Karl Pearson and the Chi-Squared Test R. L. Plackett International Statistical Review / Revue Internationale de Statistique Vol. 51, No. 1 (Apr., 1983), pp. 59-72 (14 pages) https://www.jstor.org/stable/1402731 https://www.floppybunny.org/robin/web/virtualclassroom/stats/basics/articles/chi_square/chi_square_review_plackett_1983.pdf
  5. A Note on Karl Pearson’s 1900 Chi-Squared Test: Two Derivations of the Asymptotic Distribution, and Uses in Goodness of Fit and Contingency Tests of Independence, and a Comparison with the Exact Sample Variance Chi-Square Result 8 Dec 2018 Timothy Falcon Crack https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3284255

1-way ANOVA (Analysis of variants 1元配置分散分析)とは

1-way ANOVA (Analysis of variants 1元配置分散分析)とは、簡単にいうとt-検定の多群への拡張版です。t検定は2群間比較にしか使えないのでした。それに対して、ANOVAは多群に対して用いることができます。ただし、それぞれの群の平均値に差があるものがあるかどうか、しか検定できません。どの群とどの群との間に差があるのかを調べたければ、ANOVAの後に、post hoc(事後に の意味)な検定を行います。post hocに用いる検定の種類としては、チューキーの検定 (Tukey’s test)(多群間のペアワイズな検定)、ダネットの検定(Dunnett’s test)(個々の実験群を共通の対照群と比較)、シッフェ(Scheffe)検定、ボンフェローニ検定などがあります(加納・高橋著『基礎医学統計学』改訂第6版 南江堂2011 などを参照)。

平均値の検定なのになぜ分散分析と呼ぶのかというと、平均値に差があるかどうかを分散の値を調べることによって分析するからです。以下のウェブ記事が非常にわかりやすいと思います。

独習教材「ハンバーガーショップで学ぶ楽しい統計学」──平均から分散分析まで──

上のウェブ記事ではFの値が危険率0.05のときのFの値と比べて有意かどうかを判定しており確率は載せていませんでしたので、確率p-valueをpythonで求めておきます。

import scipy.stats as st

ワクワク=[80,75,80,90,95,80,80,85,85,80,90,80,75,90,85,85,90,90,85,80]
モグモグ=[75,70,80,85,90,75,85,80,80,75,80,75,70,85,80,75,80,80,90,80]
パクパク=[80,80,80,90,95,85,95,90,85,90,95,85,98,95,85,85,90,90,85,85]

f, p = st.f_oneway(ワクワク,モグモグ,パクパク)
print(“F=%f, p-value = %f”%(f,p))

出力結果は、

F=12.223110, p-value = 0.000038

 

参考

  1. 向後研究室 独習教材「ハンバーガーショップで学ぶ楽しい統計学」──平均から分散分析まで──
  2. 基礎 医学統計学 改訂第6版 加納・高橋 著 南江堂 2011年
  3. 杉本典夫『医学・薬学分野で役立つ 統計学の基礎 推定を中心にした統計手法の理論と実践』(プレアデス出版2015年)
  4. Fratio (or F) Distribution docs.scipy.org
  5. Pythonで統計学を学ぶ(6)  whitewell.sakura.ne.jp
  6. 分散分析 ようこそ、化学標準物質の不確かさへのいざない

 

スティール=ドゥワス検定 Steel-Dwass’s testとは?

スティール=ドゥワスの多重比較検定 Steel-Dwass’s multiple comparison testは、ノンパラメトリックな検定に分類されます。同じく多重検定のための手法であるテューキーの方法のノンパラメトリック版と言えるでしょう。クラスカル=ウォリス検定は、数式に自分で値をいれて、手計算である程度できましたが、スティール=ドゥワスの多重比較検定は統計ソフトにお任せするしかなさそうです。

pythonでもできます。

https://buildmedia.readthedocs.org/media/pdf/scikit-posthocs/latest/scikit-posthocs.pdf このウェブページにあるサンプルコードですが、

import scikit_posthocs as sp
a= [1,2,3,5,1]

b = [12,31,54,62,12]

c = [10,12,6,74,11]

sp.posthoc_dscf([a, b, c])

と一行のコマンドで済みます。

  1. https://analyse-it.com/docs/user-guide/compare-groups/multiple-comparison-procedures
  2. scikit_posthocs.posthoc_dscf
  3. https://scikit-posthocs.readthedocs.io/en/latest/intro/
  4. https://scikit-posthocs.readthedocs.io/en/latest/generated/scikit_posthocs.posthoc_dscf/

クラスカル・ウォリス検定 (Kruskal-Wallis test) とは?わかりやすい説明

クラスカル・ウォリス検定 (Kruskal-Wallis test) に関するわかりやすい説明を纏めました。

クラスカル・ウォリス検定は、ノンパラメトリック検定の一つです。ノンパラメトリック検定とは、パラメトリック検定に対する言葉で、パラメトリック検定とは、母集団として正規分布など何かしらの分布を仮定しておき、その仮定のもとでなにがしかの検定統計量を計算し、その検定統計量が従う分布を用いて仮説検定を行うものです。それに対して、ノンパラメトリック検定は、そのような母集団の分布の仮定を置きません。ノンパラメトリック検定における基本的なやり方は、観察された値(データ)を大きさの順に並べて、その順位を使った検定統計量を計算し、その検定統計量が従う分布を利用して仮説検定を行うところに特徴があります。

クラスカル・ウォリス検定は複数の群(2群でもよいし、3群でも、3群以上でもOK)の間に分布の差があるかどうかを調べます。仮説検定を行うときの帰無仮説は、「群間に分布の差はない」、帰無仮説が棄却された場合には、「(どれとどれとの間にかはわからないが)群間で差がある」といいうことになります。

実際の計算はというと、仮にA群、B群、C群とあったとすると、それぞれのデータの値を総データにおける「順位」(小さい順。一番小さいものが1)に変換しておきます。

統計検定量H = 12/総データ数*(総データ数+1) * (A群のデータ数*(A群の順位和の平均 – 総データ数の中央値)^2 + B群に関して同様 + C群に関して同様)

という数式から統計検定量Hを計算します。上の式をみると、この統計検定量Hを計算する際、データの実際の値は使われておらず。そのデータの順位だけが考慮されていることがわかります。この統計検定量Hは、自由度(群の数 -1)のχ2乗分布に従うので、Hの値より上側の面積が、そのHもしくはそれより高い値が得られる確率(すなわちp値)になります。

データの値を順位に変換するのは、pythonなどのプログラミング言語を利用すると比較的簡単にできるので、上の式を用いて全部自分で計算することが可能です。

 

クラスカル・ウォリス検定と一元配置分散分析との違い

3群以上の群間の差を調べる方法としては、一元配置分散分析とクラスカル・ウォリス検定がありますが、一元配置分散分析が群間で平均値の差を検定するのに対して、クラスカル・ウォリス検定では中央値の差を検定しているというところが違いです。一元配置分散分析法(One-factor ANOVA)のノンパラメトリック版だと考えると、どういうときに使うのかが覚えやすいかもしれません。

  1. 経済情報処理 講義ノート 第8回 仮説検定 2017年5月29日(月)4限 担当教員:唐渡 広志 (PDF u-toyama.ac.jp )

 

クラスカル・ウォリス検定をした後は

他群間の比較をする目的は、たいていの場合、どの群とどの群との間に差があるのかです。しかし、クラスカル・ウォリス検定は、全ての群が同じということではない、と結論してくれますが、じゃあ、どの群が違ているのかまでは教えてくれません。そのため、クラスカル・ウォリス検定で有意差が認めらたとしても、そこで解析を終わるわけにはいきません。

事後の比較として多重比較の手順を必要とします。 多重比較の手法としては、Steel-Dwass test(スティール・デュワス検定)Mann-Whitney U test(マン・ホイットニーのU検定)による2群比較を行ってBonferroni(ボンフェローニ)による調整を行う方法などが知られています (Kruskal-Wallis検定の後の多重比較の手法  Stats Guild)

 

参考図書

  1. 統計学実践ワークブック 日本統計学会編 学術図書出版社 日本統計学会公式認定 統計検定 準一級対応

 

原著論文

  1. Use of Ranks in One-Criterion Variance Analysis Author(s): William H. Kruskal and W. Allen WallisSource: Journal of the American Statistical Association, Dec., 1952, Vol. 47, No. 260 (Dec., 1952), pp. 583-621

 

Chat GPTに聞いてみた!クラスカル・ウォリス検定とは?

クラスカル・ウォリス検定(Kruskal-Wallis test)は、3つ以上の独立したグループ(または標本)の間で、連続型の順序尺度データに基づいて統計的に有意な違いがあるかどうかを検定する方法です。この検定は、グループ間で中央値に差があるかどうかを調べるために使用され、非正規分布のデータや等分散性の仮定が満たされない場合にも有用です。

クラスカル・ウォリス検定の基本アイデアは、各グループのランクを計算し、それらのランクを比較して、グループ間の中央値に統計的に有意な差があるかどうかを判断することです。具体的な手順は以下の通りです。

  1. データを収集し、各グループ(条件またはカテゴリ)の中央値を計算します。
  2. 各データポイントをそのグループ内でのランクに変換します。データを昇順に並べ、同じ値が複数ある場合は平均ランクを使用します。
  3. 各グループ内のランクの合計を計算します。
  4. グループの数と総サンプルサイズから、クラスカル・ウォリス統計量(H)を計算します。この統計量は、各グループのランク合計とデータの分散に基づいて求められます。
  5. Hの値はクラスカル・ウォリス分布に従い、帰無仮説(すべてのグループ間で中央値に差がない)を検定します。帰無仮説が棄却される場合、少なくとも1つのグループ間に統計的に有意な差があると結論されます。

クラスカル・ウォリス検定は、実験または調査データにおいて、複数の処置または条件がある場合、それらの条件間で統計的な差を評価するのに役立ちます。臨床における例を考えてみましょう。

例: 薬物療法の比較

臨床試験において、3つの異なる薬物(A、B、C)を投与して、患者の特定の疾患の症状の軽減度を評価したいとします。各薬物は異なる治療群に割り当てられ、同じ病態を持つ患者が各群に分散されます。治療後、症状の軽減度を数値で評価し、これらのデータを使用してクラスカル・ウォリス検定を実施します。

帰無仮説(H0): 3つの薬物の中央値に統計的に有意な差はない。

対立仮説(H1): 少なくとも1つの薬物の中央値に統計的に有意な差がある。

クラスカル・ウォリス検定を実行し、結果が有意であれば、どの薬物が他よりも有効であるかを特定できます。このような解析は、臨床試験や疾患治療の効果を評価する際によく使用されます。

(参照:chat.openai.com)

AUCとは?ROC曲線とは?感度(sensitivity)とは?特異度(specificity)とは?

AUCという言葉は医療系あるいは機械学習の世界では頻出で、何の説明もなくAUCはいくらいくらでしたといった使われ方をします。初めてこの世界に来た人にしてみれば、「?」です。AUCとは何かを調べるとROCが出てきて、それ何?と思って調べると、TPFやFPFが出てきて、最初から理解するしかありません。

ROCとは?

臨床研究では、連続変数である独立変数と二分変数であるアウトカムとの関係の強さを評価する方法として、しばしば診断検査の有用性を検討する手法として利用されています。 https://www.med.osaka-u.ac.jp/pub/kid/clinicaljournalclub6.html

AUCとは?

AUC:ROC曲線のグラフの下の部分の面積(‘Area Under the Curve)の略語

ROC:ROC曲線とは、Receiver Operating Characteristic curveのこと。検査や診断において、陽性か陰性かを判別するカットオフ(選別点)を動かした場合の、偽陽性率(=FPF)を横軸に、真陽性率(=TPF)を縦軸にとって、線で結んだグラフ。

偽陽性率=1-特異度

陽性率=感度

特異度

まだ何のこっちゃ?ですが、ROCを理解するための重要の前提は、「検査や診断は白か黒かにハッキリ分けられることは普通はない」という事実です。つまりあるマーカーの値で病気か病気でないかを判断しましょうと言ったときに、「病気か病気でないかを判別するカットオフ値をどう設定するか」という恣意的な操作が入っているのです。とある「簡易うつ病診断テスト」で質問項目20個に答えてもらった場合に、各項目1点として、15点を超えた人をうつ病と判断するのか、12点を超えた場合にうつ病とみなすのか、というわけです。12点だった人の場合でも実はうつ病の人と、実はうつ病ではない人が混じっているわけです。この場合、うつ病かどうかの診断が別の方法で確定できるという前提で話しています。つまりもともとうつっぽい性格なんだけど全然うつ病ではない人がいたときに、その人は、「擬陽性」(うつでないのにうつと判断されてしまう)になるというわけです。

別の例で説明すると、がん患者の集団とがんでない人の集団があったとして、あるがんマーカーの値を調べたとします。仮にがんマーカーの値が0から100までの値をとれるとします。がん患者の集団はおおよそ80くらいの値に集中していて、がんではない人のマーカーの値は20くらいに集中していたとします。がんマーカーの値が50の場合に、がんの人もいればがんでない人もいて入り混じった状態です。このような状況だと、このがんマーカーでがんかどうかを判別することは、「ある程度」の正確さでしかできず、カットオフの値をどう設定するかで、がん(の疑い)かどうかの判断が変わってくるということになります。そこで、カットオフの値を動かしたときに、偽陽性率(=FPF)を横軸に、真陽性率(=TPF)(感度とも呼ばれる)を縦軸にとってグラフが書けるということになります。このグラフがROC曲線と呼ばれ、その下側の面積がAUCと呼ばれます。

pythonで試してみます。健常者4000人のがんマーカー値の平均が40、標準偏差12、また、がん患者1000人のがんマーカー値の平均値が70、標準偏差12だったとします(pythonで、そうなるように乱数を発生させた)。すると、マーカー値の分布をプロットして、ROC曲線を描いてみると、

となりました。AUCは96%みたいです。今度は試しに、健常者4000人のがんマーカー値の平均が45、標準偏差12、また、がん患者1000人のがんマーカー値の平均値が45、標準偏差12だったとします。すると、描画したら

となり、AUCは50%でした。これはつまり、このがんマーカーは健常者とがん患者とを全く区別できていないという、極端な条件です。

こんどは、健常者40人、がんマーカー値の平均値40、標準偏差20、がん患者の人数を5人、平均値を60、標準編偏差20としてみます。すると、

で、AUCを計算する70.5%になりました。

今度は、健常者400人、平均40、標準偏差20、がん患者50人、平均60、標準偏差10にしてみます。

これのAUDは80.7%。上のヒストグラムから明らかなように、今の場合がん患者の分布はほとんど健常者の分布の内部にあります。するとROC曲線をみてわかるように、偽陰性率を上げないと感度も上がらないわけですね。いいマーカーは直線関係よりもできるだけ上に膨らんで欲しいのですが、今の場合は直線的に上昇しているだけで、あまり良いマーカーでないことがわかります。

最後に、健常者45人、がんマーカー平均値40、標準偏差10、がん患者5人、がんマーカー平均値70、標準偏差10でランダムに分布を得ました。

今の場合、偶然ですが、健常者とがん患者の重なりはゼロです。すると偽陽性率0のカットオフがあるので、感度は100%になります。AUCは100%。例数が少ない場合に実験データからROC曲線やAUCを求めると、こういうことも起こるようです。

参考図書

  1. 森本 剛『医学論文のための 研究デザインと統計解析』(中山書店2017年)146ページ 診断特性 Topic マーカー研究と診断特性pp144-157 この本は臨床研究実践のための教科書としては最強の部類に入ります。

AUCとは

ROC曲線は、診断法がどれぐらい有用なのかを知るときに使われ、曲線下の面積(AUC)によって定量化されます。(医療統計コラム File 2. ROC曲線は、こんなふうに描かれます jmp

ROC曲線とは

  • 与えられた値から,真(TRUE)か偽(FALSE)かを判断したい
  • 与えられた値をどこで切っても,TとFは完全には分離できません
  • 区切る値(閾値,カットオフポイント)をいろいろ変えて,横軸にfalse positiveの割合,縦軸にtrue positiveの割合をとってプロットしたものが,ROC曲線
  • ROCはReceiver Operating Characteristicの略で,第2次大戦のときに米国のレーダーの研究から生まれた概念

ROC曲線 edu.mie-u.ac.jp

  1. ROC curve analysis  MedCalc

血中薬物濃度-時間曲線下面積(AUC)とは?

AUCは体循環血液中に入った薬物量比例します。(薬物血中濃度-時間曲線下面積(AUC) 治験ナビ)

Area Under the Curve One of the most important pharmacokinetic parameters is the area under the drug concentration versus time curve within the dosing interval (AUC) because AUC relates dose to exposure. Because the dosing interval is typically once daily or every 24 h on safety studies, the reported AUC is typically AUC0–24 h. AUC is the quantitative measure of the apparent amount of compound at the site from which samples were collected and concentrations measured, which in most cases is the systemic circulation. When sampling occurs from the systemic circulation, it is often an indication of systemic exposure. The simplest method for calculating AUC is the linear trapezoidal rule (Gibaldi and Perrier 1982). (sciencedirect.com)

参考ウェブサイト

  1. 機械学習の評価指標 – ROC曲線とAUC TECH BLOG by GMO

その他の参考サイト

  1. What is the AUC — ROC Curve? Anuganti Suresh Anuganti Suresh Follow 6 min read · Nov 23, 2020 https://medium.com/computer-architecture-club/what-is-the-auc-roc-curve-47fbdcbf7a4a
  2. https://www.med.osaka-u.ac.jp/pub/kid/clinicaljournalclub6.html Clinical Journal Club 5. ROC曲線 ROC曲線(Receiver Operatorating Characteristic curve、受信者動作特性曲線)は、もともとレーダーシステムの通信工学理論として開発されたものであり、レーダー信号のノイズの中から敵機の存在を検出するための方法として開発された方法です。臨床研究では、連続変数である独立変数と二分変数であるアウトカムとの関係の強さを評価する方法として、しばしば診断検査の有用性を検討する手法として利用されています。

χ2乗検定とは

暴露因子Eの有無とアウトカムOの有無が表のようになった場合、

アウトカム あり アウトカム なし
暴露因子 あり a b e = a + b
暴露因子

なし

c d f  = c + d
g = a + c h = b + d n = a + b + c + d

観察値と期待値の差の2乗を期待値で割った値を、項目ごとに合計した値をχ0 2乗 と呼びます。この値は、自由度(2-1)x(2-1)のχ2乗分布に従うことが知られています。

暴露因子ありでアウトカムありの観察値a の期待値は、e* g/n となります。

他も同様。

χ0 2乗 = (a – eg/n)^2 / (eg/n) + …

 

参考

  1. 臨床研究と論文作成のコツ 東京医学社 172ページ

Cox比例ハザード回帰モデルとは?最もわかりやすい説明

Cox比例ハザード回帰モデルは生存分析の手法の一つですが、よく耳にする割にはどんなものかぴんとこないので、わかりやすそうな説明をまとめておきます。

 

生存分析とは

重い病気の研究において入院なり通院なりで「治療中」や「完治による治療終了」(生存)の人もいれば、残念ながら「死亡に伴う治療終了」(死亡)もあります。このような「今も結果を追えるケース」と「途中離脱で結果が追えなくなってしまったケース」が混在していることに対応した分析が生存分析となります。(COX回帰比例ハザード IBM Support)

 

  1.  ―基礎科学から医学・医療を見る― 生存時間データ解析と比例ハザードモデル 中澤 秀夫 日本医科大学基礎科学数学 日医大医会誌 2015; 11(1) 丁寧な解説
  2. 質問8 Cox比例ハザードモデルとは?(その1) わかる統計教室 第4回 ギモンを解決!一問一答 質問8(その1)
  3. 中村 剛 『Cox比例ハザードモデル (医学統計学シリーズ) 』朝倉書店 2001年

 

Cox比例ハザード回帰モデルによる危険因子の同定

Cox比例ハザード回帰モデルは、様々な予後因子から生死といった二値のアウトカムへの回帰分析になります。Cox比例ハザード回帰モデルで、何がわかるかの例としては、

特定の手術を受けた患者 26 人に対し, 手術直後に実施したある検査の数値,性別,最終状況 (合併症の有無),追跡期間(日)を調べたものである. 検査数値性別は,それぞれ合併症の危険因子である と言えるか?https://www.jstage.jst.go.jp/article/manms/11/1/11_29/_pdf

などがわかりやすいと思います。

 

Cox比例ハザード回帰モデルとは何かのざっくりとした説明

コックス回帰は、母集団の生存時間に影響を及ぼす可能性のある危険因子、すなわち、共変量 (covariates) を評価する生存分析の一部です。(コックス回帰 hulinks.co.jp

  1.  コックス比例ハザードモデル Cox proportional hazard model http://jspt.japanpt.or.jp/

 

 

Cox比例ハザードモデルの数式

  1. Cox比例ハザードモデル Cox proportional hazard model bellcurve.jp
  2. 多変量解析:重回帰・ロジスティッ ク回帰・比例ハザードモデル 医学統計セミナー2017 第2回目 下川敏雄 医療データサイエンス学 (附属病院臨床研究センター)

 

 

Cox比例ハザードモデルとカプラン・マイヤー法との違い

単変量解析のカプラン・マイヤー(Kaplan-Meier)法が生存時間を解析するための要因として1変数しか利用できないのに対して、Cox回帰分析は複数の要因を評価することができる多変量解析の手法になります。(スタッツギルド

 

Cox比例ハザード回帰モデルを説明した動画

京都大学大学院医学研究科 聴講コース 臨床研究者のための生物統計学「生存時間解析の基礎」 2018/03/30 Kyoto-U OCW

 

ハザード関数とは

  1. 医学統計勉強会 東北大学病院循環器内科・東北大学臨床研究推進センター 共催 東北大学大学院医学系研究科EBM開発学寄附講座 宮田 敏 2013/10/17 第4回

 

ハザード比とは

曝露があるときのハザード関数(h(t, X=1) = h0(t)×eβ)と曝露がないときのハザー
ド関数(h(t, X=0) = h0(t)×e0)の比である「ハザード比(hazard ratio; HR)」を求め,曝露の生存期間に与える影響を推定するのである。(臨床医のための疫学シリーズ:地域中核病院で行う臨床研究 第5回 臨床研究における統計学の役割(疫学各論 4)小松 裕和 鈴木 越治  土居 弘幸

 

Cox比例ハザード回帰モデルがセミパラメトリックと言われる理由

このモデルが、共変量に関してはパラメトリックだが、時間に関してはノンパラメトリック(時間には依存しない)ため、このモデルはセミパラメトリックであると言われます。

コックス (Cox) 回帰モデルでは, 説明変数 X1i , . . . , Xpi を用いてハザード率関数が h(t) = h0(t) exp(β1X1i + . . . + βpXpi) であると仮定します. h0(t) は基準ハザード率関数で特に関数形は仮定しないので, セミパラメトリッ クモデルとも呼ばれます (コックス回帰モデル omori.e.u-tokyo.ac.jp

  1. Statistical Methods in Medical Research 4th edition by P.Armitage, G.Berry, and J.N.S.Matthews. Blackwell Science. (See page 585)

 

Cox比例ハザード回帰モデルの詳しい説明

  1. 生存時間分析の基礎4(Cox 比例ハザードモデル)Maxwell 2020/10/18 21:16 「エモリー大学クラインバウム教授の生存時間解析(サイエンティスト社)」にもとづいたもの

 

数式を用いたCox比例ハザード回帰モデルのわかりやすい説明

数式を用いていながら非常に簡潔にわかりやすい説明が、基礎医学統計学(加納・高橋 南江堂)にありました。

ベースライン生存確率関数 S0(t) と生存確率関数SX(t) との比較を考えます。X=(X1, X2, …,Xs)  ここで、生存確率関数SX(t)がS0(t)のべき乗(c乗、ただしcは時間によらない定数)の形に書けるという仮定を置きます。式で書くと、SX(t) = S0(t)^c

ここでこの定数cを、c = exp(b0+b1X1+… +bsXs) と置きます。こうしてパラメーターb0, b1, …, bsを最尤法で決めてあげようというわけです。

Cox比例ハザード回帰モデルは文字通り、モデルなわけですから、どんな数学的なモデルを考えたのかという説明になっていました。そのモデルにした妥当性に関してはまた別問題で、そこまで詳しい説明はこの本にはありません。

Cox比例ハザード回帰モデルを解説した書籍

その名もずばり『Cox比例ハザードモデル (医学統計学シリーズ 3)と言う本がありますが、かなり専門的で、数学的な説明がないと気が済まない人向けだと思います。自分は図書館で借りて、読もうとして挫折。しかし定評のある生存分析の本が何冊もあるので、自分の数学力、必要性に合わせたものを選べばよいのではないでしょうか。

    

Cox比例ハザード回帰モデルを用いた研究論文の例

  1. 帝王切開で児の発達障害は増加する? 2021年03月22日 16:45 Medical Tribune JAMA Netw Open(2021; 4: e210837

 

Cox比例ハザード回帰モデルの原著論文

Cox比例ハザード回帰モデルは、その名前通りCoxさんが提唱したモデルで、1972年に論文発表されています。

  1. Cox D.R. (1972) Regression models and life-tables (with discussion). J.R.Stat. Soc. B 34, 187-220. (J-STORE)

 

参考

  1. 比例ハザードモデルはとってもtricky!takehikoihayashi Published on Apr 9, 2013 スライドシェア
  2. 比例ハザードのあてはめ JMP
  3. コックス比例ハザード モデル Mathworks
  4. Professor Sir David Cox archive.org

まず単変量で回帰分析を行ってから次に多変量の回帰分析をすることの是非

多変量回帰分析(重回帰分析)で悩ましい問題について。何かの現象を引き起こす要因を同定するために、候補となる要因を複数リストアップして、多変量の回帰分析(重回帰分析)を行い、どの要因が最も寄与が大きいかを調べるということが良く行われます。その際、多変量の回帰分析の前に、個々の要因(独立変数)に関してまず単変量での回帰分析(単回帰分析)を行うという記述を良く見かけます。そのあたりの統計解析の実際的な手順について情報をまとめておきます。

疑問:多変量の前にまず単変量?

多変量解析をするのなら、わざわざ単変量で個別に解析する必要はないのでは?と思ったのですが、同じような疑問を持つ人が多いようです。

ある病気の予後に関して関係があると予想した因子A,B,C,D,E,Fに関して単変量解析をしたら、A,B,Cが有意と考えられた場合、次に多変量解析を行う場合は、A,B,C,D,E,Fのすべての因子で解析して判断すべきでしょうか?それとも関連がありそうなA,B,Cによるモデルで解析するべきでしょうか?(教えて!goo 2009年

上司の発表スライドなどを参考に解析をしております。その中に、単変量解析をしたうえで、そのP値を参考に多変量解析に組み込んで解析しているスライドがあり、そういうものなのかと考えておりました。ただ、ネットで調べますと、それは解析ツールが未発達な時代の方法であり、今は共変量をしぼらず多変量解析に組み込むのが正しいという記述も散見されました。(YAHOO!JAPAN知恵袋2020年)

多変量解析の手順:いきなり多変量はやらない?

多変量解析は、多くの要素の相互関連を分析できますが、最初から多くの要素を一度に分析するわけではありません。下図のように、まずは単変量解析や2変量解析データの特徴を掴んで、それから多変量解析を実施するのが基本です。(多変量解析とは?入門者にも理解しやすい手順や具体的な手法をわかりやすく解説 Udemy 2019年

単変量解析、2変量解析を経て、多変量解析に進みます。多変量解析の結果が思わしくない場合、単変量解析に戻って、再度2変量解析、多変量解析に進むこともあります。(Albert Data Analysis

多変量解析の手順:本当にいきなり多変量はやらないの?

正しい方法は、先行研究の知見や臨床的判断に基づき、被説明変数との関連性が臨床的に示唆される説明変数をできるだけ多く強制投入するやり方です。… 重要な説明変数のデータが入手できない場合、正しいモデルを設定することはできないので、注意が必要です。アウトカムに影響を及ぼしそうな要因に関して、先行研究を含めて予備的な知見がない場合や不足している場合、次善の策として、網羅的に収集されたデータから単変量回帰である程度有意(P<0.10など)な説明変数のみを選択し、多変量回帰分析に強制投入する方法もありです。(第3回 実践!正しい多変量回帰分析 臨床疫学 康永秀生(東京大学) 2018年5月23日 m3.com)

上の説明がしっくり来ました。単変量解析をスキップするのがむしろ正しいようですが、現実的には説明変数の数を絞り込みたいので(サンプル数の数が限られていると、説明変数の数は増やせないので)、単変量解析を事前に行うことはOKとのことのようです。

「なるべく少ない変数:x を投入」が 原則です。  よくある手法としては、まずは単変量解析で独立変数:x 1つ1つの有意差を検定します。  その後、影響があると思われる独立変数:x 数個を多変 量解析に投入します。(医学研究初心者のための やっぱりわかりにくい統計道場 Shingo Hatakeyama 2016)

多変量解析の手順:一番厳格な方法

上の康永秀生氏の説明にもありますが、一番正しい方法は、データを見ずに(=単変量解析をやらずに)いきなり多変量解析を行うことのようです。下のように、新谷歩氏の説明も同様でした。

(6)データを一切見ず,文献や医学的見地を参照し,アウトカムである死亡に対するリスク因子の中からリスクの大きい順に5つ選び出す。

いずれもよく用いられる方法ですが,正解は(6)です。(1)から(5)は,データを用いてP値を一番小さくする方法として知られていますが … 多変量解析における「見過ぎによる出過ぎ」は専門用語では「Overfitting」と呼ばれ,雑誌によっては先ほど示した(1)から(5)の方法を使用しないよう指示している場合もあります2)。(多変量解析―説明変数の選び方(新谷歩)連載2011.10.17 今日から使える医療統計学講座【Lesson6】多変量解析――説明変数の選び方 新谷歩(米国ヴァンダービルト大学准教授・医療統計学))

統計は絶対正しい方法でないとだめということでもないようで、研究領域やジャーナルによって、習慣的にOKとされることがあるようです。

多変量解析の前に単変量解析をやってはいけない

実際にはみなやっているのでOKなのでしょうが、厳格なことを言えば正しくないようです。

The use of bivariable selection (BVS) for selecting variables to be used in multivariable analysis is inappropriate despite its common usage in medical sciences. (Journal of Clinical Epidemiology VOLUME 49, ISSUE 8, P907-916, AUGUST 01, 1996 Inappropriate use of bivariable analysis to screen risk factors for use in multivariable analysis Guo-Wen Sun Thomas L. Shook Gregory L. Kay)

When they say bivariable they mean what you refer to as univariate. (Danger of univariate analysis before multiple regression StackExchange) 1変量解析のことを2変量解析と呼ぶ流儀もあるようです。独立変数1個、従属変数1個を合わせて2変数ということでしょう。

多変量解析の前に単変量解析をやらずにどうするのか

まず単変量解析をやって多変量解析に使う独立変数を決めるというのは、統計学者はNGと言っているにも関わらず、実際の臨床研究の現場では普通に行われているように思います。しかし、ダメなものはダメなのだとしたら、どうすればよいのでしょうか。

重ロジスティック回帰分析や Cox の比例ハザードモデルによる生存時間解析などの多変量回帰分析において,モデルに入れる説明変数を単一因子解析で選定する方法は,誤った解析結果を導く可能性があることを示した.多変量回帰分析では,モデルに入れる変数を逐次変数選択法を含む適切な手法で選ぶことが必要である.

(査読者の立場から見た医学論文における統計解析の留意点 新潟大学医歯学総合病院医療情報部 赤澤 宏平 日本臨床外科学会雑誌 2019 年 11 月 16 日受付 臨床研究の基礎講座 日本臨床外科学会・日本外科学会共催(第 81 回日本臨床外科学会総会開催時)第 23 回臨床研究セミナー)

単変量を最初にやらずとも、逐次変数選択法という方法があるそうです。これで解決かと思いきや、専門家でも異なる考え方があるようです。

 「ステップワイズ法(逐次選択法)」は、統計ソフトが自動的に説明変数を1個ずつ入れたり出したりして、適合度の良いモデルを選択する方法です。この方法は基本的に使わない方がよいでしょう。ステップワイズ法を使うのは、臨床を知らない統計屋がやることです。 正しい方法は、先行研究の知見や臨床的判断に基づき、被説明変数との関連性が臨床的に示唆される説明変数をできるだけ多く強制投入するやり方です。(第3回 実践!正しい多変量回帰分析 臨床疫学 安永英雄(東京大学) 2018年5月23日 m3.com)

悩ましいですね。数学的に正しいこと、統計学的に正しいことであっても、臨床の現場には適用できないということでしょうか。

「まず単変量解析」はダメ、ステップワイズ法もダメ、じゃあどうしろと?

新谷歩先生のウェブサイトの統計学解説記事がとてもわかりやすく(初学者に優しく)好きなので、自分は新谷先生の書いた教科書は全部買いました。ウェブ記事を読むよりも本を読むほうが、自分は落ち着いて勉強ができるので、そういうタイプの人には書籍をお勧めいたします。で、『みんなの医療統計 多変量解析編』に非常にはっきりと、どうすればいいか、何をしてはいけないかが書いてありました。とても重要なことですし、今だに多くの人がまず単変量解析をして有意差が出た変数を多変量に投入すると、当然のように考えているので、ちょっと紹介させていただきます。

やってはいけない例

  1. 単変量解析を行って有意差が出たもののみを多変量回帰モデルに入れる
  2. ステップワイズ法を使って有意差が出た説明変数だけを多変量回帰モデルに入れる
  3. 単変量解析で有意差が出たもののみをステップワイズ法に入れて、最終的に有意差が出たもののみを説明変数として多変量モデルに入れる

参照 216ページ 新谷歩『みんなの医療統計 多変量解析編』

ではどうするのかというと、

何がアウトカムと因果関係をもつかをデータを見ずに、先行文献や医学的観点から考え、アウトカムとの関連性の上で重要なものか選ぶ。臨床的な判断で決める。

参照 215ページ

ということです。

新谷歩『みんなの医療統計 多変量解析編』(アマゾン)初学者に寄り添う優し解説

結局どうすればいいの?

多変量解析の教科書を読んでみても、最初に単変量解析を行っているものを結構見かけます。多変量解析に用いる独立変数の選択方法に関しても、上でやってはいけないこととされていることを当然のように解説している「実践的な統計解析の教科書」のほうがむしろ多数派ではないでしょうか。

科学的に(数学的に)正しいかどうかよりも、自分が所属している研究領域の慣習に従うほうが現実的のような気がします。なぜなら、論文を出すときに査読者がどう考えるかで、自分の論文がリジェクトされるかアクセプトされるかが決まるからです。古い頭の査読者を説得することに失敗して論文が出せなくなっては困ります。あまり無責任なことは言いたくありませんが、自分なら現実的な判断をします。

非劣性試験 (noninferiority trials)

 

非劣性試験 (noninferiority trials)とは

The null hypothesis in non-inferiority trials is that new treatment is inferior to standard treatment. The alternative hypothesis is the new treatment is non-inferior to standard treatment. (Review Non-inferiority trials in cardiology: what clinicians need to know Heart BMJ Journals)

参考

  1. 同等性・非劣性の解析(新谷歩)連載2012.03.26 医学会新聞
  2. Reporting of Noninferiority and Equivalence Randomized Trials Extension of the CONSORT 2010 Statement
  3. Review Non-inferiority trials in cardiology: what clinicians need to know Heart (BMJ Journals) わかりやすい説明。

医学統計データを読む – 医学・医療に必要な統計学活用法 - 第3版

『医学統計データを読む』という医療統計の教科書があります。邦訳は2006年の刊行で今となってはやや古いのですが、題材を全て実際の医学論文からとっているため、統計学を学びたい医師研究者にとってはモチベーションが湧いて良いのではないかと思います。内容を大雑把にですが紹介したいと思います。統計を学ぶためには何かしっかりとした教科書を通読しておくのが良いと思います。
医学統計データを読む – 医学・医療に必要な統計学活用法 - 第3版
刊行年月 2006/5/1この邦訳はBasic & Clinical Biostatistics Fourth edition by Beth Dawson and Robert G. Trappの全訳です。監訳者序文によれば原書には、例題などで扱ったデータや統計ソフトウェアを収めたCD-ROMが付属していますが、この訳書ではそれが省かれています。ちょっと残念ですね。
序文によれば本書の特徴は、実際の医学論文から題材が取られているところです。

臨床研究への序

医学論文では統計学的な手法が妥当ではない論文が大半であるということが紹介されています。例えばWilliamsonらが1992年に報告したものによれば、4235報のうちたったの20%しか妥当とはいえなかったとのこと。

  1. Williamson JW, Goldshmidt PG , Colton T: The quality of medical literature: And analysis of validation assessments. In bailar JC, Mosteller F (editors): Medical uses of Statistics . Massachusetts Medical Society, 1992.
  2. Medical Uses of Statistics 3rd Edition by John C. Bailar and David C. Hoaglin 編集 Wiley 2009 ISBN-13 : 978-0470439524 “Numerous examples based on studies taken directly from the pages of the New England Journal of Medicine
  3. Medical Uses of Statistics 2nd Edition by Bailar and Mostelle. CRC Press 1992 ISBN-13 : 978-0910133364
  4. Medical Uses of Statistics by John C. Bailar III , Frederick Mosteller. New England Journal of Medicine. 1986 ISBN-13 : 978-0910133166

医学研究の研究デザイン

理学の分野の研究であれば、すなわち「実験研究」なわけですが、医学研究においては、「観察研究」と「実験研究」(介入を含む研究のこと)に大きく分けられます。観察研究はさらにいくつかに分類されます。医学で研究を計画する際にも、あるいは、医学研究の論文を読む際にもこういった実験のデザインが何かを理解しておくことが必須になります。

データの要約と表・グラフの提示

オッズ比

題材として取り上げられている論文とデータ

  • R A Ballard 1, P L Ballard, A Cnaan, J Pinto-Martin, D J Davis, J F Padbury, R H Phibbs, J T Parer, M C Hart, F L Mannino, S K Sawai.  Antenatal thyrotropin-releasing hormone to prevent lung disease in preterm infants. North American Thyrotropin-Releasing Hormone Study Group N Engl J Med . 1998 Feb 19;338(8):493-8. doi: 10.1056/NEJM199802193380802.  テーブル2 本文も無料。

データの推論に使用する確率と関連事項

 

1群についての研究課題

 

2つの個別・独立の群についての研究課題

 

3群以上の平均値についての研究課題

 

変数の関係についての研究課題

 

生存率の分析法

 

多変数の統計的手法

 

調査研究

 

エビデンス医療と決定分析の方法

 

医学論文を読む

参考

  1. 医学統計データを読む 第3版 – 医学・医療に必要な統計学活用法 -(メディカル・サイエンス・インターナショナル)医科統計学の好評入門テキスト、初の全訳
  2. 医学統計データを読む(版元ドットコム)目次