95%信頼区間とは?やっと理解できた一番わかりやすい説明

統計学の教科書を読んでいて、今までどうも腑に落ちなかったというか、しっくりこなかったことの一つが、「95%信頼区間」です。

区間推定とは真の母数の値θが、ある区間(L,U)に入る確率を1-α以上になるように保証する方法であり、‥

具体的に数値として計算した現実の信頼区間に対して、”1-αの確率でθを含む”ということはない

統計学入門 東京大学教養学部統計学教室編 1991年 東京大学出版会 225ページ

教科書を読んでいて、さっき言ったことと逆のこと言ってない??みたいな説明に惑わされている人は自分以外にもたくさんいるのではないでしょうか・

95%信頼区間とは、何か知りたい値(真の値と呼びましょう)があったとします。血圧の値でもいいし、ある遺伝子の発現量でもいいでしょう。それを知るために「観察」あるいは「観測」をして値を得ます(観測値と呼びましょう)。観測値には誤差がつきものなので、観測は複数回行ってその平均値を求めておくことが多いです。そして、統計学的な計算によって、95%信頼区間を求めます。95%信頼区間は、

(8.3 ~ 11.5)

などとなるわけです(数字はテキトーです)。今問題にしたいのはこの解釈です。

統計学の教科書やネット解説記事で良く見かける注意として、「真の値は95%の確率でこの区間内にある」と解釈するのは間違いですというものがあります。

そうではなく、「真の値が含まれる範囲がこの区間である確率が95%」と解釈するのが正しいのです。

  • 「真の値は95%の確率でこの区間内にある」
  • 「真の値が含まれる範囲がこの区間である確率が95%」

この2つの解釈は日本語の字面だけを見ていると、何が違うの?日本語の意味同じだよね?と思って、いつも混乱させられてきました。今日は、この問題に決着をつけたいと思います。

真の値は未知なのですが、あるきまった値です。信頼区間が(8.3 ~ 11.5) だからといって、真の値(もしくは母平均)が9だったり、10だったり11だったり(観察するたびごとに)変化する可能性はないのです。未知なだけで、もしそれが10なら10です。真の値というものは、観察を繰り返しても絶対に変化しない値です。

因果関係で言えば、真の値は「原因」であり、観測値(信頼区間)は「結果」です。「原因」は最初から決まっているので、原因が変動するという解釈は許されないのです。

それに対して、95%信頼区間は観察ごとに(観測値ごとに)変わり得るものです。観測値は毎回異なるものですし、その観測値に基づいて信頼区間を算出するのですから、信頼区間が毎回観察ごとに変わるのは当たり前です。ただし研究者は通常、観察は一回(測定は複数しても、それら全体を一つの観察と考えた場合)しかしませんので、現実的には、信頼区間は一つしか求めません。信頼区間が多数ありえるというのは、あくまで、観察を仮に何回も繰り返したらという仮定の話です。信頼区間を正しく解釈するためには、この仮定が重要なのです。

ある観察では信頼区間が(8.3 ~ 11.5)と計算されたとしても、もう一度観察をすると観測値が少し変わるでしょうから、得られる平均値も変わり、信頼区間は今度は (7.9 ~ 10.3) と計算されるかもしれません。観察を何回も繰り返すと、真の値はホントウは10なのにも関わらず、95%信頼区間として(6.1 ~ 8.9) などという結果を得るかもしれません。つまり95%信頼区間はあくまで95%信頼できる区間であって、100回観察して信頼区間が100通り得られた場合に、95回くらいは正しいが、残り5回くらいの結果は間違っている可能性があるというわけなのです。(6.1 ~ 8.9) を得てしまった場合は、その間違いの5%のくじを引いてしまったようなものです。

真の値=10.000だったとして、ある観察により95%信頼区間が(6.1 ~ 0.8) だと結論したとします。観測値は毎回ブレるので、このように真の値が実は観測値に基づいて算出した信頼区間に入っていない!なんてことも起こりえるのです。このケースの場合、真の値がこの区間(つまり、6.1から0.8の間)にある確率が95%という解釈が間違いだということを納得して頂けるのではないでしょうか。[6.1 ~ 0.8]という区間はたまたま得られた観測値に基づいた値に過ぎず、その区間自体に大した意味はないので、その区間を基準に真の値がどこにあるかを議論することは意味をなしません。

「真の値が含まれる範囲がこの区間である確率が95%」ということだけのことで、実際は5%の確率で間違っちゃうのですから、ある観察により(ホントウは真の値=10.000であるのにも関わらず)、 (6.1 ~ 0.8)という95%信頼区間を得たとしても、なんら不思議ではないのです。

真の値は未知ではあるがどこかある値で固定されたものなのに対して、95%信頼区間は、観察ごとに得られる数値であって、観察するたびに(観測値ごとに)毎回変わるということが、理解のために必須の大事なポイントですね。

じゃあ、ある観察に基づいて95%信頼区間が与えられました。その区間内に真の値が存在する確率は?と聞かれたら95%という答えになりそうです。さっきと何も違わないじゃないか?ということで、堂々巡りです。

本質的な違いは一体何なのでしょうか???

真の値は、ある区間がひとつ与えられたときにその区間に沿って(もしくはその区間の内外を)動くわけではない、動きながらこの辺である確率はこうみたいなことにはならないというのが論点なのでしょう。(観察のたびに)動くのは区間の方なのです。

結局何が間違いなのかというと、区間が与えられてそれが固定した状態で「真の値」が動く、つまり確率的にいろいろな値を取ると考えたり解釈するとしたらそれは間違いですよということだと思います。

これで決着がついたのかというと、そうでもありません。決着をつける準備が整ったのです。既に定まっていることの確率を考えるのはおかしいというのが、ここまでの議論でした。ところが、世の中にはベイズの定理というものに基づいた「事後確率」という概念が存在します。複数の原因があったときに、今得られた結果から、原因が何だったのかを推定しましょうというものです。ベイズの考え方では、既に起きてしまっていること(原因)をあたかも確率変数のように捉えて、事後で得られた情報をもとに原因を推定することをよしとしています。これこそまさに、95%信頼区間の「誤まった解釈」そのものでしょう。真の値はすでに決まっているとはいえ、現実問題としてその値を知らないわけだから、それを確率変数(すなわちいろいろな値を取りえるもの)とて考えて何が悪い!というわけですね。

伝統的頻度論での真値は点であり、信頼区間は「範囲内に真の値を含む確率」として理解されるが、ベイズ統計学では真値は確率分布し信用区間は「真の値が存在する確率範囲」として理解される。 頻度主義統計学でしばしば間違いであると指摘される、「□□の値が a から b の間に入る確率は○%である」との言い方は、ベイズ統計学においては正しい。(信用区間 ウィキペディア)

  1. 信頼区間を正しく理解してますか?確信区間との違いって何ですか? 2017年08月13日 @katsu1110 Qiita
  2. ベイズ信用区間(Credible Interval)とは何ですか? 2020.04.28/2020.05.08 猫薬プロジェクト3rd〜ある薬剤師の備忘録〜

さきほどこの記事の上のほうで、

因果関係で言えば、真の値は「原因」であり、観測値(信頼区間)は「結果」です。「原因」は最初から決まっているので、原因が変動するという解釈は許されないのです。

と書きましたが、ベイズ流の考えかたでは、まさにこの「原因」が確率的に決まると考えるわけですね。だからこそ、ベイズ流の考え方は異端としてなかなか受け入れられなかったのです。当然、従来の統計学の考え方に則れば、受け入れられません。

現在、IT やリスクマネジメント、経済学、意志決定理論の各分野で非常に 重要な役割を果たしているベイズ統計。しかし、その250 年あまりの歴史の ほとんどにおいて、統計学界では異端視され、冷遇されてきた。 それはなぜなのか? またそれにもかかわらず、死に絶えることなく生き残り、 現在、広く利用されているのはなぜなのか? 今まで語られることのなかったベイズ統計の数奇な遍歴。

異端の統計学 ベイズ 単行本 – 2013/10/23 シャロン・バーチュ マグレイン (著), Sharon Bertsch McGrayne 書籍紹介ページより

結局、ベイズ的な立場でものを話すか、そうでないかで変わるということのようです。基本的に多くの研究論文で使われる統計学(とくに臨床系の論文)は、ベイズ統計の考えではなく従来の統計学の考え方でデータ処理をしているのが普通だと思います。なので、真の値を確率変数と考えるという考え方は、間違いと言わざるを得ないんでしょう。立場が違うと、正しいか間違いかの議論すらできなくなるのですね。95%信頼区間の解釈をなぜ多くの人が”間違う”のかというと、普通の人にはベイズ的な考えかたが意識せずとも普通に受け入れられているからなのだと思います。

もうこうなると何が間違いで何が間違いでないのかがわかりにくくなりますが、態度を先に決めないといけないのです。科学的態度は唯一無二だという前提があるから、議論がかみ合わないのでしょう。

 

統計学の教科書にどんな説明があるか見てみます。

区間推定とは真の母数の値θが、ある区間(L,U)に入る確率を1-α(αはθが区間に入らない確率)以上になるように保証する方法であり、

P(L≦θ≦U)≥1-α

となる確率変数L,Uを求めるものである。

同一の母集団から抽出した標本でも、標本ごとに信頼区間の推定値は変化する。θは未知ではあるが決まった定数である。したがって、一つの標本から信頼区間を具体的な数値として推定してやれば、これは信頼区間に含まれる含まれないかのいずれかしかない。すなわち、具体的に数値として計算した現実の信頼区間に対して、”1-αの確率でθを含む”ということはない。信頼区間の意味は、繰り返し多くの異なった標本について信頼区間をここで述べた方法によって何回も計算した場合、θを区間内に含むものの割合が1-αとなるということである。

(統計学入門 東京大学教養学部統計学教室編 1991年 東京大学出版会 255ページ)

上の説明を読むと自分の解釈ですが、母集団の定数はあるきまった値(例えば平均値)であって、それを確率変数であるかのように捉えて議論してはいけないということなのかなと思います。

母集団の定数が固定された状態で、95%信頼区間の上限と下限が動くのであって、それを逆にして、信頼区間の上限と下限を固定して母集団の定数を確率変数のように捉える考え方は違いますよということでしょう。

こうした区間の設定はX平均をたとえば100回観測し、そのつど上述の区間を作った場合に95回程度は母数μの真の値を覆うという信頼度をもっていることになる。

(統計入門 中村隆英 ほか 1984年 東京大学出版会 195ページ)

コインをN枚投げてx枚が表になった場合、

このxとμ=N/2、σ=√N /2 から、z=x-μ /σ と計算したzが、

不等式-1.96≦z≦+1.96を満たす確率は0.95です。

つまり、xを観測し、そのxからzを計算してNを棄却していく作業をした場合、本当の正しい枚数Nが生き残る確率は、おのおのの観測値xに対して、どれも0.95にとなるわけです。したがってどのような観測値xが出た場合でもこの方法でNを推定していく手続きを繰り返すなら、そのうち95パーセントの推定結果は当たっているというのが正しい解釈なのです。

95パーセントというのは、「区間13≦N≦30に、本当のNとしてありうるものの95パーセントが入る」という見積ではなく、「区間推定という手続きを実行し続けるなら、観測値に対応してさまざまな区間が求まるが、その100回のうち95回は本当のNが求めた区間に入る」そういう見積もりになる、そういうパーセントなのです。

(小島寛之 完全独習 統計学入門 ダイヤモンド社 103ページ)

上の『完全独習 統計学入門』の説明が一番詳細で突っ込んだ表現のように思います。「確率」というと混乱しますが、”Nとしてありうるものの95パーセント”ではないと説明されていますので、これはまさにNは確率変数ではないということでしょう。このことはこの本の前のページ(102ページ)にも説明がありました。

「表の枚数が10枚と観測されたとき、母数Nが95パーセントの確率でこの13≦N≦30の範囲に入っている」という意味ではないのです。

そもそもNは、「不確実にこれから決まるもの」ではなく、「すでに確定しているのだが、知らないもの」なのです。「Nが異なれば母集団は異なる」わけです。

私たちの扱っている不確実現象とは、「固定された母集団からどのデータが観測されるか」というものでした。このとき決まった一定の仕組みで確率的に数値が出るのは、母数Nではなく、あくまで観測される数値のほうなのです。

(小島寛之 完全独習 統計学入門 2006年 ダイヤモンド社 102ページ)

母数Nが95パーセントの確率で13≦N≦30の範囲に入ると解釈することが間違いだといった場合、その意味するところは、母数Nが確率変数でありその(いろいろな値を取り得る確率変数Nのうちの)95パーセントが13≦N≦30の範囲に入っていると解釈するのであればその解釈は間違いだということのようです。

すでに確定しているけど未知のものを確率の対象として考えること自体は、一般的に別に問題ないのだと思います。だからこそ自分は何年も混乱したままだったのでした。問題視されているのは、「区間を決めてから母数の真の値を確率変数として取り扱うこと」およびそういう態度から出てきた発言なのでしょう。

区間推定はある確率(信頼度1-α)をもって、推定を区間で示す方法である。

(基礎医学統計学改訂第6版 2011年 南江堂 83ページ)

上の説明の意味は、「95%の確率でその推定が正しい」ということです。「95%の確率でその区間内に問題としている母数が存在する(つまり、その前提として、母数は区間内外のいろいろな値を取り得る確率変数である。つまり、その確率変数(さまざまな値がありえる)はその区間内に95%存在し、その区間外に5%存在する)」という意味にとってはいけないということが、今ならわかります。母数は、一つしかないので区間内に存在するか、しないかでしかないわけですね。確率的に決まる、さまざまな値を取り得る変数だという扱いをしてはいけないわけです。

結局、混乱を引き起こしていた元凶は日本語の意味するところの曖昧さ、多義性なのだと思います。

「母数が95%の確率で区間内に存在する」という日本語には2つの解釈があり得て、

(1)(母数は一つしか存在しない値だが)そういう推定が正しい確率が95%(母集団をまず決め、観測を行い、推定を行った)

(2)(母数は確率変数であり)区間内で見つかる確率が95%(区間をまず決め、母数を変数であるかのように扱おうとしている)

という解釈の(2)は間違いで(1)は間違いではないということなのでしょう。

また、それ以前の話として、原因となるもの、真の値、母集団の統計値を確率変数のように考えて事後確率を計算する立場に身を置いているか、そうでないかが根本的な違いとして存在していました。

 

95%信頼区間の説明が腑に落ちるまで、一体何年(何十年?)かかったんだろう、自分。。わかりやすい説明(=そう説明してもらえれば自分でも理解できるという説明(『完全独習 統計学入門』))に出会うのに何十年もかかってしまった。もしくは、真剣に考える時間をとろうと決心するのに、それだけの時間がかかってしまっただけなのかもしれません。

区間推定とは真の母数の値θが、ある区間(L,U)に入る確率を1-α以上になるように保証する方法であり、‥

なお、同一の母集団から抽出した標本でも、標本ごとに信頼区間の推定値は変化する。θは未知ではあるが決まった定数である。したがって、一つの標本から信頼区間を具体的な数値として推定してやれば、これは信頼区間に含まれるか含まれないかのいずれかしかない。すなわち、具体的に数値として計算した現実の信頼区間に対して、”1-αの確率でθを含む”ということはない。信頼区間の意味は、繰り返し多くの異なった標本について信頼区間をここで述べた方法によって何回も計算した場合θを区間内に含むものの割合が1-αとなるということである。

統計学入門 東京大学教養学部統計学教室編 1991年 東京大学出版会 225ページ

あらためて統計学の教科書を読み直すと、なんだ、ちゃんと書いてあるじゃんと思えました。

きちんと書かれた教科書(しかしどの教科書がそうかは、勉強中の人間には判断がつかない!)をじっくり読み込み、読み返すことも大事ですが、もっとわかりやすい説明をしてくれる教科書を他で探すのもまた良い戦略です。

参考

95パーセント信頼区間とは、さまざまな観測値から同じ方法で区間推定をすると、そのうちの95パーセントは正しい母数を含んでいる、そういう区間のことである。

小島寛之 『完全独習 統計学』ダイヤモンド社 106ページ

『完全独習 統計学』は、今までの統計のモヤモヤを解消してくれる素晴らしい本だと思いました。下の説明は、自分にはあまりわかりやすくありません。”95%の試験結果が収まる”って何?って思いました。どんな説明が一番わかりやすいと思えるかは、人それぞれです。自分にとってのベストの説明を探すしかありません。もしくは自分で考え抜いて、腑に落ちるところまで妥協しないか。

。「95%信頼区間」は、同じ試験を繰り返したときの結果の範囲のうち、95%の試験結果が収まる範囲のことである(区間推定)。

医療情報をわかりやすく発信するプロジェクト理解しにくい医学研究用語有意差、95%信頼区間