確率は誤解しやすい

 「確率ではなく自然頻度で説明すれば,ベイズの定理も理解しやすい。」
 これは,前の記事で触れた「数字に弱いあなたの驚くほど危険な生活」(ゲルト・ギーゲンレンツァー)で述べられていることです。統計でウソをつくこと同様,確率表現による誤解が命に関わることもあり,自然頻度で表現すれば誤解も少なくなり,身も守れるという主張です。

 具体的事例をいくつか引用してみます。その後,なぜ確率表現は誤解しやすいか考えてみました。

◆最初の乳房X線検査

(確率表現)

 40才の女性の乳がんにかかる確率は1%である。また乳がん患者が,乳房X線検査で陽性になる確率は90%である。乳がんではなかったとして,それでも検査結果が陽性になる確率は9%である。さて,検査結果が陽性と出た女性が実際に乳がんである確率はどれくらいか?

(自然頻度表現)

 100人の女性を考えよう。このうち一人は乳がんで,たぶん検査結果は陽性である。乳がんではない残りの99人のうち,9人はやはり検査結果が陽性になる。したがって,全部で10人が陽性である。陽性になった女性たちのうち,ほんとうに乳がんなのは何人だろう?

(危険性)
偽陽性の可能性を過小評価し,乳がんではないのに乳房切除処置などの危険。


エイズ・カウンセリング

(確率表現) 

とくにリスクの高い行動をとっていない男性の約0.01%がHIVに感染している(有病率)。このグループの男性がウィルスに感染していれば,検査結果が陽性になる確率(感度)は99.99%。感染していなければ,検査結果が陰性になる確率(特異度)は99.9%。
 それでは,結果が陽性だった場合にウィルスに感染している確率はどれくらいか。

(自然頻度表現)

とくにリスクの高い行動をとっていない男性が1万人いると想像する。このうち1名は感染していて(有病率),ほぼ確実に検査結果が陽性になる。残りの9999人のうち,一人が陽性と出るだろう(偽陽性の率)。そこで,あわせて二人に一人に陽性という結果が出る。

(危険性)陽性結果に絶望して自殺。予防しても遅いと考え,自暴自棄の性交渉で感染

◆妻への暴力

(確率表現)

 家庭内虐待を受けている女性の2500人に一人が虐待者によって殺される。虐待を受けている女性が殺されたとしても、犯人が虐待者である可能性は0.04%である。(O.J.シンプソン事件)

(自然頻度表現)

 (頻度で考えるには,情報が不足しているので,補うと,)家庭内虐待を受けている女性が虐待者以外に殺されている人数は,毎年10万人に5人である。
 虐待された女性10万人を考えよう。1年に40人が虐待者によって殺され,他に5人がそれ以外の誰かによって殺される。したがって,虐待の被害者45人のうち40人が虐待者によって殺されていることになる。虐待者以外の誰かに殺された女性はわずかに9人に一人なのだ。・・・虐待者が殺人者である率は9件に8件,約90%になる。

(危険性)
犯人を釈放。

◆訴追者の誤謬

(確率表現)

「被告がこれらの6つの特徴と(偶然に)一致する確率は1200万分の1です」
(被告が犯人ではない確率は1200万分の1である。)

(自然頻度表現)

「1200万組のカップルのうち1組は,この6つの特徴に一致します」
カリフォルニアには約2400万組のカップルがあるから,6つの特徴に一致するカップルは二組だということが,すぐに理解できる。すると,コリンズ夫妻が無罪である確率は二分の一であって,1200万分の一ではない。

(危険性)
冤罪。


 いずれも,考えるべき確率がわからなくなったり、間違えています。

 陽性になった女性のうち乳がんの割合と、乳がん患者のうち陽性になる女性の割合の混乱。

 殺された女性のうち,何人が虐待者によって殺されたかと、虐待された女性のうち何人が殺されるかの混乱。

 証拠に一致する者のうち,犯人(普通一人)が何人かと、証拠に偶然一致する確率の混乱。

 確率で考えると,「○○のうち」というところが抜け落ちてしまうようです。その結果,見当違いの確率を使っても間違いに気づかなかったり,どの確率を使えばよいか分からなくなるのじゃないでしょうかね。その点,自然頻度だと「○○のうち」を考えざるを得ません。

 確率とは,ある事象の頻度のすべての事象の頻度に対する割合です。2つの数の割り算で,その分母つまり,何に対する割合であるかが決定的に重要です。ところが、割り算をしてしまうと,1つの数になってしまい,分母が何であったかを忘れてしまうのかもしれません。

 ベイズの定理は次の式で表されます。

P(病気/陽性)=[P(病気)P(陽性/病気)]/[P(病気)P(陽性/病気)+P(病気でない)P(陽性/病気でない)]

 これだと,即座に意味を理解するのは困難です。しかし,陽性者のうち病気である者の割合なら,

P(病気/陽性)=陽性者のうち病気の者/[陽性者のうち病気の者+陽性者のうち病気でない者]

 だと簡単に分かります。最初の式の分母,分子に全人数を乗じれば2番目の式になるだけなのですが。

 なぜ、こういう混乱が起こるかについては、人間の脳の傾向の問題なので、はっきりしたことは言えませんが、確率を判断する状況は、一回だけの出来事について予想することがほとんどだからかもしれません。天気予報を見るのは、明日の天気という一回の出来事を予想するためですし、手術の成功確率を知りたいのは、自分が受ける一回の手術が成功するかどうか気になるからです。

そのような場合,多数回行うことを想定する自然頻度表現に違和感を感じるのではないでしょうか。
この違和感を解消するために「傾向性解釈」という哲学的解釈がありますが,これに付いては大いに疑問があり,別に述べます。

 それはともかく,陽性になった女性10人を考えようと言われても,考えにくいのかもしれません。気になるのは自分のことなのですから。そう言う状況で,乳がん患者の90%が陽性になるといわれると,90%という数字だけに注意が向けられ,「乳がん患者のうち・・・」という条件は意識されにくいのでしょう。

 さらに,アンカリング効果で,最初に示された90%という数字に引きずられることが相まって,考えるべき確率を間違ってしまうのではと。