P値

「統計的有意」には弊害があるとして800人以上の科学者が反対を表明(Gigazine) 

有意差検定では実験の計測結果から「P値」と呼ばれる確率変数を計算します。例えば、実験結果が起こりえる確率が95%以上である場合は、P値は0.05以下になります。慣例的に科学者は「P値が0.05以下、つまりこの事象が起こりえる確率は95%以上ならば、この実験結果は偶然ではない」と判断し、「有意である」としていました。当初、「有意であるかどうか」は「この実験結果は95%以上の確率で起こりえる」ということを示しているだけのはずでしたが、次第に「有意かどうか」が研究結果の結論を左右するようになり、「研究が発表されるかどうか」や「実験が助成金を受けられるかどうか」などまで支配するようになっているとのこと。

 この記事のP値の説明が酷いと、何人かの方が指摘しています。P値の正しい説明は、例えば、コインに偏りがあるという仮説が正しいか判断したいときに、仮説と逆にコインには偏りがないという仮定の下で、実験結果が起こりうる確率を計算したものです。このP値が非常に小さいならば、偶然に起こりうる可能性は小さいとして仮説を棄却します。

 これに対して、記事の説明は、特に仮定なしで、つまり、現実のコインで実験結果が起こりうる確率というものを考えています。しかし、現実のコインに偏りがないのか、有るのか、有るとしたらどの程度の偏りなのか、全く分からないのですから、計算しようがありません。ある偏りを仮定すれば計算できますが、面倒臭いし、どの程度の偏りにするか決める手立てはありません。結局、偏りがないという仮定(帰無仮説)のもとで実験結果が起こりうる確率を計算して、それを棄却するという回りくどいやり方が実用的というわけです。

 今では、私もその事情が分かったつもりになっていますが、初めて検定について勉強した時、何故こんな回りくどいやり方をするのか理解できませんでした。また、帰無仮説が棄却できない場合も、積極的に帰無仮説が成立するという意味ではないと解説してあるのですが、その意味もわかったようなわからないようなあやふやでした。

 もう一点、分かりにくいのは、検定とは、実験結果から、コインの状態を推測する事後確率の問題であるはずなのに、そういう計算をしていないことです。具体的にいうと、本来は、コインを投げたとき2回とも表が出た場合に偏りのないコインである事後確率を知りたいのに、実際に行っているのは、偏りのないコインを2回投げた時に2回とも表が出る確率を計算しています。それは、事後確率の計算は、現実的には大変だからでしょう。とはいえ、極めて単純な現実を設定すれば計算可能で、試しに計算してみると、帰無仮説が棄却できない場合も、積極的に帰無仮説を支持するわけではないことも実感できます。

【極めて単純な現実】
コインには、表と裏の出る確率が同じ1/2の偏りがないものと、表が1/3で裏が2/3のものと、表が2/3で裏が1/3の3種類が同数あるとする。

【実験結果】
1枚のコインを抜き出して2回投げたら、2回とも表が出た。

帰無仮説の検定】
抜き出したコインが偏りのないものである(帰無仮説)ならば、2回とも表が出る確率は、1/2×1/2=1/4。
検定の危険率を5%とすれば、1/4はそれより大きいので、帰無仮説は棄却されない。

【実験結果より事後確率の計算】
偏りのないコインである事前確率は1/3であり、2回とも表が出た場合の事後確率は、ベイズの定理を使えば機械的に計算できるが、ここでは、直観的にわかり安くするため、しらみつぶしに場合分けして計算する。(下図参照)

 結果は、9/29となり、1/4とは違います。また、前述の通り、帰無仮説は棄却されませんでしたが、だからと言って、積極的に偏りがないと主張できるわけではないのは、表が出やすいコインである事後確率の方が大きいことからよく分ります。更に、帰無仮説が棄却された場合も、どの程度の偏りのコインであるかはわかりません。全く偏りのないコインは現実には存在しませんし、そのような僅かな偏りも多数の実験を行えば検出できますからね。

f:id:shinzor:20190325113457j:plain