0.05是一个神奇的数字,它可以让你high,也会让你很焦虑。

p value

另外附一则见闻

p=0.05意味着接受实验假设犯错误的可能性为5%,但是要注意的是,0.05并没有什么特别的地方,只是研究者们默许的可接受概率。这里随便提一句另一个‘概念’,边缘显著(marginal significant),很多文献中将0.07的p值接受为边缘显著,一般0.05-0.10之间的p可以称为边缘显著。

回过头继续说0.05这个神奇的数字。由于是研究者默许的边界,这样研究结果如果不能低于0.05往往不会被reviewer承认,很难被杂志接收;同时比0.05稍大一些的p(比如p=0.06)看上去通常使一般研究者纠结良久。碰到稍大于0.05这个水平的情况,研究者或者reviewer总会很自然地想到一些处理方式,目的只是为了能使自己的p<0.05。通常采用手段比如:

  1. 加被试。

首先要说加样本,从以方便讲是可行的,因为样本的增加一定程度上增加了统计的检验力;同时加被试也可能使得p达到小于0.05的水平的目的。

  1. 删outlier。

同样地,首先outlier对于研究结果可能有误导作用,需要研究者认真筛选,这是对科学研究负责的做法;同样地,看到结果后,研究确实也可以根据结果剔除‘outlier’,已满足0.05的标准。

如果确实有研究者采用这样的trick来满足0.05的标准,虽然不能说经过这些操作的研究都是不可信的,但是0.05这个默许的界限确实一定程度上使报告结果产生了bias。最近一篇Quarterly journal of experimental psychology上的文章给我们呈现了下面一个统计结果:

p value2

文章统计了3个顶尖实验心理学杂志上出现的p值,实际的分布图用圆圈呈现在图中,实线是理论的预期曲线。红箭头标识了稍低于0.05的p的数量有突变。这一突变似乎证实了上面的猜想,确实有近一半的研究采用了一些trick使得自己的研究达到0.05的显著要求。

这个研究确实用数据说明了0.05带来的bias,但是然后呢?好像就没有然后了。个人觉得有一点启示,也是针对reviewer等权威研究者的,‘我们放弃0.05的标准吧!’,但是这个就像让研究者共享实验数据一样,何其难啊!