时下,关于心理学研究的Replication的问题讨论得正是火热,也引发了众多‘方舟子’们打假的热情。

目前讨论主要集中在,心理学研究的可重复性有多大、打假必要性以及科学是否可以自修正等方面。当然,也有研究者已经开始着手重复别人的研究,看是否可以重复。突然想起网上传的一句貌似很能支持Replication大潮的一句话,即Replication is the best statistics。这句话看上很有道理,俨然成为推崇Replication一波人的信条,也不怪乎广泛流传。

但是,从关于Replication讨论的开始,到现在,争论不断升温,但是一个基本的,但最关键的问题并没有引起参与争论的研究者的注意,也就是到底什么是Replication,即怎样才算重复出了前人的研究结果。具体到Replication is the best statistics这句话,试问statistics存在的意义是什么?什么又叫Replication?我认为,statistics的存在,是为了说明采用非总体samples的研究的可外推性,可以理解为在新的samples中的可重复性,即Replication。即采用statistics,才产生了所谓Replication(除非每个研究都把全人类测一遍,这时候我们也许就不需要statistics)。如此一句‘鸡生蛋,蛋生鸡’的一句话,成了推崇Replication一大波人的信条,实在令人诧异。

那到底该如何界定replication呢?

方案一,已有研究发现两个变量的相关是r1,那么后继者采用完全相同的方式(测试、被试量等完全一致)得到相同的r1,即重复?

方案二,已有研究发现两个变量的相关是r1,那么后继者采用完全相同的方式(测试、被试量等完全一致)得到相同的或者大于r1,即重复?

方案三,已有研究发现两个变量的相关是r1,那么后继者采用完全相同的方式(测试、被试量等完全一致)得到和r1相近(?)的r2,即重复?

从做物理或化学研究的角度,方案一是最恰当的replication。但是,以人为研究对象的心理学很难达到这个标准。比较方案二和方案三,似乎三更合适一些,但是存在一个问题是如何界定‘相近’。最简单的情况是两端的情况,即effect size数值上特别近就算重复,或者特别远就算不能重复。但是问题是我们需要找一个界限或者界限区间,位于界限或界限区间两边的可以明确为重复或不能重复。或者比较r1和r2是否有显著差异,如果没有就认为是r2重复了r1的结果。这应该是一个较为合适的replication的定义。

其实,在重复试验时,根据假设检验的理论,我们的null假设是应该改变的,即我们这时候能证明的是已有研究的结果是否可以被否定,而无法证明已有研究结果的正确性。一个初步的想法就是,研究每个研究报告结果的95%置信区间,如果在后继者的完全一致的重复研究中得到的effect size落在了这个区间外,则说明已有的研究结果是假的,要上黑名单。但是如果effect size落在了95%置信区间内,也就不能否定已有研究的可重复性。这个想法在某些情况下应该是可以行得通的,但是也会有一些看上去不太合理的地方,比如某研究发现一个显著的相关,r=0.12,95%CI[0.03, 0.20],如果在后继者的重复研究中发现r’=0.035,从上面的逻辑看,这应该是不能否认已有研究结果的可重复性的,但是r’确实可能是一个不显著的相关。那么,这时,后继者的重复研究到底算不算重复了已有研究的结果呢?