关于Replication的一点思考

时下，关于心理学研究的Replication的问题讨论得正是火热，也引发了众多‘方舟子’们打假的热情。

目前讨论主要集中在，心理学研究的可重复性有多大、打假必要性以及科学是否可以自修正等方面。当然，也有研究者已经开始着手重复别人的研究，看是否可以重复。突然想起网上传的一句貌似很能支持Replication大潮的一句话，即Replication is the best statistics。这句话看上很有道理，俨然成为推崇Replication一波人的信条，也不怪乎广泛流传。

但是，从关于Replication讨论的开始，到现在，争论不断升温，但是一个基本的，但最关键的问题并没有引起参与争论的研究者的注意，也就是到底什么是Replication，即怎样才算重复出了前人的研究结果。具体到Replication is the best statistics这句话，试问statistics存在的意义是什么？什么又叫Replication？我认为，statistics的存在，是为了说明采用非总体samples的研究的可外推性，可以理解为在新的samples中的可重复性，即Replication。即采用statistics，才产生了所谓Replication（除非每个研究都把全人类测一遍，这时候我们也许就不需要statistics）。如此一句‘鸡生蛋，蛋生鸡’的一句话，成了推崇Replication一大波人的信条，实在令人诧异。

那到底该如何界定replication呢？

方案一，已有研究发现两个变量的相关是r1，那么后继者采用完全相同的方式（测试、被试量等完全一致）得到相同的r1，即重复？

方案二，已有研究发现两个变量的相关是r1，那么后继者采用完全相同的方式（测试、被试量等完全一致）得到相同的或者大于r1，即重复？

方案三，已有研究发现两个变量的相关是r1，那么后继者采用完全相同的方式（测试、被试量等完全一致）得到和r1相近（？）的r2，即重复？

从做物理或化学研究的角度，方案一是最恰当的replication。但是，以人为研究对象的心理学很难达到这个标准。比较方案二和方案三，似乎三更合适一些，但是存在一个问题是如何界定‘相近’。最简单的情况是两端的情况，即effect size数值上特别近就算重复，或者特别远就算不能重复。但是问题是我们需要找一个界限或者界限区间，位于界限或界限区间两边的可以明确为重复或不能重复。或者比较r1和r2是否有显著差异，如果没有就认为是r2重复了r1的结果。这应该是一个较为合适的replication的定义。

其实，在重复试验时，根据假设检验的理论，我们的null假设是应该改变的，即我们这时候能证明的是已有研究的结果是否可以被否定，而无法证明已有研究结果的正确性。一个初步的想法就是，研究每个研究报告结果的95%置信区间，如果在后继者的完全一致的重复研究中得到的effect size落在了这个区间外，则说明已有的研究结果是假的，要上黑名单。但是如果effect size落在了95%置信区间内，也就不能否定已有研究的可重复性。这个想法在某些情况下应该是可以行得通的，但是也会有一些看上去不太合理的地方，比如某研究发现一个显著的相关，r=0.12，95%CI[0.03， 0.20]，如果在后继者的重复研究中发现r’=0.035，从上面的逻辑看，这应该是不能否认已有研究结果的可重复性的，但是r’确实可能是一个不显著的相关。那么，这时，后继者的重复研究到底算不算重复了已有研究的结果呢？