可重复性问题再议：p-hacking、效应量、样本量

Kong, X., Francks, C., & ENIGMA Laterality Working Group. (2020). Reproducibility in the absence of selective reporting: An illustration from large‐scale brain asymmetry research. Human Brain Mapping. Advance online publication.

关键词：多中心合作 p-hacking 出版偏见 可重复性问题 团队科学

近年来，研究结果的可重复性问题在多个领域引起了大量的关注，其中便包括医学、心理学和神经科学。这一问题在一定程度上被归咎于长期存在的出版偏见和像p-hacking这种的有问题的研究习惯。研究者也开始大声疾呼要做可重复的研究，包括提高数据采集的透明度、倡导共享数据、开发和采用标准化的数据分析流程等。研究的统计力也被认为是一个重要的因素，但是，在最近发表在Nature杂志上的一项调查显示，统计力在导致研究结果不可重复的因素中仅排在第三，位于“选择性报告”和“发表压力”之后。

本研究旨在考察在理想发表环境下研究结果的可重复性。这里“理想出版环境”，即可以完全避免潜在的选择性报告问题和p-hacking等问题。在最近的一项研究中，我们收集了来自世界各地99个数据集的超过1万7千名被试的脑结构影像数据，并基于此刻画了局部脑区皮层厚度和面积的左右半球偏侧化。本研究从可重复性的视角重新回顾了这一数据。具体而言，针对每个数据集，如果得到的效应和元分析得到的结果方向和显著性一致，我们便认为在该数据集中可以得到可被重复的结果。因此，我们把每个数据集得到的结果看做是在一个理想出版环境下发表的研究。我们发现，基于现在通行的数据采集手段和样本量，即便在完全可以避免选择性报告和p-hacking时，单个研究得到的结果的可重复率仅有63.2%（最低22.2%，最高97.0%）。有意思的是，这个可重复率的范围涵盖了近年来发表的心理学研究的可重复情况。比如，在2015年发表在Science杂志上的一项研究重复了100项心理学研究，发现仅36%得到重复；2018年Many Lab项目重复了28项经典的心理学研究，得到了54%的重复率。而由此引发的大量讨论都将矛头指向出版偏见和选择性报告和p-hacking等潜在的有问题行为。我们这里的数据并非争论这些因素在可重复性问题中的可能贡献，但是有趣的是，我们发现即便在完全可以避免这些因素时，研究的可重复性也仅有63.2%，最低只有22.2%。值得注意的是，这里关注的效应量在0和1.8之间，基本涵盖了心理学研究感兴趣的效应量，不过这些效应量的分布可能不能完全代表所有文献。此外，和预期一致，我们发现数据集越大和效应量越大时，结果的可重复性越高。因此，为了避免不可重复问题，在未来的研究中更大的样本量是必需的。

研究结果的可重复性是积累科学知识的关键。本研究在保持当前研究习惯（数据样本量、异质性和感兴趣的效应量）的前提下，呈现了一个理想出版环境中的可重复性问题。结果显示基于当前的研究习惯，仍然存在很大的空间来提高研究结果的可重复性，同时，数据集的样本量和感兴趣的效应量仍然是可重复性问题的重要因素。研究者可以通过增加单个数据集的样本量或与其他研究者合作来提高统计力，从而得到更好的可重复性。这些结果提示我们，一方面，在未来的研究中，我们需要更多的样本和更稳定的测量手段来提高可重复性；另一方面，在讨论研究结果的可重复性时，我们需要更深入的考虑样本群体、测量方法等数据采集和分析中的差异性。