从相关到因果,中间隔着十万八千里,之间存在质的区别。google一下”correlation does not imply causation”,我们可以看到太多的类似的陈述。但是在学术论文的发表中,如果能够得到’因果’的研究结果无疑是向前迈进了一大步,这是人类科学研究的一大进步(至少相对于’相关’),同时也更容易被高分杂志接收。当然,’因果’相对于’相关’总是来之不易的。在’相关’和’因果’之外,存在另一个关键词’预测’。学术报告中经常出现’prediction’或’A predicts B’,给人的感觉比’相关’确实向前走了一步。无疑地,如果我们得到了A与B相关,我们可以说A可以预测B,因为B和A存在一定的共变。文章中correlation和prediction之间存在什么差异呢?下面谈一下个人对’相关’和’预测’的关系。

还是以常用的pearson correlation为例。

差异一:correlation假设A和B线性关系,但是prediction可以是任意关系,只要能够达到一定的预测效果(当然要保证模型的外推性)。从这一点上看,prediction可能更好的描述二者之间的关系,但是存在很难解释的问题,战平。

差异二:如果A和B得到相关,同时B又是一种很难测量得到的数据(比如,测量B具有很大的破坏力或者需要太严格的实验条件),这时候我觉得可以把correlation用prediction来代替。比如,你要知道罪犯是不是在撒谎的时候,这时候我们有测谎仪。通过前期严格控制得到的数据建立测谎模型,用于撒谎的预测。或者结构连接预测face任务下FFA的激活强度。Prediction胜!

差异三:A和B的获取存在时序上的前后。这种情况属于在测的A时,B无法直接测量的情况。比如前一段的一篇JN上的文章,用某任务下某脑区激活强度预测半年后被试的体重(其实这篇文章很狗血啦,具体可以细看文章)。Prediction胜!

综上,在不加入理论假设的情况下,如果某变量很难准确的测量或者两变量存在时序上的先后,我们可以用prediction代替correlation。 当然如果有理论假设,就另当别论了。

个人觉得prediction虽然离causality还是存在千壤之别,但是相对于correlation确实更近了一步。