最近通过博客查看了有关相关性和因果性的争论。严格地说,也不能叫旁观者,甚至叫了雪电报——都没有结果,但事实上,在这个问题上再也没有人发言了。
丹尼尔·卡尼曼是2002年诺贝尔经济学奖得主,或许大家看过或听说过他那本畅销书《思考,快与慢》。
卡斯·桑斯坦是著名法学家,在奥巴马时期曾担任白宫信息与监管事务办公室主任。
前几个月,卡尼曼和桑斯坦等人合著的新书出版。其中在介绍相关性和因果性的时候,提及虽然相关性并不意味着因果关系,但 "只要有因果关系,就有相关性"。换句话说,如果X导致Y,那么X和Y一定是相关的。
结果有位统计学学家撰文指出,这是一个错误。
虽然,统计学是常识的系统化,但这个例子表明,统计分析需要我们深入思考,才能理解其内涵。
如果系统中除了X和Y之外没有其他因素,那么这句话就是真的。但在任何现实世界的系统中,都有两个以上的相关因子。
比如说刚刚过去的夏天,人们应该期望室温(Y)与外界环境温度(X)呈正相关:当外界升温时,室内温度上升。
但,当我们为系统中引入空调(C)的时候,情况就不一样了。空调将室温(Y)固定。换句话说,C的作用是使Y保持在23-26℃之间,不管外面的温度(X)如何。
空调破坏了X和Y之间的相关性。如果我们只收集外部和内部温度的数据,我们不会看到相关性! 尽管外部温度明显以线性方式影响室温,但数据呈现的是不相关的。
上面大致就是统计学家从统计学定义出发,提出的反对意见。大家觉得有道理吗?
由相关性得不到因果性,但因果性一定蕴含相关性吗?