雪花新闻

今晚报:工具变量思维

笔者的两位朋友曾在微信群中“抬杠”,主题是嗜甜品与糖尿病的关系。A君嗜甜品,在最近的体检中发现血糖偏高。B君建议A君以后尽量远离甜品,但被A君“怼”回去——谁说甜品吃多了就会患上糖尿病?糖尿病也许由基因决定,而有糖尿病基因的人喜欢吃甜品。

具体来说,虽然通过经验观察可发现,嗜甜品者容易患上糖尿病,但正如A君所言,这并不意味着前者是因,后者是果。那么,到底该如何为因果关系提供有说服力的证据呢?此时,工具变量思维提供了解决问题的一种思路,接下来我们进行举例说明。

假设有人发现这样一个事实,开糖果店的人更容易患上糖尿病。那么,这一事实背后的可能逻辑是什么?一种解释是:糖果店主因获取糖果方便而容易吃太多的糖果,进而容易患上糖尿病;另外一种解释是:有糖尿病基因的人喜欢吃糖果,进而倾向于去开糖果店。

哪一种解释更合理?答案应该是第一种解释。毕竟,人们因为喜欢吃糖果而去开糖果店,听起来有点匪夷所思。鉴于此,若“开糖果店的人更容易患上糖尿病”这一经验事实真的存在,则其有力地表明,嗜糖是因,罹患糖尿病风险上升为果。

上述例子表明,当变量A(嗜糖)与B(患糖尿病风险高)具有相关性但孰因孰果难以确定时,我们可以通过引入第三个变量Z(开糖果店)来解决问题。变量Z在统计学中被称为工具变量。变量Z具有一大特性:在理论上,其影响变量A,但与变量B没有任何直接的关系。在经验中,一旦我们观察到变量Z竟然与变量B相关,就可推知,在变量A与B中,前者是因,后者为果。

最后,聪明的研究者利用降雨量作为工具变量,发现儿童过多观看电视确实有可能引发自闭症。其背后的逻辑是,降雨越多的地区,儿童待在室内的时间越长,故可能长时间观看电视。然而,在理论上,降雨量与自闭症应该没有任何直接关系。因此,当研究者观察到在降雨越多的地区,儿童罹患自闭症的风险越高,这就意味着过多观看电视是儿童自闭症的诱因。

相关文章