筆者的兩位朋友曾在微信羣中“擡槓”,主題是嗜甜品與糖尿病的關係。A君嗜甜品,在最近的體檢中發現血糖偏高。B君建議A君以後儘量遠離甜品,但被A君“懟”回去——誰說甜品喫多了就會患上糖尿病?糖尿病也許由基因決定,而有糖尿病基因的人喜歡喫甜品。

具體來說,雖然通過經驗觀察可發現,嗜甜品者容易患上糖尿病,但正如A君所言,這並不意味着前者是因,後者是果。那麼,到底該如何爲因果關係提供有說服力的證據呢?此時,工具變量思維提供瞭解決問題的一種思路,接下來我們進行舉例說明。

假設有人發現這樣一個事實,開糖果店的人更容易患上糖尿病。那麼,這一事實背後的可能邏輯是什麼?一種解釋是:糖果店主因獲取糖果方便而容易喫太多的糖果,進而容易患上糖尿病;另外一種解釋是:有糖尿病基因的人喜歡喫糖果,進而傾向於去開糖果店。

哪一種解釋更合理?答案應該是第一種解釋。畢竟,人們因爲喜歡喫糖果而去開糖果店,聽起來有點匪夷所思。鑑於此,若“開糖果店的人更容易患上糖尿病”這一經驗事實真的存在,則其有力地表明,嗜糖是因,罹患糖尿病風險上升爲果。

上述例子表明,當變量A(嗜糖)與B(患糖尿病風險高)具有相關性但孰因孰果難以確定時,我們可以通過引入第三個變量Z(開糖果店)來解決問題。變量Z在統計學中被稱爲工具變量。變量Z具有一大特性:在理論上,其影響變量A,但與變量B沒有任何直接的關係。在經驗中,一旦我們觀察到變量Z竟然與變量B相關,就可推知,在變量A與B中,前者是因,後者爲果。

最後,聰明的研究者利用降雨量作爲工具變量,發現兒童過多觀看電視確實有可能引發自閉症。其背後的邏輯是,降雨越多的地區,兒童待在室內的時間越長,故可能長時間觀看電視。然而,在理論上,降雨量與自閉症應該沒有任何直接關係。因此,當研究者觀察到在降雨越多的地區,兒童罹患自閉症的風險越高,這就意味着過多觀看電視是兒童自閉症的誘因。

相關文章