AI也有偏見，我們該如何信任它們？

摘要：XAI認爲，通過解釋AI系統的決策過程，人類能夠更好地理解它的機制、優缺點、潛在影響等特性，從而更有效地預測系統的行爲，達到逐步建立信任關係的效果。關於黑箱AI系統，什麼樣的解釋纔是好的解釋。

本文來自微信公衆號：神經現實（ID：neureality），作者：amecolli，題圖來自：《銀翼殺手2049》

1970年，愛德華·肖特利夫（Edward H. Shortliffe）在斯坦福大學的實驗室裏開始着手編寫一個Lisp程序。這個名爲MYCIN的系統通過一系列的是非問題，幫助醫生判斷病人是否患有遺傳性血液疾病，並根據病人體重建議抗生素用量。作爲歷史上最早的專家系統之一，MYCIN的正確率僅爲65%，相較血液科醫師80%的正確率相去甚遠，而且由於程序過於龐大，最終也沒有投入使用。

2019年，150名受試者來到UCLA的VCLA中心，觀看Baxter機器人打開附有安全鎖的藥瓶。隨後，Baxter向其中一些受試者解釋了自己是如何打開藥瓶的，剩下的人沒有得到任何解釋。最後，實驗者向所有人提問：你在多大程度上相信這個機器人會開藥瓶？

在過去的半個世紀裏，機器的計算與儲存能力突飛猛進，我們可以輕鬆地在計算機上運行像MYCIN一樣相對簡單的系統，甚至可以訓練深度神經網絡、支持向量機（Support Vector Machine）等更加複雜的模型達到接近專業醫生的診斷水平，或是讓機器人完成相對複雜的精細動作。

但是，AI系統的性能提升也帶來了新的問題：如果這些系統進入我們的生活，你會信任它們作出的決定嗎？

爲何要解釋AI？

AI如日中天，我們爲什麼要停下來思考怎麼解釋它？

2016年5月，ProPublica發佈了一篇名爲《機器偏見》的調查報告，聚焦一個名爲COMPAS的AI系統。COMPAS被廣泛應用於美國司法量刑。它基於已有的犯罪記錄，嘗試預測被告被再次逮捕的概率，得出一個1到10分之間的分數——分數越高，它建議的量刑越重，以期更有效地懲治潛在的再犯。

ProPublica分析了18000多人的COMPAS分數和犯罪記錄，發現黑人與白人的分數分佈明顯不同——在犯罪歷史、再逮捕記錄、年齡、性別都相同的條件下，黑人被告得到更高COMPAS分數的概率高於白人被告45%。

另外，有48%在兩年內被再次逮捕的白人被告的COMPAS分數被低估，幾乎是黑人被告的兩倍。因爲數據來自具有結構性不公的環境（既有司法系統傾向於區別對待不同人種），COMPAS的（草率）決定也受此影響。

然而，由於COMPAS是一個黑箱系統，法官只能看到分數，對內部的決策機制一無所知，導致他們無法有效評估系統的建議。另一篇調查報告更是指出，COMPAS的準確率相當於幾乎沒有刑事司法專業知識的人。

無獨有偶，2015年，有用戶發現谷歌的圖像識別系統將自己的黑人朋友標記爲“大猩猩”，在推特上引起軒然大波。直到2018年，谷歌仍然沒有完全修復這一漏洞，只是將靈長類的標籤從系統中移除，並稱“圖像識別技術還不成熟”。

同樣是2015年，紐約西奈山醫院用70萬病人的數據訓練了一個名爲“深度病人”的深度神經網絡，用以輔助醫療診斷。“深度病人”對精神分裂症的預測出乎意料地準確，但沒有醫生知道爲什麼，自然也無法應用於自己的臨牀診斷；當它被用於分析醫院以外的X光片時，系統正確率莫名出現了大幅下降。

“數據不會說謊。”但這絕不意味着我們不需要仔細審視它們，或是給予基於數據之上的AI系統無條件的信任。肖特利夫的MYCIN系統本質上是一個決策樹，屬於“透明”的模型——我們可以畫出從數據輸入開始完整的決策過程，從而評估MYCIN的決定。深度神經網絡的性能遠遠優於決策樹，但它是一個“黑箱”—— 我們幾乎不可能確切地知道它在算什麼。 性能與可解釋性似乎此消彼長。

對一位只追求正確率和性能的算法工程師來說，黑箱AI未必不受待見：一個能夠準確預測95%的事件的黑箱系統，肯定比另一個正確率只有65%、更透明的系統好。可是，當工程師需要調整系統內部“零件”的時候（比如修復谷歌圖像識別系統），黑箱會讓這項任務無比艱難：到底是哪一步出錯了？是用於訓練的數據有問題，還是模型本身的性能不足，或是損失函數（loss function）有待改進？置身黑箱之外的工程師很難一針見血地指出病竈。

我們中的大多數人也許極少有機會成爲工程師、法官、醫生，但這不妨礙黑箱AI對我們的生活造成影響。與我們的一廂情願相反，不夠透明的AI系統非但沒有比人類更客觀、公正、精確，反而加深了既存的偏見和不公正，對數字民主和基本人權構成威脅，而對這些系統的控制、介入和審計也更爲困難。當我們無法解讀AI作出的決策，對它未來的預期不過是紙上談兵，信任也無從談起。

可解釋AI （Explainable AI，即XAI）想要解決的正是這類問題。XAI認爲，通過解釋AI系統的決策過程，人類能夠更好地理解它的機制、優缺點、潛在影響等特性，從而更有效地預測系統的行爲，達到逐步建立信任關係的效果。

如果AI革命不可避免，至少一個可被解釋的系統能夠更好地融入嶄新的算法社會契約——例如伊亞德·拉萬（Iyad Rahwan）提出的社會迴環（Society-in-the-loop） ——與人類共生存，而不必成爲敵對的關係。

我需要一個解釋

可解釋AI終究是爲人服務的（好比高階編程語言是爲了人類設計的，否則機器之間的“交流”大可以用機器編碼之類人類無法輕易讀寫的“語言”）。所以“解釋性”也是相對人而言的。關於黑箱AI系統，什麼樣的解釋纔是好的解釋？心理學家和哲學家早就開始分頭研究，但各執一詞。

解釋常常需要闡述特定的因果關係或因果模式，例如“我不喫杏仁，因爲我對堅果過敏”。這樣的解釋非常貼切（沒有轉移話題），直接明瞭（不存在循環論證），邏輯嚴密。有的現象卻很難用通俗的因果關係解釋——請試着回答，“我擲了一次骰子，爲什麼朝上的一面是3？”當然，你可以引用物理法則來解釋擲骰子的具體過程，但我可能一頭霧水。

爲了避免這樣的尷尬，你也許會提及相關的（非因果的）概念，比如“隨機性”，或是用類比等手法讓你的解釋更容易被聽衆接受（比如上一段的第一句話）。一般而言，因果關係在解釋中佔據不可動搖的地位，但不是唯一的手段。

Zoë van Dijk

既然解釋本身可以有各種形式，爲了篩選出最好的可解釋AI，我們爲什麼不直接問：你理解這個系統在做什麼嗎？相關的心理學研究也的確使用了類似的方法來推斷人們是否能夠通過描述性解釋理解某一概念。它們發現，客觀上，當受試者對某一概念有更好的理解時，他們能通過主觀的直覺感覺到自己的認知進步，好比“茅塞頓開”。

然而，耶魯大學的列昂尼德·羅森布里特（Leonid Rozenblit）和弗蘭克·凱爾（Frank Keil）提出的“解釋深度的錯覺” （Illusion of Explanatory Depth）彷彿當頭一棒。羅森布里特和凱爾讓受試者首先評價自己對某一工具（比如拉鍊）的理解，然後詳細地解釋這個工具的工作機制，並再次評價自己的對它的理解。

他們發現，相比一開始，試圖解釋後的受試者對自己理解的評價明顯下滑，彷彿突然意識到自己其實一知半解。這就是“解釋深度的錯覺”。這種錯覺影響着所有人（包括小孩子），並且只作用於解釋性的知識。完全相反的情況也不少見：人們會自稱不理解一個動力系統，卻能熟練地使用它。

另一方面，規範（normative）解釋在哲學（尤其是科學哲學）中發揚光大。規範解釋有意忽略個人因素，比如認知能力，而是關注“應有”的理解。因此，規範理解可以被視爲一種基準，用來分析哪些信息應當被包含在解釋裏，以及受衆會有何種程度的理解。更進一步地說，好的（規範）解釋應當從理解的目的出發，基於受衆與黑箱AI的關係給出不同的解釋。

顯然，修補系統漏洞的工程師和審覈系統公正性的法官所需的理解是不同的。我們可以合理假設前者具有足夠的技術知識背景，也許將計算模型可視化就提供了足夠好的解釋。後者需要的是更抽象的文字解釋，比如“其他條件不變，COMPAS系統預測黑人被告和白人被告被再次逮捕的概率不同。”兩種都是好的（規範）解釋，一旦互換卻可能成爲各自的雞肋。

規範解釋看似更加直截了當，但在實際應用中還沒有確切實現或評估的共識。描述性解釋似乎也不甚完美。時至今日，我們仍未整合描述性解釋和規範解釋，關於解釋的研究和可解釋AI還在齊頭並進。

有了可解釋的AI就萬事大吉嗎？

2017年開始，美國國防高級研究計劃署（DARPA）投資了一系列XAI的項目，包括UCLA的VCLA中心的研究項目。2018年，ACM主辦了第一屆FAT*會議，關注AI系統的公正性、問責制和透明度。同年，AAAI與ACM共同舉辦第一屆AIES （人工智能、倫理與社會）會議。谷歌、微軟等科技公司也陸續參與XAI的研發。

各界對於XAI的關注促成了許多“拆穿”黑箱AI的嘗試，從DeepMind提出的機器心智理論（Machine Theory of Mind），到將黑箱神經網絡轉化爲“透明”的布爾電路（Boolean circuit），再到LIME （Local Interpretable Model-Agnostic Explanation）等通過近似黑箱模型提取重要特徵的方法。雖然XAI目前解釋的對象主要是工程師等研發人員，但是在未來，我們將會看到更多面向大衆的XAI，比如向你解釋如何開藥瓶的Baxter。

XAI並不是終點，它最多算一個起點，而我們還有許多亟待解決的問題：

首先，對黑箱AI的解釋可以被悄無聲息地篡改，可以完全牛頭不對馬嘴，而且很難察覺。

哈佛大學的希瑪賓度·拉卡拉朱（Himabindu Lakkaraju）和她的學生們發現，只需在模型上動一些簡單的手腳，就能讓它濫用COMPAS數據集裏的種族信息決定量刑，但一旦LIME來“視察”，它立刻擺出無辜的嘴臉，完全不露餡。這就意味着，即使有XAI爲工具，我們對AI的信任也不應當盲目地依賴系統的可靠性和（表面上）信息的透明性，理智與批判性思考將格外重要。

其次，針對AI的條例的制定相對滯後於研發和應用。

XAI的出現將會讓這個問題更加複雜——由於黑箱AI難以捉摸，且只有少數人具備解讀/修改的能力，研發機構不必過分擔心自己的科研成果泄漏（除非算法模型被一鍋端）。如果面向用戶和公衆的解釋成爲需求、甚至必須，既有的AI系統——無論透明與否——都有可能面臨一系列的風險，包括知識產權（利用反向工程重建系統）和系統安全（惡意的對抗攻擊）。信任與保密兩者的張力之下，XAI應當提供的解釋的具體內容尚無定論。

再者，偏見和不公不會因爲解釋本身而消失；恰恰相反，解釋會暴露更多一直以來潛行在我們周圍的倫理問題。

ProPublica對COMPAS的調查使人不禁發出疑問：系統性的種族偏見究竟在何種程度上滲透了美國過去十年間的量刑？隨着XAI的進步，一個個黑箱AI的廬山真面目逐漸顯露在我們眼前，不難想象其中有像COMPAS一樣的“幫兇”。我們能否通過公開討論解決結構性問題、完善問責制，這將是對AI和人類社會共同的挑戰。

參考文獻

Choi, A., Shi, W., Shih, A., & Darwiche, A. (2019). Compiling Neural Networks into Tractable Boolean Circuits. AAAI Spring Symposium on Verification of Neural Networks (VNN), Stanford, CA.

Defense Advanced Research Projects Agency. (n.d.). Explainable Artificial Intelligence (XAI). Retrieved from https://www.darpa.mil/program/explainable-artificial-intelligence

Edmonds, M., Gao, F., Liu, H., Xie, X., Qi, S., Rothrock, B., Zhu, Y., Wu, Y. N, Hongjing, L., & Zhu, S. (2019). A tale of two explanations: Enhancing human trust by explaining robot behavior. Science Robotics, 4(37). https://doi.org/10.1126/scirobotics.aay4663

Keil, F. (2006). Explanation and understanding. Annual Review of Psychology, 57.

Larson, J., Angwin, J., Kirchner, L., & Mattu, S. (2019, March 9). How We Analyzed the COMPAS Recidivism Algorithm. Retrieved from https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm

Miotto, R., Li, L., Kidd, B. A., & Dudley J. T. (2016). Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records. Nature Scientific Reports, 6(1), 26094.

Rabinowitz, N.C., Perbet, F., Song, H.F., Zhang, C., Eslami, S.M., & Botvinick, M.M. (2018). Machine Theory of Mind. ArXiv, abs/1802.07740.

Rahwan, I. (2018). Society-in-the-loop: programming the algorithmic social contract. Ethics and Information Technology, 20(1), 5–14. https://doi.org/10.1007/s10676-017-9430-8

Rozenblit, L., & Keil, F. (2002). The misunderstood limits of folk science: an illusion of explanatory depth. Cognitive Science, 26(5), 521–562. https://doi.org/10.1207/s15516709cog2605_1

Slack, D., Hilgard, S., Jia, E., Singh, S., & Lakkaraju, H. (2020, Feb 3). Fooling LIME and SHAP: Adversarial Attacks on Post hoc Explanation Methods [Paper presentation]. AAAI/ACM Conference on AI, Ethics, and Society 2020, New York, NY. https://doi.org/10.1145/3375627.3375830

Yu, V. L., Fagan, L. M., Wraith, S. M., Clancey, W. J., Scott, A. C., Hannigan, J., Blum, R. L., Buchanan, B. G., & Cohen, S. N. Antimicrobial Selection by a Computer: A Blinded Evaluation by Infectious Diseases Experts (1979). JAMA, 242(12), 1279–1282. http://doi.org/10.1001/jama.1979.03300120033020

Yong, E. (2018, January 29). A Popular Algorithm Is No Better at Predicting Crimes Than Random People. Retrieved from https://www.theatlantic.com/technology/archive/2018/01/equivant-compas-algorithm/550646/

本文來自微信公衆號：神經現實（ID：neureality），作者：am ecolli，題圖來自：《銀翼殺手2049》