機器之心發佈

  作者:Dong Su1, Huan Zhang, Hongge Chen , Jinfeng Yi, Pin-Yu Chen,

  機器之心編輯部

  

  分類的準確度長期以來都是評價圖像分類模型性能的最核心甚至唯一標準。但最近研究表明,即使是充分訓練好的深度神經網絡模型也很容易被對抗攻擊算法攻破。對抗攻擊是指在圖像上加入特定的且人眼無法察覺的微量噪聲,使得目標模型對加噪之後得到的對抗樣本做出錯誤分類。

  

  對抗樣本有可能會導致財產損失乃至威脅生命。比如,Eykholt 等人 [1] 的研究表明一個經過稍加修改的實體停車標誌能夠使得一個實時的物體識別系統將其誤識別爲限速標誌,從而可能造成交通事故。爲了揭示深度神經網絡模型的魯棒性和準確性之間的關係,來自 IBM 研究院,加州大學戴維斯分校,麻省理工學院以及京東 AI 研究院的研究人員,系統性地度量了 18 個被學術界和工業界廣泛接受並使用的 ImageNet 深度神經網絡模型,如 AlexNet、VGG Nets、Inception Nets、ResNets、DenseNets、MobileNets、NASNets 等的魯棒性。

  該研究發現了多個非常有趣的現象,包括:1) 準確度越高的模型的普遍魯棒性越差,且分類錯誤率的對數和模型魯棒性存在線性關係;2) 相比於模型的大小,模型的結構對於魯棒性的影響更大;3) 黑盒遷移攻擊是一直以來都比較困難的任務,但在 VGG 系列模型上生成的對抗樣本可以比較容易地直接攻擊其它的模型。該項工作對於理解深度神經網絡準確性和魯棒性之間關係提供了一個較完備的圖景。此項研究的論文「Is Robustness the Cost of Accuracy? – A Comprehensive Study on the Robustness of 18 Deep Image Classification Models」已被歐洲計算機視覺大會(ECCV 2018)接收,並且預印版和代碼都已公開。

  自從 2012 年 AlexNet 在 ImageNet 競賽大放異彩之後,研究者們不斷設計出更深和更復雜的深度神經網絡模型以期獲得更好的分類精度。雖然這些模型能夠取得圖像識別正確率的穩定增長,但它們在對抗攻擊下的魯棒性尚未得到充分研究。爲了評估深度神經網絡的魯棒性,一個直觀的方法是使用對抗攻擊。這種攻擊生成視覺上和原圖難以察覺區別的對抗樣本使得深度神經網絡做出錯誤分類。一般來講,對於一個深度神經網絡,如果在其上構建對抗樣本越容易、所添加的噪聲越小、則該網絡越不魯棒。除了對抗攻擊之外,神經網絡的魯棒性也可以用一種獨立於攻擊的方式來衡量。例如 Szegedy 等人 [2] 和 Hein 等人 [3] 使用神經網絡模型的全局和局部的 Lipschitz 常量對某些簡單模型的魯棒性進行了理論分析。Weng 等人 [4] 提出使用極值理論來估計爲了生成有效的對抗樣本所需要的最小噪聲的尺度。

  在這篇論文中,研究者們同時使用了上述兩種方式評估了 18 個在 ImageNet 競賽中脫穎而出的 DNN 模型,包括 AlexNet, VGG Nets, Inceptin Nets, ResNets, DenseNets, MobileNets 和 NASNets 等。這 18 個模型具有不同的大小,分類準確度和結構,因此具有充分的代表性,從而能更好地分析出影響模型魯棒性的不同因素。在使用對抗攻擊來評估魯棒性的方式中,研究者們使用了目前最好最常用的幾種攻擊算法,包括 Fast Gradient Sign Method(FGSM)[5]、Iterative FGSM(I-FGSM)[6]、Carlini & Wagner(C&W)算法 [7],以及 Elastic-Net Attack under L1 norm(EAD-L1)算法 [8]。此外,在獨立於攻擊的魯棒性評估方式中,研究者們選用了目前最爲有效的 CLEVER Score[4] 來評估深度神經網絡的魯棒性。

  這篇論文通過對 18 個 ImageNet 模型在 C&W 攻擊和 I-FGSM 攻擊下的魯棒性的實驗分析,發現當已有模型僅僅追求更高的分類準確度時,往往會犧牲在對抗攻擊下的魯棒性。圖 1 展示了在 I-FGSM 的攻擊下,生成對抗樣本所帶來的扭曲 (以 l-infinity 度量) 與模型的分類錯誤率的對數值呈現出線性關係。因此,當分類器具有非常低的分類錯誤率的時候,在對抗攻擊下它將變得非常脆弱。所以本論文作者們建議 DNN 的設計者在構建網絡的時候,應該參考本論文提出的準確度-魯棒性的帕累託邊界來評估其所構建模型的魯棒性。

  同時,圖 1 也明確地揭示了屬於同一網絡結構家族的網絡都有着相近的魯棒性。這就意味着相比於網絡的大小,網絡結構對於魯棒性的影響更大。

  在對抗樣本的黑盒轉移攻擊方面,研究者們對於 18 個 ImageNet 的模型之間的每一對模型(共計 306 對)都進行了在 FGSM, I-FGSM, C&W 和 EAD-L1 攻擊下的黑盒轉移攻擊的實驗。這是迄今爲止在黑盒轉移攻擊上最大規模的實驗。圖 2 展示了對大多數網絡來說,在它上面生成的對抗樣本只能在本家族的網絡之間有較好的黑盒轉移攻擊成功率。唯一的例外是 VGG 家族:基於 VGG 家族的網絡生成的對抗樣本在黑盒轉移攻擊其他的 17 個網絡上都有着很高的成功率。這一發現也爲逆向工程黑盒模型的結構提供了一定的曙光。

  圖 2:I-FGSM 攻擊下 18 個模型(306 對)之間的黑盒轉移攻擊的成功率。每一行的子圖分別對應了 I-FGSM 輪數爲 10,30 和 50。第一列的子圖對應於非針對性(untargeted)攻擊,第二列子圖對應於針對性(targeted)攻擊。在每一幅熱力圖中,第 i 行第 j 列上的數值是用第 i 個模型生成的對抗樣本來攻擊第 j 個模型的成功率。對角線上的值就等價於模型在白盒攻擊下成功率。對於非針對性攻擊,報告的數值是成功率。對於針對性攻擊,報告的數值是 top-5 匹配率。與其他模型相比,VGG-16 和 VGG-19(每張圖中最下兩行)展現出了明顯更高的轉移攻擊的成功率。

  論文鏈接:https://arxiv.org/pdf/1808.01688.pdf

  代碼鏈接:https://github.com/huanzhang12/Adversarial_Survey

  參考文獻:

  [1] Eykholt, K., Evtimov, I., Fernandes, E., Li, B., Rahmati, A., Xiao, C., Prakash, A., Kohno, T., Song, D.: Robust physical-world attacks on deep learning visual classification. CVPR 2018.

  [2] Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I., Fergus, R.: Intriguing properties of neural networks. ICLR 2014.

  [3] Hein, M., Andriushchenko, M.: Formal guarantees on the robustness of a classifier against adversarial manipulation. NIPS 2017.

  [4] Weng, T.W., Zhang, H., Chen, P.Y., Yi, J., Su, D., Gao, Y., Hsieh, C.J., Daniel, L.: Evaluating the robustness of neural networks: An extreme value theory approach. ICLR 2018.

  [5] Goodfellow, I., Shlens, J., Szegedy, C.: Explaining and harnessing adversarial examples. ICLR 2015.

  [6] Kurakin, A., Goodfellow, I.J., Bengio, S.: Adversarial machine learning at scale. ICLR 2017.

  [7] Carlini, N., Wagner, D.A.: Towards evaluating the robustness of neural networks. Oakland 2017.

  [8] Chen, P.Y., Sharma, Y., Zhang, H., Yi, J., Hsieh, C.J.: Ead: Elastic-net attacks to deep neural networks via adversarial examples. AAAI 2018.

  本文爲機器之心發佈,轉載請聯繫本公衆號獲得授權

  ------------------------------------------------

  加入機器之心(全職記者 / 實習生):[email protected]

  投稿或尋求報道:[email protected]

  廣告 & 商務合作:[email protected]

相關文章