AIRAVATA：量化機器學習中的參數泄露

©PaperWeekly 原創 · 作者｜孫裕道

學校｜北京郵電大學博士生

研究方向｜GAN圖像生成、情緒對抗樣本生成

論文標題： Quantifying (Hyper) Parameter Leakage in Machine Learning

論文鏈接： https://arxiv.org/abs/1910.14409

引言

AI 模型廣泛應用於各種多媒體應用中，在雲計算上作爲一種按需查詢付費的黑盒服務提供給用戶。這樣的黑盒模型對對手具有商業價值，所以會對專有模型進行反向工程，從而侵犯模型隱私和知識產權。對手會通過側信道泄漏提取模型架構或超參數，在合成數據集上訓練重構架構來竊取目標模型的功能。

核心思想

本文提出了一種新的概率框架 AIRAVATA 來估計模型抽取攻擊中的信息泄漏。該框架抓住了由於實驗的不確定性提取精確的目標模型是困難的事實，同時推斷模型的超參數和隨機性質的訓練竊取目標模型的功能。

本文使用貝葉斯網絡來捕捉在基於主觀概率概念的各種提取攻擊下目標模型估計的不確定性。該論文提供了一個實用的工具來推斷有關提取黑盒模型的可操作細節，並幫助確定最佳攻擊組合，從而最大限度地從目標模型中提取（或泄漏）知識。

AIRAVATA框架

本文所提出的 AIRAVATA 框架將各種攻擊和推斷的模型屬性表示爲具有因果關係的隨機變量。如果對手選擇了攻擊，那麼攻擊變量與貝葉斯網絡中推斷出的相應屬性之間存在聯繫。AIRAVATA 框架的有效性分析在現實中具有一定的適用性。

下圖顯示了 AIRVATA 框架的細節，攻擊節點位於頂層，然後是推斷屬性，最後是對手提取的目標知識。模型知識（最後一層）是假設變量，其值與我們的問題有關。攻擊節點（頂層）是被觀測到的信息變量，並影響假設變量的概率分佈。信息變量通過代表推斷屬性的中間變量（中間層）與假設變量相連。

3.1 攻擊變量

AIRAVATA 框架下的模型根據攻擊需求（對手模型）和推斷屬性的相似性將攻擊分成不同的隨機變量。

3.1.1 StealFunction

“StealFunction” 節點捕獲這些攻擊，並能夠推斷學習目標中使用的超參數以及估計模型參數的值。給定大量的輸入輸出對，根據已知變量求解未知變量的超定方程組，從目標函數中估計正則化超參數，而且所有的攻擊在使用主動學習或對合成數據的模型進行再訓練屬於功能竊取範疇。

3.1.2 ML vs ML

機器學習模型可以訓練成根據輸入輸出預測模型的屬性。由於攻擊使用 ML 模型，因此在正確預測模型屬性時存在不確定性和誤差。這些攻擊被抽象到貝葉斯網絡中的 MLvsML 節點中，並推斷出層的數目、激活的類型、每層的參數數目和層的類型。

3.1.3 TimingSC

對於不瞭解目標模型的弱對手，可以通過計算網絡的總執行時間來推斷層數。該攻擊基於在一個層中的所有節點被並行計算的思想，而所有層都是按順序計算的，因此總的執行時間與層的數目密切相關。在該框架中，這種攻擊被捕獲在節點 “TimingSC” 中，並且只推斷神經網絡的層數。

3.1.4 HardwareSC

對硬件進行物理訪問的對手可以在模型在硬件上執行期間監視內存訪問模式（內存側通道），並利用進程之間的共享資源提取進程詳細信息（緩存側通道）。

其他硬件詳細信息（如硬件性能計數器、緩存未命中和數據流）顯示了重要的內部模型詳細信息。所有這些攻擊抽象爲“硬件”節點，有助於推斷層數、激活類型、每層參數數和層類型。這與 “MLvsML” 相似，但是由於更強的對手模型，推斷出的信息更細粒度和更準確。

3.1.5 PowerSC

在硬件上執行神經網絡的過程中，一個強大的對手可以訪問目標硬件的物理地址，可以監視消耗的功率來提取有關應用程序的信息。給定功耗軌跡，攻擊者使用差分功率分析、相關功率分析和水平功率分析等算法推斷目標黑盒模型細節。

這在框架內被建模爲 “PowerSC” 節點，並在成功執行後，幫助對手推斷每層中的參數數目、參數值、總層數和激活函數的類型。

3.2 推斷模型屬性

神經網絡有一個很大的超參數空間，每個超參數可以取不同範圍的可能值。神經網絡的結構細節在決定性能方面起着重要的作用。

ObjHyperParam：訓練神經網絡的目標函數需要學習速率和動量等多個超參數來控制參數的更新，而權值衰減則可以提高泛化能力。損失函數的選擇和優化技術決定了模型的性能。
Depth：神經網絡越深，性能就越高，因爲 ML 社區一直致力於將神經網絡擴展到大量的層。
Nodes：每層參數的個數和模型深度影響神經網絡的複雜度，進而影響網絡的性能。
Activation：激活函數的類型 ReLU、Sigmoid 或 Tanh 將每個節點的箇中間矩陣向量計算映射到一個輸出值範圍。
LayerType：卷積層、maxpool 層或全連通層在決定計算複雜度和性能方面起着重要作用。

3.3 提取模型知識

對於不同的攻擊，所提出的模型需要捕獲的知識提取程度不同。模型屬性爲，其中，攻擊變量爲，其中。目的是推斷假設隨機變量，即知識提取度 K。最終的知識估計是給定了了攻擊的手段情況下，假設隨機變量的概率。

在選擇不同的攻擊變量時，根據影響或關聯的屬性數將最終提取的知識分爲三類。

這些是在推斷目標模型的不同屬性時，根據搜索空間範圍而選擇的主觀閾值。攻擊變量反過來影響中間信息變量（模型屬性）的概率分佈，影響“模型知識”的最終概率分佈。

通過變量消去法進行推理後估計出的假設變量的合成概率，來評估不同的攻擊組合，可以利用所獲得的知識來概率推斷模型信息泄漏。

實驗結果

4.1 Adversary 1

假設貝葉斯網絡模型捕捉了隨機變量之間的聯合概率分佈，根據提取到的知識的可信度，對模型進行查詢，以判斷不同攻擊的有效性。在對手 1 的情況下，假設對手很弱，並且只能對目標模型的遠程 API 訪問。

對手可以向目標模型發送查詢（輸入圖像）並得到相應的輸出預測。對手只能依靠遠程執行攻擊，包括：TimingSC、MLvsML 和 StealFunction 攻擊，這些攻擊可以根據各自的威脅模型進行遠程部署。

對應於對手 1 的遠程黑盒設置提取的知識概率如上表所示，與 MLvsML 相比，TimingSC 和 tealFunction 攻擊所推斷的屬性更少，相應的提取“低”知識的置信度分別爲 0.7681 和 0.7272。而對於像 MLvsML 這樣的強黑盒攻擊，所提取的知識被歸類爲“中等”，其信念得分爲 0.7983。

StealFunction 攻擊通常是在推斷目標模型屬性以獲得近似體系結構之後執行的。對於第 2 行（表 1）中的單個攻擊的具體情況，考慮的是由對手選擇的隨機架構。

4.2 Adversary 2

在對手 2 中假設一個更強的對手可以物理訪問執行神經網絡的硬件。然而，對手沒有 API 訪問權限來查詢模型，因此可以分析基於邊信道的超參數推斷攻擊。對手可以通過監視硬件在執行神經網絡期間消耗的功率來執行基於硬件的側信道攻擊，例如緩存側信道、存儲器訪問模式和功率側信道。

與獨立執行攻擊相比，使用 HardwareSC 和 PowerSC 相結合的信念改善並不顯著。從這一點可以推斷，這兩種攻擊在從目標模型中提取知識方面同樣強大。

然而，結合這兩種攻擊，會發現對“高”知識的總體信念從 0.1024 增加到 0.1166。與 HardwareSC 和 MLvsML 攻擊相比，PowerSC 對於“中等”知識提取（0.8181 到 0.7983）有更高的信念。

4.3 Adversary 3

第三個設置是 AIRAVATA 框架的一部分，對手有物理訪問硬件和遠程 API 查詢模型。這個假設的設置允許將來自上述兩個設置的攻擊結合起來，以估計提取目標模型知識的總體信念。

如上表所示，將不同的攻擊組合在一起，對目標模型提取“高”知識的最大置信度爲 0.7354。通過選擇其他攻擊的仔細組合，可以推斷出相同的知識水平。

參考文獻

[1] M. S. Alvim, K. Chatzikokolakis, C. Palamidessi, and G. Smith, “Measuring information leakage using generalized gain functions,” in 2012 IEEE 25th Computer Security Foundations Symposium, June 2012, pp.265–279.

[2] X. An, D. Jutla, and N. Cercone, “Privacy intrusion detection using dynamic bayesian networks,” in Proceedings of the 8th International Conference on Electronic Commerce.

[3] E. T. Axelrad, P . J. Sticha, O. Brdiczka, and J. Shen, “A bayesian network model for predicting insider threats,” in 2013 IEEE Security and Privacy Workshops, May 2013, pp. 82–89.

[4] L. Batina, S. Bhasin, D. Jap, and S. Picek, “Csi neural network: Using side-channels to recover your artificial neural network information,” Cryptology ePrint Archive, Report 2018/477, 2018, https://eprint.iacr.org/2018/477.