147頁詳述結構在神經網絡中的復興,圖注意力網絡一作博士論文公開

摘要：除了介紹作者的主要研究貢獻以外，這篇博士論文還對深度神經網絡的背景信息進行了全面概括（第 2 章），尤其提供了具備結構歸納偏置的相關模型的基本數學細節（從 CNN 和 RNN 再到圖卷積網絡）。最後，作者提出通過 Deep Graph Infomax 算法，將局部互信息最大化作爲圖結構輸入的無監督學習目標，從而引入非常強大的結構歸納偏置，結合圖卷積編碼器來學習節點表徵。

參與：張倩、蛋醬、魔王

繼圖卷積網絡作者 Thomas Kipf 曬出博士論文之後，圖注意力網絡的一作 Petar Veličković接過了接力棒，也在 Twitter 上曬出了自己的博士論文。這些大神是約好了嗎？

在一項針對 2019 年到 2020 年各大頂會論文關鍵詞的統計中，「圖神經網絡」的增長速度位列榜首，成爲上升最快的話題。

在圖神經網絡出現之前，儘管深度學習已經在歐幾里得數據中取得了很大的成功，但從非歐幾里得域生成的數據得到了更廣泛的應用，它們也需要有效的分析，由此催生了圖神經網絡。

圖神經網絡最初由 Franco Scarselli 和 Marco Gori 等人提出，在之後的十幾年裏被不斷擴展，先後發展出了圖卷積網絡（Graph Convolution Networks，GCN）、圖注意力網絡（Graph Attention Networks）、圖自編碼器（ Graph Autoencoders）、圖生成網絡（ Graph Generative Networks）和圖時空網絡（Graph Spatial-temporal Networks）等多個子領域。

每個子領域都有一些拓荒者，比如前文提到的 Thomas Kipf，他和 Max Welling 一起開闢了圖卷積網絡。而今天這篇博士論文的作者 Petar Veličković是圖注意力網絡的一作，他和 Guillem Cucurull、Yoshua Bengio 等人一起完成了圖注意力網絡的開山之作——《Graph Attention Networks》，這篇論文被 ICLR 2018 接收。發佈兩年後，該論文被引量已超過 1300。

Petar Veličković現在是 DeepMind 的研究科學家。他於 2019 年從劍橋大學獲得計算機科學博士學位，導師爲 Pietro Liò。他的研究方向包括：設計在複雜結構數據上運行的神經網絡架構（如圖網絡），及其在算法推理和計算生物學方面的應用。除了圖注意力網絡，他還是《Deep Graph Infomax》的一作。在這篇論文中，他和 William Fedus、Yoshua Bengio 等人提出了以無監督方式學習圖結構數據中節點表示的通用方法，該論文被 ICLR 2019 接收。

Petar Veličković的博士論文去年就已經完成，只是最近纔跟大家分享。這篇論文的題目是《The resurgence of structure in deep neural networks》，共計 147 頁，涵蓋了 Petar Veličković的上述經典工作和其他關於圖神經網絡的內容，非常值得一讀。

論文鏈接：

https://www.repository.cam.ac.uk/handle/1810/292230

機器之心對該論文的核心內容進行了簡要介紹，感興趣的讀者可以閱讀原論文。

摘要

深度學習賦予了模型直接從原始輸入數據學習複雜特徵的能力，完全去除了手工設計的 “硬編碼” 特徵提取步驟。這使得深度學習在計算機視覺、自然語言處理、強化學習、生成建模等之前互不相關的多個領域實現了 SOTA 性能。這些成功都離不開大量標註訓練數據（「大數據」），這些數據具備簡單的網格狀結構（如文本、圖像），可通過卷積或循環層加以利用。這是由於神經網絡中存在大量的自由度，但同時也導致其泛化能力很容易受到過擬合等因素的影響。

然而，還有很多領域不適合大量收集數據（成本高昂或本身數據就很少）。而且，數據的組織結構通常更加複雜，多數現有的方法乾脆捨棄這些結構。這類任務在生物醫學領域比較常見。Petar 在論文中假設，如果想要在這種環境下完全發揮深度學習的潛力，我們就需要重新考慮「硬編碼」方法——將關於輸入數據固有結構的假設通過結構歸納偏置直接合併到架構和學習算法中。

在這篇論文中，作者通過開發三種 structure‐infused 神經網絡架構（在稀疏多模態和圖結構數據上運行）和一種 structure‐informed 圖神經網絡學習算法來直接驗證該假設，並展示了傳統基線模型和算法的卓越性能。

重新引入結構歸納偏置

這篇文章的主要貢獻是，緩解了在有額外結構信息可供利用的任務中可能出現的上述問題。利用關於數據的額外知識的一種常見方法是對模型應用適當的歸納偏置。

通常來講，給定特定的機器學習設置，我們可以爲該學習問題找到一個可能解的空間，該空間中的解都具備「不錯」的性能。但一般來說，歸納偏置鼓勵學習算法優先考慮具有某些屬性的解。雖然有很多方法可以編碼這些偏置，但作者將目光聚焦於將結構性假設直接合併到學習架構或算法中。這可以看作一種「meet‐in‐the‐middle」方法，即將經典的符號人工智能與當前的深度架構相融合。

通過直接編碼數據中出現的結構歸納偏置，作者使模型更加數據高效，實現了預測能力的飛躍——尤其是在較小的訓練數據集上。作者表示，這些並不是孤立的成果，而是代表了機器學習社區近期取得的一大進展。

研究問題與貢獻

作者在論文中介紹了自己重點研究的三個問題，以及針對這三個問題所作的具體貢獻，如下圖 1.3 所示。

圖 1.3：論文主要貢獻概覽。

首先，他提出了兩種具備專門結構歸納偏置的模型，用於多模態學習的早期融合。一種是網格結構輸入模態（X‐CNN），另一種是序列輸入模態（X‐LSTM）。

接下來，他概述了圖卷積層的期望結構歸納偏置，並首次表明這在圖注意力網絡中可以得到同時滿足。

最後，作者提出通過 Deep Graph Infomax 算法，將局部互信息最大化作爲圖結構輸入的無監督學習目標，從而引入非常強大的結構歸納偏置，結合圖卷積編碼器來學習節點表徵。

問題一

Q1：研究用於多模態神經網絡早期融合的可行候選層，並評估它們在困難學習環境下的實際可部署性和優勢，特別是當輸入數據稀疏或不完整時。

在該論文第三章和《X-CNN: Cross-modal convolutional neural networks for sparse datasets》、《Cross-modal Recurrent Models for Weight Objective Prediction from Multimodal Time-series Data》兩篇論文中，Petar 提出了兩種跨模態神經網絡架構，可以在模態間執行早期融合，二者分別在網狀（X-CNN）和序列（X‐LSTM）輸入模態上運行。這些方法主要靠允許單獨的模態流交換中間特徵，從而更容易利用模態之間的相關性，還能保持全連接神經網絡「數據流不受限」的特性，即使模型參數量要小得多。結果表明，這些方法比傳統方法有更好的表現，特別是在訓練集較小和輸入不完整的情況下。

同時，Petar 還重點介紹了自己參與指導的兩項相關工作。一項是將特徵交換泛化至 1D‐2D 情況，在視聽分類中獲得了很好的結果。另一項工作則表明，儘管像 X-CNN 這類模型超參數數量有所增加，但這些超參數可以使用自動化步驟進行高效調節。

問題二

Q2：研究卷積算子從圖像到顯示圖結構的輸入的泛化（即圖卷積層），清晰地描繪出這種算子的期望特性。是否有模型能夠同時滿足所有特性？這些理論上的特性在實踐中能否表現良好？

在論文第四章和《Graph Attention Networks》中，Petar 回顧了 CNN 的優點，詳細闡述了圖卷積層的期望特性，並評估了爲什麼此前提出的這類模型需要犧牲掉其中的某些特性。然後，作者定義了圖注意力網絡 (GAT) ，它將自注意力算子泛化至圖領域。他得出的結論是：在這種設定下，自注意力擁有所有期望特性。作者將該模型部署到多個標準節點分類基準上，發現與其他方法相比，該模型的性能非常有競爭力。

問題三

Q3：圖卷積網絡在何種程度上對於圖結構數據的無監督學習是有意義的？在形式化圖無監督目標時，是否可以有效利用圖的全局結構屬性？

論文第五章和《Deep Graph Infomax》研究了此前基於圖進行無監督表徵學習的方法（主要基於隨機遊走），發現這些方法不太適合與圖卷積編碼器結合使用。

基於圖像領域局部互信息最大化的之前工作，作者提出了針對圖結構輸入的 Deep Graph Infomax (DGI) 學習算法。該無監督目標使圖的每個局部組件都能完美地記住圖的全局結構屬性。結果表明，該模型在生成節點嵌入方面與使用監督目標訓練的類似編碼器性能相當，甚至更優。

除了介紹作者的主要研究貢獻以外，這篇博士論文還對深度神經網絡的背景信息進行了全面概括（第 2 章），尤其提供了具備結構歸納偏置的相關模型的基本數學細節（從 CNN 和 RNN 再到圖卷積網絡）。論文第六章對全文進行了總結，並描述了未來的工作方向。

以下是這篇博士論文的目錄：