機器之心報道

如何從頭開始學習卷積?谷歌高級研究科學家BehnamNeyshabur使用最小描述長度(MDL)作爲指導原則,提出了LASSO算法的一個簡單變體β-LASSO。將β-LASSO應用到多層感知機(MLP)後,MLP在CIFAR-10、CIFAR-100和SVHN數據集上的SOTA結果得到顯著提升。

多層感知機(MLP)在CIFAR-10數據集上的最高準確率是多少?

65%?那是之前。

谷歌新研究用LASSO算法的變體β-LASSO武裝MLP,將其在CIFAR-10數據集上的準確率提升到85%。

這項研究突破性地解決了從頭開始學習卷積的問題,並大大提高了MLP的性能。

這篇剛剛上傳到arxiv的論文,在國外社交網絡上引起了大家的廣泛關注與討論。

我們首先來看這篇論文的具體內容。

論文地址:https://arxiv.org/pdf/2007.13657.pdf

卷積是計算機視覺架構中最重要的組件。隨着機器學習趨向於減少專家偏見(expertbias)以及從數據中學習,那麼很自然地,接下來的一步應該是從頭開始學習類似卷積的結構。然而,事實證明這並不容易。例如,當前的SOTA架構搜索算法使用卷積作爲一種已有的模塊,而不是從數據中從頭開始學習。

爲了理解引起卷積的歸納偏置,研究者使用最小描述長度(MDL)作爲指導原則,發現在某些情況下,它確實可以說明架構的性能。

爲了用小的描述長度找出架構,研究者提出了LASSO算法的一個簡單變體β-LASSO。將其應用於全連接網絡進行圖像分類任務時,它可以學習具備局部連接的架構,並且在CIFAR-10數據集上達到了SOTA準確率(85.19%),在CIFAR-100數據集上達到了59.56%的準確率,在SVHN上實現了94.07%的準確率,縮小了全連接網絡和卷積網絡之間的差距。

該研究的主要貢獻包括:

提出了具備研究卷積所需特性的淺層(s-conv)和深層(d-conv)全卷積網絡。通過對s-conv和d-conv以及它們的局部連接和全連接版本進行系統性實驗,研究者發現了深度、局部連接和共享權重的作用。

局部連接似乎對性能的影響最大。

深度的優勢是提升內存和計算效率。因此,對具備更多參數的淺層架構進行長時間訓練可以彌補深度不夠造成的大部分性能損失。

如果沒有共享權重,深度的優勢會進一步減少。

此外,研究者以最小描述長度作爲指導原則,來研究哪些架構的泛化能力更強:

研究表明MDL受參數數量的限制,研究者用實驗表明,用更少的參數擬合訓練集的架構一定程度上比過參數化架構的泛化能力更強。

該研究證明用於架構搜索的基於MDL的泛化約束(MDL-basedgeneralizationboundforarchitecturessearch,表明找到架構的稀疏性)對泛化能力有很大的影響。但是,只有在結構簡單時,共享權重纔有效。

受MDL的啓發,研究者提出了一種新的訓練算法β-lasso。它是lasso的一種變體,比lasso具備更強的軟閾值,以找出參數量少的架構,也就是具有小的描述長度的架構。以下是關於β-lasso的實驗發現:

使用β-lasso算法在CIFAR10、CIFAR-100、SVHN上訓練的全連接網絡,均實現SOTA性能。值得一提的是,與卷積網絡不同,這些結果不受置換像素(permutingpixel)的影響。

該研究表明,使用β-lasso算法學得的網絡比其局部連接版本使用的參數更少。通過可視化濾波器,研究者發現β-lasso算法確實學習了局部連接。它還學會了在局部鄰域中更稀疏地採樣,以增加感受野(receptivefield),同時保證參數數量較少。

研究者還用β-lasso訓練了不同卷積核大小的ResNet18,發現對於全部實驗數據集和卷積核大小,β-lasso的性能均優於SGD。

解耦深度、權重共享和局部連接

這項研究提出了兩種全卷積網絡d-conv和s-conv,它們不僅在圖像分類任務上性能良好,還可以根據相應卷積網絡中的通道數量和輸入圖像大小實現預期的縮放。

下圖1展示了d-conv和s-conv的網絡架構以及縮放情況:

下表1展示了d-conv、s-conv、它們的變體以及3-FC模型在CIFAR-10、CIFAR-100和SVHN三個數據集上的測試準確率結果:

由上表可以得出以下四項結論:

局部性(locality)非常重要。對於深層和淺層架構來說,在三個數據集上,局部連接網絡和對應全連接網絡之間的差距要比卷積和局部連接網絡的差距大得多。這表明,卷積的主要優勢來自於局部連接。

(大多數情況下,)淺層架構最終會趕上深層架構。雖然深層結構訓練更長時間似乎並不能提升性能,但在所有數據集上,增加淺層架構的訓練時長可以顯著地提升性能。因此,在訓練迭代次數達到4000時,深層和淺層架構之間的差距明顯縮小。

在沒有權重共享的情況下,深層結構的優勢會消失。s-fc在所有實驗中均優於d-fc。並且,當訓練迭代次數達到4000時,d-local和s-local相對於彼此並沒有表現出明顯的優勢。

全連接網絡的結構非常重要。s-fc在所有實驗中均大幅領先3-fc和d-fc。更有趣的是,s-fc與3-fc具備相同的參數量和深度,但前者第一層的隱藏單元數量遠多於後者。

將MDL作爲指導原則

最小描述長度(MDL)原則是將奧卡姆剃刀形式化後的一種結果。其想法是,在給予假說集合的情況下,能產生最多資料壓縮效果的那個假說是最好的。它於1978年由JormaRissanen提出。

在信息論和計算機學習理論中,最小描述長度原則是個重要概念。最小描述長度原理就是要求選擇總描述長度最小的模型。

該研究則將MDL看作解釋不同架構性能差異的方式,以及找到泛化性能優異模型的指導原則。

使用MDL後,稀疏性對泛化性能的影響有所增加,但是權重共享機制僅在結構簡單的情況下有效。

下圖2展示了不同架構的性能:

新算法β-lasso,實現從頭學習局部連接

受MDL的啓發,該研究提出了一種新型訓練算法β-lasso,它是lasso算法的簡單變體,具備更強勢的軟閾值,可以找到具備少量參數的架構,從而實現小的描述長度。此外,β-lasso對圖像沒有偏見。

以下是β-lasso的算法:

訓練全連接網絡

下表2展示了在訓練全連接網絡時,用β-lasso訓練的s-fc與當前最優方法的性能對比情況。結果表明即使與蒸餾或預訓練等複雜方法進行對比時,β-lasso的性能也有顯著提升。

β-lasso顯著提升了MLP在CIFAR-10、CIFAR-100和SVHN數據集上的SOTA結果。

此外,爲了觀察β-lasso能否成功學習像s-local一樣稀疏的架構,研究者分別度量了每一層中非零權重的數量,結果如下圖3所示:

該研究還進一步對學得濾波器進行了可視化,發現β-lasso確實能夠學習局部連接,而且還能在局部鄰域中進行更稀疏地採樣,從而在保持參數數量較少的情況下增加感受野。

訓練卷積核較大的卷積網絡

該研究還使用β-lasso訓練了具備不同卷積核大小的ResNet18,並將其與SGD進行對比。結果表明,在所有數據集和所有卷積核大小情況下,β-lasso的性能都優於SGD,如下圖5所示:

方向很好,但技術細節有待完善

對於這篇論文,網友的評價總體來說比較正面,他們認爲這是一個很棒的研究方向。正如下面這位網友所說:

「這項研究太酷了,目前很多深度學習都是基於人工控制(human-imposed)的架構先驗構建,而這裏是基於卷積。」

但同時,這位網友也提出了一些疑問,比如論文中的β-lasso方法究竟是什麼樣的?看起來算法1是作者唯一提到的技術細節,而且算法中也有搞不懂的地方。

接着又指出了另一個問題,論文中稱lasso通常鼓勵稀疏性,但他沒有看懂這樣做是如何鼓勵權重共享的。

也有網友發問:「這只是一種稀疏的全卷積網絡(FCN)吧?」

推特網友PierreAblin表示這篇論文引入了兩個新的超參數,但他不太明白如何設置這兩個超參數,以及它們是否同樣重要。

此外,他指出這項研究無法使用動量(momentum),並詢問作者有沒有嘗試使用Fista等方法。

對此,論文作者BehnamNeyshabur回覆道:「論文中簡單討論了這一點。超參數Beta(β)通常不那麼敏感,所以使用默認值50應該就可以;但lambda(λ)需要調整,實驗中典型的數值範圍是(1e-6,1e-4)。此外,這項研究沒有使用Fista方法。」

此外,同爲谷歌員工的谷歌大腦研究科學家TingChen表示:

「在我看來,由於計算/樣本效率,CNN在實踐中的效果優於MLP。如果你使用正確的(無監督)目標或正則化方法、大數據和算力,MLP可以實現同樣好的結果。」

對此,論文作者回複道:「我同意你關於計算的想法。這項研究降低了樣本效率方面的差距,但很明顯使用不錯的搜索算法和大量無監督數據,仍然無法找到比卷積網絡更好的方法,對吧?」

TingChen對此並不認同。

作者簡介

論文作者BehnamNeyshabur現爲谷歌高級研究科學家。

2017年夏,他取得了豐田工業大學芝加哥分校(TTI-Chicago)的計算機科學博士學位。2018年成爲紐約大學博士後研究員,與2018年圖靈獎得主、深度學習三巨頭之一YannLeCun共同工作,並且還是普林斯頓高等研究院(IAS)SanjeevArora教授領導的理論機器學習(TheoreticalMachineLearning)項目組成員。2019年6月加入谷歌至今,擔任高級研究科學家。

他的研究興趣是機器學習,主要研究方向爲深度學習的優化和泛化。

AmazonSageMaker是一項完全託管的服務,可以幫助開發人員和數據科學家快速構建、訓練和部署機器學習模型。SageMaker完全消除了機器學習過程中每個步驟的繁重工作,讓開發高質量模型變得更加輕鬆。

現在,企業開發者可以免費領取1000元服務抵扣券,輕鬆上手AmazonSageMaker,快速體驗5個人工智能應用實例。

相關文章