關注並星標

從此不迷路

Jiangmen

From: Google&arxiv; 編譯: T.R

在圖像任務中卷積網絡通常將輸入圖像編碼成一系列中間特徵來捕捉圖像局部和全局的語意信息,特徵的空間分辨率也會隨着層數的增加而減小。然而,這種以犧牲空間分辨率爲代價的模型結構對於需要多尺度特徵的識別任務來說並不能獲取非常有效的特徵,尤其像是目標檢測和語意分割任務中,類別識別和目標定位同樣重要。像FCN和DeepLab等工作都提出了 多尺度的編解碼器架構 來解決這一問題,利用犧牲尺度的模型來作爲編碼器,同時利用解碼器來恢復空間信息。

雖然這種架構成功地提升了識別和定位任務的性能,但使用了降採樣的編碼器依舊損失了空間信息,需要解碼器進行恢復,但這種恢復無法保留足夠的原始空間信息。人們不禁想到,

如果可以設計出一種主幹模型避免空間信息的損失,是不是就能天然地同時適應於圖像識別與定位任務了

幾種不同的尺度輪換架構

在這種思想的指導下,研究人員在今年的 CVPR論文SpineNet 中提出了一種名爲 尺度輪換模型(scale-permuted) 的元結構,從兩個方面提升了主幹結構的性能。中間特徵圖的空間分辨率應該可以在任意層提升或者減小,以便在網絡加深時保持空間信息的有效性;其次特徵圖間的連接應該跨越特徵尺度來促進多尺度信息的融合。在新架構下,研究人員利用了 神經架構搜索(Neural Architecture Search,NAS)方法 在新的搜索空間中尋找有效的尺度輪換模型。結果表明這種模型 在多尺度視覺任務中超過了標準的尺度縮減主幹網絡,在多個基準上實現了優異性能指標。

左圖顯示了尺度縮減結構,右圖顯示了尺度置換主幹網絡。每個矩形表示了一個模塊,顏色和尺寸顯示了空間分辨率和特徵維度的變化,箭頭表示了不同層間的連接。

一、SpineNet的架構設計

爲了高效地設計SpingNet的架構,避免耗時的手工設計、參數搜索和設計,研究人員設計了 NAS 來優化模型結構。主幹模型在COCO數據集上進行了訓練,同時強化了識別和定位任務的需求。在架構搜索階段,研究人員主要在三個方面進行了處理:

  • 尺度輪換 :由於需要從已有的模塊進行構建, 網絡模塊的順序 十分重要。在搜索中通過重整中間特徵和輸出模塊的序列關係來重新定義了尺度輪換空間。

  • 交叉尺度連接 :爲每個模塊定義了 兩個輸出連接 ,可以來自於任意的低層模塊或主幹網絡模塊。

  • 模塊自適應 (可 選):模塊可以 自適應地調節其尺度和種類

從尺度縮減到尺度輪換的架構搜索過程對比

NAS搜索中使用了 ResNet-50 主幹網絡 來作爲搜索種子,首先學習了 尺度輪換和交叉連接的方式 。研究人員使用了基於遞歸神經網絡的控制器來實現架構搜索,這是目前最適合於尺度輪換的搜索架構。爲了加速搜索過程,研究人員還設計了 SpineNet代理 ,將SpineNet- 49的特徵維度縮減因子設置爲0.25,設置重採樣因子α爲0.25,並在bbox檢測和分類中使用了64維的特徵。 爲了防止搜索空間的指數增加,研究人員限制了中間架構僅僅允許最後五個block搜索,並在在現有block中進行檢索。 針對每個樣本,代理訓練512分辨率的圖像5個epoch,同時驗證集上的AP被作爲獎勵來優化結構。實際中使用了100個TPU來運行,來搜索最好的結構。

所有備選架構的計算量都幾乎相同,因爲在這一過程中僅僅輪換了特徵模塊的順序。 最終學習到的尺度輪換模型在目標檢測任務中比ResNet-50-FPN高了2.9%的AP。

如果添加搜索選項來適應模塊的尺度和種類(包括殘差模塊或者瓶頸模塊)還能夠減少10%的浮點運算提升效率。

下圖顯示了標準尺寸和mobile尺寸的SpingNet性能。

研究人員將得到的49層尺度輪換主幹架構命名爲 SpineNet-49 ,如果利用重複模塊疊加和維度拓展可以方便地構建出SpineNet-96/143/190等架構。

下圖展示了 RestNet-50-FPN SpineNet-49 的對比情況。

ResNet 主幹 (左) 和 基於NAS搜索得到的SpineNet 主幹 (右) 的比較。

二、性能

通過與ResNet-FPN的比較展示了新架構在性能上的大幅度提升。 在使用相同模塊的情況下,SpineNet比ResNet-FPN提升了3%的AP,同時還減少了10-20%的浮點計算。值得一提的是 最大的SpineNet-190模型在COCO實現了52.1%的AP ,在沒有使用多尺度測試的情況下單模型結果超過了先前的檢測器架構。SpineNet同時在分類任務基準iNaturalist細粒度數據集上取得了5%的top-1精度提升。

SpineNet模型和ResNet-FPN模型在bbox檢測上的性能比較。

SpineNet和ResNet模型在iNaturalist細粒度圖像分類任務上的性能比較。

同時在研究中發現, 聯合優化尺度輪換和尺度交叉連接比在固定尺度下優化交叉連接效果更好。 交叉連接在不同尺度特徵融合過程中扮演着重要的角色。研究人員通過 選擇性圖破壞鏈接來探索交叉連接的重要性 ,包括移除短程連接、移除長程連接、同時移除長短連接並將其連接到先前的序列模塊上。下表顯示了性能衰減,發現短程連接並不能有效處理頻率分辨率的演變。

三、結論和展望

研究人員認爲 尺度縮減模型 無法同時有效地處理識別和定位任務,提出的 尺度輪換模型 作爲一種新的架構解決了這一問題。同時還通過 神經架構搜索 的方式來提升這一架構的性能,並在目標檢測和分類中得到了顯著的性能提升。這一獨特的模型架構將爲各種視覺任務提供更多的選擇和性能提升。

如果想要了解更多詳細信息,請參考論文和代碼:

paper: https://arxiv.org/pdf/1912.05027.pdf

code:

https://github.com/tensorflow/tpu/tree/master/models/official/detection

pic ref:

https://cdn.dribbble.com/users/393446/screenshots/10070945/toggles_4x.png https://cdn.dribbble.com/users/398490/screenshots/3665764/cat-animated_still_2x.gif https://cdn.dribbble.com/users/2245614/screenshots/9177516/lottie_2_still_2x.gif

本週上新!掃碼觀看!

來掃我呀

關於我“門”

將門 是一家 以專注於 發掘、加速及投資技術驅動型創業公司 的新型 創投機構 ,旗下涵蓋 將門創新服務、將門技術社羣以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾爲微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務 專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社羣 專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成爲持續的核心競爭力。

將門創投基金 專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括 機器智能、物聯網、自然人機交互、企業計算。 在近四年的時間裏,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、 寬拓科技、 杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務, 歡迎發送或者推薦項目給我“門”:  [email protected]

    

點擊右上角,把文章分享到朋友圈

 

將門創投

讓創新獲得認可!

微信:thejiangmen

[email protected]

點擊“ ❀在看 ”,讓更多朋友們看到吧~

相關文章