摘要:從1978年的 2.5D Sketch一直到中間的點特徵、局部特徵再到今天的深度卷積神經網絡,圖像表示問題已經有了幾十年的研究。在報告中,孫劍提到,在2018年的時候,其研究團隊提出的ShuffleNetV1就結合了分組和點卷積的思想,這個網絡第二步採用Shuffle操作,從而保證種通道信息可以交換,隨後的ShuffleNet v2改善了V1的第一步,強調通道切分和局部卷積,也讓模型更加高效。

作者 |  蔣寶尚

編輯 |  叢末

5月8日上午,曠視首席科學家、西交大人工智能學院院長孫劍博士在線做了一場“視覺計算的前沿進展”的報告,報告是由「信息技術新工科產學研聯盟」主辦的人工智能教育線上公開課。

孫劍博士在報告中將當前使用卷積神經網絡的計算機視覺分兩個方面進行了探究:

1、卷積神經網絡,核心可以歸納爲:網絡的深度、網絡的卷積操作、網絡的寬度和網絡的大小。

2、計算機視覺,核心問題可以歸納爲:分類、檢測、分割以及序列。

孫劍表示,針對這些問題,研究員們已經做出了非常多的努力,也有了非常多的進步,但是長尾分佈、自監督學習、遮擋等計算機視覺中的關鍵問題還沒有解決。

下面我們對孫劍博士報告的部分內容作以介紹。

1

卷積神經網絡

計算機視覺包含很多任務,其中一條主線是如何理解一張圖片,也就是圖像的表示問題。從1978年的 2.5D Sketch一直到中間的點特徵、局部特徵再到今天的深度卷積神經網絡,圖像表示問題已經有了幾十年的研究。

當前最主流的方法是深度卷積神經網絡,即輸入一張圖片,經過中間函數的作用,輸出一個類別。但卷積神經網絡到底學到了什麼呢?孫劍提到,學到的東西可以分爲低級表示和高級表示兩個維度,低級表示例如線段、邊緣、紋理等,高級特徵例如如狗、耳朵等。

卷積神經網絡開始的思想很早之前就已經存在,早在80年代,日本科學家提出神經認知機的概念,可以算作是卷積網絡最初的實現原型。90年代Yann LeCun 把這種方法發揚光大,從而學界開始卷積神經網絡的研究。

卷積神經網絡的核心問題可以歸納爲上面幾個:大小、卷積、深度、寬度。其中卷積最核心,作爲一種算子,其具有空間不變性、權重共享等特點,一般3*3的卷積最爲常見。一個3*3的卷積如果再加上通道數的卷積計算,就能提取特徵信息。後來出現的1*1的卷積也非常有效,其能夠有效的降低計算複雜度,融合它的通道信息。

隨後,卷積使用產生了分組思想,即把整體的通道分成不同的組從而完成計算,在降低複雜度的同時,也更加高效。在往下發展,Depthwise概念出現,這個概念假設卷積中的特徵爲3D立方體,第一步先對每一層進行獨立卷積,第二步是把上一步的卷積結果用一個點卷積進行綜合。

在報告中,孫劍提到,在2018年的時候,其研究團隊提出的ShuffleNetV1就結合了分組和點卷積的思想,這個網絡第二步採用Shuffle操作,從而保證種通道信息可以交換,隨後的ShuffleNet v2改善了V1的第一步,強調通道切分和局部卷積,也讓模型更加高效。

最新的卷積設計思想是動態卷積計算,區別於每一層卷積根據前面的輸入不變的思想,能夠根據輸入不同動態生成卷積參數。例如曠視的動態 Channel-wise Mixture 就採用了此思想,增強了模型的擬合能力。

卷積神經網絡第二個核心是“深度”,其有兩個障礙:1.深度神經網絡如果過深則無法訓練;2.實驗結果難以復現。這兩個障礙也是神經網絡在歷史上幾起幾落的重要因素,在2012年以前,神經網絡的深度是有欠缺的。

2012年Hinton和他的學生AlexKrizhevsky 做出了有8層的 AlexNet。兩年之後,19層的VGG網絡和22層的GoogleNet出現,從此科學家開始攻堅“深度”。2015年孫劍領導微軟團隊第一次做出了超過100層的RestNet。

網絡越深,能力越強,如上圖所示,2015年,152層的RestNet在ImageNet圖像分類任務中,誤差精度超越人類。

爲什麼是152層?孫劍提到當時內存約束導致最多可以訓練一個152層的網絡,另外,根據Jeffy Feldman的“100步極限”理論,100多層似乎是最優數目。(100步極限理論:大腦高級決策時間在0.5秒、大腦皮層神經元的電脈衝間隔5ms、大腦計算不會超過100個連續步驟)

ResNet的設計思想在於殘差學習的方式,即根據輸入將層表示爲學習殘差函數。實驗表明,殘差網絡更容易優化,並且能夠通過增加相當的深度來提高準確率。ResNet解決了增加深度帶來的副作用(退化問題),這樣能夠通過單純地增加網絡深度,來提高網絡性能。在2018年ResNet也被用在了AlphaGo Zero訓練,目的在於把棋盤看成圖像,預測落子步驟。

神經網絡的寬度和表示能力強相關,統一逼近定理就是這個理論研究方向(統一逼近定理:一個足夠大的兩層神經網絡可以逼近任意有界連續函數)。但是這個定理只告訴了能夠逼近,但是沒有說明怎樣逼近。

最近的一些研究把傳統機器學習和深度學習進行了對比,傳統機器學習當參數大到一定程度就會從欠擬合走向過擬合。但是用深度學習方法,如果過參數化,往往會有較低的訓練錯誤和測試錯誤,也就是說模型實現了較高的泛化能力。

但是,如果網絡太寬會影響實用效果,一些研究就想着怎麼進行通道裁剪。例如元裁剪方法訓練神經網絡來裁剪網絡、最小二乘實現權重重建、LASSO迴歸實現通道裁剪等等。

最後,網絡的大小,也就是特徵圖的大小也是有研究方向。研究發現如果動態改變特徵數大小,會產生非常有趣或者更好的一些效果,例如可以模擬數據增強效果或者說能夠搜索到更好的網絡構架。

上面四個因素,深度、卷積、寬度、大小分別是單維度研究。目前神經網絡構架搜索研究方向,正在試着將這幾個維度同時聯合優化。其核心是完成兩個迭代的過程:構架搜索和權重訓練。

在報告中,孫劍介紹到,他的團隊目前正在做一個叫做超網絡的方法:第一步訓練超網絡,第二步搜索子網絡直接繼承網絡的權重,如此便能快速找到更好的子網絡。

2

計算機視覺

計算機視覺始於60年代,Larry Robert最早涉及,他的博士論文就是計算機視覺領域的第一篇,當時研究的核心內容是如何用計算機分清一張圖物體和背景。

近幾年的發展也非常迅速,從計算機視覺學術年會CPVR來看,其論文提交數目不斷遞增,2019年已經超過了5000篇論文。這也表示了計算機視覺方向的火熱。

計算機視覺核心問題大概有四個,分別是:分類、檢測、分割、序列。其中分類問題最著名的當屬ImageNet,自2010年以來,每年度ImageNet大規模視覺識別挑戰賽(ILSVRC),研究團隊在給定的數據集上評估其算法,並在幾項視覺識別任務中爭奪更高的準確性。基於計算機視覺-分類,也誕生了許多應用,例如人臉識別、機器人、醫療影像等等。

圖注:基本的檢測框架:1.輸入圖像;2.通過骨幹網絡得到候選框;3.候選框得出局部區域;4.通過檢測頭;5、得到結果。

如果說分類問題涉及一張圖片裏面大概包含什麼,那麼檢測問題不光知道包含什麼,還要知道這個物體在哪裏。傳統方法也能做檢測,但是2013年,在伯克利做博士後的Ross Girshick基於深度學習發明了R-CNN網絡效果吊打傳統模型,至此之後,檢測問題向深度學習找方向。

R-CNN的核心思想是:用傳統方法從圖像中抽取候選區域,然後將候選區域裁成一個一個的方框,隨後將方框饋送到網絡中進行分類。但是這種裁剪方法可能需要在圖像中裁剪1000~2000個方框,會對計算量有非常多的要求。  

於是2014年,SPP-Net出現,直接從特徵圖裁剪,區別於R-CNN在圖像中裁剪,極大節約了計算量。

2015年 Faster R-CNN出現,打破了傳統的候選框計算方式,直接設計神經網絡抽取候選框。這也意味着第一次物體檢測問題能夠全部用深度學習方法實現。

隨後,2017年ICCV的最佳論文提出Mask R-CNN 進一步擴展深度學習方法,不但能夠輸出框,還能夠輸出物體的形狀。

後來的RetinaNet和YOLO V3方法更加高效,一步就能夠得到結果;Dense Box和FCOS能將整個方式更加簡化。

然後,孫劍介紹了介紹了一個名爲MegDet的物體檢測器,表示它第一次從框架上支持超大mini-Batch訓練,多機訓練可以加速16倍,並且精度更高。還介紹了 objects365 V2 數據庫,其包含365種常見物體,2百萬張圖像,2.8千萬個人工標註框。  

除此之外,孫劍提到物體檢測中的遮擋問題是計算機視覺中非常前沿的研究,如果一張照片中有兩個人,一個人被另一個人部分遮擋,雖然人類的眼睛非常容易分辨出,但是因爲包含推理,所以對於計算機來說是個非常困難的問題。

區別於單預測方法,去年他們的“一個候選框多個預測結果”的方法已經在嘗試解決遮擋問題了。

在計算機視覺中雖然已經取得了非常多的進步,但是還有一些關鍵問題沒有解決,例如長尾分佈就是機器學習中的核心難題,也即對於不經常發生或者不易常見的數據很難有充足的訓練樣板,以至於機器學習方法就很難訓練好模型。

如何不通過大量有監督的訓練標註方法就能達到很好的學習效果(自監督)?如何把一個視頻序列中的同一個物體很好的關聯起來?顯然,今天深度學習的方法並不能很好的測試和解決這些問題。

點擊"閱讀原文",直達直播頁面

相關文章