►圖片來源:www.pexels.com

撰文 | 邸利會(《知識分子》主筆)

責編 | 陳曉雪

知識分子爲更好的智趣生活 ID:The-Intellectual

● ● ●

計算機視覺,聽起來似乎很遙遠的一個名詞。但它的應用,你一定不會陌生。比如,今天在某些城市,如果亂闖紅燈,就可能被路口的攝像頭捕捉到。從美顏自拍,到增強現實(AR)、虛擬現實(VR)遊戲,還有用無人機在人跡罕至的地區檢測高壓線路,背後都有計算機視覺的參與。

在這一領域,孫劍博士是其中的佼佼者。

2009年和2016年,孫劍兩獲計算機視覺領域的頂級會議CVPR(IEEE Conference on Computer Vision andPattern Recognition)最佳論文。2010年,他還入選《MIT技術評論》35歲以下年輕創新者。通過設計152層的神經網絡ResNets,孫劍所帶領的微軟亞洲研究院團隊在2015年獲得ImageNet和MS COCO比賽的五項第一。

在微軟研究院從事研究13年之後,他在2016年7月加入曠視科技,任首席科學家、研究院院長。曠視研究院從事基礎以及應用研究,聚焦於深度學習算法、架構和數據科學。最近,孫劍帶領的曠視研究院團隊獲得了COCO和Places挑戰賽2017的三項冠軍。

在前不久舉行的CCF-GAIR全球人工智能與機器人峯會發表演講後,孫劍博士接受了《知識分子》的獨家專訪。他用自己的研究經歷說明,計算機視覺研究是如何改變我們的生活的。

計算機視覺的核心問題一直沒變

《知識分子》:1993年到2003年,你一直在西安交通大學讀書、做研究,那個時候的計算機視覺的研究面貌跟現在很不一樣吧?

孫劍:其實研究的問題是一樣的。計算機視覺研究的問題幾乎沒怎麼變,因爲核心問題就是研究怎麼樣去做分類檢測、識別跟蹤,大致就是這些問題。

西安交大的“人機所”成立已經30多年了,成立之初就叫人工智能與機器人研究所,那時有做圖像的,比如有國防項目就是用攝像頭看一個車,去跟蹤,這樣就需要做車的檢測、跟蹤,跟今天做的是一樣的。

也有機器人項目。那個時候國有機器人還很少,我的導師鄭南寧老師從日本引進了一臺機器臂的設備,我們專門有一個機器人的組來研究怎麼去控制這個機器人,學習裏面的基本知識,操作機器人抓東西,跟今天的研究也是一樣的。目前這個方向已經有很大進展,但是還不夠,還需要更大的進展,因爲這是更難的問題——感知問題,只是被動的看,怎麼能夠主動地去和世界交互,這個是更難的。看的話,很容易教計算機,給它一張照片,然後就可以學;但是交互的過程,很難有大規模的交互的例子能提供給計算機,讓它理解,所以這個是最難的。

《知識分子》:那個時候,你做什麼樣的研究?

孫劍:人機所其實早期有很多學數學的老師和博士,最早我們做了很多機器學習的事情。機器學習基本的知識、概念,如何做機器學習,我都是在人機所學習得到的,然後把它運用在計算機視覺上。

舉個例子,我自己本科畢業設計時,做了一個硬件設備——硬件電路板,來實現混沌神經網絡,當然現在它不是主流。混沌神經網絡能夠記憶一些模式,是用硬件來實現的,因爲當時的算力在CPU上是做不好的,一定要在硬件上來做這件事情。

我讀碩士的時候,就是用神經網絡來做人臉檢測和簡單的人臉識別工作。但是,其實當時的人臉識別就僅限於人臉或者是一些車牌這樣的識別,能夠做到一定地步。我博士做的方向是3D感知,也就是立體匹配。計算機視覺有兩大核心問題:一個問題是3D重建;一個問題是識別。這樣就把計算機視覺的一些基本問題學習了一下。

《知識分子》:LeCun教授1998年提出LeNet-5,用卷積神經網絡,你碩士的時候的神經網絡是怎樣的?

孫劍:我那時候用的那些神經網絡不是卷積神經網絡,它可以認爲是全連接網絡的一些改進,做了一些分組,跟卷積有點像。卷積神經網絡是我(本科)畢業以後纔出現的,最早做手勢識別、光學字符識別(Optical Character Recognition, OCR),大家也沒覺得那個能怎麼樣,真的就是這樣。後來,在2000年的時候出現了支持向量機(Support Vector Machine, SVM),一統江湖,所有人都在研究這個,所以關注神經網絡的人就更少了。

《知識分子》:你在2009年就得過CVPR的最佳論文獎?

孫劍:對。那篇論文不是關於深度學習的,做的是計算攝影學。計算攝影學是做什麼呢?比如,我們公司有一個業務叫手機智能,不是造手機,而是給手機提供核心的算法,人臉解鎖是很大的一個應用,另外一個是如何讓照片拍得更好看。

計算攝影學是我博士畢業後的一個研究方向,研究如何通過軟件和硬件的修改,拍出更好的或者通過一般的技巧拍不到的照片。比如,今天用手機虛化背景,模擬單反照片的效果,這個就是計算攝影學——修改相機硬件,就能實現這樣的新的效果,以及加了人工智能算法,使畫質得到提升。

計算攝影學是計算機視覺和圖形學的交叉,我做了很長時間這個工作。那個時候手機還沒有這麼強大,做完了以後,目的是應該放到單反相機、卡片機裏面去,但是這些廠商(其實也是對的)需要做快速改動的能力和意願不是那麼強,所以並沒有在相機或者單反上廣泛使用,這大概是在十幾年前的事情。今天,時代不一樣了,相機計算力非常強,裏面有很好的圖像傳感器,甚至在晴天下拍的照片和單反看不出區別。另外,現在的手機廠商也非常重視這個方向,如果看手機發佈會的話,基本上照片拍的效果是競爭的一個亮點,所以這也是我們目前投入很大的一個方向。我們去年成立了曠視研究院的西雅圖分院,專門研究計算攝影學在手機上的創新和應用。

我自己也挺感慨的,以前做研究,做完以後發一些文章,頂多Photoshop裏面可能用一些這樣的算法,離實際生活還是蠻遠的,今天真的能夠用深度學習的方法重新做一輪這樣的問題,能夠很快用在手機上,這個感覺,非常高興。

卷積神經網絡襲來

《知識分子》:你開始研究和使用卷積神經網絡是什麼時候?

孫劍:2013年,我在微軟帶領團隊開始做卷積神經網絡。2012年AlexNet出來,但剛出來的時候也沒有人那麼相信(它多麼好),尤其是在計算機視覺領域。因爲AlexNet只是針對ImageNet,大家不知道它是過擬合了ImageNet,還是在別的任務也管用。2013年的時候,特別是伯克利的RCNN(Regions with CNN features)出現,對於別的數據集的檢測提高也非常大,真的具有很強的通用性,所以大家纔會非常重視。

我們是在2013年開始研究,2014年第一次參加了ImageNet,物體檢測拿了第二。2015年參加比賽的時候,內部就已經開發出了ResNet,ImageNet拿了三個第一名,COCO拿了兩個第一名。而且COCO,只是把ResNet用上去,提升的就非常多,這是我在微軟的工作。其實與此同時,曠視也是非常早,用深度學習來做人臉識別,大概也是在2013年開始的,我還沒到曠視。他們當時在人臉檢測、識別、關鍵點定位上拿了三個世界冠軍,這也是他們做的非常早的一個工作。曠視是最早的用深度學習來做計算機視覺的創業公司之一。

《知識分子》:大衆對人工智能、深度學習的興趣很多是通過AlphaGo這樣的事情,研究者好像一下子都湧到卷積神經網絡的原因是什麼?

孫劍:我覺得擁抱卷積神經網絡也是花了好幾年。2012年AlexNet出來時還有人懷疑,不相信,從2013年到現在也5年了,大家慢慢接受了。深度學習核心思想是,它有端到端學習的思想,儘可能不要人來設計複雜系統,因爲人的設計能力是有限的。所以更多人去用這個思想來做事情。不是說這個思想是新的,而是如果這個思想有效,就會有更多的人願意主動去用。

從圖像識別來說,從ImageNet或者大規模數據學出來的特徵,確實很有通用性。這個特徵並不是說抽取語義特性,而是說它能夠把很多東西分得開,比如說ImageNet出來的模型在醫療圖像上非常好用。醫療圖像數據比較少,先用ImageNet訓練,以後再用少量的數據根據抽出來的特徵再次做學習,可以提供很大的幫助,不然醫療圖像這麼少的數據,又沒有好的特徵,確實很難做什麼事。

《知識分子》:你和合作者在2015年提出ResNet,它解決什麼問題?

孫劍:訓練優化問題。我們在開發之前,大概GoogleNet,VGG就是最好的網絡,大概到20多層,再增加層數就不行了,訓練都訓練不下去;或者訓練的難度非常高,說明整體的優化沒有做好。

其實機器學習大概要解決三個問題,一個是說系統是否可以有能力擬合,能力是否夠。比如,很簡單的一個線性分離器可能無法表示像AlphaGo那麼複雜的映射關係,如果加很多層這樣的神經網絡,能力就是夠的。不過,這也只是說理論上能力夠。

第二個問題要解決怎麼讓它擬合上去,就是訓練優化問題,ResNet是解決這個問題。當然加了ResNet以後,現在可以說是任何深度層的都可以來擬合。大家常用的是幾十層或者是一兩百層這樣的網絡。

第三個問題今天還沒有解決的很好,就是推廣能力問題。比如,確認了網絡在訓練數據、測數據的時候好,如果突然來一個新的場景,能不能也做好?比如說,突然來了一個颳風下雨的天氣,又有一個奇怪的車,車上掉了東西下來,這個東西還沒見過,這就需要推廣能力。這是在訓練數據當中無法大規模收集到的,這個問題今天深度學習也好,人工智能也好,還是長期要解決的問題。這跟人不一樣,人有推理、抽象,有先驗,很多東西都能來幫助我們解決推廣能力問題,泛化能力問題。這是下一個深度學習解決的問題。像人臉識別解決的非常好了,但是還有很多任務沒有這麼好。

《知識分子》:從研究方法上來說,現在是不是一個巨大的改變,都是用深度學習,卷積神經網絡來做?

孫劍:對。基礎都得用這個,結合具體問題的一些領域知識,領域知識用得越多越好。現在深度學習已經成爲一個工具。我們剛從CVPR2018回來,如果看今年的發展的熱點,深度學習已經無處不在了。有幾個Talk很有意思,講者上來就說,我的Talk不包含深度學習,沒用深度學習。像以前專門有論文,題目叫深度學習XXX,今天這樣的論文題目已經很少了,而是真正深入到問題的本身去研究了。

機器學習會長期產生更大的作用

《知識分子》:大家都用深度學習了,以前傳統的方法會完全拋棄嗎?

孫劍:沒有完全拋棄,像3D的話還是不能拋棄的,3D幾何的這些關係,是不能簡單那樣來描述的。包括圖像,其實今天深度學習能做的非常好,但是實際上我們在做很多深入的視覺理解中,擬合一個函數是不夠的,還有很多侷限性,做不到非擬合函數的一些推理功能。比如,如果兩張撲克牌疊在一起很近的話,今天的方法不一定能很好的檢測出兩張牌,但是人是知道這個牌是方形的,多出來一個角不正常,通過推理就能夠推出,下面還有一張牌。人有很強的先驗信息,才能把這個問題做好。

《知識分子》:你今天的主題講的是“雲端芯的計算機視覺”,你覺得現在雲端、終端和芯片上有哪些不同的要求?

孫劍:雲上不用考慮計算量和內存訪問、模型大小的一些問題,或者說是有很鬆的邊界,要追求的是精度問題。在端上,比如說在手機上,它的計算量、內存訪問模式和要求的模型大小都是不一樣的。今天因爲設計網絡結構還是人工的一個事情,所以在雲上設計的模型肯定在端上不是最優的設計,所以需要在端上面設計才能得到更好的效果。

包括在芯片上也是一樣,不光要調結構,而是內部的網絡表示都要採取低精度化的表示,其實這也是神經網絡很神奇的特性,因爲我們一般來說用32位浮點數表示裏面所有的信號,但它(神經網絡)其實很穩健,不用32位,用幾個比特也能夠很好地把這個信息流給傳播了。

因爲我相信人真正的神經系統裏面也不會用32位浮點數表示信號,所以,第一就要設計這樣的算法來適合現有的硬件;第二,其實芯片是演化非常快的一個行業,設計芯片要考慮這個特性,用低精度來設計芯片,這樣就能夠做的非常好。我相信在很多設備上這樣的芯片都會普及,以至於在雲上的一些計算可以圍繞這個芯片來做,今天這個發展非常快,這遠遠不是摩爾定律能夠框起來的,大概幾個月計算量翻一倍,功耗還不變或者說計算量不變,功耗降一半,這個範圍非常寬。

《知識分子》:設計各種各樣的網絡,看起來就像是藝術,你是基於什麼去設計一個算法的?

孫劍:別的科學都沒有Science這個名詞,而Computer Science,計算機科學加了一個Science,其實計算機科學裏面大多數算法都是設計出來的,它跟物理、生物實驗做出來的發現是不太一樣的。我們深度學習有點像計算機科學這個方式,像排序算法是怎麼設計出來的,有各種各樣的排序算法,不是做實驗做出來的。

另一方面,它(神經網絡)跟那些純算法還不太一樣,它和數據相關,跟數據相關的話,跟平臺也相關,所以核心是說,對要做的一些問題要有非常深入的理解,理解有很多細節,理解整個網絡在不同的情況下會怎麼樣,然後從小出發,抓住小的點,把小的點做大,慢慢就可以設計好。

《知識分子》:你對微軟的研究氛圍體會如何?

孫劍:鼓勵基礎研究。深度學習中有一個梯度下降算法、反傳算法,最後監督信號決定了這個系統會是什麼樣子的。我覺得在任何一個組織的話,你希望這個組織做什麼,不做什麼,就相當於一個監督信號。訓練一個分類器,可以接受正樣本、負樣本,這個組織就會像深度學習一樣,自動地去反傳、監督這個信號,形成它的特色。微軟研究院很鼓勵基礎創新,鼓勵對最前沿問題長期如一日的這麼做,這樣纔可能有新的突破誕生。

《知識分子》:在人工智能的科研和教育方面,曠視和大學、科研機構有合作嗎?

孫劍:我們在南京成立了研究院,與南京大學有合作,我們和西安交大人機所、上海科技大學成立了聯合實驗室,和權龍老師在香港科技大學也成立了一個實驗室,因爲想實現互補——3D認知方面和圖像識別方面是要結合在一起的。我們接下來還會找和我們相互補的,不管學校也好,或者研究機構也好,來做這樣的合作。

《知識分子》:年輕人都來學AI,你有什麼樣的經驗可以給到他們?

孫劍:如果看長遠一些,機器學習會長期產生更大的作用。今天雖然說人工智能,但其實大多數是機器學習的基礎知識,包括如何來用統計思考問題的方法,可能很多做事情的方式都是通過這種方式做的。學習這些,我覺得長期來看都是非常有好處的。

製版編輯 | 皮皮魚

本頁刊發內容未經書面許可禁止轉載及使用

公衆號、報刊等轉載請聯繫授權

[email protected]

商務合作請聯繫

[email protected]

知識分子爲更好的智趣生活 ID:The-Intellectual

相關文章