專訪孫劍：計算機視覺研究，如何改變了我們的生活？

►圖片來源：www.pexels.com

撰文 | 邸利會（《知識分子》主筆）

責編 | 陳曉雪

知識分子爲更好的智趣生活 ID：The-Intellectual

●　●　●

計算機視覺，聽起來似乎很遙遠的一個名詞。但它的應用，你一定不會陌生。比如，今天在某些城市，如果亂闖紅燈，就可能被路口的攝像頭捕捉到。從美顏自拍，到增強現實（AR）、虛擬現實（VR）遊戲，還有用無人機在人跡罕至的地區檢測高壓線路，背後都有計算機視覺的參與。

在這一領域，孫劍博士是其中的佼佼者。

2009年和2016年，孫劍兩獲計算機視覺領域的頂級會議CVPR（IEEE Conference on Computer Vision andPattern Recognition）最佳論文。2010年，他還入選《MIT技術評論》35歲以下年輕創新者。通過設計152層的神經網絡ResNets，孫劍所帶領的微軟亞洲研究院團隊在2015年獲得ImageNet和MS COCO比賽的五項第一。

在微軟研究院從事研究13年之後，他在2016年7月加入曠視科技，任首席科學家、研究院院長。曠視研究院從事基礎以及應用研究，聚焦於深度學習算法、架構和數據科學。最近，孫劍帶領的曠視研究院團隊獲得了COCO和Places挑戰賽2017的三項冠軍。

在前不久舉行的CCF-GAIR全球人工智能與機器人峯會發表演講後，孫劍博士接受了《知識分子》的獨家專訪。他用自己的研究經歷說明，計算機視覺研究是如何改變我們的生活的。

計算機視覺的核心問題一直沒變

《知識分子》：1993年到2003年，你一直在西安交通大學讀書、做研究，那個時候的計算機視覺的研究面貌跟現在很不一樣吧？

孫劍：其實研究的問題是一樣的。計算機視覺研究的問題幾乎沒怎麼變，因爲核心問題就是研究怎麼樣去做分類檢測、識別跟蹤，大致就是這些問題。

西安交大的“人機所”成立已經30多年了，成立之初就叫人工智能與機器人研究所，那時有做圖像的，比如有國防項目就是用攝像頭看一個車，去跟蹤，這樣就需要做車的檢測、跟蹤，跟今天做的是一樣的。

也有機器人項目。那個時候國有機器人還很少，我的導師鄭南寧老師從日本引進了一臺機器臂的設備，我們專門有一個機器人的組來研究怎麼去控制這個機器人，學習裏面的基本知識，操作機器人抓東西，跟今天的研究也是一樣的。目前這個方向已經有很大進展，但是還不夠，還需要更大的進展，因爲這是更難的問題——感知問題，只是被動的看，怎麼能夠主動地去和世界交互，這個是更難的。看的話，很容易教計算機，給它一張照片，然後就可以學；但是交互的過程，很難有大規模的交互的例子能提供給計算機，讓它理解，所以這個是最難的。

《知識分子》：那個時候，你做什麼樣的研究？

孫劍：人機所其實早期有很多學數學的老師和博士，最早我們做了很多機器學習的事情。機器學習基本的知識、概念，如何做機器學習，我都是在人機所學習得到的，然後把它運用在計算機視覺上。

舉個例子，我自己本科畢業設計時，做了一個硬件設備——硬件電路板，來實現混沌神經網絡，當然現在它不是主流。混沌神經網絡能夠記憶一些模式，是用硬件來實現的，因爲當時的算力在CPU上是做不好的，一定要在硬件上來做這件事情。

我讀碩士的時候，就是用神經網絡來做人臉檢測和簡單的人臉識別工作。但是，其實當時的人臉識別就僅限於人臉或者是一些車牌這樣的識別，能夠做到一定地步。我博士做的方向是3D感知，也就是立體匹配。計算機視覺有兩大核心問題：一個問題是3D重建；一個問題是識別。這樣就把計算機視覺的一些基本問題學習了一下。

《知識分子》：LeCun教授1998年提出LeNet-5，用卷積神經網絡，你碩士的時候的神經網絡是怎樣的？

孫劍：我那時候用的那些神經網絡不是卷積神經網絡，它可以認爲是全連接網絡的一些改進，做了一些分組，跟卷積有點像。卷積神經網絡是我（本科）畢業以後纔出現的，最早做手勢識別、光學字符識別（Optical Character Recognition, OCR），大家也沒覺得那個能怎麼樣，真的就是這樣。後來，在2000年的時候出現了支持向量機（Support Vector Machine, SVM），一統江湖，所有人都在研究這個，所以關注神經網絡的人就更少了。

《知識分子》：你在2009年就得過CVPR的最佳論文獎？

孫劍：對。那篇論文不是關於深度學習的，做的是計算攝影學。計算攝影學是做什麼呢？比如，我們公司有一個業務叫手機智能，不是造手機，而是給手機提供核心的算法，人臉解鎖是很大的一個應用，另外一個是如何讓照片拍得更好看。

計算攝影學是我博士畢業後的一個研究方向，研究如何通過軟件和硬件的修改，拍出更好的或者通過一般的技巧拍不到的照片。比如，今天用手機虛化背景，模擬單反照片的效果，這個就是計算攝影學——修改相機硬件，就能實現這樣的新的效果，以及加了人工智能算法，使畫質得到提升。

計算攝影學是計算機視覺和圖形學的交叉，我做了很長時間這個工作。那個時候手機還沒有這麼強大，做完了以後，目的是應該放到單反相機、卡片機裏面去，但是這些廠商（其實也是對的）需要做快速改動的能力和意願不是那麼強，所以並沒有在相機或者單反上廣泛使用，這大概是在十幾年前的事情。今天，時代不一樣了，相機計算力非常強，裏面有很好的圖像傳感器，甚至在晴天下拍的照片和單反看不出區別。另外，現在的手機廠商也非常重視這個方向，如果看手機發佈會的話，基本上照片拍的效果是競爭的一個亮點，所以這也是我們目前投入很大的一個方向。我們去年成立了曠視研究院的西雅圖分院，專門研究計算攝影學在手機上的創新和應用。

我自己也挺感慨的，以前做研究，做完以後發一些文章，頂多Photoshop裏面可能用一些這樣的算法，離實際生活還是蠻遠的，今天真的能夠用深度學習的方法重新做一輪這樣的問題，能夠很快用在手機上，這個感覺，非常高興。

卷積神經網絡襲來

《知識分子》：你開始研究和使用卷積神經網絡是什麼時候？

孫劍：2013年，我在微軟帶領團隊開始做卷積神經網絡。2012年AlexNet出來，但剛出來的時候也沒有人那麼相信（它多麼好），尤其是在計算機視覺領域。因爲AlexNet只是針對ImageNet，大家不知道它是過擬合了ImageNet，還是在別的任務也管用。2013年的時候，特別是伯克利的RCNN（Regions with CNN features）出現，對於別的數據集的檢測提高也非常大，真的具有很強的通用性，所以大家纔會非常重視。

我們是在2013年開始研究，2014年第一次參加了ImageNet，物體檢測拿了第二。2015年參加比賽的時候，內部就已經開發出了ResNet，ImageNet拿了三個第一名，COCO拿了兩個第一名。而且COCO，只是把ResNet用上去，提升的就非常多，這是我在微軟的工作。其實與此同時，曠視也是非常早，用深度學習來做人臉識別，大概也是在2013年開始的，我還沒到曠視。他們當時在人臉檢測、識別、關鍵點定位上拿了三個世界冠軍，這也是他們做的非常早的一個工作。曠視是最早的用深度學習來做計算機視覺的創業公司之一。

《知識分子》：大衆對人工智能、深度學習的興趣很多是通過AlphaGo這樣的事情，研究者好像一下子都湧到卷積神經網絡的原因是什麼？

孫劍：我覺得擁抱卷積神經網絡也是花了好幾年。2012年AlexNet出來時還有人懷疑，不相信，從2013年到現在也5年了，大家慢慢接受了。深度學習核心思想是，它有端到端學習的思想，儘可能不要人來設計複雜系統，因爲人的設計能力是有限的。所以更多人去用這個思想來做事情。不是說這個思想是新的，而是如果這個思想有效，就會有更多的人願意主動去用。

從圖像識別來說，從ImageNet或者大規模數據學出來的特徵，確實很有通用性。這個特徵並不是說抽取語義特性，而是說它能夠把很多東西分得開，比如說ImageNet出來的模型在醫療圖像上非常好用。醫療圖像數據比較少，先用ImageNet訓練，以後再用少量的數據根據抽出來的特徵再次做學習，可以提供很大的幫助，不然醫療圖像這麼少的數據，又沒有好的特徵，確實很難做什麼事。

《知識分子》：你和合作者在2015年提出ResNet，它解決什麼問題？

孫劍：訓練優化問題。我們在開發之前，大概GoogleNet，VGG就是最好的網絡，大概到20多層，再增加層數就不行了，訓練都訓練不下去；或者訓練的難度非常高，說明整體的優化沒有做好。

其實機器學習大概要解決三個問題，一個是說系統是否可以有能力擬合，能力是否夠。比如，很簡單的一個線性分離器可能無法表示像AlphaGo那麼複雜的映射關係，如果加很多層這樣的神經網絡，能力就是夠的。不過，這也只是說理論上能力夠。

第二個問題要解決怎麼讓它擬合上去，就是訓練優化問題，ResNet是解決這個問題。當然加了ResNet以後，現在可以說是任何深度層的都可以來擬合。大家常用的是幾十層或者是一兩百層這樣的網絡。

第三個問題今天還沒有解決的很好，就是推廣能力問題。比如，確認了網絡在訓練數據、測數據的時候好，如果突然來一個新的場景，能不能也做好？比如說，突然來了一個颳風下雨的天氣，又有一個奇怪的車，車上掉了東西下來，這個東西還沒見過，這就需要推廣能力。這是在訓練數據當中無法大規模收集到的，這個問題今天深度學習也好，人工智能也好，還是長期要解決的問題。這跟人不一樣，人有推理、抽象，有先驗，很多東西都能來幫助我們解決推廣能力問題，泛化能力問題。這是下一個深度學習解決的問題。像人臉識別解決的非常好了，但是還有很多任務沒有這麼好。

《知識分子》：從研究方法上來說，現在是不是一個巨大的改變，都是用深度學習，卷積神經網絡來做？

孫劍：對。基礎都得用這個，結合具體問題的一些領域知識，領域知識用得越多越好。現在深度學習已經成爲一個工具。我們剛從CVPR2018回來，如果看今年的發展的熱點，深度學習已經無處不在了。有幾個Talk很有意思，講者上來就說，我的Talk不包含深度學習，沒用深度學習。像以前專門有論文，題目叫深度學習XXX，今天這樣的論文題目已經很少了，而是真正深入到問題的本身去研究了。

機器學習會長期產生更大的作用

《知識分子》：大家都用深度學習了，以前傳統的方法會完全拋棄嗎？

孫劍：沒有完全拋棄，像3D的話還是不能拋棄的，3D幾何的這些關係，是不能簡單那樣來描述的。包括圖像，其實今天深度學習能做的非常好，但是實際上我們在做很多深入的視覺理解中，擬合一個函數是不夠的，還有很多侷限性，做不到非擬合函數的一些推理功能。比如，如果兩張撲克牌疊在一起很近的話，今天的方法不一定能很好的檢測出兩張牌，但是人是知道這個牌是方形的，多出來一個角不正常，通過推理就能夠推出，下面還有一張牌。人有很強的先驗信息，才能把這個問題做好。

《知識分子》：你今天的主題講的是“雲端芯的計算機視覺”，你覺得現在雲端、終端和芯片上有哪些不同的要求？

孫劍：雲上不用考慮計算量和內存訪問、模型大小的一些問題，或者說是有很鬆的邊界，要追求的是精度問題。在端上，比如說在手機上，它的計算量、內存訪問模式和要求的模型大小都是不一樣的。今天因爲設計網絡結構還是人工的一個事情，所以在雲上設計的模型肯定在端上不是最優的設計，所以需要在端上面設計才能得到更好的效果。

包括在芯片上也是一樣，不光要調結構，而是內部的網絡表示都要採取低精度化的表示，其實這也是神經網絡很神奇的特性，因爲我們一般來說用32位浮點數表示裏面所有的信號，但它（神經網絡）其實很穩健，不用32位，用幾個比特也能夠很好地把這個信息流給傳播了。

因爲我相信人真正的神經系統裏面也不會用32位浮點數表示信號，所以，第一就要設計這樣的算法來適合現有的硬件；第二，其實芯片是演化非常快的一個行業，設計芯片要考慮這個特性，用低精度來設計芯片，這樣就能夠做的非常好。我相信在很多設備上這樣的芯片都會普及，以至於在雲上的一些計算可以圍繞這個芯片來做，今天這個發展非常快，這遠遠不是摩爾定律能夠框起來的，大概幾個月計算量翻一倍，功耗還不變或者說計算量不變，功耗降一半，這個範圍非常寬。

《知識分子》：設計各種各樣的網絡，看起來就像是藝術，你是基於什麼去設計一個算法的？

孫劍：別的科學都沒有Science這個名詞，而Computer Science，計算機科學加了一個Science，其實計算機科學裏面大多數算法都是設計出來的，它跟物理、生物實驗做出來的發現是不太一樣的。我們深度學習有點像計算機科學這個方式，像排序算法是怎麼設計出來的，有各種各樣的排序算法，不是做實驗做出來的。

另一方面，它（神經網絡）跟那些純算法還不太一樣，它和數據相關，跟數據相關的話，跟平臺也相關，所以核心是說，對要做的一些問題要有非常深入的理解，理解有很多細節，理解整個網絡在不同的情況下會怎麼樣，然後從小出發，抓住小的點，把小的點做大，慢慢就可以設計好。

《知識分子》：你對微軟的研究氛圍體會如何？

孫劍：鼓勵基礎研究。深度學習中有一個梯度下降算法、反傳算法，最後監督信號決定了這個系統會是什麼樣子的。我覺得在任何一個組織的話，你希望這個組織做什麼，不做什麼，就相當於一個監督信號。訓練一個分類器，可以接受正樣本、負樣本，這個組織就會像深度學習一樣，自動地去反傳、監督這個信號，形成它的特色。微軟研究院很鼓勵基礎創新，鼓勵對最前沿問題長期如一日的這麼做，這樣纔可能有新的突破誕生。

《知識分子》：在人工智能的科研和教育方面，曠視和大學、科研機構有合作嗎？

孫劍：我們在南京成立了研究院，與南京大學有合作，我們和西安交大人機所、上海科技大學成立了聯合實驗室，和權龍老師在香港科技大學也成立了一個實驗室，因爲想實現互補——3D認知方面和圖像識別方面是要結合在一起的。我們接下來還會找和我們相互補的，不管學校也好，或者研究機構也好，來做這樣的合作。

《知識分子》：年輕人都來學AI，你有什麼樣的經驗可以給到他們？

孫劍：如果看長遠一些，機器學習會長期產生更大的作用。今天雖然說人工智能，但其實大多數是機器學習的基礎知識，包括如何來用統計思考問題的方法，可能很多做事情的方式都是通過這種方式做的。學習這些，我覺得長期來看都是非常有好處的。