肇觀電子周驥：在AI視覺領域，幾何理解將在未來超越內容理解

摘要：現在不論是掃地機器人也好，以及ADAS也好，沒有哪個系統是真正使用攝像頭而放棄激光雷達的。即便VSLAM本身已經是一個發展時間很長的技術了，它的數學模型非常好，我們現在仍然沒有看到真正搭載純視覺的導航方式。

【編者按】2020年1月19號-20號，億歐公司在全國12座城市同步召開“硬科技·創未來”億歐2020賀歲產業論壇，旨在分享億歐2019年研究成果及行業理念，並對接下來一年的行業變化趨勢與發展做預判。

在1月19號“產業論壇·上海站”，上海市長寧區華陽路街道辦事處主任林子嶽、百聯商業互聯網科創中心創新服務&孵化器總經理高歌、阿里巴巴集團高級產品專家陳家駒、肇觀電子CTO周驥、佩企信息產品研發及交付中心總監於洪濤、中軟國際華爲雲生態總監王曄俊、悠樺林商務總監倪驊以及億歐公司上海分公司總經理繆國成與衆多企業家共同出席論壇並展開熱烈討論。

以下是肇觀電子CTO周驥博士的精彩發言整理：

剛纔主辦單位（億歐公司）特別強調，讓科技更平等，平等的前提就是充分的瞭解和傳播。所以今天我想利用這個機會講一個技術。

首先我想介紹一下肇觀電子從事的是哪方面技術的研究。我們主要的技術點是視覺、人工智能、芯片設計。之所以選這三個方面作爲我們技術的支持點是因爲，如果現在要做一套從軟件到硬件的解決方案，這三個方面是必須要涵蓋在內的。

對於AI視覺，我認爲其主要有兩個研究方向：一是基於內容的理解，既識別物體及場景，這也是AI目前研究最熱門的方面。另外是基於幾何的理解。我們除了需要知道它是什麼，還要知道它離我有多遠，它的幾何特性是什麼，這是幾何的理解。

基於AI的幾何的理解領域並不熱門，但是在不遠的將來可能會超過內容的理解。因爲在一個複雜環境內自由移動的時候，僅僅知道這是個人是不夠的，你得知道離他有多遠，怎麼去避障。

幾何理解背後是很多數學和幾何的基礎，我想這是人工智能最大的障礙。你或許能夠讓人工智能理解一樣東西、講一個故事或者寫一篇文章，因爲這裏面沒有特別客觀的評價標準，只要讓人覺得很舒服、很好就可以了。但是基於幾何的理解卻不一樣，它真的要精確到幾毫米、多少度，有非常客觀的衡量標準。所以我認爲，人工智能在幾何理解裏只起到一個輔助作用，而背後的數學、幾何，甚至物理原理，纔是真正起到支配作用的東西。

目前來講，真正能做到比較精準導航的傳感器，無非攝像頭和激光雷達。

汽車在飛馳的過程中，不能只是識別交通標誌，還必須能夠識別障礙物、能夠避讓汽車，這是典型的幾何應用場景。在這類場景中，激光雷達用於進行定位，它的優點在於，距離測量的精度非常高。其次，因爲有精度保證，所以它對計算力的要求並不高，容易被開發和落地。

而攝像頭與雷達是完全互補的。攝像頭的優點是便宜。一般來說，很多攝像頭幾十塊錢一個。第二，攝像頭的使用壽命長，沒有機械運動部件。第三，攝像頭能獲取的信息量遠遠大於激光雷達。

從商業角度來講，價格是王道。任何東西只要做到了“差不多”的效果，價格降低20%，就一定能把價格高的商品排擠出市場，這也是它的商業價值。

我的觀點是，在中低速領域，攝像頭會取代激光雷達，而在高速領域內，因爲對安全要求太高，則另當別論。

現在不論是掃地機器人也好，以及ADAS也好，沒有哪個系統是真正使用攝像頭而放棄激光雷達的。之所以這樣是因爲之前沒有合適的視覺芯片可以使用、限制了視覺處理技術的落地；現在的AI技術突飛猛進，使得傳統視覺裏的技術瓶頸很快被突破。其次，芯片設計和製造的技術發展，使得我們的計算能力大大提高了。這些都使得視覺處理技術的落地應用越來越廣泛。

任何一個電子系統都是以算力、功耗、成本爲核心指標的。落地一個好的計算機視覺定位和建圖算法（VSLAM）算法，需要有很強的硬件支撐。現在芯片製造和芯片設計的發展，使得這個瓶頸漸漸的不再是瓶頸。

即便VSLAM本身已經是一個發展時間很長的技術了，它的數學模型非常好，我們現在仍然沒有看到真正搭載純視覺的導航方式。這是因爲我們的生活中充滿了噪聲，噪聲的出現使問題變得極端複雜，比如圖像在各種不同光照條件下有不同的信噪比。所以，處理這些信息對計算力的要求也非常高。

另外對於攝像頭來講，單點定位精度遠不如激光雷達高。現在學術界和工業界研究的熱點還主要體現在用AI直接去做VSLAM，而不是像我剛纔說的那樣，把AI潛入到更大的數學和幾何框架裏去做。用AI直接去做VSLAM，我認爲就像讓人繞着上海人民廣場走一圈，就要求他把人民廣場的地圖畫出來，而這個結果與可實用的水平的精確度相比還有相當的距離。

我們既然做VSLAM，總歸不是跟一條看不見的龍打仗，我們有具體的目標。

我們評價一個系統準不準，一般看這個系統的偏移率是多少。大家認爲你走的時間越長、距離越長，誤差就越大。

目前我們爲這個事情已經做了不少的工作，這個工作分成兩部分：一是不停的實驗。我們搭建了很多的實驗系統。另外一部分是形式化，用數學的形式表現出來。形式化下，我們現在觀察到一些現象或者規律性的東西：

第一，噪聲模型在整個系統裏體現了非常關鍵的作用。我們現在的VSLAM系統都是確定性的系統，也就是說，它試圖把噪聲排解到我們求解之外。但是要做到更加精準，噪聲模型就變得非常關鍵。

第二，我們發現在整個的SLAM過程中有三個要素，定位、建圖和跟蹤。只要其中兩個因素做到準確，第三個因素就會自動準確，這是很重要的規律性的問題。

第三，因爲我們知道我們在SLAM過程中，攝像頭在不停的拍照，每次拍照都是測量，每次測量雖然噪聲都很大，但是把這些所有的信息融合起來，讓它能夠產生越來越準的結果，這一點是非常重要的。也就是說我剛纔講的，當時間區間無窮大時，誤差便趨於0。整個系統必須是一個反饋系統，你做的這個信息，你得到的信息從這裏面抽取出一般性的東西，要反饋回來。

最後，做神經網絡的都知道一個維度詛咒。也就是說，當你的維度越高的時候，你的優化就越困難。我們在設計整個系統的時候，降維是很關鍵的，如何把維度降到幾何系統足以處理它，是非常關鍵的東西。

我認爲這些發現對於設計和達到我們要求的精準系統是非常關鍵的。這些東西很多人看起來目前只能用自然語言來描述，還不足以變成程序和算法，要變成算法，我們需要把很多東西公式化和形式化，這是我們現在致力於做的事情。理論的開拓，算法的實現，芯片的能力，使得我們有着很好的條件在“使得智能設備從點A自主移動到點B”這一領域實現突破。