摘要:现在不论是扫地机器人也好,以及ADAS也好,没有哪个系统是真正使用摄像头而放弃激光雷达的。即便VSLAM本身已经是一个发展时间很长的技术了,它的数学模型非常好,我们现在仍然没有看到真正搭载纯视觉的导航方式。

【编者按】2020年1月19号-20号,亿欧公司在全国12座城市同步召开“硬科技·创未来”亿欧2020贺岁产业论坛,旨在分享亿欧2019年研究成果及行业理念,并对接下来一年的行业变化趋势与发展做预判。

在1月19号“产业论坛·上海站”,上海市长宁区华阳路街道办事处主任林子岳、百联商业互联网科创中心创新服务&孵化器总经理高歌、阿里巴巴集团高级产品专家陈家驹、肇观电子CTO周骥、佩企信息产品研发及交付中心总监于洪涛、中软国际华为云生态总监王晔俊、悠桦林商务总监倪骅以及亿欧公司上海分公司总经理缪国成与众多企业家共同出席论坛并展开热烈讨论。

以下是肇观电子CTO周骥博士的精彩发言整理:

刚才主办单位(亿欧公司)特别强调,让科技更平等,平等的前提就是充分的了解和传播。所以今天我想利用这个机会讲一个技术。

首先我想介绍一下肇观电子从事的是哪方面技术的研究。我们主要的技术点是视觉、人工智能、芯片设计。之所以选这三个方面作为我们技术的支持点是因为,如果现在要做一套从软件到硬件的解决方案,这三个方面是必须要涵盖在内的。

对于AI视觉,我认为其主要有两个研究方向:一是基于内容的理解,既识别物体及场景,这也是AI目前研究最热门的方面。另外是基于几何的理解。我们除了需要知道它是什么,还要知道它离我有多远,它的几何特性是什么,这是几何的理解。

基于AI的几何的理解领域并不热门,但是在不远的将来可能会超过内容的理解。因为在一个复杂环境内自由移动的时候,仅仅知道这是个人是不够的,你得知道离他有多远,怎么去避障。

几何理解背后是很多数学和几何的基础,我想这是人工智能最大的障碍。你或许能够让人工智能理解一样东西、讲一个故事或者写一篇文章,因为这里面没有特别客观的评价标准,只要让人觉得很舒服、很好就可以了。但是基于几何的理解却不一样,它真的要精确到几毫米、多少度,有非常客观的衡量标准。所以我认为,人工智能在几何理解里只起到一个辅助作用,而背后的数学、几何,甚至物理原理,才是真正起到支配作用的东西。

目前来讲,真正能做到比较精准导航的传感器,无非摄像头和激光雷达。

汽车在飞驰的过程中,不能只是识别交通标志,还必须能够识别障碍物、能够避让汽车,这是典型的几何应用场景。在这类场景中,激光雷达用于进行定位,它的优点在于,距离测量的精度非常高。其次,因为有精度保证,所以它对计算力的要求并不高,容易被开发和落地。

而摄像头与雷达是完全互补的。摄像头的优点是便宜。一般来说,很多摄像头几十块钱一个。第二,摄像头的使用寿命长,没有机械运动部件。第三,摄像头能获取的信息量远远大于激光雷达。

从商业角度来讲,价格是王道。任何东西只要做到了“差不多”的效果,价格降低20%,就一定能把价格高的商品排挤出市场,这也是它的商业价值。

我的观点是,在中低速领域,摄像头会取代激光雷达,而在高速领域内,因为对安全要求太高,则另当别论。

现在不论是扫地机器人也好,以及ADAS也好,没有哪个系统是真正使用摄像头而放弃激光雷达的。之所以这样是因为之前没有合适的视觉芯片可以使用、限制了视觉处理技术的落地;现在的AI技术突飞猛进,使得传统视觉里的技术瓶颈很快被突破。其次,芯片设计和制造的技术发展,使得我们的计算能力大大提高了。这些都使得视觉处理技术的落地应用越来越广泛。

任何一个电子系统都是以算力、功耗、成本为核心指标的。落地一个好的计算机视觉定位和建图算法(VSLAM)算法,需要有很强的硬件支撑。现在芯片制造和芯片设计的发展,使得这个瓶颈渐渐的不再是瓶颈。

即便VSLAM本身已经是一个发展时间很长的技术了,它的数学模型非常好,我们现在仍然没有看到真正搭载纯视觉的导航方式。这是因为我们的生活中充满了噪声,噪声的出现使问题变得极端复杂,比如图像在各种不同光照条件下有不同的信噪比。所以,处理这些信息对计算力的要求也非常高。

另外对于摄像头来讲,单点定位精度远不如激光雷达高。现在学术界和工业界研究的热点还主要体现在用AI直接去做VSLAM,而不是像我刚才说的那样,把AI潜入到更大的数学和几何框架里去做。用AI直接去做VSLAM,我认为就像让人绕着上海人民广场走一圈,就要求他把人民广场的地图画出来,而这个结果与可实用的水平的精确度相比还有相当的距离。

我们既然做VSLAM,总归不是跟一条看不见的龙打仗,我们有具体的目标。

我们评价一个系统准不准,一般看这个系统的偏移率是多少。大家认为你走的时间越长、距离越长,误差就越大。

目前我们为这个事情已经做了不少的工作,这个工作分成两部分:一是不停的实验。我们搭建了很多的实验系统。另外一部分是形式化,用数学的形式表现出来。形式化下,我们现在观察到一些现象或者规律性的东西:

第一,噪声模型在整个系统里体现了非常关键的作用。我们现在的VSLAM系统都是确定性的系统,也就是说,它试图把噪声排解到我们求解之外。但是要做到更加精准,噪声模型就变得非常关键。

第二,我们发现在整个的SLAM过程中有三个要素,定位、建图和跟踪。只要其中两个因素做到准确,第三个因素就会自动准确,这是很重要的规律性的问题。

第三,因为我们知道我们在SLAM过程中,摄像头在不停的拍照,每次拍照都是测量,每次测量虽然噪声都很大,但是把这些所有的信息融合起来,让它能够产生越来越准的结果,这一点是非常重要的。也就是说我刚才讲的,当时间区间无穷大时,误差便趋于0。整个系统必须是一个反馈系统,你做的这个信息,你得到的信息从这里面抽取出一般性的东西,要反馈回来。

最后,做神经网络的都知道一个维度诅咒。也就是说,当你的维度越高的时候,你的优化就越困难。我们在设计整个系统的时候,降维是很关键的,如何把维度降到几何系统足以处理它,是非常关键的东西。

我认为这些发现对于设计和达到我们要求的精准系统是非常关键的。这些东西很多人看起来目前只能用自然语言来描述,还不足以变成程序和算法,要变成算法,我们需要把很多东西公式化和形式化,这是我们现在致力于做的事情。理论的开拓,算法的实现,芯片的能力,使得我们有着很好的条件在“使得智能设备从点A自主移动到点B”这一领域实现突破。

相关文章