摘要:这一时期,车载语音交互不再只是语音厂商的独角戏,越来越多的OEM、供应商开始重视语音交互在智能座舱中的应用,纷纷与语音厂商建立深度合作关系,或者直接投资入股。2016年9月1日,成立近7年的车载语音交互厂商普强信息宣布C轮融资,迎来在车载导航领域低调布局的战略投资者四维图新。

撰文 | 陈雪峰

图片 | 网 络

在智能电动汽车的盛世狂欢中,一则与车载语音相关的专业新闻却被许多人忽略。

5月8日,全球最大的语音和语言解决方案提供商Nuance宣布与斑马网络达成合作,将Nuance会话型人工智能语音识别技术引入斑马网络最新的智能网联系统斑马智行MARS(V3.0)。

有业内人士惊呼,斑马是不是要放弃阿里云ET智能语音?当然不是。

也许你没听说过Nuance,但一定知道苹果公司的Siri,该系统就采用了Nuance的语音技术。在2013年之前,Nuance几乎是车载语音的代名词,占据了国际主流OEM语音交互的市场。但是,它一直寂寂无名,直到与苹果合作后,声名鹊起。

现在,Nuance Automotive 以超过40种语言为道路上行驶的超过2.5亿辆汽车提供技术支持,为奥迪、宝马、戴姆勒、菲亚特、福特、通用、现代、上汽、丰田等几乎全部主流汽车制造商打造会话型智能移动体验。

据长期关注该领域的资深媒体人孟为分析,斑马与Nuance合作原因有二:其一、斑马2.0中对于英语的识别一直是软肋;其二、从斑马1.0 的Nuance,到2.0换为阿里云ET智能语音,再到3.0可以在阿里云或Nuance两者之间选其一,这可以看作是一直生长于阿里生态中的斑马尝试努力接入更多外部资源的尝试。

如果从另一个角度解读,两家公司的分分合合,则昭示着车载语音江湖错综复杂的竞合关系。

在车载语音领域布局的不只是这些软件供应商,主机厂也在加速布局。不久前,特斯拉首席执行官伊隆·马斯克表示,特斯拉正在研究一系列新的语音命令,努力为车辆带来更好的人工智能助理体验。

特斯拉是智能汽车的全球领先者,而智能的汽车一定离不开智能的语音交互。因为它可以简化车内的操控界面、操控方式,让驾驶者更方便地操控车辆的功能。在取代传统的交互方式后,还可以与驾驶员甚至车内乘客进行更深层次的“数据交互”,达到心领神会的境界。

如果到了真正的智能时代,智能语音将会成为乘员的AI助手。这是车载智能交互的终极奥义,但实现起来并不容易。这也是近年来诸多势力前仆后继,在此领域争锋、竞合的原因所在。

车载语音起航

智能语音交互的发展,离我们并不遥远。

对于普罗大众而言,智能语音交互最初的概念,来源于微软的小冰、苹果的Siri。它们能听懂用户说话,并通过大量的语音数据库训练,找到用户会话之间的某种关联性,提取相应规则内的词语或语句,反馈给人类。

这是一个复杂的过程,需要一定实力的公司才能推进。

在国内,提到语音交互的先驱,必然绕不开中科大的科大讯飞。早在2012年,科大讯飞即提出基于云加端的架构,以及自然语言理解的技术,使汽车上的语音交互更加自然。

几乎在同一时期,未来车载语音交互的选手也开始入场。2011年,博泰与科大讯飞合作推出全球第一台自然语言的交互系统iVoka;2012年06月,云知声成立,同年出门问问成立;这一年,已在剑桥成立5年的思必驰也有所动作,联合创始人俞凯在上海交通大学创建智能语音技术实验室,将人机口语对话系统的全面技术引入国内。

2014年,思必驰推出业内首个麦克风阵列的降噪技术,可用于对声场的空间特性进行采样并处理,使得“声控”成为可能,尤其是在复杂的车载环境中。

这段期间,由于中文环境的特殊性,科大讯飞在国内车载语音市场独领风骚,占据了大半市场。与之相对应的是,各大OEM都在推出功能重叠、几无差异的车载语音功能。

正是这些当年的语音交互新人,共同拉开了车载语音交互的大幕。接下来的三年,则是初创公司与OEM和Tier亲密接触的美好岁月。

2015年3月23日,上市公司均胜电子的全资子公司均胜车联宣布,收购语音识别公司车音网10%的股权。

2016年9月1日,成立近7年的车载语音交互厂商普强信息宣布C轮融资,迎来在车载导航领域低调布局的战略投资者四维图新。

2017年1月,刚刚获得1000万美金融资的初创公司蓦然认知,宣布要重点布局车载领域,其合作伙伴包括四维图新;同年4月,出门问问获得大众汽车集团1.8亿美元D轮融资,双方还成立了合资公司。

这一时期,车载语音交互不再只是语音厂商的独角戏,越来越多的OEM、供应商开始重视语音交互在智能座舱中的应用,纷纷与语音厂商建立深度合作关系,或者直接投资入股。

对于车载语音提供商而言,汽车厂商和Tier1的入局加速了行业的发展进程,也意味着越来越多的资本和玩家将涌入赛道。

2017年6月,云知声发布智能中控方案Pandora,随即完成近3亿元C轮融资。一年之后,其C轮系列融资总额定格在13 亿元人民币,创下语音技术领域单轮融资最高记录。

▶︎云知声CEO黄伟

几乎在同一时间,思必驰宣布获得D轮5亿元人民币融资,元禾控股、中国民生投资集团领投,深创投、富士康、联发科跟投。

BAT欲一统江湖

在互联网领域,如果某个细分市场出现了巨大的市场机遇,一定少不了BAT的身影。

毋庸置疑,语音交互是一个未来车载交互的重要入口,也是用户数据、服务数据、定制化数据的重要采集端。初创公司们的优势是先行一步,BAT则是瞄准时机,重兵涌入。

2017年7月5日,百度正式对外发布DuerOS开放平台,该平台包括智能设备开放平台和技能开放平台,支撑这两个平台的则是DuerOS对话核心系统,其应用领域之一即是车载交互。

▶︎博泰集团创始人兼董事长应宜伦

发布会当天,车联网供应商博泰集团宣布与DuerOS合作,让“AI赋能汽车”。随后,百度相继与东风、福特等OEM建立合作关系,推进落地。

2017年底,腾讯发布腾讯车联“AI in car生态系统”,并与广汽、长安、吉利、比亚迪、东风柳汽等主机厂达成战略合作。AI in car系统的核心,事实上就是以腾讯语音助手为车载语音输出控制能力,建立车载交互中心,用腾讯生态体系下的内容浇灌成长。

号称要打造国产车载OS的阿里AliOS,在同上汽合作成功后,也没有忘记替换掉Nuance,研发自己的语音交互系统。

BAT的入局,凸显出车载语音交互的重要性,但对于语音交互厂商而言,苦乐参半。特别是国内创业公司,在上升过程中一旦遇到BAT,不是被收购就是被针对,鲜少有突围者。

云知声CEO黄伟曾透露,2013年BAT其中一家想要收购云知声,但最终他拒绝了收购邀约,选择了另一条路。

2018年9月,云知声与吉利集团旗下亿咖通科技(ECARX)宣布共同出资成立一家合资公司,落地在合肥高新区。

双方的合作将基于云知声的语音识别、语音合成、声纹识别、语义理解以及后续不断拓展的图像等AI技术,融合亿咖通科技在车载云平台、内容和车载产品等方面的设计经验,开展面向汽车前装市场的车规级 AI 芯片研发。

2019年初,思必驰发布AI语音芯片:深聪TAIHANG芯片(TH1520),可应用于车载、智能终端等领域。普强信息则借助四维图新旗下的杰发科技,推进其“云+端+芯片”的车载语音方案。

为提升与BAT同台竞技的砝码,语音厂商们在获得巨额融资后,直接将语音识别处理的软件算法之争,拉到芯片竞争的层面。这时,从表面看起来大家都站在了同一起跑线上。

但是,热衷于军备竞赛的自主车载语音厂商,真的能依靠资本赢下这一城吗?

鹬蚌相争,渔翁得利

语音交互分为三个阶段,听清、听懂和会意。首先要解决语音的识别,其次要能让机器读懂语音的意思,这都需要依靠深度学习神经网络的不断迭代升级。

但是,由于车载环境的特殊性,不能随意增大处理器算力以及功耗,目前的语音识别多依赖云端处理,在网络环境良好的情况下才能达到较好的语音识别。识别之后,自然语音理解、对话管理、自然语言生成才能进行下去。

这是一个复杂的过程,需要专业的厂商来做。众所周知,未来的社会,是数据为王,无论OEM、语音厂商还是终端集成商,都希望拥有数据。但各自为政,并不能促进语音技术的升级,服务的多样化,应用的便利性。

一位业内资深人士表示,车载语音交互不能走车联网发展的老路,供应商的角色在供应链中处于被动局面,OEM拥有大量数据却不能有效利用。

他认为,行业需要一个集成化、定制化语音交互的服务提供商,站在语音技术供应商和OEM之间,充当二者的桥梁。既可以灵活选择不同的语音技术方案,也可以提供定制化、多样化的语音交互产品,供OEM放心使用,无须担忧数据落灰。

换言之,对于OEM而言,一个灵活可插拔式的服务平台,更具有吸引力。对于整个车载语音交互产业链而言,开放、灵活、自主型的平台型服务提供商,可能会成为未来的趋势。

时下,国产车载语音交互的江湖乱战仍在继续。有一种观点认为,最终的得利者可能并不是语音技术的提供方,而是中立的第三方平台型服务商。也就是说,谁拥有成熟的上下游资源,谁就最有可能成为未来车载智能语音交互产业链的话事人。

至于语音交互的下一个时代,智能不再只是空谈,而是真正走进人们的体验当中。

首先,语音交互不再仅限于简单的语音识别,提供命令式的服务,而是会通过记录用户使用习惯、喜好等数据,当用户提出相应的服务要求时,为其提供满足甚至超出预期的服务。

达到这一步,既需要在用户数据方面的积累,同时也要有强大的语音交互引擎做支撑,这些都是基础能力,有了基础能力才能更聚焦探索智能化的服务。

其次,在语音之外,因为部分交互的便利性,手势、视觉等交互也会发挥作用。届时,车载交互将会呈现出一个多模态交互的状态。

—END—

ROAD

BOOK

相关文章