你的客厅里是否遇到过这种“傻白甜”音箱?他们的基本表现是“远场听不清、也听不懂人话”。

是的,这是目前国内很多智能音箱的一大吐槽点,为了提升远场语音识别的准确性,百度近日推出了一项新技术——基于复数卷积神经网络(CNN)的语音增强和声学建模一体化端到端建模技术,这一长串听起来有些“头疼”的技术名词或将从根本上改变目前语音识别领域的行业现状。

“这项技术完成了数字信号处理和语音识别两个领域的技术革命,不需要任何领域行业的支持,用端到端的一个声学模型,解决两个跨领域的语音识别问题”,百度语音首席架构师贾磊在媒体采访时表示。

“我们获得了比现有百度音箱产品,超过30%以上错误率的下降,即语音识别性能提升超过30%,这也是目前国际业内同行中提升最大的、利用深度学习来完成语音交互的系统”,贾磊随机补充道。

公开资料显示,国际上采用类似思路方法的相对错误率降低仅为16%。百度方面表示,目前该语音识别技术已经被集成到百度最新发布的百度鸿鹄芯片中。

传统远场语音识别技术的BUG

众所周知,远场语音识别是目前语音交互领域的关键技术,也是语音交互技术得以普及的基础。在远场环境(比如站在3米甚至5米远处与智能音箱对话)下,由于目标声源距离拾音器较远致使目标信号衰减严重,加之环境嘈杂,干扰信号众多,最终导致信噪比较低,语音识别性能较差。

为了提升远场语音识别准确率,传统的远场语音识别技术会使用麦克风阵列作为拾音器,再利用多通道语音信号处理技术,增强目标信号,提升语音识别精度。“这是目前绝大多数智能音箱的技术框架,但弊端十分明显”,贾磊坦言。

胖胖了解到,传统方法必须在唤醒拿到波束方向之后才能进行识别,因此目前市面上的智能音箱都会有一个呼吸灯,唤醒后灯会先冲向用户,然后再在灯上面进行识别,如果你绕到灯的背面说话,那么其识别能力便会大大降低。

其根本原因是目前数字信号处理的波束生成技术有三个缺点:首先是必须知道方向以后生成波束,人必须在波束宽度范围内进行识别。实际上,首次唤醒音箱时用户是不知道波束方向的,因此首次唤醒音箱会难。

其次,唤醒音箱之后你要想进行360°任意且持续性的交互(即基于全双工自然对话技术的持续语音交互,目前各大智能音箱厂商都在做),传统的语音识别技术很难做到。这是由于在唤醒后的持续交互时间内,用户是不可能站在原地不动的,很有可能走出波束宽度范围。

最后,先做数字信号处理进行语音增强,再做语音识别分离技术,没有办法实现端到端的打通。这是因为数字信号处理技术是基于语音增强做的语音信号处理,其目的是令语音听起来更清晰,背景噪音更小,但这并不代表语音识别率很高,这两个概念是不同的。百度大脑的语音识别新技术

为此,百度大脑推出了基于复数卷积神经网络的语音增强和声学建模一体化端到端建模技术。据了解,该模型底部以复数CNN(Convolutional Neural Network)为核心,利用复数CNN网络挖掘生理信号本质特征的特点,采用复数CNN、复数全连接层以及CNN等多层网络,直接对原始的多通道语音信号进行多尺度多层次的信息抽取,期间充分挖掘频带之间的关联耦合信息。在保留原始特征相位信息的前提下,同时实现了前端声源定位、波束形成和增强特征提取。

该模型底部CNN抽象出来的特征,直接送入百度独有的端到端的流式多级的截断注意力模型中,从而实现了从原始多路麦克信号到识别目标文字的端到端一体化建模。整个网络的优化准则完全依赖于语音识别网络的优化准则来做,完全以识别率提升为目标来做模型参数调优。

胖胖了解到,这项技术主要包含五方面优势:无需任何数字信号处理和语音识别学科的先验假设;复数CNN网络内存占用少于200K,可以内置到百度鸿鹄芯片内部;利用近场数据和纯粹依靠仿真数据,就可以获得足量的远场训练数据;整个过程是从原始多麦克信号到识别文字的一个端到端训练;以及整个优化过程只有一个优化准则,即字错误率的降低。

“在国内智能音箱行业,这项技术应该是大幅度领先的,因为目前行业大部分都是以数字信号处理为主,除了Google”,贾磊表示。

据悉,尽管Google智能音箱也是采用端到端的解决方案,但是其核心依赖于很多数字信号处理的行业假设,它的模型设计完全是根据数字信号处理模型和功能设计的,而这种设计有两个缺点。

一是,Google将空间波束方向数量定在了10以下,而事实上在CNN领域,空间波束方向可以是10、16、32、以及64,是非常自由的。这是因为Google要和数字处理信号看齐,一定要和空间波束发生关联,所以限制了模型结构。

二是采用滤波结构,没有挖掘跨频带之间的关联,比如100Hz和100Hz发生关系,200Hz和200Hz发生关系,但是100Hz和200Hz之间频带的关联是这个模型没办法挖掘的,原因就是为了模仿线性滤波、数字信号处理的理论。

“我们大胆抛弃了所有数字信号处理行业学科假设,直接利用CNN(CNN指导是有完整仿生学原理的)。我们完全依赖于深度学习学科理论,利用CNN设计了一个前端的特征提取,去挖掘声学信号中最本质的听觉信息(从多路麦克中挖掘)。我们的跨频带信息是可以通过CNN模型充分挖掘的,模型结构没有任何假设,模型的通道数目完全不受空间波束的限制,”贾磊告诉胖胖。

“我们完全打破了学科之间的壁垒,抛弃了学科中现有理论和经典理论对深度学习模型的制约,完全基于深度学习模型理论,基于字的错误率,去优化所有的模型参数,获得了30%的识别提升”,贾磊补充道。

该方法的成功,进一步揭示了深度学习技术在人工智能工业应用中的巨大潜力。同时揭示了端到端建模,跨学科的端到端建模,以及大数据驱动等技术方向,是深度学习下一步产业应用和效果提升的重要发展方向。据了解,百度方面已经完成该技术向百度鸿鹄芯片的集成,其基于百度鸿鹄语音芯片的硬件模组及开发板将于2020年初正式推出。

权威数据机构Strategy Analytics最新报告显示,百度旗下人工智能品牌小度领先优势再次扩大,第三季度全球市场出货量为430万台,同比增长130%,连续三季度保持国内第一。

另一方面,Canalys数据显示,百度智能音箱第三季度出货量同比增长290.1%,在全球前五大智能音箱品牌中增速最快,而小度带屏智能音箱更是凭借230万台的出货量远高于亚马逊,延续2019年上半年全球出货量第一的成绩。

如今,智能音箱行业已经全面步入下半场,百度正在凭借其在语音交互领域的技术优势进一步扩大智能音箱市场占有率,而百度的这项新技术或将影响包括智能音箱和智能电视在内的智能家居行业,集成这项技术的百度AI开放平台也将助力更多开发者带来更优秀的语音交互产品。

相关文章