罗技推出“语音鼠标”，隐藏着百度AI的产业化范式

百度AI针对罗技桌面级的场景进行了单独的优化和适配，以软硬一体的方式帮助罗技打造真正的杀手级产品。

撰文/Alter

编辑/胖爷

罗技和百度AI这对跨界组合，正在重新定义语音输入。

4月13日，全球著名云周边设备供应商罗技推出了一款"语音鼠标"，在百度AI的优先赋能下，用户点击鼠标上的语音键就能进行语音输入，不仅在PC端实现了中英文自由夹杂语音输入，还可以实时进行多种语言的语音翻译。

其实类似的概念并非是罗技首创。早在两年多前就出现了主打"语音输入"的键鼠类产品，诸如"智能鼠标"的概念也被多家品牌借用，但无一成为现象级的爆款产品，PC端语音输入的用户习惯也无从谈起。

百度AI为何要在这个时候进行跨界，并选择牵手罗技这样的市场领导者，背后到底隐藏了什么样的野心？

知易行难的语音输入

人类对语音输入似乎有着天生的执念。

早在2000年前后，个人电脑还属于少数人的玩物，IBM推出的软件工具ViaVoice就开始风靡全球。按照IBM的设想，ViaVoice将在人与机器之间担当"翻译"，只要一句话就能编排文本格式、控制桌面、操作程序、发送Email……

虽然IBM解放双手的革命未能如愿，却为整整一代人种下了"动口不动手"的交互理念。比如在2018年的时候，罗永浩推出了宣称是"下一代个人电脑"的TNT，试图将IBM讲述的"美丽童话"从传说变成现实。遗憾的是，老罗的TNT乃至后面推出的"智能鼠标"，都和ViaVoice一样成了被怀旧的对象。

为何语音输入一度成了悬而未决的世纪难题？可以找到三个直接相关的痛点。

一是连续语音输入的"尴尬"。

语音输入并非没有落地的场景，和智能音箱的语音交互、聊天时的语音识别等等，可以说是屡见不鲜的场景，然而切换到办公时长篇幅的连续输入，现有的语音识别模型常常出现"宕机"的问题。

时间追溯2015年，注意力模型已经是语音识别的主流技术，在语音识别的准确率方面有了突破性的进展，但注意力模型大多是基于整句的建模，通过机器学习选择和当前建模单元最匹配的特征，导致句子越长识别难度就越大，出错的概率也就越高，同时还伴随着较长的用户等待时间。

二是远场语音识别的不足。

网上流传着使用TNT工作站的段子：想要在办公室里用语音操作TNT，先要提前喊一声"安静"，让周边的同事自动进入到消声状态，不然TNT可能不知道是谁在说话，语音识别的准确率让人堪忧。

背后牵涉到的是远场语音识别技术，如果目标生源距离拾音器比较远，将导致目标信号衰减严重，加上嘈杂的外部环境制造了太多的干扰信号，最终导致信噪比较低、语音识别性能比较差。我们已经习惯在手机上对着麦克风说话，但不可能以趴在电脑上的姿势对着屏幕进行语音输入。

三是语言混合输入的难题。

即使不考虑长句子连续输入和远场识别的问题，日益进化的语言习惯也一度制约语音输入的普及。就像很多人在工作中常常出现中英词汇混用的情况，或者有时候飚一句方言，都可能难倒识别工具。

尽管一些语音识别工具推出了多种语言的识别模型，可在过去很长一段时间里，需要用户先手动切换至想要识别的语言，比如你想要用四川话进行语音输入，先要到输入法的设置中将语言设定为四川话，说普通话的时候再去切换回来。不仅进一步增加了用户的学习成本，体验也不尽如人意。

在种种待解痛点的制约下，语音输入的想象固然美好，但前提是进行一场技术上的长征。可以佐证的是，微软刚刚以197亿美元的价格收购了Siri背后的语音技术玩家Nuance，计划将Nuance的语音识别技术和旗下其他产品整合，以接棒在技术和场景上落后而被迫默默退场的Cortana。

百度AI的三步走战略

而在语音技术的赛道上，百度已经奔跑了十年。

2010年百度正式成立了语音团队，主要研发百度语音识别、语音合成等在内的一系列核心技术，并逐步将百度的语音技术应用于小度智能音箱、百度输入法、小度车载助手、百度智能语音呼叫中心等产品。

不过在PC端语音输入的话题上，百度AI在很长时间里并未追逐"智能硬件"的风口，默默制定了语音技术的三步走战略：

第一阶段，语音识别算法的持续打磨。

为了解决连续语音输入的痛点，百度AI的工程师们在注意力模型的基础上，创新性地提出了流式多级截断注意力模型SMLTA，利用CTC算法对连续语音流进行截断，然后对每一个小段的语音进行建模，把原来整句的建模，变成了局部语音小段的建模。这样用户话音一落就可以拿到识别结果，保证了最佳的用户体验。

同时百度AI还针对语言混合输入进行了算法优化，罗技推出的"语音鼠标"VOICEM380就支持8种语言的语音翻译，首次通过罗技鼠标在PC上实现了中英文自由夹杂语音输入，以及粤语、四川话、东北话、河南话等7种方言免切换混合输入。

市场上常见的远场语音识别技术，往往将麦克风阵列作为拾音器，然后利用多通道语音信号处理技术增强目标信号。这种先语音增强后语音识别的思路，在一定程度上提高了识别的准确率，但增强目标和优化目标可能并不一致。

百度AI的思路是"语音增强和语音声学建模一体化"的端到端建模，并提出了基于复数CNN的远场端到端建模方案，利用复数CNN网络挖掘生理信号本质特征的特点，直接对原始的多通道语音信号进行多尺度多层次的信息抽取，避免了由于定位出错而导致识别准确率急剧下降的问题，最终远场语音识别的错误率降低了30%以上。

第三阶段，自研芯片加速产业化落地。

语音输入的隐形制约还有算力和功耗。在语音技术从云端竞争向芯片端延伸的趋势下，算力直接关系着用户体验，但传统芯片的平均功耗在1W以上，算力和功耗的两难，进一步制约了语音输入的应用场景。

在提出端到端的一体化方案后，百度AI将目光瞄向了芯片端。在2019年发布了首款针对远场语音交互研发的鸿鹄芯片，通过端到端的软硬一体化框架，将所有语音交互任务集中到一颗低功耗语音交互芯片上，提取的语音特征直接在云端进行高精准识别。目前鸿鹄芯片的平均功耗只有100mw，完全满足3C产品0.5W的待机标准。

和智能语音同时进化的，还有百度AI的机器翻译，过去十年中在大规模产业化机器翻译模型、海量翻译知识获取、多语言翻译统一框架、机器同声传译等方面进行了系统而深入的研究。特别是基于神经网络的多语言翻译统一框架，在全世界范围内首次实现了203种语言的互译。

百度AI围绕智能语音和机器翻译的战略布局佐证了这样一个事实：技术赛道并非是闭门造车，百度AI对罗技的优先赋能，正是精准把握产业化需求的体现。

产业化的大航海时代

消除了用户体验上的痛点，百度AI开启了语音技术的产业化进程。

罗技推出“语音鼠标”，隐藏着百度AI的产业化范式

热门新闻

周热门

罗技推出“语音鼠标”，隐藏着百度AI的产业化范式

抖音商城版独立APP上线，意欲何为？

汽车街通过港交所聆讯：国内最大二手车交易服务商，腾讯、京东均为股东

ChatGPT火了以后，一个值钱的运营，需要具备的6个能力

公司如何借助GenAI推动创新

美团开启年内第四次架构调整

“All in短剧”背后：上线一个月就能覆盖成本？

华为Pura 70系列来了

10000家芯片公司“死于”2023

AI遥感日渐升温，商汤、珈和坐上加速器

医疗大模型，巨头们的新赛场

竞逐智能家居大模型：美的“蓄力”，海尔“疾行”

博弈加速，58同城、同道猎聘、牛客抢滩AI面试

用数字化系统来驱动管理是本末倒置吗？

欧洲版OpenAI又要融资，估值50亿美元，Llama 2“套壳”也能半年估值翻番？

产品卖爆的背后，情绪价值正在成为主要推力

热门新闻

周热门