如果你身处在疫情灾区中,可能接到过这样的电话。

一位小姐姐作为社区服务人员拨通了你的电话,依次询问你是否到访过疫区,关切你最近的身体的状况,有没有发烧,有没有接触过疫区的亲友,甚至最后给你打个气,让你做好防护。

别想太多。其实这个电话可能是人工智能打来的,不信你听听下面的这则电话。

自从新型冠状病毒感染的肺炎疫情发生以来,人工智能和大数据等科技正在助力疫情防控。

一位使用了智能外呼电话系统的社区负责人告诉PingWest品玩,如果不是因为使用了人工智能外呼系统,现在他们的外呼筛查工作应该还在由人工和笔纸完成。

这本身的出发点并没有多么高深。疫情期间,这是一种最常见的防控工作。但也是因为疫情本身的原因,挨家挨户上门变得极其困难——一是如何快速统计社区内几万人甚至几十万人的健康状态;二是工作量很大,一般来说并没有那么多的统计人员;三,更可怕,上门排查让工作人员被感染的风险加大,事情可能会不小心变得更糟糕。

而使用人工智能拨打电话,其实也是在解一道数学题。想象一下,如果使用人工,一个人一分钟可能只能拨出一到两个统计电话,在拥有上千人甚至上万人的社区中这是一件非常费力的事情,并且还需要人工在电脑前一条一条的录入收集回来的信息。而使用人工智能外呼拨打统计电话,一分钟可以同时拨打出上百个,并且电话回访自动记入在案,基本上不需要人做什么事情。

这段回访电话中所使用的人工智能技术来自于同盾科技。后者旨在通过智能语音交互、自然语言处理、计算机视觉和机器学习4大核心研发技术帮助企业及政府提高提质增效,其中智能语音外呼解决方案只是人工智能场景落地的一部分。

定制智能外呼平台

对于同盾科技来说,智能外呼解决方案其实最早可以追溯到2018年发布的智能语音服务平台——“赫兹”。

据同盾科技此前的新闻资料显示,同盾智能语音服务平台—— “赫兹”是基于自然语言处理、语音识别、语义理解、语音合成、声纹识别等核心技术,面向政务、金融、互联网等领域的各应用场景客户群体,提供智能语音服务,提升客户企业智能化、信息化、数字化等综合能力。

随着疫情期间对于语音对话和大数据排查技术的拓展,同盾在智能语音服务平台 “赫兹”的基础之上研发出了智能疫情回访机器人。

利用智能疫情回访机器人,社区负责人可以让人工智能系统自动询问并记录居民疫情信息,最后生成数据统计报告,实现了对于社区人员疫情情况的快速排查和摸底。

PingWest品玩查询同盾科技官网,发现同盾智能外呼解决方案提供了简单易用的话术定制操作界面。

换句话说,同盾提供了场景配置平台,通过简单的参数设置、流程操作等,客户就可以进行灵活可用的场景对话流设计。

“一方面使用同盾开发好的行业细分语义理解模型,也可以方便地构建自己的语义理解模型。而通过对话管理平台,客户也可以利用底层强大和灵活的语音合成音库制作工具,生成客户自己独特和音质出众的机器人⻆色。”同盾科技语音实验室负责人燕鹏举告诉PingWest品玩,而针对不同的场景,同盾也提供定制开发好的语言模型,来保证特定场景下语音识别达到客户期待的实用准确率。

TensorFlow让一切更简单可靠

实际上,同盾为客户提供一揽子的语音交互技术方案,包括语音识别、语音合成、语义理解、声纹识别、语音质检等等。而语音交互技术的底层是高度专业性的机器学习模型,在这其中最重要的部分就是深度学习。

燕鹏举称,基于对相关领域的深刻理解,同盾科技算法工程师选择合适的模型结构,使用当下流行的机器学习开源框架Google TensorFlow进行建模和模型训练,借此构建了准确率和效果达到或超过业界先进水平的对话系统。

具体来说,在建模和模型训练过程中,工程师负责从概念上设计模型结构,而TensorFlow提供丰富和设计优秀的API供同盾科技使用,从而帮助同盾科技快速地搭建新模型和改善旧模型。

在同盾科技语音和自然语言处理的建模中,“常用的模型结构包括循环神经网络(RNN)、卷积网络(Convolution)、注意力机制(Attention);通过灵活的数据输入机制(input pipelines)将领域数据组织成小批量数据进行参数迭代;学习过程中善用统计信息使得模型收敛到最优的状态(比如early stopping);在进行极大规划数据训练时也能从容中断和重启中断的训练过程。”

燕鹏举告诉我们,传统的语音识别流程中,需要HMM模型训练、强制对⻬、神经网络模型训练和区分度训练多个分离的步骤,工程师常常需要维护几千行的脚本,分好几个步骤进行模型训练过程的发起、监督等。

而使用TensorFlow构建端到端语音识别模型可以大幅简化语音识别训练流程,缩短语音识别模型训练时间和降低模型大小。“整个模型训练过程合并成一个步骤,省去了维护大量脚本工具的工作,将模型训练所需时间从此前2个星期缩短到小于1个星期。 ”

在对话系统的多个步骤——语音识别、语音理解和语音合成中,TensorFlow也大大提升了生产效率。利用TensorFlow快速的搭建训练模型后,对话系统的各项指标也领先于业界水平。

在使用智能外呼解决方案时还会经常遇到一个问题——如果一个外呼电话听起来不像真的人类,会被当做机器人电话马上挂机。

同盾科技使用TensorFlow构建端到端的语音合成系统,不光使得整个系统抛弃了传统引擎中必须存在的多个中间步骤,还通过采用适当的模型和不断优化,语音合成的主观音质(MOS)提升了20%,实时率提升了30%。 “采用TensorFlow搭建深度学习模型后,使得合成语音的音质得到大幅度提高,同盾语音机器人的挂机率相比于业内竞品降低了31%。”

在真实世界的语音识别,由于环境噪声和用户口音等多种复杂因素,准确率相比实验室可控环境下要低。如果是新的业务场景,语音识别准确率会降到更低的程度。

燕鹏举称,在语义理解中,为了应对不可避免的语音识别错误对后续模块造成的影响,使用TensorFlow构建深度语义理解模型,包括表示学习预训练模型的采用、分类模型的迁移学习,语义理解模型准确率比使用传统方法提高了15%。

同盾对话机器人中增加了语音识别结果的后纠正模块,使用深度学习模型对带有识别错误的文本进行转换,将其中部分错误进行修复,来提高整体对话机器人对用户意图的理解准确性。语音识别错误得到修正之后,用户语音的理解变得更为准确,交互的轮数比此前降低了20%。

“TensorFlow一些独特或新近推出的功能也在同盾的建模过程发挥了重要作用, 比如动态构图、模型平均、三元损失函数等。”燕鹏举称。

当然另一面是,像TensorFlow这种技术的进步让人工智能识别的准确率得到了大幅提升,也可能会带来它“发音太像人”而引发的新问题,比如技术被滥用做骚扰电话。

任何技术的进步都可能会带来新问题,但技术本身是中立的。燕鹏举也认为,同盾遵循用户信息的保护,外呼电话的名单由同盾的客户来指定,同盾仅仅作为技术提供商给客户提供外呼工具。至于用户语音数据是否保留,客户负责获取用户的授权,保留的语音数据也交由客户来使用。

在疫情防控机器人这个领域来说,它的客户主要是社区以及政府机构,外呼电话多是以政府机构的名义拨出。在疫情战时帮助机构统计工作实现效率提升,那它肯定是好的技术。

目前,我们仍在征集更多杰出的TensorFlow应用案例,你可以扫描海报下方二维码或点击 “阅读原文” 提交案例参与我们的报道!

相关文章