很多人把2016年定义为中国人工智能的元年,这一年迎来了人工智能市场的初级爆发,国家也在积极推动人工智能的发展。国外IBM、谷歌等科技巨头在认知、无人驾驶领域持续发力,国内BAT为首的科技公司重头押宝AI技术,微呼科技也在积极的深耕探索人工智能领域。AI正在走进并颠覆我们的生活。 智能客服是人工智能应用的一个前沿阵地,从技术来说覆盖了从语音识别、合成到语言理解多重技术;从应用场景来说,客服行业周围环境对语音交互的影响比较小,最适合智能语音交互落地。智能语音客服可以将人工客服从一些标准化、高度重复并且低价值的工作中解放出来,专注于更复杂、更高端、更具有价值的客户服务。随着AI语音交互的应用,传统的call center转型成以智能语音客服为主,人工干预为辅的呼叫中心是一个必然趋势。
目前行业内采用的是基于语音识别技术和语义分析技术来做呼叫中心录音质检,但是存在很多的问题。
极限元采用了基于语音关键词检索技术、音频对比技术、情感识别技术的录音质检方案,减少语音识别准确率不高带来的录音质检误差,有效提升了录音质检效率。
相关的技术如下:
1、语音关键词检索
将通话录音识别结果输出音频检索网络,指定的语音关键词转换成音素,在检索网络中进行匹配,输出检索结果。(如下图
此解决方案不仅绕开了生成文字所需的解码过程,提高检索效率,还能避免语音转文字可能带来的误差,提高识别准确率。
例如:
客户:最近我的电话信号不好,上不了网。
客服:什么时候开始上不了网呢?
客户:好久了。
客服:您地址在哪呢?
客户:我在xxx这里。
客服:好的,我帮您登记下,您还有别的问题么?
客户:没有了,
客服:谢谢您的来电,再见
语音关键词检索服务器可以识别出这段录音中包含关键词:上不了网,但没有找到其他关键词进行组合逻辑判断,这条录音的检测结果中话务类型为“未定义”,标记为疑似不合格话术,会反馈出现关键词的时间点。
尽管语音关键词检索会造成同音字的误判,但对比语音转文字再进行关键词匹配,造成的误差要小很多,而带来准确率提高和效率提升的优势却很明显。同时对于海量录音数据内容审核的应用场景,也更为实用。
2、音频对比
音频比对是指从音频信号提取特征,通过特征进行比对的方法进行有害信息检索的方法。该方法的核心在于提取的特征值需要满足一定的要求,比如抗噪性、转换不变性、鲁棒性、快速性等特点,主要是为了满足同一音频能够在不同声道下进行准确检索。传统的MFCC、FBANK等声学特征已经不能满足音频比对任务的需求。下图就是一个基于频谱最大值来建模的音频比对方法。在完成最大值点完成建模后,需要进行特征的构建。而特征构建是通过最大值点之间的距离来建模,例如两个最大值点的距离、位置信息作为一个固定的特征来完成音频特征信息的构建。有了上述音频特征之后,就可以对两个不同音频进行检索,最大相似度的地方就是相似点,这种技术最适用于录音片段的检索。
3、情感识别
情感识别解决方案通过分析不同情感状态和语音声学参数的关联关系,抽取出鲁棒声学特征参数,综合考虑不同人对同一段语音的情感感知结果,建立语音情感识别模型。为了提高语音情感识别的鲁棒性,采用非线性建模方法建立情感语音分析模型,有效的解决了噪声环境下情感语音分析问题。针对情感识别中的时序建模问题,采用一种基于特征层建模和决策层建模相结合的多尺度时序建模方法。在特征层实现短粒度的时序建模。在决策层实现更长粒度的时序建模,并与特征层的时序建模实现相互补充。通过上述改进,有效的提高了语音情感识别的准确率,可以对通话者的情感状态进行动态的捕获和跟踪。此外,极限元还可以提供基于音视频多通道情感状态识别的解决方案。