该文章整理自AI科技评论腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
语音交互技术链条
智能音箱面对的问题
噪声问题
因为音箱的使用者通常离音箱较远,可能会有明显的室内混响、背景噪声、背景人声等。语音唤醒
需要快速的对语音唤醒作出响应,并且避免误触发。说话人身份识别
存在录音冒认问题说话内容理解
具体操作执行
合成语音响应
具体环节分析
前端:麦克风阵列
硬件:由6个麦克风组成的环形阵列,能够很好的捕捉来自各个方位的声音信息。
噪声消除:ALVP(AI Lab Voice Processing)
在拾音和噪声消除方面,腾讯 AI Lab 的 Voice Processing 解决方案集成了语音检测、声源测向、麦克风阵列波束形成、定向拾音、噪声抑制、混响消除、回声消除、自动增益等多种远场语音处理模块,能有效地为后续过程提供增强过的清晰语音。
语音唤醒:文本相关语音增强(TDSE)技术
《基于文本相关语音增强的小型高鲁棒性的关键词检测( Text-dependent Speech Enhancement for Small-Footprint Robust Keyword Detection)》针对语音唤醒的误唤醒、噪声环境中的唤醒、快语速唤醒和儿童唤醒等问题提出了一种新的语音唤醒模型——使用LSTM RNN的文本相关语音增强(TDSE)技术,能显著提升关键词检测的质量,并且在有噪声环境下也能表现突出,同时还能显著降低前端和关键词检测模块的功耗需求。
声纹识别
含义:根据说话人的声波特性进行身份辨识
应用:个性化
根据不同家庭成员的偏好定制个性化回应、应用组合
识别用户性别年龄信息进行个性化推荐和服务经典声纹识别算法
GMM-UBM :
高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model)GMM/I-vector
DNN/I-vector
DNN:深度神经网络(Deep Neural Network)GSV
高斯超向量
语音识别
问题:多说话人场景、「鸡尾酒会问题」、多语言混杂
“鸡尾酒会问题”(cocktailparty problem)是在计算机语音识别领域的一个问题,当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。
- 结合说话人特征的个性化识别模型
- 中英文混合建模
- PIT(置换不变训练)
语义理解
语音合成
清晰、流畅、自然的语音回应