语音交互
杜致远

该文章整理自AI科技评论腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018

语音交互技术链条

语音交互技术链条

智能音箱面对的问题

  • 噪声问题
    因为音箱的使用者通常离音箱较远,可能会有明显的室内混响、背景噪声、背景人声等。

  • 语音唤醒
    需要快速的对语音唤醒作出响应,并且避免误触发。

  • 说话人身份识别
    存在录音冒认问题

  • 说话内容理解

  • 具体操作执行

  • 合成语音响应

具体环节分析

前端:麦克风阵列

  • 硬件:由6个麦克风组成的环形阵列,能够很好的捕捉来自各个方位的声音信息。

  • 噪声消除:ALVP(AI Lab Voice Processing)

在拾音和噪声消除方面,腾讯 AI Lab 的 Voice Processing 解决方案集成了语音检测、声源测向、麦克风阵列波束形成、定向拾音、噪声抑制、混响消除、回声消除、自动增益等多种远场语音处理模块,能有效地为后续过程提供增强过的清晰语音。

  • 语音唤醒:文本相关语音增强(TDSE)技术

    《基于文本相关语音增强的小型高鲁棒性的关键词检测( Text-dependent Speech Enhancement for Small-Footprint Robust Keyword Detection)》针对语音唤醒的误唤醒、噪声环境中的唤醒、快语速唤醒和儿童唤醒等问题提出了一种新的语音唤醒模型——使用LSTM RNN的文本相关语音增强(TDSE)技术,能显著提升关键词检测的质量,并且在有噪声环境下也能表现突出,同时还能显著降低前端和关键词检测模块的功耗需求。

声纹识别

  • 含义:根据说话人的声波特性进行身份辨识

  • 应用:个性化
    根据不同家庭成员的偏好定制个性化回应、应用组合
    识别用户性别年龄信息进行个性化推荐和服务

  • 经典声纹识别算法

    • GMM-UBM :
      高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model)

    • GMM/I-vector

    • DNN/I-vector
      DNN:深度神经网络(Deep Neural Network)

    • GSV
      高斯超向量

语音识别

问题:多说话人场景、「鸡尾酒会问题」、多语言混杂

“鸡尾酒会问题”(cocktailparty problem)是在计算机语音识别领域的一个问题,当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。

  • 结合说话人特征的个性化识别模型
  • 中英文混合建模
  • PIT(置换不变训练)

语义理解

语音合成

清晰、流畅、自然的语音回应