揭秘Siri语音唤醒原理 为啥手机siri谁都可以喊出来( 二 )


揭秘Siri语音唤醒原理 为啥手机siri谁都可以喊出来


图 1:基于多波束特征融合的唤醒模型[1]
以上介绍的基于波束形成的多音区唤醒[1],前端的信号处理(波束形成)和唤醒模块还没有做到联合调优 。因此本文提出了一个基于神经网络的多音区语音增强模型 。该模型读取单个通道的语谱特征和多通道的相位差特征,同时根据预设的若干音区方向(look direction),作者分别提取对应的方向特征(directionalfeature) 。这些方向特征表征每个时频点是否被特定音区方向的声源信号占据,从而驱动网络在输出端增强距离每个音区方向最近的那个说话人 。为了避免因为音区和说话人的空间分布导致目标说话人经过多音区增强模型处理后失真,实验中使用一个原始麦克风信号与多个方向增强输出的信号一起通过注意力机制进行特征融合送予唤醒模型,由于前端的增强是通过神经网络处理的,这样多音区的增强模型与唤醒模型可以进行联合优化,实现真正的前后端一体的多音区语音唤醒 。完整的模型结构在图 2 中描述 。
揭秘Siri语音唤醒原理 为啥手机siri谁都可以喊出来


图 2: 本文提出的基于神经网络的多音区语音增强和唤醒模型[2]
图 3 是一个多音区增强的实例 。两个说话人分别位于图(a)所示位置,麦克风采集的两人同时说话信号谱如图(b). 作者设定了 4 个待增强的方向(0 度,90 度,180 度和 270 度) 。多音区增强模型将会在 0 度和 90 度方向增强蓝色说话人,180 度和 270 度方向将会增强黑色说话人, 增强后的 4 个方向语谱如图(c) 。
揭秘Siri语音唤醒原理 为啥手机siri谁都可以喊出来


图 3: 多音区增强网络输出实例
在图 4 中,作者对比了基于神经网络的多音区增强唤醒模型与基于波束形成的多音区增强唤醒模型和基线的单通道唤醒模型 。可以看出特别是在小于 6dB 的信干比声学环境下,本文提出的做法显著超越其它方法 。不同方法唤醒率测试均在控制误唤醒为连续 12 小时干扰噪声下 1 次的条件下进行的 。
揭秘Siri语音唤醒原理 为啥手机siri谁都可以喊出来


图 4:多音区唤醒模型的性能对比
总结及展望本文提出的多音区语音增强和唤醒的做法,大幅降级了唤醒前端语音增强与唤醒结合使用的计算量,在未知目标声源方位的情形下,同时增强的多个方向声源信号的特征融合可保证目标语音得到增强,给准确的唤醒提供了保障 。在论文中测试的多说话人带噪声的复杂声学环境下,唤醒率达到 95% 。
【揭秘Siri语音唤醒原理 为啥手机siri谁都可以喊出来】多音区的语音增强模型已经与声纹模型结合,形成多音区的说话人验证,提升声纹系统在复杂远场声学环境下的鲁棒性 。未来这一工作可与语音识别等其它语音任务相结合 。

推荐阅读