clixsense怎么注册 clixsense( 二 )


之前各位老师已经介绍了语音技术领域的若干研究任务,如声纹识别、语音分离与增强等 。话者转换是一种语音生成的任务,同时这个任务也和说话人的身份信息相关——之前介绍的声纹识别是从语音中识别身份,而话者转换是对语音中身份信息的控制和调整 。
我的报告会围绕三个部分进行:
话者转换的任务定义;
平行语料和非平行语料的话者转换方法;
基于表征解耦的非平行语料话者转换方法 。
话者转换,又称语音转换,英文名为 Voice Conversion,指的是对源说话人的语音进行处理,使它听起来接近目标发音人,同时保持语音内容不变 。
类比于计算机视觉领域的人脸替换工作,如 Deepfake 等,话者转换是对语音信号中的说话人身份信息进行处理,其应用领域包括娱乐化应用和个性化的语音合成等 。同时,身份的匿名化、一致化也会使用到话者转换技术 。
话者转换技术经过了从规则方法到统计建模的发展历程 。现阶段的基于统计建模的话者转换方法,其转换过程通常包括三个主要步骤:
源说话人语音输入后,首先经过声码器从语音信号中抽取声学特征,如梅尔谱、基频等;进一步通过声学模型P(Y|X)进行由源说话人声学特征X到目标说话人声学特征Y的映射;映射得到的声学特征最后通过声码器重构语音信号 。
今天我们介绍的内容主要围绕中间的统计声学模型展开 。在对于话者转换任务的背景介绍后,下面着重介绍平行语料和非平行语料条件话者转换任务的区别、主要方法,以及我们做过的一些相关工作 。
那么什么是平行语料?
在训练阶段,如果源和目标两个说话人朗读过同样的文本,就可以得到他们之间的平行语料 。基于平行语料,可以直接建立转换模型描述两个说话人声学特征之间的映射关系 。在转换阶段,输入新的源说话人声音,就可以通过转换模型进行目标说话人声学特征的预测 。
在深度学习出现之前,在平行语料语音转换中,最经典的方法是基于高斯混合模型(GMM)的方法 。
其基本的策略是,两个说话人录制了平行语料后,考虑到两个人的语速、停顿等不一致带来的声学特征序列长度差异,需要先利用动态时间规整(DTW)算法进行序列的对齐,得到等长的 X 序列和 Y 序列 。接着,将每个时刻的源说话人声学特征与目标说话人声学特征进行拼接,进一步训练得到两个发音人声学特征的联合概率模型P(X,Y) 。
进一步,我们由 P(X,Y) 可以推导出 P(Y|X) 。在转换的时候我们就可以把源说话人的声学特征X 送到模型中,将目标发音人声学特征Y预测出来 。使用的预测准则包括最小均方误差(MMSE)和最大似然估计(MLE)等 。
不过,基于 GMM声学建模的语音转换质量还是不尽如人意 。一方面转换的音质不够高,声音听起来有机械感;二是和目标人的相似度不够好 。这些都和声学模型的精度不足有关系 。
针对以上问题,自2013年开始,深度学习被广泛应用与语音转换的各个技术环节,如特征表示、声学建模、声码器等 。今天重点关注的是声学模型,即如何更好的建模P(Y|X) 。
现在来介绍我们早期所研究的一种基于深度神经网络(DNN)的语音转换方法,该方法使用的是逐帧转换的DNN声学模型 。由于将DNN模型直接用于源说话人声学特征到目标说话人声学特征的映射,并基于传统MMSE准则进行模型参数更新,所取得的性能提升有限 。因此,我们设计了一种产生式训练方法,用于训练语音转换DNN 模型参数 。其思路是,先训练两个受限玻尔兹曼机(RBM)模型,将 X 和Y分别映射到相对紧凑、高效的二值表征;然后再建立一个双向联想记忆(BAM)模型,描述两个发音人二值表征间的联合概率;最后组合RBM和BAM,形成 DNN 模型,该模型参数不再需要基于MMSE准则的参数更新 。实验结果表明,该模型对比 GMM在主观质量上具有明显优势 。

推荐阅读