clixsense怎么注册 clixsense( 二 ) _云知道

之前各位老师已经介绍了语音技术领域的若干研究任务，如声纹识别、语音分离与增强等。话者转换是一种语音生成的任务，同时这个任务也和说话人的身份信息相关——之前介绍的声纹识别是从语音中识别身份，而话者转换是对语音中身份信息的控制和调整。
我的报告会围绕三个部分进行：
话者转换的任务定义；
平行语料和非平行语料的话者转换方法；
基于表征解耦的非平行语料话者转换方法。
话者转换，又称语音转换，英文名为 Voice Conversion，指的是对源说话人的语音进行处理，使它听起来接近目标发音人，同时保持语音内容不变。
类比于计算机视觉领域的人脸替换工作，如 Deepfake 等，话者转换是对语音信号中的说话人身份信息进行处理，其应用领域包括娱乐化应用和个性化的语音合成等。同时，身份的匿名化、一致化也会使用到话者转换技术。
话者转换技术经过了从规则方法到统计建模的发展历程。现阶段的基于统计建模的话者转换方法，其转换过程通常包括三个主要步骤：
源说话人语音输入后，首先经过声码器从语音信号中抽取声学特征，如梅尔谱、基频等；进一步通过声学模型P（Y|X）进行由源说话人声学特征X到目标说话人声学特征Y的映射；映射得到的声学特征最后通过声码器重构语音信号。
今天我们介绍的内容主要围绕中间的统计声学模型展开。在对于话者转换任务的背景介绍后，下面着重介绍平行语料和非平行语料条件话者转换任务的区别、主要方法，以及我们做过的一些相关工作。
那么什么是平行语料？
在训练阶段，如果源和目标两个说话人朗读过同样的文本，就可以得到他们之间的平行语料。基于平行语料，可以直接建立转换模型描述两个说话人声学特征之间的映射关系。在转换阶段，输入新的源说话人声音，就可以通过转换模型进行目标说话人声学特征的预测。
在深度学习出现之前，在平行语料语音转换中，最经典的方法是基于高斯混合模型(GMM)的方法。
其基本的策略是，两个说话人录制了平行语料后，考虑到两个人的语速、停顿等不一致带来的声学特征序列长度差异，需要先利用动态时间规整（DTW）算法进行序列的对齐，得到等长的 X 序列和 Y 序列。接着，将每个时刻的源说话人声学特征与目标说话人声学特征进行拼接，进一步训练得到两个发音人声学特征的联合概率模型P(X,Y) 。
进一步，我们由 P(X,Y) 可以推导出 P（Y|X）。在转换的时候我们就可以把源说话人的声学特征X 送到模型中，将目标发音人声学特征Y预测出来。使用的预测准则包括最小均方误差(MMSE)和最大似然估计(MLE)等。
不过，基于 GMM声学建模的语音转换质量还是不尽如人意。一方面转换的音质不够高，声音听起来有机械感；二是和目标人的相似度不够好。这些都和声学模型的精度不足有关系。
针对以上问题，自2013年开始，深度学习被广泛应用与语音转换的各个技术环节，如特征表示、声学建模、声码器等。今天重点关注的是声学模型，即如何更好的建模P(Y|X) 。
现在来介绍我们早期所研究的一种基于深度神经网络(DNN)的语音转换方法，该方法使用的是逐帧转换的DNN声学模型。由于将DNN模型直接用于源说话人声学特征到目标说话人声学特征的映射，并基于传统MMSE准则进行模型参数更新，所取得的性能提升有限。因此，我们设计了一种产生式训练方法，用于训练语音转换DNN 模型参数。其思路是，先训练两个受限玻尔兹曼机(RBM)模型，将 X 和Y分别映射到相对紧凑、高效的二值表征；然后再建立一个双向联想记忆(BAM)模型，描述两个发音人二值表征间的联合概率；最后组合RBM和BAM，形成 DNN 模型，该模型参数不再需要基于MMSE准则的参数更新。实验结果表明，该模型对比 GMM在主观质量上具有明显优势。

clixsense怎么注册 clixsense( 二 )

推荐阅读

苹果5S怎么设置移动4g网络

家长如何培养孩子的自理能力的方法家长如何培养孩子的自理能力

奔驰eqc上市了吗

耐冬花的修剪方法

儿童超轻粘土教程

莆田流产了产假天数怎么计算？附生育津贴发放规定

忘记锁屏密码解决办法忘记密码如何解锁

难受想哭的经典语录

QQ运动轨迹记录怎么看，怎么使用qq记录跑步

清炒山药的做法清炒山药的做法家常

良乡哪里可以办护照

济南美里湖房价涨了那,济南东部房价还会涨吗

唐家三少作品都有哪些

iPad虚拟键盘有哪些技巧？iPad虚拟键盘使用技巧

为什么鸡是鸡蛋里孵出来的

我来教你华为nova5中打开多任务的操作方法。