百度提出语音合成新模型,语音合成系统

这项技术适用于个人语音助理构建、游戏数字化角色设计、有声读物、残疾人语音系统等语音内容表达 。根据我的实际使用经验,给你推荐三款实用又简单的语音合成软件:朗读女、Balabolka、TTS语音合成工具 。但我们不可否认,人工智能改善了语音合成技术 。
语音合成有哪些方法?

百度提出语音合成新模型,语音合成系统


让声音听起来更自然,是语音合成的核心挑战,即使目前最普遍的语音助手,如Siri或Alexa,一发声给人的第一感觉仍然是,“哇!这是计算机!”背后原因在于这些语音助手系统的工作原理:根据预录的声音文档整理出词汇,再通过另一个新的音频文档将这些词汇拼凑在一起发声 。现在,人工智能改善了这个问题 。三名蒙特利尔大学的博士生创立的初创企业Lyrebird开发了一款智能语音合成软件Lyrebird,可以复制人类的声音,并用这个声音合成其他声音 。
【百度提出语音合成新模型,语音合成系统】这话听起来比较绕,通俗点说,这款AI工具可以把你的声音生成川普、奥巴马、希拉里三个人的声音来一段对话 。Lyrebird利用深度学习技术,能在1分钟“倾听”过程中“掌握”每个人说话时字母、音位和单词的发音特点,通过推理并模仿这个人声音中的情感和语调,“说”出全新的语句 。这项技术适用于个人语音助理构建、游戏数字化角色设计、有声读物、残疾人语音系统等语音内容表达 。
当然,如果你深爱自己性感的嗓音并希望将一切文字内容都转化为这种声音,Lyrebird同样能够帮上大忙 。如下图,Lyrebird应用需要30个句子(音频长度约为1分钟),来创建数字化语音输出结果 。开发该系统的蒙特利尔大学学习算法实验室博士后亚历山大·布瑞比森表示,在学会并模仿了几个人的声音后,再模仿任何一个新对象的语音就会变得更快,因此新语音系统不需太多信息,1分钟足以捕获某个人声音的核心特点 。
结果生成一段语音片段,既读出了我录制的声音,又包含大量我在录制过程中并未使用的词语 。这种方式显然限制了人们的想象力,不要妄想随意上传一段周杰伦的音频,试图生成以假乱真的其他语音内容,因为Lyrebird应用要求必须首先录制它屏幕上显示的句子,并且提供多种方式对提交的任何音频加以分析,借此判断音频内容是否属实或存在伪造迹象 。
然而就目前而言,Lyrebird生成的音频可能还经不起详细推敲——音频取证专家完全能够通过分析发现其中的异常与线索,从而验证是否属于合成产物——美国卡内基梅隆大学语言技术研究所教授迪莫·鲍曼指出,Lyrebird的语音系统和真正的人声之间还有差距 。“我仔细听过琴鸟系统的发声,带有背景噪音,以及微弱的机器人特征 。
而且,它还不能模仿人们在讲话中的呼吸和唇部运动,因此仍然能听出其计算机语音特征 。”他因此认为,语音系统真正令人信服地复制人声,还需再等几年 。另一个暴露的问题,我们还缺少用于分析伪造音频的文化、习惯或者易于使用的成熟工具 。这意味着,伪造音频的门槛很低,而发现虚假信息传播者的难度也将因此而提高 。但我们不可否认,人工智能改善了语音合成技术 。
Lyrebird强调,获得的音频样本越丰富,数字语音输出结果质量就越好 。Lyrebird提到,其核心主旨在于为社会作出贡献:我们向任何潜在用户提供这项技术,为了逐步推出更为完善的方案以确保社会能够适应这项技术,并立足积极层面取得良好效果——同时尽可能防止潜在的负面应用方式 。Lyrebird也提到,只要获得他们的许可,可以为任何用户提供高质量数字语音输出结果 。

推荐阅读