实现与逝者跨时空对话 AI光会模仿原声还不够


实现与逝者跨时空对话 AI光会模仿原声还不够



“如果有个直达天堂的电梯 , 我一定不顾一切去看你 。 ”日前火爆抖音的这首神曲唱出了不少人对已逝亲人的怀念之情 。 如果有可以和已逝亲人进行跨时空对话的“黑科技” , 相信对活着的人不啻为一种巨大慰藉 。 而随着人工智能技术的发展 , 与逝者的跨时空对话或有可能实现 。 百度董事长兼CEO李彦宏曾表示 , 人工智能让每个人说的每句话、干的每件事 , 甚至记忆、情感、意识都能以数字化的形式存储下来放在网盘或者其他云端 , 思维方式也可以被机器学习 , 并且通过技术进行还原 , 与后人进行跨越时空的对话 。
模拟和逝者对话 国内外均有尝试
“这种模拟已逝的人与后人进行对话的事情在国内外都有过尝试 。 ”天津大学智能与计算学部博士生导师王龙标教授介绍 , 2011年3月11日日本大地震 , 许多人的生命就此定格在那个瞬间 。 由于灾难发生得非常突然 , 很多遇难者都没有留下只言片语 , 这让不少遇难者家属悲痛欲绝 , 情感上难以接受 。 日本就找了一些科研人员 , 收集遇难者生前保存的声音 , 模仿逝者的口吻写了遗书 , 并且通过语音合成技术 , 还原出逝者的声音并且读给家属听 。 家属听了以后都非常感动 , 觉得了却了自己的一个心愿 , 很多人也因此放下悲伤 , 鼓起勇气 , 勇敢去面对未来的人生 。
在国内比较广为人知的尝试就是2016年 , 在张国荣诞辰60周年纪念活动上 , 百度语音技术团队公布了一段“张国荣”与粉丝的对话实录视频 。 张国荣作为一个时代的巨星 , 影响了千万粉丝 , 当熟悉的声音响起 , 很多粉丝当场落泪 , “张国荣”最后一句“永远站在光明的角落 , 我只希望你们开心快乐地生活”也一扫很多粉丝心头多年的阴霾 。 这段视频是百度语音技术团队通过机器和人工双重搜索全网张国荣的原声和采访资料后 , 合成的张国荣生前的声音 , 并且在录制视频之前征集粉丝想法 , 与粉丝一起完成的“互动”视频 。 这段“来自哥哥”但又“不是哥哥”的语音回复 , 音质完全来自于本人 , 但内容又并不能在任何一段张国荣生前的语音记录中找到 , 是一封根据逝者生前讲话风格编写的 , 来自2016年的“答粉丝信” 。
“以上的这些尝试都只停留在模仿逝者语音、语言方式层面 。 ”王龙标说 , 已逝者说的内容基本上都是科研人员事先编辑好的内容 , 虽然目前在技术上计算机也能自动生成文本和文字 , 但是模仿的效果还不是很理想 。 比如像日本那个案例 , 目的就是鼓励生者更好的生活下去 , 如果内容编辑不当 , 反而会适得其反 。 因此这些尝试 , 都不是真正意义上和后人“对话” 。
做到原音重现 需收集大量数据
为了让逝者原音重现 , 技术公司利用大数据与深度学习、语音合成技术 , 将张国荣在影视、电台和各种渠道留存下来的原声进行建模 , 并通过合成带有一定情感的声音模型合成了这封“答粉丝信” 。 通过语音合成技术实现了规模化的语料生产和自动化的数据标注 , 并充分发掘了深度学习技术在大数据上的处理能力 , 极大地扩展了语音合成系统所能使用的合成语料库的体积 , 使得语音合成系统包含了一定的情感 , 且更接近张国荣原声 。
“无论是已经能够实现的模拟逝者单方面的说话 , 还是未来要想实现的跨时空对话 , 目前的技术首先都离不开逝者生前大量的数据收集 。 ”王龙标说 , 计算机要学习某个人 , 必须要先大量收集这个人的各种信息 , 在这个人生前就要把他写的文字、声音、图像、脑信号等通过各种形式保存下来 。 比如模仿写作风格 , 必须要收集他以前写过的书信、文章等 , 模仿一个人的语言 , 就需要通过录音了解他的口音、发音习惯、习惯用语、语言逻辑等 。 数据收集得越全 , 机器会模拟得越相似 , 这就和夫妻相一样 , 夫妻朝夕相处久了 , 会潜移默化地在行为方式、语言习惯等方面高度相似 。 百度相关负责人曾表示 , 张国荣的“答粉丝信”原音重现 , 之所以仍存在一些顿挫感 , 出现某些字词发音略不自然等情况 , 部分原因是受到相关情景语料缺失的限制 。

推荐阅读