能把英语音频翻译出来的软件 英语语音翻译器( 二 )


对于直接的语音到语音翻译,获取数据的挑战更为严峻 。大多数语音机器翻译系统使用文本作为中间步骤,这意味着语音首先转换为文本,然后翻译为目标语言中的文本,最后再将其输入到文本到语音系统以生成音频 。所以语音对语音的翻译依赖于文本,从而限制了其效率,使其难以扩展到主要是口语的语言 。
直接语音到语音翻译模型可以为没有标准化写作系统的语言进行翻译 。这种基于语音的方法可以带来更快速、更高效的翻译系统,因为它们不需要额外的步骤 。
除了需要数千种语言的合适训练数据外,今天的机器翻译系统设计根本不能满足全球所有人的需求 。大多数机器翻译系统都是双语,这意味着每个语言对都是一个单独的模式,例如日英语-俄语或日语-西班牙语 。这种方法很难扩展到几十个语言对,更不用说全世界范围内的所有语言 。想象一下,从泰语言,老挝语,再到尼泊尔语,每种组合都需要创建和维护数千种不同的模型 。
一系列的专家建议多语言系统会有所帮助 。但要将多种语言整合到一个高效、高性能、能够代表所有语言的多语言模型中非常困难 。
实时语音对语音机器翻译模型面临一系列与基于文本的模型相同的挑战,并且需要克服延迟问题,然后才能有效地用于实现实时翻译 。
主要的挑战基于这样一个事实:一个句子可以在不同的语言中以不同的语序表达 。即便是专业的同声传译员都会落后于原始演讲约三秒中 。例如,德语“Ich m?chte alle Sprachen übersetzen”和对等的西班牙语“Quisiera traducir todos los idiomas” 。两者的英文都是“I would like to translate all languages(我想翻译所有的语言) 。”相较于西班牙语和英语(词序相似),从德语到英语的实时翻译将更具挑战性,因为对应于英语动词“translate(翻译)”的德语动词“übersetzen(翻译)”出现在句子的末尾 。
最后,随着扩展到越来越多的语言,我们需要开发新的方法来评估机器翻译模型产生的结果 。业界已经有资源来评估从英语到俄语的翻译质量,但从阿姆哈拉语到哈萨克语呢?
随着我们扩大机器翻译模型可以翻译的语言数量,我们同时必须开发新的方法来训练数据和测量结果 。除了评估机器翻译系统的准确性外,确保负责人地翻译负责任同样重要 。我们需要确保机器翻译系统保持文化敏感性,不制造或加剧偏见 。
2. 训练低资源和直接语音翻译系统
为了实现低资源语言的翻译,并为未来更多语言的翻译创建构建模块,Meta正在扩展自动数据集创建技术 。其中一种技术是开源工具包LASER,它现在包含了用28种不同脚本编写的125多种语言 。
LASER可以将各种语言的句子转换成单一的多语言表达 。然后,团队使用大规模多语言相似性搜索来识别具有相似表示的句子,即在不同语言中可能具有相同含义的句子 。Meta已经利用LASET开发了在互联网中寻找平行文本的ccMatrix和ccAligned 。由于低资源语言几乎没有可用的数据,团队创建了一种新的teacher-student训练方法,以便LASER能够专注于特定的语言亚组,并用更小的数据集进行学习 。这使得LASER能够跨语言大规模有效运行 。随着团队不断改进和扩展语言,并最终支持每种具有书写系统的语言,任何进步都将能帮助我们覆盖更多的语言 。
Meta最近已经将LASER扩展成支持语音 。:通过在同一个多语言空间中构建语音和文本的表示,其能够在一种语言的语音和另一种语言的文本之间提取翻译,甚至可以直接进行语音到语音的翻译 。通过这种方法,团队已经识别了近1400小时的法语、德语、西班牙语和英语对齐语音 。

推荐阅读