讯飞同传不断突破,引领智能翻译新纪元

【讯飞同传不断突破,引领智能翻译新纪元】讯飞同传不断突破,引领智能翻译新纪元

文章图片


与传统翻译不同 , 讯飞同传不仅可以利用音频信息 , 还可以通过摄像头捕捉演讲人正在演讲的视频内容 , 并实时分析关键词 , 增强理解能力 。 同时 , 在捕捉关键词之后利用AI进行内容拓展 , 从而实现信息增值 。

高效会议 , 从智能转写开始
在此基础上 , 讯飞同传可以更像一个专家和内行一样的解读和转写会议 , 提高会议效率 。 科大讯飞将其技术进步总结为三个能力升级:1. 感知能力:从单模态到多模态升级 , 结合视觉信息进行理解;2. 认知能力:不仅理解、推理 , 还能在多模态下理解复杂信息 , 提取关键内容 , 并通过AI对内容进行拓展 , 形成更丰富的信息;3. 实时处理:实时捕捉分析视频流 , 为每个演讲生成个性化引擎 , 并基于视频生成的语境做深度理解 。 具体来说 , 科大讯飞的技术让机器会听、会看、会思考 。
逼近人工的转写能力
讯飞同传 , 机器转写距离人工速记的差距 , 主要在于实时处理和理解能力 。 科大讯飞模拟人眼、脑全方位配合的多感知工作方式 , 让机器转写效果更加接近人工速记 。 会听、会看并理解 , 指的是通过语音和图像识别技术识别音频和视频内容 , 实时捕捉语音信息 , 而“理解”则指基于自然语言处理等技术 , 广泛拓展语境理解 , 在此过程中 , 讯飞同传会为每次会议生成特定的语境模型 , 大幅提升转写准确度 。
科大讯飞的创新之路
利用视频信息 , 讯飞同传针对演讲视频内容 , 语音识别准确率提升 21.7% , 语义理解准确率提升 40.3% 。 在实际操作中 , 获取演讲视频内容有时无法提前准备 , 因此实时获取视频流内容很关键 。 实现这点 , 可以通过高清摄像头获取与现场分辨率和清晰度相近的视频 , 或使用普通摄像头拍摄 。 摄像清晰度需达标 , 以保证识别准确率 。 实际上 , 讯飞同传的视频识别准确率能达到 98%以上 。

探索特定语境下的优化方案
获取视频信息较为直接 , 实时解析视频信息则更具挑战 。 由于缺乏预处理时间 , 即便有不断提升的个性化和理解能力 , 机器识别与人工仍有20-30%的差距 。 因此 , 讯飞同传探索如何在特定语境下优化机器表现 。 “情境适应性是关键 。
海量数据 , 构建AI模型优势
凭借背后搜索引擎的支持 , 讯飞同传在语境理解上具有天然优势 , 海量数据积累助力AI模型 , 对竞争对手构成了显著的门槛 。
从单一语音识别到多模态交互 , 科大讯飞历经技术迭代 , 逐步掌握了复杂环境下的理解推理能力 。 其发展历程中 , 不乏创新产品 , 如讯飞AI鼠标AM30实现了语音转文字、翻译等功能;2018年 , 讯飞听见2.0集成了语音合成技术 , 首次达成了语音到文字的即时转换 , 并能根据特定语料进行实时定制 , 同时引入了首个英文到中文的翻译引擎;直至2022年 , 科大讯飞的多模态交互技术已是集视听于一体的成熟产品 , 具备了理解、推理的高级特性 。 讯飞同传 , 作为科大讯飞多模态交互技术的集大成者 , 正不断突破技术边界 , 引领行业前行 。

    推荐阅读