讯飞同传不断突破，引领智能翻译新纪元_科大讯飞|ai|摄像头

【讯飞同传不断突破，引领智能翻译新纪元】

文章图片

与传统翻译不同，讯飞同传不仅可以利用音频信息，还可以通过摄像头捕捉演讲人正在演讲的视频内容，并实时分析关键词，增强理解能力。同时，在捕捉关键词之后利用AI进行内容拓展，从而实现信息增值。

高效会议，从智能转写开始
在此基础上，讯飞同传可以更像一个专家和内行一样的解读和转写会议，提高会议效率。科大讯飞将其技术进步总结为三个能力升级:1. 感知能力:从单模态到多模态升级，结合视觉信息进行理解；2. 认知能力:不仅理解、推理，还能在多模态下理解复杂信息，提取关键内容，并通过AI对内容进行拓展，形成更丰富的信息；3. 实时处理:实时捕捉分析视频流，为每个演讲生成个性化引擎，并基于视频生成的语境做深度理解。具体来说，科大讯飞的技术让机器会听、会看、会思考。
逼近人工的转写能力
讯飞同传，机器转写距离人工速记的差距，主要在于实时处理和理解能力。科大讯飞模拟人眼、脑全方位配合的多感知工作方式，让机器转写效果更加接近人工速记。会听、会看并理解，指的是通过语音和图像识别技术识别音频和视频内容，实时捕捉语音信息，而“理解”则指基于自然语言处理等技术，广泛拓展语境理解，在此过程中，讯飞同传会为每次会议生成特定的语境模型，大幅提升转写准确度。
科大讯飞的创新之路
利用视频信息，讯飞同传针对演讲视频内容，语音识别准确率提升 21.7% ，语义理解准确率提升 40.3% 。在实际操作中，获取演讲视频内容有时无法提前准备，因此实时获取视频流内容很关键。实现这点，可以通过高清摄像头获取与现场分辨率和清晰度相近的视频，或使用普通摄像头拍摄。摄像清晰度需达标，以保证识别准确率。实际上，讯飞同传的视频识别准确率能达到 98%以上。

探索特定语境下的优化方案
获取视频信息较为直接，实时解析视频信息则更具挑战。由于缺乏预处理时间，即便有不断提升的个性化和理解能力，机器识别与人工仍有20-30%的差距。因此，讯飞同传探索如何在特定语境下优化机器表现。 “情境适应性是关键。
海量数据，构建AI模型优势
凭借背后搜索引擎的支持，讯飞同传在语境理解上具有天然优势，海量数据积累助力AI模型，对竞争对手构成了显著的门槛。
从单一语音识别到多模态交互，科大讯飞历经技术迭代，逐步掌握了复杂环境下的理解推理能力。其发展历程中，不乏创新产品，如讯飞AI鼠标AM30实现了语音转文字、翻译等功能；2018年，讯飞听见2.0集成了语音合成技术，首次达成了语音到文字的即时转换，并能根据特定语料进行实时定制，同时引入了首个英文到中文的翻译引擎；直至2022年，科大讯飞的多模态交互技术已是集视听于一体的成熟产品，具备了理解、推理的高级特性。讯飞同传，作为科大讯飞多模态交互技术的集大成者，正不断突破技术边界，引领行业前行。

讯飞同传不断突破，引领智能翻译新纪元

推荐阅读

沐浴乳和沐浴露的区别,使用沐浴乳和沐浴露的注意事项

两部苹果手机怎么同步所有数据

经常生气身体会引发什么疾病？

回《通讯录的一个小bug》

如何评价包贝尔在虎扑宣传新电影被虎扑直男群怼

大众途岳2019款参数配置怎么样?

虾和绿豆可以同时吃吗

兮’字有什么含义

刚买的蟹爪兰不断掉花苞的原因，刚买的蟹爪兰不断掉花苞的原因是什么呢

大尾巴狼形容什么人大尾巴狼形容一个人的意思

vivo应用商店旧版本下载，如何在vivo游戏中心找到软件的历史版本

路亚钓鱼用什么鱼饵钓鲈鱼，路亚钓鲈鱼用什么饵

烤板栗时间到了就拿出来还是再等一会

长寿花怎么施肥

魏县高铁什么时间开通，毕节高铁什么时候开通

鸡炖什么