灵隆科技CEO魏强也曾对媒体表示, 目前消费者普遍反馈智能音箱存在远场识别差、误唤醒率高、连续对话功能不稳定和语义理解能力差、音质不好等问题, 看似火爆的智能音箱行业正在面临创新能力弱、产品体验差、内容和技能不足、用户认知度低等诸多挑战 。
水平有限 仍是简单场景的人机交互
谷歌演示Duplex AI的过程引发了真实与否的争议:人们注意到, 这些通话中的两位女性员工都没有在电话上提到自己公司的名称, 另外这两个录音中也都没有环境噪音 。 不过谷歌并没有对是否编辑过电话录音的问题发表评论 。
对于Duplex AI的表现, 王金桥表示:“这只是展示了一个效果, 不能说机器通过了图灵测试, 也不代表理论上的突破 。 况且真实性没有验证 。 如果是真实的, 那确实是先进的自然语言理解, 这说明大家都在往自然语言处理的方向努力 。 ”
思必驰副总裁、语音交互科学家初敏表达了类似的观点 。 “这个预约的过程难度不大, 是一个简单场景的人机交互 。 只是角色置换了一下, 不是我们常见的‘人问机器’, 而是‘机器问人’, 引发了大家的热议 。 ”初敏说 。
初敏表示, 谷歌展示的“机器预约餐厅、发廊”一定是可以实现的, 没有被对方听出来说明语音合成的效果不错, 但整体来看, 全程“没有展现有挑战性的问题”——如多任务切换、跨场景、噪音、上下文逻辑理解等 。 她同样表达了对视频真实性的怀疑:“餐厅听起来应该是乱七八糟的, 但视频中没有背景噪音, 所以不排除表演的可能 。 ”
要想质变 需要自然语言处理技术突破
自然语言处理是语音交互的核心技术, 也是三十年来几乎没有突破的痛点 。 通俗来说, 这项技术就是“让机器理解人” 。 据王金桥介绍, 自然语言处理的核心是理解, 希望机器能理解人的语言和目的 。 但每个人都是个性化的, 说话的轻重缓急、重音位置, 看到夕阳西下时或开心或伤感的个人感受, 这些都是目前的机器无法理解的 。 尤其是在中文语境下, 常见的一语双关、倒装、句式简化等, 人有时候都理解不了, 对机器来说更是难上加难 。
初敏表示, 在语音交互背后, 是语音识别、自然语言理解、对话管理、自然语言生成等诸多环节, 各环节充分配合才能实现良好的交互效果 。 “相比于谷歌展示的预约, 我们已经可以处理更复杂的交互, 只是效果没那么好 。 ”初敏说 。
“机器的认知推理和理解是一个系统的处理工程, 是各种复杂算法的结合, 不是单项技术能解决的 。 ”王金桥表示 。 目前比较可行的限定场景下的自然语言处理, 比如儿童陪伴、学科细分的语料库, 可以实现智能化交互 。 中国科学院院士谭铁牛也在两院院士大会期间谈到人工智能正处在从“不能用”到“可以用”的技术拐点, 距离“很好用”还有诸多瓶颈 。 “像‘那辆白车是黑车’‘能穿多少是多少’一类的表述, 机器无法准确理解和翻译 。 ”谭铁牛说 。
语言交互是智能音箱的核心功能 。 智能音箱的销量剧增, 大量的语音交互会带来多样化的数据样本, “目前研究界都在试图突破自然语言处理的难关, 虽然从事这项研究的人比以前多很多, 研究条件也很好, 但理论的瓶颈、语言理解的语义鸿沟问题, 不是一时半会能解决的 。 ”王金桥说 。 (实习采访人员崔爽)
推荐阅读
- 苏州园区晚上好玩的地方
- 推拉门无法移动
- 天蝎座的女人 天蝎座女人最显著的内在气质
- 和女生搭讪技巧 10个搭讪女生的核心套路
- 不分手的恋爱,让你谈一场永不分手的恋爱
- 苏州宝带桥一词的由来
- 如何哄女孩子开心 学会这3招哄女生开心
- 双鱼座和什么座最配 和双鱼座最般配的四个星座
- 拖鞋变黄是脚的问题吗,拖鞋变黄是什么原因?
- 和女朋友聊天技巧 和女朋友的聊天技巧