2012年, 人工智能研究人员发现, 通过向一个名为ImageNet的数据库提供数以百万计的标签图像, 计算机识别图像的能力会有很大的提高 。 这使得计算机视觉进入了一个激动人心的阶段, 因为很明显, 使用ImageNet训练的模型可以帮助解决各种图像识别问题 。 六年后, 这种进步为自动驾驶汽车在城市街道上导航铺平了道路, 并且使得Facebook用户可以在照片中对人物进行智能标记 。
然而, 在人工智能研究的其他领域, 比如理解语言方面, 类似的模型则被证明是难以实现的 。 但是, 来自fast.ai、OpenAI和艾伦研究所(Allen Institute)的最新研究表明, 这是一个潜在的突破点, 有更强大的语言模型可以帮助研究人员解决一系列尚未解决的问题 。 其中一种新模型背后的研发人员塞巴斯蒂安?鲁德(Sebastian Ruder)称其为该领域的“ImageNet时刻” 。
这些改进可能是戏剧性的 。 到目前为止, 被最广泛测试的语言模型是ELMo(Embeddings from Language Models) 。 今年春天, 当艾伦研究所发布ELMo的时候, 以往的各种挑战迅速被颠覆了, 比如在阅读理解方面, 人工智能回答了关于一段文章的SAT式的问题并进行了情绪性分析 。 在一个进步往往是渐进的领域, ELMo的加入使得结果的正确率提高了25% 。 今年6月, 这项进步在一次大型会议上获得了最佳论文奖 。
加州大学伯克利分校的计算机科学教授丹?克莱因(Dan Klein)是早期采用者之一 。 他和一名学生正在研究一个“选区解析器”, 这是一种基本的工具, 它涉及到对句子的语法结构进行映射 。 ELMo的加入使得克莱因突然拥有了世界上最好的系统, 最精确的同时拥有惊人的宽限度 。 他说:“如果你几年前问我, 是否有可能性达到这么高的水平, 我并不能确定 。 ”
像ELMo这样的模型, 解决了一个使用语言的语言学家的核心问题:缺乏标签的数据 。 为了训练一个神经网络能够做决定, 许多语言问题都需要人工来精心标记数据 。 但是, 制作这些数据需要时间和金钱, 甚至很多信息也无法捕捉到我们说话和写作中不可预测的方式 。 对于除英语以外的语言, 研究人员通常没有足够的标记数据来完成基本的任务 。
“我们永远无法获得足够的标签数据, ”艾伦研究所ELMo项目团队领导者的研究人员马修?彼得斯(Matthew Peters)说 。 “我们真的需要开发出一种模型, 它可以处理杂乱的、没有标签的数据, 并且从中学习到尽可能多的信息 。 ”
幸运的是, 多亏了互联网, 研究人员得以从维基百科、书籍和社交媒体等来源获得了大量的杂乱数据 。 我们的策略是将这些词输入到一个神经网络中, 并允许它自己识别模式, 即所谓的“无监督”方法 。 我们希望这些模式能够捕捉到语言的一些基本方面——一种单词的含义, 或者是语法的基本轮廓 。 与使用ImageNet训练的模型一样, 这样的语言模型可以被精确地调整以掌握更具体的任务——比如总结一篇科学文章, 将电子邮件归类为垃圾邮件, 甚至为一个简短的故事生成一个令人满意的结尾 。
这种直觉基础并不新鲜 。 近年来, 研究人员利用一种叫做“文字嵌入(word embeddings)”的技术来深入研究无标签的数据, 这一技术可以根据它们在大量文本中出现的方式来映射单词之间的关系 。 新模式的目标定位到更深层, 捕捉从文字到更高层次的语言概念的信息 。 鲁德已经写过关于这些更深层次的模型对各种语言问题而言的巨大潜力, 希望新模型能成为简单的“单词嵌入”的替代品 。
推荐阅读
- 两个月的小狗可以洗澡吗
- 小奶猫可以吃火腿肠吗
- 刺猬可以洗澡么
- 仓鼠可以吃桃子吗
- 慢跑完多长时间可以吃饭 跑步后多久可以吃饭
- 银行卡掉了当天可以补办吗 补办银行卡要多久
- 现在装修一般几个月就能住了 房子装修好后多久可以入住
- 图像低通滤波作用 图像滤波的作用研究的意义是什么
- 狗可以喝酒吗
- 怎么训练狗叫