人工智能从“大炼模型”到“炼大模型”


人工智能从“大炼模型”到“炼大模型”



人工智能可以分为几个发展阶段:基于数据的互联网时代、基于算力的云计算时代 , 以及接下来可能将进入的基于模型的AI时代 , 这相当于把数据提升为超大规模预训练模型 。 未来 , 研究人员可以直接在云模型上进行微调 , 很多公司甚至不用维护自己的算法研发团队 , 只需要应用工程师即可 。
写小说、和人聊天、设计网页、编写吉他曲谱……号称迄今为止最“全能”的AI模型GPT-3 , 当然远远不止会这些 。 作为2020年人工智能领域最惊艳的模型之一 , GPT-3无疑把超大规模预训练模型的热度推向了新高 。
3月下旬 , 我国首个超大规模人工智能模型“悟道1.0”发布 , 该模型由智源学术副院长、清华大学教授唐杰领衔 , 带领来自清华大学、北京大学、中国人民大学、中国科学院等单位的100余位AI科学家组成联合攻关团队 , 取得了多项国际领先的AI技术突破 , 形成了超大规模智能模型训练技术体系 , 训练出包括中文、多模态、认知和蛋白质预测在内的系列超大模型 。
已启动4个大模型开发
【人工智能从“大炼模型”到“炼大模型”】据悉 , “悟道1.0”先期启动了4个大模型研发项目:以中文为核心的超大规模预训练语言模型文源、超大规模多模态预训练模型文澜、超大规模蛋白质序列预测预训练模型文溯 , 以及面向认知的超大规模新型预训练模型文汇 。
唐杰介绍 , 文源拥有26亿参数 , 文澜则为10亿 , 文溯是2.8亿 , 文汇则达到了百亿以上 。 虽然相对于GPT-3的1750亿参数而言还有差距 , 但“接下来会有更大的模型” 。
目前 , 文源模型参数量达26亿 , 具有识记、理解、检索、数值计算、多语言等多种能力 , 并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务 , 在中文生成模型中达到了领先的效果 。
“目前这些模型既有一些交集 , 但也存在明显差异 。 文源的重点是在中文和跨语言 , 未来也会加入知识;文澜的重点主要是图文;文汇则更多地瞄向认知 。 ”唐杰表示 , 认知是人工智能技术发展的趋势和目标 , 关系到机器是否能像人一样思考这个终极问题 。
“下一代人工智能技术的发展方向一定是认知 。 ”据唐杰介绍 , 在作诗任务中 , 目前文汇已经通过了图灵测试 。 从算法的角度上来看 , 文汇能通过图灵测试的关键在于“生成” , 而不仅仅限于“匹配” , 这种生成能力是多样的 。
被问及为何会选择这4个预训练模型项目时 , 唐杰说 , 这是综合考虑了国内外同行的相关工作、国内人工智能发展的现状、团队人员构成、北京区域优势等作出的决定 。 “当时GPT-3刚发布不久 , 悟道团队认为首先要对标其卓越的少样本学习能力 , 同时还要做出差异化 , 做短、中、长3个阶段的布局 。 于是 , 中文版GPT-3即清源CPM(文源的前身)应运而生 , 这是短期布局 。 之后 , 文源要向中英文模型乃至多语言模型发展 , 这是中期布局 。 最后走向认知智能 , 这是长期布局 。 ”唐杰说 , 与此同时 , 国内顶尖的企业人才、学术人才和自然科学人才所组成的团队给了项目巨大的想象空间 。
大模型有大智慧
自2018年谷歌发布BERT以来 , 预训练模型逐渐成为自然语言处理(NLP)领域的主流 。
2020年5月 , OpenAI发布了拥有1750亿参数量的预训练模型GPT-3 。 作为一个语言生成模型 , GPT-3不仅能够生成流畅自然的文本 , 还能完成问答、翻译、创作小说等一系列NLP任务 , 甚至可以进行简单的算术运算 , 并且其性能在很多任务上都超越相关领域的专有模型 。

推荐阅读