人工智能从“大炼模型”到“炼大模型”


人工智能从“大炼模型”到“炼大模型”


人工智能可以分为几个发展阶段:基于数据的互联网时代、基于算力的云计算时代, 以及接下来可能将进入的基于模型的AI时代, 这相当于把数据提升为超大规模预训练模型 。 未来, 研究人员可以直接在云模型上进行微调, 很多公司甚至不用维护自己的算法研发团队, 只需要应用工程师即可 。
写小说、和人聊天、设计网页、编写吉他曲谱……号称迄今为止最“全能”的AI模型GPT-3, 当然远远不止会这些 。 作为2020年人工智能领域最惊艳的模型之一, GPT-3无疑把超大规模预训练模型的热度推向了新高 。
3月下旬, 我国首个超大规模人工智能模型“悟道1.0”发布, 该模型由智源学术副院长、清华大学教授唐杰领衔, 带领来自清华大学、北京大学、中国人民大学、中国科学院等单位的100余位AI科学家组成联合攻关团队, 取得了多项国际领先的AI技术突破, 形成了超大规模智能模型训练技术体系, 训练出包括中文、多模态、认知和蛋白质预测在内的系列超大模型 。
已启动4个大模型开发
据悉, “悟道1.0”先期启动了4个大模型研发项目:以中文为核心的超大规模预训练语言模型文源、超大规模多模态预训练模型文澜、超大规模蛋白质序列预测预训练模型文溯, 以及面向认知的超大规模新型预训练模型文汇 。
唐杰介绍, 文源拥有26亿参数, 文澜则为10亿, 文溯是2.8亿, 文汇则达到了百亿以上 。 虽然相对于GPT-3的1750亿参数而言还有差距, 但“接下来会有更大的模型” 。
目前, 文源模型参数量达26亿, 具有识记、理解、检索、数值计算、多语言等多种能力, 并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务, 在中文生成模型中达到了领先的效果 。
“目前这些模型既有一些交集, 但也存在明显差异 。 文源的重点是在中文和跨语言, 未来也会加入知识;文澜的重点主要是图文;文汇则更多地瞄向认知 。 ”唐杰表示, 认知是人工智能技术发展的趋势和目标, 关系到机器是否能像人一样思考这个终极问题 。
“下一代人工智能技术的发展方向一定是认知 。 ”据唐杰介绍, 在作诗任务中, 目前文汇已经通过了图灵测试 。 从算法的角度上来看, 文汇能通过图灵测试的关键在于“生成”, 而不仅仅限于“匹配”, 这种生成能力是多样的 。
被问及为何会选择这4个预训练模型项目时, 唐杰说, 这是综合考虑了国内外同行的相关工作、国内人工智能发展的现状、团队人员构成、北京区域优势等作出的决定 。 “当时GPT-3刚发布不久, 悟道团队认为首先要对标其卓越的少样本学习能力, 同时还要做出差异化, 做短、中、长3个阶段的布局 。 于是, 中文版GPT-3即清源CPM(文源的前身)应运而生, 这是短期布局 。 之后, 文源要向中英文模型乃至多语言模型发展, 这是中期布局 。 最后走向认知智能, 这是长期布局 。 ”唐杰说, 与此同时, 国内顶尖的企业人才、学术人才和自然科学人才所组成的团队给了项目巨大的想象空间 。
大模型有大智慧
自2018年谷歌发布BERT以来, 预训练模型逐渐成为自然语言处理(NLP)领域的主流 。
2020年5月, OpenAI发布了拥有1750亿参数量的预训练模型GPT-3 。 作为一个语言生成模型, GPT-3不仅能够生成流畅自然的文本, 还能完成问答、翻译、创作小说等一系列NLP任务, 甚至可以进行简单的算术运算, 并且其性能在很多任务上都超越相关领域的专有模型 。

推荐阅读