从大炼模型到炼大模型,预训练模型( 三 )


然而,BERT Transformer 使用双向自注意力机制,而 GPT Transformer 使用受限的自注意力机制,导致每个 token 只能关注其左侧的语境 。我们注意到,双向 Transformer 在文献中通常称为「Transformer 编码器」,而只关注左侧语境的版本则因能用于文本生成而被称为「Transformer 解码器」 。
图 1 直观显示了 BERT、OpenAI GPT 和 ELMo 的比较结果 。图 1:预训练模型架构之间的区别 。BERT 使用双向 Transformer,OpenAI GPT 使用从左到右的 Transformer,ELMo 使用独立训练的从左到右和从右到左 LSTM 的级联来生成下游任务的特征 。三种模型中,只有 BERT 表征会基于所有层中的左右两侧语境 。
预训练任务与 Peters 等人 (2018) 和 Radford 等人 (2018) 不同,我们不使用传统的从左到右或从右到左的语言模型来预训练 BERT,而是使用两个新型无监督预测任务 。任务 #1:Masked LM为了训练深度双向表征,我们采取了一个直接的方法,随机遮蔽输入 token 的某些部分,然后预测被遮住的 token 。
我们将这一步骤称为「masked LM」(MLM),不过它在文献中通常被称为 Cloze 任务 (Taylor, 1953) 。在这种情况下,对应遮蔽 token 的最终隐藏向量会输入到 softmax 函数中,并如标准 LM 中那样预测所有词汇的概率 。在所做的所有实验中,我们随机遮住了每个序列中 15% 的 WordPiece token 。
与去噪自编码器 (Vincent et al., 2008) 相反,我们仅预测遮蔽单词而非重建整个输入 。任务 #2:下一句预测很多重要的下游任务(如问答(QA)和自然语言推断(NLI))基于对两个文本句子之间关系的理解,这种关系并非通过语言建模直接获得 。为了训练一个理解句子关系的模型,我们预训练了一个二值化下一句预测任务,该任务可以从任意单语语料库中轻松生成 。
具体来说,选择句子 A 和 B 作为预训练样本:B 有 50% 的可能是 A 的下一句,也有 50% 的可能是来自语料库的随机句子 。实验这部分,我们将展示 BERT 在 11 个 NLP 任务上的微调结果 。图 3:我们的任务特定模型是由向 BERT 添加了一个额外的输出层而形成的,因此一小部分参数需要从头开始学习 。
在众多任务中,(a) 和 (b) 任务是序列级任务,(c) 和 (d) 是 token 级任务,图中 E 表示输入嵌入,T_i 表示 token i 的语境表征,[CLS] 是分类输出的特殊符号,[SEP] 是分割非连续 token 序列的特殊符号 。表 1:GLUE 测试结果,评分由 GLUE 评估服务器得到 。
每个任务下面的数字表示训练样本的数量 。「Average」列与 GLUE 官方分数略微不同,因为我们排除了有问题的 WNLI 集 。OpenAI GPT = (L=12, H=768, A=12);BERT_BASE = (L=12, H=768, A=12);BERT_LARGE = (L=24, H=1024, A=16) 。
BERT 和 OpenAI GPT 是单个模型、单个任务 。所有结果来自于以下地址:https://gluebenchmark.com/leaderboard 和 https://blog.openai. com/language-unsupervised/ 。表 2:SQuAD 结果 。BERT 集成是使用不同预训练检查点和微调种子(fine-tuning seed)的 7x 系统 。
飞行员手拿飞机模型在地面“比划”是干啥呢?

从大炼模型到炼大模型,预训练模型


兔哥回答:我们经常从电视画面中看到飞行员手持小飞机模型,三三两两聚在一起模拟飞行动作进行地面训练,时而伴飞,时而追逐,时而多机编队…… 。这是飞行员相互交流飞行中的机动动作,是熟悉了解空中飞行时相互配合的地面预演 。这种训练方式也是飞行员的主要工作任务之一,各国的飞行员都采用这种传统的训练手段 。“地面苦练,空中精飞”是我军的优良传统,这个传统统被一代代飞行员传承至今,很多优秀的飞行员就是通过这样的地面模拟演练逐步成长为翱翔蓝天的空中骄子 。

推荐阅读