从大炼模型到炼大模型,预训练模型( 二 )


在之前的研究中,两种策略在预训练期间使用相同的目标函数,利用单向语言模型来学习通用语言表征 。本论文作者(即 Google AI Language 团队的研究人员)认为现有的技术严重制约了预训练表征的能力,微调策略尤其如此 。其主要局限在于标准语言模型是单向的,这限制了可以在预训练期间使用的架构类型 。例如,OpenAI GPT 使用的是从左到右的架构,其中每个 token 只能注意 Transformer 自注意力层中的先前 token 。
这些局限对于句子层面的任务而言不是最佳选择,对于 token 级任务(如 SQuAD 问答)则可能是毁灭性的,因为在这种任务中,结合两个方向的语境至关重要 。本文通过 BERT(Bidirectional Encoder Representations from Transformers)改进了基于微调的策略 。
【从大炼模型到炼大模型,预训练模型】BERT 提出一种新的预训练目标——遮蔽语言模型(masked language model,MLM),来克服上文提到的单向局限 。MLM 的灵感来自 Cloze 任务(Taylor, 1953) 。MLM 随机遮蔽输入中的一些 token,,目标在于仅基于遮蔽词的语境来预测其原始词汇 id 。与从左到右的语言模型预训练不同,MLM 目标允许表征融合左右两侧的语境,从而预训练一个深度双向 Transformer 。
除了 MLM,我们还引入了一个「下一句预测」(next sentence prediction)任务,该任务联合预训练文本对表征 。本文贡献如下:展示了双向预训练语言表征的重要性 。不同于 Radford 等人(2018)使用单向语言模型进行预训练,BERT 使用 MLM 预训练深度双向表征 。本研究与 Peters 等人(2018)的研究也不同,后者使用的是独立训练的从左到右和从右到左 LM 的浅层级联 。
证明了预训练表征可以消除对许多精心设计的任务特定架构的需求 。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型,其性能超越许多使用任务特定架构的系统 。BERT 刷新了 11 项 NLP 任务的当前最优性能记录 。本论文还报告了 BERT 的模型简化测试(ablation study),证明该模型的双向特性是最重要的一项新贡献 。
代码和预训练模型将发布在 goo.gl/language/bert 。论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding论文地址:https://arxiv.org/pdf/1810.04805.pdf摘要:本文介绍了一种新的语言表征模型 BERT,意为来自 Transformer 的双向编码器表征(Bidirectional Encoder Representations from Transformers) 。
与最近的语言表征模型(Peters et al., 2018; Radford et al., 2018)不同,BERT 旨在基于所有层的左、右语境来预训练深度双向表征 。因此,预训练的 BERT 表征可以仅用一个额外的输出层进行微调,进而为很多任务(如问答和语言推断任务)创建当前最优模型,无需对任务特定架构做出大量修改 。
BERT 的概念很简单,但实验效果很强大 。它刷新了 11 个 NLP 任务的当前最优结果,包括将 GLUE 基准提升至 80.4%(7.6% 的绝对改进)、将 MultiNLI 的准确率提高到 86.7%(5.6% 的绝对改进),以及将 SQuAD v1.1 的问答测试 F1 得分提高至 93.2 分(提高 1.5 分)——比人类表现还高出 2 分 。
BERT本节介绍 BERT 及其实现细节 。模型架构BERT 的模型架构是一个多层双向 Transformer 编码器,基于 Vaswani 等人 (2017) 描述的原始实现,在 tensor2tensor 库中发布 。由于 Transformer 的使用最近变得很普遍,而且我们的实现与原始版本实际相同,我们将不再赘述模型架构的背景 。
在本文中,我们将层数(即 Transformer 块)表示为 L,将隐藏尺寸表示为 H、自注意力头数表示为 A 。在所有实验中,我们将前馈/滤波器尺寸设置为 4H,即 H=768 时为 3072,H=1024 时为 4096 。我们主要报告在两种模型尺寸上的结果:BERTBASE: L=12, H=768, A=12, 总参数=110M BERTLARGE: L=24, H=1024, A=16, 总参数=340M为了比较,BERTBASE 的模型尺寸与 OpenAI GPT 相当 。

推荐阅读