从大炼模型到炼大模型,预训练模型( 二 ) _炼大

在之前的研究中，两种策略在预训练期间使用相同的目标函数，利用单向语言模型来学习通用语言表征。本论文作者（即 Google AI Language 团队的研究人员）认为现有的技术严重制约了预训练表征的能力，微调策略尤其如此。其主要局限在于标准语言模型是单向的，这限制了可以在预训练期间使用的架构类型。例如，OpenAI GPT 使用的是从左到右的架构，其中每个 token 只能注意 Transformer 自注意力层中的先前 token 。
这些局限对于句子层面的任务而言不是最佳选择，对于 token 级任务（如 SQuAD 问答）则可能是毁灭性的，因为在这种任务中，结合两个方向的语境至关重要。本文通过 BERT（Bidirectional Encoder Representations from Transformers）改进了基于微调的策略。
【从大炼模型到炼大模型,预训练模型】BERT 提出一种新的预训练目标——遮蔽语言模型（masked language model，MLM），来克服上文提到的单向局限。MLM 的灵感来自 Cloze 任务（Taylor, 1953）。MLM 随机遮蔽输入中的一些 token，，目标在于仅基于遮蔽词的语境来预测其原始词汇 id 。与从左到右的语言模型预训练不同，MLM 目标允许表征融合左右两侧的语境，从而预训练一个深度双向 Transformer 。
除了 MLM，我们还引入了一个「下一句预测」（next sentence prediction）任务，该任务联合预训练文本对表征。本文贡献如下：展示了双向预训练语言表征的重要性。不同于 Radford 等人（2018）使用单向语言模型进行预训练，BERT 使用 MLM 预训练深度双向表征。本研究与 Peters 等人（2018）的研究也不同，后者使用的是独立训练的从左到右和从右到左 LM 的浅层级联。
证明了预训练表征可以消除对许多精心设计的任务特定架构的需求。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型，其性能超越许多使用任务特定架构的系统。BERT 刷新了 11 项 NLP 任务的当前最优性能记录。本论文还报告了 BERT 的模型简化测试（ablation study），证明该模型的双向特性是最重要的一项新贡献。
代码和预训练模型将发布在 goo.gl/language/bert 。论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding论文地址：https://arxiv.org/pdf/1810.04805.pdf摘要：本文介绍了一种新的语言表征模型 BERT，意为来自 Transformer 的双向编码器表征（Bidirectional Encoder Representations from Transformers）。
与最近的语言表征模型（Peters et al., 2018; Radford et al., 2018）不同，BERT 旨在基于所有层的左、右语境来预训练深度双向表征。因此，预训练的 BERT 表征可以仅用一个额外的输出层进行微调，进而为很多任务（如问答和语言推断任务）创建当前最优模型，无需对任务特定架构做出大量修改。
BERT 的概念很简单，但实验效果很强大。它刷新了 11 个 NLP 任务的当前最优结果，包括将 GLUE 基准提升至 80.4%（7.6% 的绝对改进）、将 MultiNLI 的准确率提高到 86.7%（5.6% 的绝对改进），以及将 SQuAD v1.1 的问答测试 F1 得分提高至 93.2 分（提高 1.5 分）——比人类表现还高出 2 分。
BERT本节介绍 BERT 及其实现细节。模型架构BERT 的模型架构是一个多层双向 Transformer 编码器，基于 Vaswani 等人 (2017) 描述的原始实现，在 tensor2tensor 库中发布。由于 Transformer 的使用最近变得很普遍，而且我们的实现与原始版本实际相同，我们将不再赘述模型架构的背景。
在本文中，我们将层数（即 Transformer 块）表示为 L，将隐藏尺寸表示为 H、自注意力头数表示为 A 。在所有实验中，我们将前馈/滤波器尺寸设置为 4H，即 H=768 时为 3072，H=1024 时为 4096 。我们主要报告在两种模型尺寸上的结果：BERTBASE: L=12, H=768, A=12, 总参数=110M BERTLARGE: L=24, H=1024, A=16, 总参数=340M为了比较，BERTBASE 的模型尺寸与 OpenAI GPT 相当。

从大炼模型到炼大模型,预训练模型( 二 )

推荐阅读

360借条结清证明如何开

怎样保养皮肤最好

户户通001解决方法

宝宝断奶后吃什么？宝宝断奶后进食次数

黑豆开花期怎么管理有什么好的技巧

火车站有残疾人通道吗

属猪佩戴什么物品吉祥物旺夫

n95口罩的使用时间是多久

苹果耳机声音小的解决方法

多闪怎么看别人发的视频

火影忍者ol 水月怎么样,《仙剑奇侠传Online》

联通智慧沃家下载安装沃掌握联通下载安装

2016年蒲城县有什么建设,蒲城县首个钢结构立体车库即将建成

泰迪狗要怎么养活

情侣空间别人能看见吗

小编教你苏宁易购通知消息如何关闭