深度学习模型ERNIE 3.0的探索与进展

发布时间：2024-10-15浏览：29

预训练模型在各种自然语言处理（NLP）任务中取得了最先进的结果。最近的工作，如T5 [1]和GPT-3 [2]，展示了扩大预训练语言模型规模可以提高它们的泛化能力。特别是，拥有1750亿参数的GPT-3模型展示了其强大的任务无关的零样本/少样本学习能力。

尽管它们取得了成功，但这些大规模模型是在没有引入诸如语言知识和世界知识等知识的情况下，在普通文本上进行训练的。此外，大多数大规模模型是以自回归方式进行训练的。因此，这种传统的微调方法在解决下游语言理解任务时表现相对较弱。

为了解决上述问题，我们提出了一个名为ERNIE 3.0的统一框架，用于预训练大规模知识增强模型。它融合了自回归网络和自编码网络，使得训练好的模型可以轻松地适应自然语言理解和生成任务，无论是零样本学习、少样本学习还是微调。我们在包含普通文本和大规模知识图谱的4TB语料库上训练了具有100亿参数的模型。实验结果表明，该模型在54个中文NLP任务上超越了最先进的模型，并且其英文版本在SuperGLUE [3]基准测试（2021年7月3日）上取得了第一名，超过了人类表现0.8%（90.6% vs. 89.8%）。

1 Introduction

在自然语言处理（NLP）领域，预训练语言模型已经成为提升各种任务性能的关键技术。这些模型通过在大量文本数据上进行自监督学习，能够捕捉到语言的深层次特征，然后通过微调或零/少样本学习应用于特定的下游任务。近期的研究趋势表明，增大模型的规模可以提高其在预训练阶段的泛化能力，从而在下游任务中取得更好的性能。

主要贡献和创新点：

ERNIE 3.0框架：提出了一个统一的框架，用于预训练大规模的知识增强型语言模型。这个框架结合了自回归网络和自编码网络，使得训练好的模型能够适应自然语言理解和生成任务，并且支持零样本学习、少样本学习和微调。

大规模知识图谱的融合：ERNIE 3.0在预训练阶段不仅使用了大量普通文本数据，还融入了大规模的知识图谱，这有助于模型学习到更多的世界知识和语言知识，从而提高其在语言理解任务上的性能。

多任务学习：ERNIE 3.0支持多任务学习，使得不同任务可以共享底层的语义特征，同时在顶层学习到任务特定的语义特征。这种方法提高了模型的泛化能力，并允许在微调阶段只更新特定任务的参数，节省了计算资源。

实验结果：在54个中文NLP任务上的实验结果显示，ERNIE 3.0一致性地超越了现有的最先进模型，并且在SuperGLUE基准测试中取得了第一名，超越了人类的表现。

技术细节：

模型架构：ERNIE 3.0采用了多层Transformer-XL作为基础网络结构，该结构通过自注意力机制能够捕捉文本中每个token的上下文信息，并生成一系列的上下文嵌入。

预训练任务：设计了多种预训练任务，包括词感知任务（如知识掩码语言建模）和结构感知任务（如句子重排序和句子距离任务），以及知识感知任务（如通用知识-文本预测任务），这些任务帮助模型从不同层面学习知识。

渐进式训练：为了提高训练的稳定性和速度，ERNIE 3.0采用了渐进式训练策略，逐步增加训练的复杂性，如输入序列长度、批量大小、学习率和dropout率。

数据集构建：构建了一个4TB的大规模、多样化、高质量的中文文本语料库，涵盖了11个不同的类别，包括百科、搜索数据、问答数据、法律和金融领域的特定数据，以及包含超过5000万条事实的百度知识图谱。

预训练设置：ERNIE 3.0的通用表示模块和任务特定表示模块都采用了Transformer-XL结构，其中通用模块有48层，而任务特定模块则采用了较小的12层结构。模型的总参数量达到了100亿。

实验验证：通过在多种自然语言理解和生成任务上的广泛实验，验证了ERNIE 3.0的有效性。这些任务包括情感分析、意见抽取、自然语言推理、文本摘要、命名实体识别、机器阅读理解等。

结论：

ERNIE 3.0通过大规模的知识增强预训练，展示了在多种NLP任务上的卓越性能。其设计巧妙地融合了自回归和自编码网络，通过多任务学习框架提高了模型的泛化能力和实用性。此外，ERNIE 3.0在国际公认的SuperGLUE基准测试中取得了第一名，超越了人类的表现，这进一步证明了其在自然语言理解领域的领先地位。

2 Related work

2.1 Large-scale Pre-trained Models

自从BERT [6] 被提出作为一个强大的自然语言理解语言模型以来，预训练语言模型已经吸引了越来越多的关注，并成为了自然语言处理的新范式。研究趋势之一是增加模型的规模，这导致困惑度降低和性能提高 [14]。因此，在过去的两年中，已经提出了许多大规模的预训练模型。

T5模型 [1] 提出，以110亿参数推动自然语言理解和自然语言生成任务的性能。T5模型通过统一框架将所有基于文本的语言任务转换为文本到文本的格式，并充分探索了预训练目标、架构、未标记数据集、迁移方法和其他因素的有效性。

在T5模型之后，GPT-3 [2] 提出，包含1750亿参数，在少样本和零样本设置下在广泛的任务上取得了惊人的性能。具体来说，GPT-3是一个自回归语言模型，比它的前身GPT-2 [15] 大10倍。然而，GPT-3在测试中表现出缺乏常识、存在偏见和隐私问题 [16]。

[13] 提出了一个名为Switch Transformer的1万亿参数模型，通过简化MoE [17, 18] 路由算法来改善模型，减少通信和计算成本，并且[13]还提出了一个大规模分布式训练解决方案，以解决训练复杂性、通信成本和训练不稳定性的问题。

除了上述模型，最近还提出了更多的非英语大型模型。[19]发布了一个26亿参数的中文预训练语言模型（CPM），在大规模中文训练数据上进行生成式预训练，模型结构受到[2]的启发。[20]发布了一个110亿参数的模型CPM-2。为了加速基于现有PLMs的预训练，而不是从头开始训练模型，引入了知识继承技术，在微调阶段，涉及prompt tuning以更好地利用预训练模型中的知识。

[21]提出了一种称为M6（Multi-Modality to Multi-Modality Multitask Mega-Transformer）的跨模态预训练方法，包括100亿参数，用于多模态数据的统一预训练。[22]提出了一个200亿参数的自回归语言模型，名为PangGu-α，该模型在2048个Ascend 910 AI处理器集群上进行训练，采用分布式训练技术，包括数据并行、操作级模型并行、流水线模型并行、优化器模型并行和重新材料化。除了这些中文大型模型之外，还提出了一个名为HyperCLOVA [23]的韩国204亿参数语言模型，其在韩国语机器学习数据的体量是GPT-3的6500倍。

从上述讨论中可以看出，大规模预训练模型已经吸引了越来越多的来自工业界和学术界的关注。

2.2 Knowledge Enhanced Models

预训练语言模型能够从大规模语料库中捕捉到句法和语义知识，但缺乏世界知识。最近，一些研究工作尝试将世界知识整合到预训练语言模型中。世界知识的一种典型形式是知识图谱。许多研究工作（[24]、[25]、[26]）将知识图谱中的实体和关系嵌入整合到预训练语言模型中。

WKLM [27] 通过在原始文档中将实体提及替换为相同类型的其他实体名称，并训练模型从随机选择的实体中区分出正确的实体提及。KEPLER [28] 通过知识嵌入和掩码语言模型目标优化模型，以将世界知识和语言表示对齐到同一语义空间中。CoLAKE [29] 在一个词-知识图中整合了语言上下文和知识上下文，并使用扩展的掩码语言模型目标共同学习语言和知识的上下文化表示。

世界知识的另一种存在形式是大规模数据的额外注释。ERNIE 1.0 [7] 引入了短语掩码和命名实体掩码，并预测整个掩藏的短语和命名实体，以帮助模型学习局部上下文和全局上下文中的依赖信息。CALM [30] 教会模型检测并修正语序错误的概念，并通过对两种自监督预训练任务的区分，从不太合理的句子中辨别出真实的句子。K-Adapter[31] 利用在不同知识源上训练的适配器和额外的注释来区分知识来自何处。

3 ERNIE 3.0

在各种自然语言处理任务中，知识增强型预训练模型取得了显著进步，这些模型的基础或大型模型尺寸包括ERNIE、ERNIE 2.0和SpanBERT等[32]，在这些模型中，基础/大型模型尺寸分别代表12/24层Transformer。为了探索知识增强型大规模预训练模型的有效性，我们提出了ERNIE 3.0框架，该框架在包括纯文本和知识图谱在内的大量无监督语料库上预训练模型。此外，我们采用了各种类型的预训练任务，使模型能够更有效地学习包含有价值的词汇、句法和语义信息的不同层次的知识，其中预训练任务涵盖了三个任务范式，即自然语言理解、自然语言生成和知识提取。因此，ERNIE 3.0创新性地设计了一个持续多范式统一预训练框架，以实现多任务范式之间的协同预训练。ERNIE 3.0的明确介绍将在以下各节中解释。

3.1 Overview of ERNIE 3.0 Framework

ERNIE 3.0的框架在图1中展示，它可以广泛用于预训练、微调以及零样本/少样本学习。与流行的统一预训练策略不同，后者采用共享的Transformer网络来处理不同的精心设计的任务，并通过使用特定的自注意力掩码来控制预测条件依赖的上下文，ERNIE 3.0设计了一种新的持续多范式统一预训练框架。

框架架构与应用

ERNIE 3.0 是一个用于自然语言处理（NLP）的预训练模型框架，它被设计用于广泛的应用场景，包括但不限于预训练、微调和零样本/少样本学习。该框架的核心在于其能够处理多种任务范式，如自然语言理解（NLU）、自然语言生成（NLG）和知识提取。

持续多范式统一预训练框架

ERNIE 3.0提出了一种新颖的预训练框架，即**持续多范式统一预训练框架**。这个框架的核心思想是，尽管不同NLP任务在高层目标上可能有所不同，但在底层，它们依赖于相同的抽象特征，如词汇和句法信息。然而，这些任务在顶层的具体特征需求上可能存在不兼容性。例如，NLU任务可能更关注语义连贯性，而NLG任务可能需要更多的上下文信息。

通用表示模块与任务特定表示模块

ERNIE 3.0的架构由两个主要部分组成：**通用表示模块**和**任务特定表示模块**。

通用表示模块：这是模型的共享部分，负责提取所有任务共有的语义特征。这些特征是跨任务范式共享的，例如，它可以是一个多层Transformer网络，参数在所有任务中保持不变。

任务特定表示模块：这些模块是针对特定任务定制的，负责学习任务特定的高级特征。每个任务范式都有自己的表示模块，参数通过特定任务的目标进行学习。

多任务学习架构的启发

持续多任务学习框架的应用

ERNIE 3.0利用了在ERNIE 2.0中引入的**持续多任务学习框架**，这有助于模型更有效地学习词汇、句法和语义表示。这种持续学习的方法允许模型在不断接触新任务的过程中，动态地调整和优化其学习重点。

下游任务的应用与微调

在将ERNIE 3.0应用于不同的下游任务时，首先会使用预训练的共享网络和特定任务网络的参数对模型进行初始化。然后，根据特定任务的数据执行后续的训练程序，如微调。在微调阶段，只有与特定任务相关的表示模块的参数会被更新，这样可以节省计算资源并提高训练效率。

资源优化与实施便利性

ERNIE 3.0的设计考虑到了大规模预训练模型在有限时间和硬件资源下实施的困难。通过允许在微调阶段只更新任务特定网络的参数，ERNIE 3.0减轻了这一困境，使得模型能够更灵活地适应不同的任务需求。

ERNIE 3.0是一个创新的NLP模型框架，它通过持续多范式统一预训练框架，实现了对不同任务范式的底层特征共享和顶层特征的个性化学习。该框架的设计不仅提升了模型在各种NLP任务上的表现，还优化了资源的使用，使得模型更加高效和易于实施。通过通用表示模块和任务特定表示模块的协作，ERNIE 3.0能够灵活地适应不同的任务需求，并在预训练和微调阶段展现出卓越的性能。

3.1.1 Universal Representation Module

ERNIE 3.0框架使用多层Transformer-XL作为其主要的网络架构，这一点与其他预训练模型如XLNet、Segatron和ERNIE-Doc相似。Transformer-XL是Transformer的一个变种，它引入了一个辅助的循环记忆模块，以帮助模型更好地处理长文本。在ERNIE 3.0中，我们将这个主网络称为通用表示模块（Universal Representation Module），并且它在所有任务范式中都是共享的。

Transformer-XL的核心特性

自注意力机制：Transformer能够通过自注意力机制捕获序列中每个token的上下文信息，并生成一系列上下文嵌入（contextual embeddings）。

循环记忆模块：Transformer-XL特有的循环记忆模块有助于处理更长的文本，通过循环利用之前的注意力信息，提高模型对长距离依赖的处理能力。

通用表示模块的作用

共享网络：通用表示模块作为ERNIE 3.0的共享网络，负责提取所有任务共有的语义特征，如词汇和句法信息。

规模与能力：Transformer模型的规模越大，其捕获和存储不同层次语义信息的能力越强。因此，ERNIE 3.0设计了一个较大规模的通用表示模块，以有效地通过不同范式的预训练任务学习，捕获训练数据中的普遍词汇和句法信息。

记忆模块的特殊应用

特定任务有效性：在ERNIE 3.0中，记忆模块特别适用于自然语言生成（NLG）任务。这是因为NLG任务通常需要处理更长的文本，并且需要维持文本中较远部分之间的关系。

注意力掩码矩阵的控制：在NLG任务中，通过控制注意力掩码矩阵（attention mask matrices），可以确保模型只关注当前生成的文本部分，而不是整个输入序列。这有助于模型生成连贯且逻辑上一致的文本。

ERNIE 3.0通过使用Transformer-XL作为其通用表示模块，实现了对长文本的有效处理，并利用自注意力机制捕获丰富的上下文信息。该模块的大规模设计使得模型能够从不同范式的预训练任务中学习，从而捕获和存储不同层次的语义信息。特别地，ERNIE 3.0中的循环记忆模块为NLG任务提供了额外的支持，通过注意力掩码矩阵的控制，确保了文本生成的连贯性和一致性。这种设计不仅提高了模型对语言深层次理解的能力，也优化了模型在不同NLP任务上的应用性能。

记忆模块介绍：

Transformer-XL中的**记忆模块**（Segment-level Recurrence Mechanism）是为了解决原始Transformer模型在处理长文本时遇到的挑战而设计的。以下是对记忆模块的详细介绍：

1. 长文本处理的需求

在处理长文本时，原始Transformer模型存在局限性，因为它只能捕获序列中相邻元素之间的关系，而对更远距离的依赖关系处理不足。

2. 记忆模块的设计

循环机制：Transformer-XL的记忆模块通过在不同segment（文本分成的多个部分）间引入循环机制来解决这个问题。在生成每个新的segment的表示时，模型不仅考虑当前segment的信息，还循环利用前一个segment的表示。

3. 记忆内容的存储与利用

存储：记忆模块会存储前一个或多个segment的表示，这些表示在后续的segment中被重复使用。

利用：当处理新的segment时，记忆模块允许模型的自注意力机制在当前segment和之前存储的表示之间进行信息交换。

4. 注意力机制的改进

相对位置编码：为了更好地捕获长距离依赖关系，Transformer-XL引入了相对位置编码，它提供了关于单词之间相对距离的信息。

5. 记忆模块在不同任务中的应用

自然语言生成（NLG）：在NLG任务中，记忆模块特别有用，因为这些任务经常需要生成连贯的长文本，其中句子与句子之间需要维持逻辑和语义上的联系。

6. 注意力掩码矩阵

在NLG任务中，为了确保模型在生成文本时不会“看到”未来的信息，会使用注意力掩码矩阵来限制模型的自注意力机制，使其只能关注当前和过去的信息。

7. 对模型性能的影响

记忆模块显著提升了模型处理长文本的能力，尤其是在需要维持全局一致性和连贯性的NLG任务中。

8. 计算效率

尽管记忆模块增加了模型的复杂性，但它允许模型更有效地利用计算资源，因为它避免了对每个新segment从头开始训练的需要。

Transformer-XL的记忆模块是专门为了提高模型处理长文本的能力而设计的。通过在不同segment间引入循环机制，记忆模块允许模型利用之前处理的信息来改进当前的表示，这对于生成连贯长文本的NLG任务尤其重要。同时，通过使用注意力掩码矩阵，模型能够在生成过程中保持一致性，避免使用未来的信息。这些特性使得ERNIE 3.0框架在处理需要长距离依赖和连贯性的NLP任务时更加有效。更多内容可以查看之前关于Transformer-XL的文章。

3.1.2 Task-specific Representation Module

ERNIE 3.0中的**任务特定表示模块**（Task-specific Representation Module）与基础的共享表示模块（Universal Representation Module）类似，也是一个多层Transformer-XL网络，用于捕获不同任务范式的高层语义表示。以下是对任务特定表示模块的详细介绍和翻译：

1. 任务特定表示模块的设计

多层Transformer-XL：任务特定表示模块采用多层Transformer-XL架构，这与基础共享表示模块的设计相似。

2. 模型大小的设置

基础模型尺寸：ERNIE 3.0将任务特定表示模块设置为一个可管理的尺寸，即基础模型尺寸，而不是多任务学习中常用的多层感知器或浅层Transformer。

3. 设计带来的优势

更强的语义信息捕获能力：与多层感知器和浅层Transformer相比，基础网络具有更强的语义信息捕获能力。

参数数量的控制：任务特定网络采用基础模型尺寸，使得ERNIE 3.0能够在不显著增加大规模模型参数数量的情况下，区分不同任务范式之间的高层语义信息。

实际应用的可行性：由于任务特定网络的模型尺寸小于共享网络，当仅在任务特定表示模块上进行微调时，可以使得大规模预训练模型的实际应用更加可行。

4. 任务特定表示模块的构建

两个模块：ERNIE 3.0构建了两个任务特定表示模块，即自然语言理解（NLU）特定表示模块和自然语言生成（NLG）特定表示模块。

双向与单向建模：NLU特定表示模块是一个双向建模网络，而NLG特定表示模块是一个单向建模网络。

3.2 Pre-training Tasks

我们构建了几个针对不同任务范式的任务，以捕获训练语料库中的不同信息方面，并使预训练模型具备理解、生成和推理的能力。

3.2.1 Word-aware Pre-training Tasks

ERNIE 1.0提出了一种通过知识集成增强表示的有效策略，即知识集成掩码语言建模任务。它引入了短语掩码和命名实体掩码，预测整个被掩盖的短语和命名实体，以帮助模型学习局部和全局上下文中的依赖信息。

知识集成掩码语言建模：ERNIE 1.0提出了一种新的语言建模任务，通过知识集成来增强模型的表示能力。这包括两个主要的掩码策略：

短语掩码：预测文本中被掩盖的整个短语。

命名实体掩码：预测文本中被掩盖的命名实体。

依赖信息学习：这些掩码策略有助于模型学习文本中的依赖信息，包括局部上下文和全局上下文。

生成性预训练模型通常使用传统语言模型（如GPT [5]、GPT-2 [15]）或序列到序列语言模型（如BART [38]、T5 [1]、ERNIE-GEN [39]）作为预训练任务，后者在带有辅助解码器结构的网络上进行训练。ERNIE 3.0选择传统语言模型作为预训练任务，以降低网络复杂性并提高统一预训练的有效性。

预训练任务的选择：ERNIE 3.0在选择预训练任务时，选择了传统的语言模型（如GPT和GPT-2），而不是序列到序列的语言模型（如BART、T5、ERNIE-GEN）。这一选择旨在减少模型的复杂性，并提高统一预训练框架的有效性。

此外，为了使ERNIE 3.0的NLG网络能够建模更长的文本，我们引入了在ERNIE-Doc [37]中提出的增强循环记忆机制，该机制通过将下移一层的循环改为同层循环，能够建模比传统循环Transformer更大的有效上下文长度。

增强循环记忆机制：为了使ERNIE 3.0的自然语言生成（NLG）网络能够处理更长的文本，引入了一种增强的循环记忆机制。这种机制通过改变循环的方式，允许模型处理更大的有效上下文长度。

3.2.2 Structure-aware Pre-training Tasks

句子重排序任务，这是在ERNIE 2.0 [29] 中引入的，旨在通过重新组织排列的段落来训练模型学习句子之间的关系。具体来说，在预训练期间，给定的段落被随机分成1到m个段落，然后所有可能的组合都通过随机排列顺序进行洗牌。接着，要求预训练模型重新组织这些被打乱顺序的段落，这个问题可以建模为一个k类分类问题，其中k = ∑从n=1到m的n!。

句子重排序任务：

目的：训练模型通过理解句子间的关系来重新组织段落。

方法：在预训练时，将段落随机分割成多个小段，并将这些小段的所有排列组合进行随机打乱。

问题建模：将重新组织这些段落的问题建模为一个k类分类问题，其中k是所有可能排列的总数，计算公式为k = ∑从n=1到m的n!，即从1到m的每个数的阶乘之和。

句子距离任务，作为传统下一句预测（Next Sentence Prediction，NSP）任务的扩展，被广泛用于各种预训练模型中以增强它们学习句子级信息的能力，这可以建模为一个3类分类问题。这三个类别代表两种情况：两个句子是相邻的、两个句子不相邻但在同一个文档中、两个句子来自两个不同的文档。

句子距离任务：

目的：提升模型对句子级别信息学习的能力。

背景：作为传统的下一句预测（NSP）任务的扩展，这个任务在多个预训练模型中被使用。

问题建模：将句子距离的判断建模为一个3类分类问题，分类依据是两个句子之间的距离关系：

类别1：两个句子是相邻的。

类别2：两个句子不是相邻的，但位于同一个文档中。

类别3：两个句子来自不同的文档。

3.2.3 Knowledge-aware Pre-training Tasks

通用知识文本预测（Universal Knowledge-Text Prediction, UKTP）是一种先进的自然语言处理（NLP）任务，旨在通过结合非结构化文本和知识图谱来增强语言模型的知识理解和推理能力。这项任务是知识掩码语言建模（Knowledge Masked Language Modeling, KMLM）的扩展，后者主要关注于文本内容，而UKTP则进一步整合了知识图谱的结构化信息。

任务流程和原理

数据准备：从百科全书中选取文档，并在知识图谱中寻找与文档标题相关的候选三元组（即实体-关系-实体的集合）。

实体和关系掩码：在选定的三元组中随机掩码（遮蔽）某个关系，同时在百科文档的相应句子中掩码一些单词。

预测和推理：模型需要识别出句子中提及的头部实体和尾部实体，并预测它们之间的关系。这要求模型不仅要理解句子的语义，还要能够推断出知识图谱中的关系。

远程监督算法：UKTP任务中的过程与关系提取任务中的远程监督算法相似，该算法假设如果两个实体在某个关系中相互关联，那么任何包含这两个实体的句子都可能表达这一关系。

句子和三元组的逻辑关系：模型在预测句子中的掩码单词时，不仅要考虑句子内部的依赖信息，还要考虑与知识图谱中三元组的逻辑关系。

ERNIE 3.0模型的训练和优化

它通过以下几种方式进行训练和优化：

知识掩码语言建模：通过KMLM提高模型对词汇信息的捕获能力。

句子重排序和距离辨别任务：加强模型对句法信息的理解和推理能力。

通用知识文本预测任务：通过UKTP任务进一步优化模型，提高其知识记忆和推理能力。

文档语言建模任务：训练NLG网络以支持多样化的文本生成风格。

应用和意义

UKTP任务和ERNIE 3.0模型的结合，为NLP领域提供了一种新的途径，使得语言模型不仅能够理解和生成自然语言，还能够整合和推理结构化知识，从而在诸如问答系统、知识图谱填充、文本蕴含等任务中表现出更强大的性能。这种整合了结构化知识和自然语言处理的方法，为构建更加智能和高效的AI系统提供了可能性。

3.3 Pre-training Process

3.3.1 Pre-training Algorithm

渐进式训练（Progressive Training）是一种优化模型训练过程的策略，它旨在提高训练的稳定性和加速模型的收敛。这种策略最初是为了解决大型模型训练过程中的稳定性问题而提出的，其核心思想是从一个较小且高效的模型开始，逐步增加模型的复杂度和容量。

渐进式训练的关键点：

起始模型选择：训练从一个规模较小、计算效率较高的模型开始，以便于管理和优化。

逐步增加模型容量：随着训练的进行，模型的规模和复杂度逐渐增加，例如通过增加网络层数、参数数量或模型的其他组件。

应用场景：在大规模预训练模型（如BERT）中，渐进式训练被用来解决由于模型规模增大而导致的计算资源消耗问题。

BERT的两阶段训练：BERT模型在预训练的前90%更新中使用较短的序列长度，这有助于模型更快地学习到基础的语言表示。

批量大小的调整：在训练过程中，批量大小（Batch Size）从小值线性增加到最大值，有助于模型训练的稳定性和效率。

正则化因素的调整：研究表明，根据输入大小逐步调整正则化参数（如dropout率、权重衰减等）可以加快网络训练的速度。

综合调整训练因素：为了进一步提高训练的收敛速度，提出了一种改进的渐进式训练策略，该策略通过逐步增加输入序列长度、批量大小、学习率和dropout率等训练因素，以一种更全面和平滑的方式进行调整。

学习率预热策略：Transformer模型通常采用学习率预热（Learning Rate Warm-up）策略以提高训练的稳定性，改进的渐进式学习策略与此兼容，可以进一步提升训练效率。

渐进式训练的意义：

渐进式训练通过逐步增加模型的复杂度，使得模型能够在训练初期快速学习到有效的特征表示，随后逐步深入学习更复杂的模式。这种方法不仅提高了训练的稳定性，还有助于加速模型的收敛，尤其是在面对大规模数据和复杂模型结构时。此外，渐进式训练还有助于更高效地利用计算资源，因为它允许在训练的不同阶段采用不同的资源配置。

在深度学习和自然语言处理领域，渐进式训练已成为一种重要的优化策略，它有助于推动更大规模、更复杂的模型的研究和应用，同时减轻了计算资源的负担。

3.3.2 Pre-training Data

为确保ERNIE 3.0预训练的成功，我们构建了一个大规模、多样化和高质量的中文文本语料库，总存储量达到4TB，涵盖11个不同的类别。据我们所知，这目前是与CLUECorpus2020 [45]（100GB）、中文多模态预训练数据[21]（300GB）、CPM-2使用的WuDaoCorpus2.0 [20]（2.3TB中文数据和300GB英文数据）以及PanGu语料库[22]（1.1TB）相比，最大的中文预训练语料库。

具体来说，我们基于ERNIE 2.0的语料库构建了ERNIE 3.0的语料库（包括百科、维基百科、Feed等）、百度搜索（包括百家号、知道、贴吧、经验）、网络文本、长问答（QA-long）、短问答（QA-short）、诗歌和对联（Poetry 2&Couplet 3）、来自医疗、法律和金融领域的特定领域数据以及包含超过5000万条事实的百度知识图谱。

为提高数据质量，我们采用了以下预处理策略：

• 在不同的粒度级别进行去重，包括字符级别、段落级别和文档级别。在字符级别，我们用单个字符替换连续相同的字符（即空格、制表符、感叹号、问号等）。在段落级别，我们用单个段落替换由N个句子组成的两个连续相同的段落，其中0 < N < 100。前述两种去重策略对ERNIE 3.0生成不重复内容至关重要。最后，我们采用消息摘要算法5（MD5）通过比较每个文档中最长的前3个句子的MD5值之和来过滤重复文档。

• 过滤掉少于10个词的句子，因为它们可能是有问题或不完整的，对于模型预训练包含有限的语义信息。

• 我们进一步使用正则表达式进行句子分割，并基于百度的分词工具进行词分割。这有助于ERNIE 3.0在预训练期间更好地学习句子边界和命名实体知识。然后，每个数据集通过用户定义的乘数进行扩展，以增加数据多样性，之后为NLU网络预训练截断数据

3.3.3 Pre-training Settings

ERNIE 3.0是一个先进的自然语言处理模型，它在设计上采用了模块化的结构，包括通用表示模块和任务特定表示模块，两者均基于Transformer-XL这一先进的模型架构。

模型架构：通用表示模块拥有48个层级、4096个隐藏单元和64个注意力头，而任务特定表示模块则包含12个层级、768个隐藏单元和12个注意力头。

参数规模：这两个模块的参数总量达到了100亿，显示了ERNIE 3.0是一个超大规模的模型。

激活函数：模型选用了GeLU激活函数，这是一种在深度学习中常用的非线性激活函数，有助于模型学习复杂的数据分布。

序列长度和记忆长度：上下文的最大序列长度设置为512，这对于处理长距离依赖的文本信息非常重要；语言生成的记忆长度为128，这有助于模型生成连贯和上下文相关的文本。

批量大小：预训练任务的总批量大小为6144，这是一个相对较大的批量，有助于提高训练的效率。

优化器和学习率策略：使用Adam优化器，这是一种结合了AdaGrad和RMSProp优点的优化算法。学习率设置为1e-4，并采用β1=0.9和β2=0.999这两个超参数。L2权重衰减为0.01，有助于防止过拟合。学习率预热和线性衰减的策略有助于模型在训练初期快速收敛。

渐进式学习：在训练的前10,000步使用渐进式学习，这有助于在预训练的初始阶段加快模型的收敛速度。

训练规模：模型训练了3750亿个token，这是一个非常大的数据量，表明了ERNIE 3.0经过了大量的数据训练。

硬件资源：使用了384张NVIDIA v100 GPU卡，这显示了训练ERNIE 3.0所需的计算资源非常庞大。

框架和内存优化：模型在PaddlePaddle框架上实现，并通过参数分片技术减少了内存使用量，解决了模型参数量超过单个GPU卡内存的问题。

ERNIE 3.0的设计和训练策略体现了当前NLP领域在处理大规模语言模型方面的最新进展，特别是在模型规模、训练效率和内存优化方面的创新。这些技术的应用使得ERNIE 3.0能够在多种自然语言处理任务上取得优异的性能。

4 Experiments

我们通过在自然语言理解任务（第4.2.1节）和自然语言生成任务（第4.2.2节）上的微调，以及零样本学习（第4.3节）上，比较了ERNIE 3.0与4个最先进的预训练模型的性能。

4.1 Evaluation Tasks

我们执行了广泛的实验，对54个自然语言处理（NLP）任务进行了评估，以检验模型的微调和零样本学习性能。

4.1.1 Natural Language Understanding Tasks

在自然语言处理（NLP）的研究中，数据集的选择对于实验结果的可靠性和模型性能的评估至关重要。以下是对上述内容的详细解释：

1. **数据集数量和种类**：实验涉及了45个不同的数据集，这些数据集覆盖了14种不同的自然语言理解任务。

2. **任务类型**：这些任务可能包括文本分类、情感分析、命名实体识别、关系抽取、问答系统、机器翻译、摘要生成等，涵盖了NLP领域的主要研究方向。

3. **数据集的作用**：

- **模型评估**：数据集用于评估和比较不同模型的性能，包括准确率、召回率、F1分数等指标。

- **模型泛化能力**：通过在多种任务上测试，可以评估模型的泛化能力，即模型在未见过的任务上的表现。

- **模型鲁棒性**：数据集还可以用于测试模型的鲁棒性，例如对抗性攻击、噪声数据的处理等。

4. **实验设计**：选择合适的数据集需要考虑任务的多样性、数据的质量和规模、以及数据集的代表性。

6. **任务的代表性**：选择的数据集应该能够代表相应任务的典型挑战和难点。

7. **实验结果的解释**：通过在这些数据集上的实验，研究者可以得出关于模型性能的结论，并分析模型在不同任务上的表现差异。

8. **后续研究的基础**：这些实验结果可以为后续的研究提供基准，帮助其他研究者了解当前模型在这些任务上的性能水平。

通过在这些多样化的数据集上进行广泛的实验，可以全面地评估和理解模型在自然语言理解方面的能力，为NLP领域的研究提供宝贵的经验和见解。

4.1.2 Natural Language Generation Tasks

在我们的实验中，使用了9个数据集，这些数据集属于7种自然语言生成任务，具体如下：

• 文本摘要：LCSTS [10]

• 问题生成：KBQG 16，DuReader-QG [67]，DuReaderrobust-QG [68]。

• 闭卷问答：MATINF-QA [74]。

• 数学：Math23K [75]。

• 广告生成：AdGen [76]。

• 翻译：WMT20-enzh [77]。

• 对话生成：KdConv [78]。

4.2 Experiments on Fine-tuning Tasks

4.2.1 Fine-tuning on Natural Language Understanding Tasks

情感分析。情感分析是一个分类任务，旨在确定一个句子是积极的、消极的还是中性的。我们考虑了来自不同领域的4个数据集，包括购物（NLPCC2014-SC）、电子产品（SE-ABSA16_PHNS, SE-ABSA16_CAM）和金融（BDCI2019）。ERNIE 3.0在所有四个数据集上都取得了显著的改进。意见抽取。与情感分析任务类似，意见抽取要求模型挖掘句子的意见。我们使用了来自中文客户评论（COTE）的3个子数据集。实验结果表明，ERNIE 3.0也以很大的优势超越了当前最先进的系统。

自然语言推理。自然语言推理任务是确定给定的前提在语义上是否蕴含另一个假设。我们使用了OCNLI和XNLI数据集。结果表明，ERNIE 3.0在这两个数据集上分别取得了3.9和0.7的准确率提升。XNLI数据集上的提升相当有限，这可能是由于数据集质量较差，因为XNLI数据集是从英文翻译过来的。

Winograd模式挑战。WSC2020是一个指代消歧任务，模型需要判断句子中的代词和名词是否共指，ERNIE 3.0取得了25.7点的显著提升。

关系抽取。关系抽取任务是识别不同实体（如个人和组织）之间的关系。我们考虑了FinRE和SanWen——分别针对财经新闻和中国文学的关系抽取数据集。ERNIE 3.0平均比之前的最先进模型高出2.46个百分点。

事件抽取。与关系抽取类似，事件抽取任务旨在识别事件实体并将它们分类到不同的类别中。我们选择了CCKS2020——一个财经领域的文本级事件主体抽取数据集。ERNIE 3.0在测试集上提高了3个百分点。

语义相似度。语义相似度是一个经典的NLP任务，它确定不同术语（如单词、句子、文档）之间的相似性。在这项工作中，我们专注于句子级别的相似性任务。我们在包括AFQMC、LCQMC、CSL、PAWS-X和BQ在内的几个不同领域的数据集上测试了ERNIE 3.0。实验结果表明，ERNIE 3.0以显著的优势超越了基线模型。特别是在参数数量相似的情况下，ERNIE 3.0在LCQMC数据集上比CPM-2高出1.2个百分点。

中文新闻分类。我们还在中文新闻分类上评估了ERNIE 3.0。我们考虑了包括新闻标题（TNEWS）、应用描述（IFLYTEK）和新闻故事（THUCNEWS、CNSE、CNSS）在内的6个数据集。在不同类型的分类任务中，ERNIE 3.0可以一致地实现更好的准确率，平均提高了2.8个百分点。

闭卷问答。闭卷问答旨在在没有任何额外参考或知识的情况下直接回答问题。我们选择了一个通用问答数据集NLPCC-DBQA和三个医学领域的数据集——CHIP2019、cMedQA和cMedQA2来测试ERNIE 3.0的能力。实验结果表明，ERNIE 3.0在所有问答任务上的表现都更好，我们认为知识增强的预训练方法确实为闭卷问答任务带来了好处。

隐语理解。隐语，也称为双关语，是人类的一种高级语言使用方式。然而，对于机器来说理解这种类型语言相当困难。我们在DogWhistle——一个基于Decrypto游戏的数据集上测试了ERNIE 3.0的隐语理解能力。模型需要在相应隐语的指导下选择正确答案。ERNIE 3.0取得了最佳结果，并展示了其理解更困难语言的潜力。

命名实体识别。命名实体识别是自然语言处理（NLP）中的经典任务，涉及从文本中提取和分类实体。我们选择了广泛使用的OntoNotes、CLUENER、微博和特定领域的数据集CCKS2019。结果显示，ERNIE 3.0在所有数据集上的表现都优于基线模型。

机器阅读理解。我们全面评估了ERNIE 3.0在不同方面的机器阅读理解能力，包括段落预测阅读理解（CMRC2018、DuReader、DRCD、DuReaderchecklist）、多项选择阅读理解（C3、DuReaderyesno）、完形填空和完成（CHID、CMRC2019）以及鲁棒性测试（Dureaderrobust）。借助知识增强的预训练，ERNIE 3.0在所有类型的任务上都取得了显著的提升，超越了基线模型。具体来说，ERNIE 3.0在5个段落预测任务上至少实现了1.0点的EM（Exact Match）提升，在多项选择任务上平均准确率提高了0.89个百分点。此外，在参数数量相似的情况下，ERNIE 3.0在C3数据集上比CPM-2高出0.6个百分点。对于鲁棒性测试，ERNIE 3.0在测试集上的表现也最佳，包括对过度敏感和过度稳定样本的测试。

法律文件分析。接下来，我们测试了ERNIE 3.0在文件分析上的能力，我们选择了两个法律领域的特定任务。这两个来自CAIL2018的数据集都是多标签文档分类任务。ERNIE 3.0以显著的增量超越了ERNIE 2.0。

文档检索。文档检索的目标是基于查询匹配文档。我们在Sogou-Log上评估了ERNIE 3.0的检索能力。按照之前的研究[20]，我们在test-same测试集上报告了NDCG@1的性能，在test-raw测试集上报告了MRR的性能，ERNIE 3.0超越了CPM-2。

4.2.2 Fine-tuning on Natural Language Generation Tasks

自然语言生成任务的结果在表3中报告。

文本摘要

我们考虑了一个大规模中文短文本摘要（LCSTS）数据集，该数据集要求模型理解文本并提炼关键信息以生成连贯、有信息量的摘要。LCSTS是一个经典的中文文本摘要数据集，包含200万条真实的中文短文本和来自新浪微博的简短摘要。ERNIE 3.0达到了48.46%的Rouge-L得分，超越了参数数量相当的CPM-2（11B）和当前最先进的ProphetNet-zh。

问题生成

问题生成是机器阅读理解（MRC）的反向任务，要求模型理解文档并基于给定的简短答案生成一个合理的的问题。我们使用了包括知识库问题生成（KBQG）、两个名为Dureader和Dureaderrobust的MRC数据集的三个数据集套件。与基线模型相比，ERNIE 3.0在这三项数据集上的表现最佳。

数学

为了测试ERNIE 3.0执行简单算术运算的能力，我们考虑了Math23K数据集，该数据集包含了23,161个针对小学生的真实数学文字问题，包括问题描述、结构化方程式和答案。ERNIE 3.0被微调以生成给定问题描述的结构化方程式的后缀表达式，然后可以使用Python eval()函数计算最终答案（注意，'['和']'应分别替换为'('和')'，另外'%'应替换为'*0.01'，以避免使用Python eval()函数时解决方案失败）。结果表明，ERNIE 3.0是一个出色的数学解答器，准确率达到了75%，与CPM-2的69.37%相比。

广告生成

我们考虑了AdGen，它包含了来自中国电商平台的119,000对广告文本和服装规格表。它要求模型生成一个长广告文本，涵盖一件服装的所有给定属性-值对。一个属性-值对用冒号连接，并且根据它们的段落编号，多个属性-值对用‘|’顺序连接。然后我们采用结构化的属性-值对字符串作为ERNIE 3.0的输入。结果表明，ERNIE 3.0能够通过从结构化输入中提取信息，生成连贯且引人入胜的长篇广告文本，与CPM-2相比，在BLEU-4上提高了19.56个百分点。

翻译

对于ERNIE 3.0，我们主要考虑在中文语料库上的预训练。为了测试其多语言能力，我们扩展了词汇表，以包含额外的10,000个英文子词。在一个经典的多语言数据集WMT20-enzh上，我们对ERNIE 3.0进行了微调，以将英语翻译成中文。与mT5-xxLarge和CPM-2相比，ERNIE 3.0的表现最好，展现了卓越的多语言能力。

对话生成

接下来，我们在对话生成任务上评估ERNIE 3.0。我们考虑了一个包含4.5K对话的中文多领域知识驱动的对话语料库，这些对话来自三个领域（电影、音乐和旅行）。我们仅通过提供对话历史来生成当前话语，在上述三个领域的融合数据集上训练和测试ERNIE 3.0。知识三元组从输入中排除，因此它适合测试模型利用预训练期间的固有知识对多轮对话进行建模的能力。与基线模型相比，ERNIE 3.0的性能提高了很多，提高了8.1个百分点，我们认为知识图谱增强的预训练贡献了很多。

4.2.3 LUGE benchmark

为了全面方便地进一步评估不同模型的能力，我们在语言理解和生成评估基准测试（LUGE）上进行了实验。我们使用了LUGE中的六个代表性任务（见表4）。ERNIE 3.0在ERNIE 2.0和RoBERTa等领先的预训练模型上平均提高了5.36%。

4.3 Experiments on Zero-shot Learning

我们已经证明了ERNIE 3.0在遵循预训练然后微调范式的NLU和NLG任务上优于以前的SoTA（State of the Art，最佳方法）方法。在本节中，我们在零样本设置下进行各种类型的任务，即在不进行任何梯度更新或微调的情况下应用模型。ERNIE 3.0在大多数下游任务上与最近提出的大规模语言模型（如CPM-1（2.6B）、PanGu-α-2.6B和PanGu-α-13B）相比，表现出色。最后，我们展示了ERNIE 3.0在我们手动收集的450个案例中的13个不同任务上，能够生成更连贯、自然和准确的响应。

4.3.1 Evaluation

评估方法可以分为两类：基于困惑度的方法和基于生成的方法。

基于困惑度的方法。在需要从多个候选答案中选择一个正确答案的任务上，例如CHID和CMRC2017，我们比较将每个答案填入上下文空白处时的每个令牌的困惑度分数。困惑度分数较低的那个将被预测为正确答案。在需要二元或多重分类的任务上，我们给每个标签赋予一个更有意义的语义名称，并使用提示将上下文和标签形式化为可读的文本。然后，这类任务可以被视为多项选择任务。我们使用的提示与CPM-1和PanGu-α中的类似。

基于生成的方法。在具有自由形式完成的任务上，例如闭卷问答，我们使用宽度为8的束搜索，并且没有长度惩罚。一个完成的最大生成长度是由基于数据集上答案长度的95%百分位点的预定义数字限制的。然后使用诸如精确匹配（EM）、F1和Rouge-1等指标。在具有受限完成的任务上，例如提取式MRC，我们使用与以前相同的参数的受限束搜索。为每个样本构建了一个Trie树，以有效且高效地限制生成空间，并且只生成在给定文本中发生的完成。

4.3.2 Results

中文新闻分类。对于TNEWS和IFLYTEK数据集，分别有15个和119个类别。我们为每个样本随机抽取三个候选样本作为负面标签，并比较这四个选择中的每个令牌的困惑度分数。这种抽样策略与CPM-1和PanGu-α的策略一致，以减少总的计算成本，因为我们需要为每个候选样本单独计算每个令牌的困惑度分数。ERNIE 3.0在TNEWS上表现良好，甚至与以前的最先进微调方法相匹敌，在IFLYTEK上表现稍好。

语义相似性。我们考虑AFQMC和CSL数据集。ERNIE 3.0以较大的优势超越了基线模型。然而，准确度略高于随机猜测模型。这部分可能部分归因于提示的选择不佳。

自然语言推理。ERNIE 3.0在两个NLI数据集上进行了评估，即OCNLI和CMNLI，CMNLI由将英语翻译成中文的XNLI和MNLI组成。我们使用提示$SENT_A? NO/YES/MAYBE, $SENT_B。ERNIE 3.0的性能与基线相当，这表明预训练模型在零样本NLI任务上仍有较大的改进空间。

Winograd模式挑战：我们将WSC2020数据集形式化为多项选择完成任务，其中代词被每个候选项替换，以计算样本的每个令牌的困惑度。与PanGu-α-13B相比，ERNIE 3.0提高了3.38个百分点的性能。

4.3.3 Case Study

我们手动收集了450个案例，以评估当前大规模预训练模型在零样本生成能力上的表现，这些任务覆盖了包括问答、解释、对话、文本生成和摘要在内的5种不同类型的13个任务。在人工评估中，注释者被要求在[0, 1, 2]的评分范围内对生成质量进行打分。我们在表6中报告了连贯性、流畅性和准确性的平均分数，并在表7中展示了ERNIE 3.0的一些零样本生成示例。与CPM-1、PLUG、PanGu-α相比，ERNIE 3.0平均能够生成最连贯、最流畅、最准确的文本。

以下是三种评分指标的介绍，评分的详细细节提供在表8中。

连贯性（Coherence）：衡量生成文本与上下文是否相关且一致。

流畅性（Fluency）：评估生成的文本是否自然或可读。流畅的文本在语义上不应有矛盾。

准确性（Accuracy）：评估生成文本是否与真实答案一致。

4.4 Experiments on SuperGLUE

作为一个多任务的自然语言理解基准测试，SuperGLUE [3] 通常用来评估预训练模型的性能。我们也在SuperGLUE上测试了ERNIE 3.0的性能，它涵盖了以下多样化的NLP数据集：

BoolQ（布尔问题，[56]）是一个问答任务，其中每个例子包括一个短文段和一个关于该文段的是非问题。任务是用YES或NO回答问题，该任务的评估指标是准确率。

CB（承诺库，[88]）是一个不平衡的自然语言推理任务语料库。该任务使用准确率和宏F1值进行评估。

COPA（可行选择[89]）是一个基于常识知识因果推理任务。数据来自博客和与摄影相关的百科全书。按照原始工作，我们使用准确率来评估这项任务。

MultiRC（多句阅读理解[90]）是一个问答任务，其中每个例子包括一个上下文段落、关于该段落的问题以及可能答案的列表。系统必须预测哪些答案是真实的，哪些是虚假的。评估指标是所有答案选项上的F1值（F1a）和每个问题答案集的精确匹配（EM）。

ReCoRD（带常识推理的阅读理解数据集，[91]）是一个多项选择问答任务。它要求模型在给定新闻文章的上下文和一种完形填空风格的问题的情况下，选择一个实体来完成答案。这项任务通过最大值（超过所有提及）的标记级F1和精确匹配来评估。

RTE（识别文本蕴含[92]）数据集来自一系列关于文本蕴含的年度竞赛。它是一个自然语言推理语料库，并使用准确率进行评估。

WiC（上下文中的词[93]）是一个词义消歧任务，作为句子对的二元分类，使用准确率作为评估指标。

WSC（Winograd模式挑战[94]）是一个指代消歧任务，其中的例子由一个包含代词的句子和该句子中名词短语的列表作为选项组成。系统必须从提供的选项中选择代词的正确指代。该任务使用准确率进行评估。

与RoBERTa [95] 和 DeBERTa [96] 中使用的预训练语料库类似，我们为ERNIE 3.0编译了包括英文维基百科、BookCorpus [97]、CC-News [98]、OpenWebText [99]在内的英文预训练语料库。如表9所示，ERNIE 3.0超越了T5 [1] 和 DeBERTa [96]，在SuperGLUE基准测试中获得了90.6分，排名第一。

5 Analysis

任务特定表示模块的有效性。为了验证任务特定网络的有效性，我们比较了我们提出的结构与在各种预训练任务下共享参数的结构。在消融测试中，我们选择理解和生成作为两种不同的训练范式，并利用第3.2节中提到的相应任务。统一网络遵循基础模型设置（12层、768维、12个注意力头），而每个任务范式的任务特定网络设置为3层、256维和4个注意力头。对于对比模型，任务特定网络在不同任务范式之间共享。图3展示了预训练过程中NLG任务的困惑度变化。

正如图3所示，拥有各自任务特定网络的不同任务范式的模型达到了更高的收敛速度。此外，随着训练的进行，与共享任务特定网络的模型相比，性能差距变得更大。实验结果表明了所提出的任务特定网络的有效性，并证明了区分不同任务的必要性。

通用知识-文本预测。进行了一系列消融实验以评估通用知识-文本预测任务的性能。关系抽取任务是一个典型的知识驱动任务，旨在预测给定句子中提到的两个实体之间的关系。具体来说，我们添加了四个特殊标记，[HD]、[/HD]、[TL]和[/TL]，以分别识别头部实体和尾部实体的提及，然后对上述四个特殊标记的最终表示之和进行关系分类。我们在SanWen和FinRE数据集上构建了实验，如表10所示，知识增强策略在关系抽取任务上取得了令人印象深刻的经验性能。

渐进学习以加速收敛。我们在包括ERNIEBase和ERNIE1.5B的两种架构设置上记录了训练收敛速度，其中ERNIEBase的架构设置遵循[7]，ERNIE1.5B模型由48层组成，隐藏尺寸为1,536，有24个注意力头。如表11所示，我们记录了模型损失值收敛到与ERNIE 3.0相同的时间。对于ERNIEBase模型，收敛时间从11小时减少到4小时，减少了65.21%；

对于ERNIE1.5B，收敛时间减少了48%。对于这两种设置，我们在8个NVIDIA Tesla V100 GPU上进行预训练。对于ERNIEBase，我们将批量大小从8增加到2048，序列长度从128增加到512，学习率从0线性增加到1e-4，在渐进式预热阶段dropout保持为0。对于ERNIE1.5B，我们逐渐将批量大小从8增加到8192，学习率从0增加到6e-4，dropout也保持为0。实验的其余设置保持与[7]相同。对于ERNIE1.5B，为了在GPU内存限制内实现峰值批量大小，在预训练期间使用了梯度累积策略。

6 参考

https://arxiv.org/pdf/2107.02137

用户评论

巴黎盛开的樱花

这《神经网络ERNIE3.0》玩起来感觉挺有意思的，画面做得挺逼真的。

有19位网友表示赞同！

泪湿青衫

我已经玩了三天了，还是觉得这个游戏很有趣，故事背景设置得很好。

有19位网友表示赞同！

三年约

ERNIE3.0的AI反应真的很牛，有时候它都猜出了我的想法！

有7位网友表示赞同！

折木

剧情很吸引人，感觉自己就像在玩一个真实世界的故事一样。

有12位网友表示赞同！

煮酒

游戏的关卡设计得很巧妙，每次通关都有种成就感。

有19位网友表示赞同！

哭花了素颜

AI的学习进化过程很有趣，看着它们不断变强。

有7位网友表示赞同！

你tm的滚

操作简单便捷，不会玩的玩家也能轻松上手。

有12位网友表示赞同！

柠栀

音乐和音效都做得很好，让人沉浸在其中。

有6位网友表示赞同！

抚涟i

这个游戏似乎有些Bug，不过不影响游戏体验多少。

有7位网友表示赞同！

何必锁我心

喜欢刺激的玩家千万不要错过这个游戏，挑战性十足啊！

有14位网友表示赞同！

刺心爱人i

ERNIE3.0的角色设计也很个性，每个角色都有自己独特的技能。

有17位网友表示赞同！

伱德柔情是我的痛。

这款游戏的优化做得很好，运行起来毫无卡顿。

有15位网友表示赞同！

别在我面前犯贱

和朋友们一起组队玩这个游戏真的很开心。

有16位网友表示赞同！

灵魂摆渡人

有时候AI的表现有点不自然，但总体来说还可以接受。

有16位网友表示赞同！

颓废i

ERNIE3.0的多人模式简直太好玩了，可以和全国玩家一决高下！

有18位网友表示赞同！

七级床震

游戏的画面细节处理得太好了，连树木的纹理都看着很清晰。

有17位网友表示赞同！

苏樱凉

每次升级后，都有新的技能解锁，让人期待不已。

有7位网友表示赞同！

素婉纤尘

虽然有时候玩得有点儿累，但总的来说是个好游戏。

有7位网友表示赞同！

熟悉看不清

和AI对话时感觉它越来越懂我，很有趣啊！

有12位网友表示赞同！

热点资讯