日期
03/30
2023
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

数之联提出了一种基于数据增强的领域预训练方法
收藏
2023-03-30 14:29:01来源: 中国机器视觉网

近日,中国电子科技集团公司第十研究所甘翼、路高勇、苏智慧、成都数之联科技股份有限公司王磊、周俊临、蒋家玮与电子科技大学陈端兵合作发表了题为《A Joint Domain-Specific Pre-Training Method Based on Data Enhancement》的学术论文。甘翼为论文第一作者,陈端兵为论文通讯作者。该论文提出了一种基于数据增强的领域预训练方法。

微信图片_20230330142916.png

近年来,随着人工智能领域飞速发展,特别是在深度学习的支持下,自然语言处理技术(NLP)在各项任务中取得了巨大进展。在这些任务中,预训练技术起到了至关重要的作用。随着预训练模型越来越准确,微调所需预训练语料库规模越来越大。然而,很少有研究探讨预训练语料库的选择。

在传统的预训练过程往往存在两个问题:在对下游任务进行微调后,往往会忘记在预训练阶段学到的知识,导致灾难性的遗忘。预训练过程与下游微调联合训练是一种可以有效缓解灾难性遗忘问题的解决方案。然而,由于预训练语料库的规模很大,需要大量的计算资源和时间。

基于此,本文提出了一种基于数据增强的领域预训练方法来解决这两个问题。

微信图片_20230330142936.png

该方法首先将预训练任务和下游微调任务进行联合训练,以缓解现有经典预训练方法产生的灾难性遗忘问题。然后,基于从下游任务反馈的难分样本,本方法从领域语料中选择相似文本来重建预训练语料库。通过对重建的预训练语料库的学习可以加深模型对无法确定的文本表达的理解,从而增强模型对领域文本的特征提取能力。在没有对预训练语料库进行任何预处理的情况下,分别对命名实体识别(NER)和文本分类(CLS)这两个任务进行了实验。

实验结果表明,与其他基准方法相比,学习所提出方法选择的领域语料库可以补充模型对领域特定信息的理解,并提高基本预训练模型的性能,以获得最佳结果。