论文导读 | 基于注意力机制对齐增强预训练语言模型

2023年6月10日上午5:03 • 人工智能 • 阅读 85

这篇文章通过提出了一种注意力机制对齐的方法，为预训练语言模型在 fine-tuning阶段引入了多源分词信息外部知识，从而提升了预训练语言模型在各个子任务上的效果。本文收录于 2020 年 ACL。

问题背景

BERT 出现后，预训练语言模型统治了大多数的NLP应用任务，预训练-微调这一2-stage 模式成为了主流。随着预训练语言模型的不断发展，预训练任务和模型结构被不断改进，以让模型适配更大量的数据的数据，以及从更多途径获取各种外部知识。

对于中文预训练语言模型来说，最实用、直接的方法便是引入词汇级别的知识了。例如，baidu-ERNIE1.0、BERTwwm 尝试融入实体级别/词级别的信息、 thu-ERNIE 尝试将知识图谱融入语言模型并对齐、ZEN 尝试使用 n-gram 导入词信息等。

（上图为阅读中文时人眼动的注意力分布，基本在单个词间均匀分布）

如 Is Word Segmentation Necessaryfor Deep Learning of Chinese Representations 一文所描述，字级别的建模对于中文自然语言处理来说更加合适。同时已有大量工作证明，通过在字级别的模型之上引入词汇特征可以提升模型效果（尤其对于注重区分词汇边界的任务更是如此，如NER、Span-MRC 等）。而目前在字模型中融入词模型的方法普遍存在一些问题，例如：主流采用 Gazetteer 等形式的词表进行引入（如 LatticeLSTM 及其变体模型），泛用性不够高；前人工作全部使用的是单个来源的词汇信息，当出现词表错误、分词错误等情况时，反而会造成反效果。

因此，作者试图构建一种能直接获取分词这种通用的词汇信息的方法，并整合多种来源的分词结果，以提高模型的泛用性，并降低单个词表和分词工具中误差对模型造成的影响。

方法原理

作者使用BERT及其针对中文改进并二次微调的ERNIE 1.0、BERTwwm作为基线模型。这几个模型皆为字级别的模型，因此输出可视为字级别的编码器。在字编码器输出的字表示之上接入 Self-Attention 层，如下图所示：

对字表示的 Self-Attention 的权重应用此划分 π，可以得到按词组合的字到字的Attention 权重矩阵：

将此步的 Attention 权重进行可视化，可以得到与前文眼动注意力示意图类似的结果。作者在情感分类任务模型中对”今天的云非常好看”句子进行了可视化，在此步得到的字-词 Attention 权重矩阵的可视化结果如下图所示：

可以看到对句子情感极性影响较大的”好看”一词在 Attention矩阵中成分占比更大，可能在下游的分类中产生更多的贡献。

最后，作者使用 upsampling 的方式将上述字-词级别Self-Attention 的权重矩阵按照分词划分的逆操作重新上采样至字级别，如图所示：

由此，就得到了融入一种分词信息之后的字级别 Self-Attention权重矩阵了。将此权重乘回字级别编码器得到的字表示上，即可得到与原模型完全对齐的、引入了分词信息的增强后的表示了。将上述步骤结合起来，整个模型结构如下图所示：

此时，模型获取的是单独一种分词方式 π 得到的增强字级别表示。然而，在更多情况下，单个分词工具得到的结果不一定准确，或是分词的粒度不一定符合任务的预期。下表展示了使用三种流行的分词工具对同一个句子进行分词得到了三个不同的结果：

在本例子中，这几个分词器得到的结果都是对的，但是其粒度不同。为了减少分词错误，以及用上不同粒度级别的特征，作者使用了一种简单的方法，同时用上多个分词工具的分词结果：

实验

由于这篇文章是在中文预训练语言模型上进行的拓展工作，因此作者对常用的中文预训练语言模型任务都进行了实验。

其中，任务具体包括了情感分类（ChnSentiCorp 与 weibo-100k两个数据集）、命名实体识别（ontonotes 数据集）、句子对匹配（LCQMC 数据集）、自然语言推断任务（XNLI 数据集）、中文阅读理解（DRCD 数据集）。

在这些任务上，作者以 BERT、baidu-ERNIE 1.0、BERTwwm三个模型分别作为基础模型进行增强，并同时也做为基线模型进行对比，得到的实验结果如下表所示：

可以看到，融入多源分词信息后，各个中文预训练语言模型都在各个任务上得到了普遍的提升。其中，MRC阅读理解任务提升比较明显，经过 Case Study 作者发现融入分词信息后，发现模型预测出的答案相比原始模型更加准确，部分原始模型正确预测了大多部分文本，却在词边界出现问题的情况减少了。

同时，作者进行了消融实验，对比了使用单个分词工具与使用多源分词工具以及随机分词工具的效果：

与前文一致，使用多种分词工具的结果比使用单个分词工具得到的结果要好。

总结

本文提出了一种新颖的融入外部知识的方法，可以通过融入多种分词工具增强中文预训练语言模型的效果，实验证明在多种下游中均有效果。并且这种方法虽然引入了大量的外部知识，但在空间占用上并没有提升多少：

参数量基本与原始模型持平。

然而，在时间消耗上这个模型仍然有不少的进步空间。首先，由于改变了 Self-Attention的矩阵运算，变成了一个样本一个样本各自计算其不同的组合方式，因此无法借助 cudnn 原语加速，且把时间复杂度 O(n2) 增加了常数倍 O(dn2)，d 是平均样本长度，因此增加了模型在训练与推断时的速度。此外，由于模型需要预先处理好分词结果，因此增加了不少预处理时间与预处理难度。如果能对此模型进行性能改进、适配GPU 加速，才能真正用于生产环境中提高模型效果。

Original: https://blog.csdn.net/weixin_48167662/article/details/109463240
Author: PKUMOD
Title: 论文导读 | 基于注意力机制对齐增强预训练语言模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/595412/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

mybatis 单框架实现数据库查询

mybatis 单框架实现数据库查询 1 准备工作 1.1 导入依赖 <dependencies> <dependency> <groupId>…

人工智能 2023年6月29日
0074
语音识别入门课——week4（隐马尔可夫模型HMM）

1.基本概念(一个定义、一个构成、两个基本假设) [En] 1. Basic concepts (one definition, one composition and two b…

人工智能 2023年5月27日
0089
python opencv 图像处理 – 使用opencv图像二值化（完整代码体验）

最近继续学习了 python opencv 图像二值化处理的方法。同时做了 h5 版本的，如上图。可以随时预览，分享一下，希望多少有些帮助吧。目前只是个Demo，后面会逐步完善…

人工智能 2023年5月28日
0093
机器学习（一）回归算法

回归算法是一种 有监督算法 回归算法是一种比较常用的机器学习算法,用来…

人工智能 2023年6月18日
0047
cudart64_110.dll not found windows解决方法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月26日
0067
Matlab学习第一部分：基础知识

一、MATLAB变量特殊常量是一些预先定义好的数值变量含义符号圆周率Πpi机器的浮点运算误差限eps虚数单位i或者j无穷大量∞inf非数NaN临时变量ans 所有变量都表示一个…

人工智能 2023年6月20日
0096
图像处理RIP软件，图像色彩管理，数字喷墨打印技术

1．RIP的概念： RIP (Raster Image Processor)的中文名称是栅格图像处理器。RIP的作用是将jpg、bmb、tif 等图片文件变成PRN格式文件，打印机…

人工智能 2023年6月20日
00155
Windows桌面程序自动化控制之uiautomation模块全面讲解

### 回答1： UI 自动化_是一种 _自动化_测试技术，用于测试PC端应用 _程序。它通过模拟用户的操作，自动执行测试用例，以验证应用程序_的正确性和稳定性。 _UI 自动化…

人工智能 2023年7月30日
0060
定位导航——旋转矩阵，IMU，左右乘

我们先明确一下这里所说的一些概念 IMU IMU全称Inertial Measurement Unit，惯性测量单元，主要用来检测和测量加速度与旋转运动的传感器。起初只是用来测量角…

人工智能 2023年6月11日
0087
Swin Transformer理解

最近在阅读transformer，也作个笔记，供学习使用。希望阅读者有CNN的基础，如YOLO,MobileNets，ResNet等,并且一定要先阅读ViT。不然读起来可能比较吃力…

人工智能 2023年6月25日
0081
Tensorflow与keras学习 (12)——Vision Transformer（VIT）分析复现

ViTransformer——BotNet分析 1 ，Transformer 是什么？ 1.1 、self-Attention 细节描述 Self-Attention 是Trans…

人工智能 2023年5月25日
0088
如何对Tensor对象进行标准化处理

问题描述如何对一个Tensor对象进行标准化处理？详细介绍标准化是一种常见的数据预处理技术，主要用于将数据按照一定的规则进行缩放，以使得数据具有相同的尺度和分布特征。标准化可…

人工智能 2024年1月1日
0099
plt.xticks()用法

前言在学习ML的过程中，遇到plt.xticks()的使用，在网上看别人写的教程，看得有点头晕，最后看官方文档和一个例子才明白了其用法。故写下这篇文章记录函数功能获取或设置当…

人工智能 2023年7月3日
00169
cv2.bitwise_and（）图像的与运算

定义 dst=cv2.bitwise_and（src1,src2[,mask]]）用法实现按位与运算 dst表示与输入值具有同样大小的array输出值。 src1表示第一个ar…

人工智能 2023年6月17日
0073
array矩阵列表与dataframe互相转换

1.array转换为DataFrame import numpy as np import pandas as pd array_demo= np.random.randn(2,4…

人工智能 2023年6月15日
00110
【分类模型】聚类分析

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

论文导读 | 基于注意力机制对齐增强预训练语言模型

大家都在看