文本分类还停留在BERT？对偶对比学习框架也太强了

2023年7月2日下午1:40 • 人工智能 • 阅读 49

论文简介：对偶对比学习：如何将对比学习用于有监督文本分类
论文标题：Dual Contrastive Learning: Text Classification via Label-Aware Data Augmentation
论文链接：https://arxiv.org/abs/2201.08702
代码链接：https://github.com/hiyouga/dual-contrastive-learning
论文作者：{Qianben Chen}
知乎笔记：https://zhuanlan.zhihu.com/p/466685216

论文摘要

对比学习在无监督环境下通过自我监督进行表征学习方面取得了显著的成功。然而，有效地使对比学习适应于监督学习任务在实践中仍然是一个挑战。在这项工作中，作者提出了一个对偶对比学习(DualCL)框架，在同一空间内同时学习输入样本的特征和分类器的参数。具体来说，DualCL将分类器的参数视为关联到不同标签的增强样本，然后利用其进行输入样本和增强样本之间的对比学习。 对5个基准文本分类数据集及对应低资源版本数据集的实验研究表明，DualCL分类精度明显得到提高，并证实了DualCL能够实现样本判别表示的效果。

DualCL简介

表示法学习是当前深度学习的核心。在无监督学习的背景下，对比学习最近已被证明是获得下游任务的通用表征的有效方法。简单地说，无监督对比学习采用了一个损失函数，它迫使同一样本的不同”视角”的表示向量相似，而不同样本的表示向量则不同。最近对比学习的有效性方面被证明是由于同时实现了”对齐性”【alignment】和”一致性”【uniformity】。

对比学习方法也适用于监督表示学习，以往研究中也使用了类似的对比损失，基本原理是坚持同一类中样本的表示是相似的，不同类的样本表示是相似的。清楚的。然而，尽管取得了成功，但与无监督对比学习相比，这种方法的原则性似乎要差得多。例如，表示的统一性不再有效；也不是必需的，通俗来讲就是特征的在空间分布不再均匀，所以我们认为标准的监督对比学习方法对于监督表示学习来说并不自然。另外存在一个事实就是，即这种对比学习方法的结果并没有直接给我们一个分类器，需要开发另一种分类算法来解决分类任务。

接下来我们讲讲DualCL提出的动机，作者为了旨在开发一种更自然的方法来实现在监督任务下的对比学习。作者关键动机是监督表示学习应该包括学习两种参数：一个是输入x x x在适当的空间特征z z z,用来满足分类任务需求，另一个是分类器的参数，或者作用于分类器空间的参数θ \theta θ；我们将这个分类器称为x x x的”one example”分类器。在这种观点下，自然将样本x x x联想到两种参数：一个为维度为d d d的z ∈ R d z\in \mathbb{R}^d z ∈R d，用来表示特征；一个是分类器参数θ ∈ R d × K \theta \in \mathbb{R}^{d \times K}θ∈R d ×K，其中K K K代表样本中分类总数。那么有监督的表示学习可以认为是为输入样本x x x生成( z , θ ) (z,\theta)(z ,θ)。

为了保证分类器θ \theta θ对于特征z z z有效，只需要保证θ T z \theta^Tz θT z与样本x x x的标签保持对齐，可以通过softmax归一化的概率与交叉熵进行约束。除此之外，在对比学习方法可以用来强制对这些( z ， θ ) (z，θ)(z ，θ)表示进行约束，具体来讲，我们将θ ∗ \theta^θ∗记为样本x x x的真实标签对应分类器θ \theta θ的理想参数，这里我们可以设计两种对比损失。第一个loss用来对比( z , θ ∗ ) (z,\theta^)(z ,θ∗)与多个( z ′ , θ ∗ ) (z’,\theta^)(z ′,θ∗),其中z ′ z’z ′代表与样本x x x不同类别的样本特征；第二个loss用来对比( z , θ ∗ ) (z,\theta^)(z ,θ∗)与多个( z , θ ′ ∗ ) (z,\theta’^)(z ,θ′∗),其中θ ′ \theta’θ′代表样本的不同类别对应分类器参数， 作者将这种学习框架叫做dual contrastive learning（DualCL），对偶对比学习*。

在对比学习基础之上，正如论文标题，DualCL可以认为是一种独特的数据增强方法。具体来说，对于每个样本x x x，其θ θθ的每一列都可以被视为”标签启发的输入表示”，或者是在特征空间中注入了标签信息的x x x的增强视图。表1中说明了这种方法的强大之处，从左边的两个图片可以看出，标准的对比学习不能利用标签信息。相反，从右边的两个图来看，DualCL有效地利用标签信息对其类中的输入样本进行分类。

在论文实验中，作者在5个基准文本分类数据集上验证了DualCL的有效性。通过使用对偶比损失对预先训练好的语言模型(BERT和RoBERTa)进行微调，DualCL与现有的对比学习监督基线相比获得了最好的性能。作者还发现，DualCL提高了分类精度，特别是在低资源的场景下。此外通过可视化所学习的表征和注意力图，对DualCL给出了一些可解释性分析。

论文贡献可以总结如下：

1)提出了双对比学习(DualCL)，自然地将对比损失与有监督任务相结合；
2)引入标签感知数据增强来获得输入样本的多个视图，用于DualCL的训练；
3)在5个基准文本分类数据集上实证验证了DualCL框架的有效性；

; DualCL原理

“对偶”表示有监督的对比学习方法目的就是：第一个是在适当空间中对分类任务的输入进行判别表示，第二个是构建监督任务的分类器，学习到分类器空间中分类器的参数。接下来我们看看DualCL的核心部分。

标签启发式的数据增强

为了获得训练样本的不同视图（views）表示，作者利用数据增强的思想来获得特征z i z_{i}z i 和分类器θ i \theta_{i}θi 的表示。具体来讲就是将分类器每个类别的对应参数θ i \theta_{i}θi 作为z i z_{i}z i 的独特表示，记为θ i k \theta_{i}^{k}θi k ,称为标签感知输入表示，将标签k k k信息注入到的x i x_{i}x i ,作为额外增强视图。

在实践中，将标签集合{ 1 , . . . , K } {1,…,K}{1 ,…,K }插入到输入序列x i x_{i}x i ,可以得到一个新的输入序列r i ∈ R L + K r_{i}\in \mathbb{R}^{L+K}r i ∈R L +K，然后通过PLMS（Bert或者Roberta）模型作为编码器f f f，来获取输入序列的每个token特征，其中[CLS]特征作为样本x i x_{i}x i 的特征z i z_{i}z i ，插入的标签对应为标签启发的输入表示θ i k \theta_{i}^{k}θi k 。标签的名称作为标记，形成序列r i r_{i}r i ，如”positive”、”negative”等。对于包含多个单词的标签，我们采用token特征的平均池化来获得具有标签感知的输入表示。这个操作和之前一篇论文很相似，大家可以有兴趣可以阅读：Bert还可以这么用：融合标签向量到BERT

对偶对比损失

利用输入样本x i x_{i}x i 的特征表示z i z_{i}z i 和分类器θ i θ_{i}θi ，DualCL作用就是将θ i T z i θ_{i}^{T}z_{i}θi T z i 的softmax归一化概率与x i x_{i}x i 的标签对齐。将θ i ∗ θ^∗{i}θi ∗表示θ i θ{i}θi 的某一列，对应于x i x_{i}x i 的真实标签索引，DualCL期望θ i ∗ T z i θ_{i}^{T}z_{i}θi ∗T z i 点积是最大化的。为了学习更好的z i z_{i}z i 和θ i θ_{i}θi ，DualCL利用不同训练样本之间的关系定义了对偶对比损失，如果x j x_{j}x j 与x i x_{i}x i 有相同的标签，那么试图最大化θ i ∗ T z j θ_{i}^{T}z_{j}θi ∗T z j ，而如果x j x_{j}x j 与x i x_{i}x i 有不同的标签，则最小化θ i ∗ T z j θ_{i}^{*T}z_{j}θi ∗T z j 。

给定一个来自输入样本x i x_{i}x i 的锚点z i z_{i}z i ，{ θ j ∗ } j ∈ P i { \theta^j }_j\in P{i}{θj ∗}j ∈P i 是正样本集合，{ θ j ∗ } j ∈ A i ∣ P i { \theta^_j }_j\in A_i \ | P_i {θj ∗}j ∈A i ∣P i 是负样本集合，关于z的对比损失可以定义如下：

同理，给定一个来自输入样本x i x_{i}x i 的锚点θ i ∗ \theta_{i}^*θi ∗，{ z j } j ∈ P i { z_j }j\in P{i}{z j }j ∈P i 是正样本集合，{ z j } j ∈ A i ∣ P i { z_j }_j\in A_i \ | P_i {z j }j ∈A i ∣P i 是负样本集合，关于z的对比损失可以定义如下：

对偶比损失是上述两个对比损失项的组合：
L D u a l = L z + L θ \mathcal{L_{Dual}}= \mathcal{L_{z}}+ \mathcal{L_{ \theta }}L D u a l =L z +L θ

; 对比训练和有监督预测

为了充分利用监督信号，DualCL还期望θ i θ_{i}θi 是一个很好的z i z_{i}z i 分类器。因此作者使用一个改进版本的交叉熵损失来最大化每个输入样本x i x_i x i 的θ i ∗ T z i θ_{i}^{*T}z_{i}θi ∗T z i ：

最后，最小化这两个训练目标来训练编码器f f f。这两个目标同时提高了特征的表示质量和分类器的表示质量。总体损失应为：
L o v e r a l l = L C E + λ L D u a l \mathcal{L_{overall}}= \mathcal{L_{CE}}+\lambda \mathcal{L_{ Dual }}L o v e r a l l =L C E +λL D u a l
其中，λ λλ是一个控制双对比损失项权重的超参数。

在分类过程中，我们使用训练好的编码器f f f来生成输入句子x i x_i x i 的特征表示z i z_i z i 和分类器θ i θ_i θi 。这里的θ i θ_i θi 可以看作是一个”one-example”的分类器，例如x i x_i x i ,我们将θ i T z i θ_{i}^{T}z_{i}θi T z i 的argmax结果作为模型预测：
y ^ i = a r g m a x ( θ i k ⋅ z i ) \widehat{y}i=argmax(\theta_i^k ·z{i})y i =a r g m a x (θi k ⋅z i )

图1说明了对偶对比学习的框架，其中e C L S e_{CLS}e C L S 是特征表示，e P O S e_{POS}e P O S 和e N E G e_{NEG}e N E G 是分类器表示。在这个具体的例子中，我们假设具有”positive”类的目标样本作为锚点，并且有一个正样本具有相同的类标签，而有一个具有不同的类标签的负样本。对偶对比损失旨在同时将特征表示吸引到正样本之间的分类器表示上，并将特征表示排斥到负样本之间的分类器上。

表示之间的对偶性

对比损失采用点积函数作为表示之间相似性的度量,这就使得DualCL中的特征表示z z z和分类器表示θ θθ之间存在双重关系。在线性分类器中，输入特征与参数之间的关系也出现了类似的现象。然后我们可以将θ θθ看作是一个线性分类器的参数，这样预先训练好的编码器f f f就可以为每个输入样本生成一个线性分类器。因此，DualCL很自然地学习如何为每个输入样本生成一个线性分类器来执行分类任务。

实验设置

数据集

论文采用了SST-2、SUBJ、TREC、PC和CR四种数据集，数据集相关统计如下：

; 实验结果

从结果中可以看出，除了使用RoBERTa的TREC数据集外，同时使用BERT和RoBERTa编码器在几乎所有设置中都取得了最好的分类性能。与具有完整训练数据的CE+CL相比，DualCL对BERT和RoBERTa的平均改善率分别为0.46%和0.39%。此外，我们观察到，在10%的训练数据下，DualCL的性能明显大于CE+CL方法，在BERT和RoBERTa上分别高出0.74%和0.51%。同时，CE 和 CE+SCL 的性能无法超越 DualCL。这是因为CE方法忽略了样本之间的关系，CE+SCL方法不能直接学习分类任务的分类器。

此外论文发现双重对比损失项有助于模型在所有五个数据集上实现更好的性能。它表明利用样本之间的关系有助于模型在对比学习中学习更好的表示。

案例分析

为了验证DualCL是否能够捕获信息特征，作者还计算了[CLS]标记的特征与句子中每个单词之间的注意得分。首先在整个训练集上微调RoBERTa编码器。然后我们计算特征之间的l 2 l_2 l 2 距离，并可视化图4中的注意图。结果表明，在对情绪进行分类时，所捕获的特征是不同的。上面的例子来自SST-2数据集，我们可以看到我们的模型更关注表达”积极”情绪的句子”predictably heart warming”。下面的例子来自CR数据集，我们可以看到我们的模型对表达”消极”情绪的句子更关注”small”。相反，CE方法没有集中于这些鉴别特征。结果表明DualCL能够成功地处理句子中的信息性关键词。

; 论文总结

在本研究中，从文本分类任务的角度，提出了一种对偶对比学习方法DualCL，来解决监督学习任务。
在DualCL中，作者使用PLMs同时学习两种表示形式。一个是输入示例的鉴别特征，另一个是该示例的分类器。我们引入了具有标签感知的数据增强功能来生成输入样本的不同视图，其中包含特征和分类器。然后设计了一个对偶对比损失，使分类器对输入特征有效。
对偶对比损失利用训练样本之间的监督信号来学习更好的表示,通过大量的实验验证了对偶对比学习的有效性。

核心代码

关于Dual-Contrastive-Learning实现，大家可以查看开源代码：

https://github.com/hiyouga/Dual-Contrastive-Learning/blob/main/main_polarity.py

 def _contrast_loss(self, cls_feature, label_feature, labels):
        normed_cls_feature = F.normalize(cls_feature, dim=-1)
        normed_label_feature = F.normalize(label_feature, dim=-1)
        list_con_loss = []
        BS, LABEL_CLASS, HS = normed_label_feature.shape
        normed_positive_label_feature = torch.gather(normed_label_feature, dim=1,
                                                     index=labels.reshape(-1, 1, 1).expand(-1, 1, HS)).squeeze(1)  # (bs, 768)
        if "1" in self.opt.contrast_mode:
            loss1 = self._calculate_contrast_loss(normed_positive_label_feature, normed_cls_feature, labels)
            list_con_loss.append(loss1)
        if "2" in self.opt.contrast_mode:
            loss2 = self._calculate_contrast_loss(normed_cls_feature, normed_positive_label_feature, labels)
            list_con_loss.append(loss2)
        if "3" in self.opt.contrast_mode:
            loss3 = self._calculate_contrast_loss(normed_positive_label_feature, normed_positive_label_feature, labels)
            list_con_loss.append(loss3)
        if "4" in self.opt.contrast_mode:
            loss4 = self._calculate_contrast_loss(normed_cls_feature, normed_cls_feature, labels)
            list_con_loss.append(loss4)
        return list_con_loss

    def _calculate_contrast_loss(self, anchor, target, labels, mu=1.0):
        BS = len(labels)
        with torch.no_grad():
            labels = labels.reshape(-1, 1)
            mask = torch.eq(labels, labels.T)  # (bs, bs)
            # compute temperature using mask
            temperature_matrix = torch.where(mask == True, mu * torch.ones_like(mask),
                                             1 / self.opt.temperature * torch.ones_like(mask)).to(self.opt.device)
            # # mask-out self-contrast cases, &#x5373;&#x81EA;&#x8EAB;&#x5BF9;&#x81EA;&#x8EAB;&#x4E0D;&#x8003;&#x8651;&#x5728;&#x5185;
            # logits_mask = torch.scatter(
            #     torch.ones_like(mask),
            #     1,
            #     torch.arange(BS).view(-1, 1).to(self.opt.device),
            #     0
            # )
            # mask = mask * logits_mask
        # compute logits
        anchor_dot_target = torch.multiply(torch.matmul(anchor, target.T), temperature_matrix)  # (bs, bs)
        # for numerical stability
        logits_max, _ = torch.max(anchor_dot_target, dim=1, keepdim=True)
        logits = anchor_dot_target - logits_max.detach()  # (bs, bs)
        # compute log_prob
        exp_logits = torch.exp(logits)  # (bs, bs)
        exp_logits = exp_logits - torch.diag_embed(torch.diag(exp_logits))  # &#x51CF;&#x53BB;&#x5BF9;&#x89D2;&#x7EBF;&#x5143;&#x7D20;&#xFF0C;&#x5BF9;&#x81EA;&#x8EAB;&#x4E0D;&#x53EF;&#x4EE5;
        log_prob = logits - torch.log(exp_logits.sum(dim=1, keepdim=True) + 1e-12)  # (bs, bs)
        # in case that mask.sum(1) has no zero
        mask_sum = mask.sum(dim=1)
        mask_sum = torch.where(mask_sum == 0, torch.ones_like(mask_sum), mask_sum)
        # compute mean of log-likelihood over positive
        mean_log_prob_pos = (mask * log_prob).sum(dim=1) / mask_sum.detach()
        loss = - mean_log_prob_pos.mean()
        return loss

参考资料

ICML 2020: 从Alignment 和 Uniformity的角度理解对比表征学习
https://blog.csdn.net/c2a2o2/article/details/117898108

Original: https://blog.csdn.net/yanqianglifei/article/details/122901165
Author: 致Great
Title: 文本分类还停留在BERT？对偶对比学习框架也太强了

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665541/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

知识图谱学习笔记-知识图谱价值和发展历程

一：知识图谱的价值： 1.辅助搜索传统搜索引擎依靠网页之间的超链接实现网页的搜索，而语义搜索是直接对事物进行搜索，如人物、机构、地点等。这些事物可能来自文本、图片、视频、音频、I…

人工智能 2023年6月10日
0060
Mathorcup数学建模竞赛第四届-【妈妈杯】C题：家庭暑假旅游套餐的设计

暑假即将来临，很多家长会选择这个时间带孩子去某城市旅游，但不同的家庭有不同的需求(人数，费用限制，时间限制等)，请您任选一个旅游城市(比如你所在的城市)，综合考虑旅行路线，费用…

人工智能 2023年6月26日
0074
深度学习中的随机种子torch.manual_seed(number)、torch.cuda.manual_seed(number)

训练模型过程中，会遇到很多的随机性设置，设置随机性并多次实验的结果更加有说服力。但是现在发论文越来越要求模型的可复现性，这时候不得不控制代码的随机性问题且每次随机的初始权重一样，有…

人工智能 2023年6月16日
0062
spark dataframe 类型转换

读一张表，对其进行二值化特征转换。可以二值化要求输入类型必须double类型，类型怎么转换呢？直接利用spark column 就可以进行转换： DataFrame datase…

人工智能 2023年7月4日
0053
YOLOv5face

1. 在 YOLOv5 网络中添加五个人脸关键点回归，回归的损失函数用的是 Wing loss 。 2. 用 Stem 模块替代网络中原有的 Focus 模块，提高了网络的泛化能力…

人工智能 2023年6月25日
0064
NER项目 P2 解析文字和实体标签对应关系

主办方提供的数据是一些用brat标注的文件，.txt文件为原始文档，.ann文件为标注信息，标注实体以T开头，后接实体序号，实体类别，起始位置，结束位置和实体对应的文档中的词。因…

人工智能 2023年6月1日
00102
PyTorch中的多GPU训练：DistributedDataParallel

在pytorch中的多GPU训练一般有2种DataParallel（DP）和DistributedDataParallel（DDP），DataParallel是最简单的的单机多卡…

人工智能 2023年7月21日
0069
在线电子词典_2020年电子词典（词典笔）选购推荐：你要的词典笔都在这（9月更新）…

在学习辅导这件事上，家长们可以说是煞费苦心地希望孩子能赢在起跑线上，但在英语课上，却让孩子们头疼不已。当他们遇到不认识的单词时，有时只能担心，于是他们想到给孩子一支词典笔，这样他们…

人工智能 2023年5月27日
0083
如何对张量进行归一化和标准化处理

人工智能 2024年1月1日
0038
人脸识别opencv

opencv与dlib介绍 1.1 opencv介绍 opencv是一个基于bsd许可（开源）发行的跨平台计算机视觉库，可以运行在liunx，windows,android和mac…

人工智能 2023年7月20日
0059
通话降噪ENC

通话降噪有ENC及CVC，今天则介绍一下ENC降噪技术，ENC（environment noise cancellation）环噪消除，主要是针对通话中针对环境噪声进行处理，利用一…

人工智能 2023年5月27日
0086
潘伟明：人工智能对人类的特殊价值

随着人类对人工&#…

人工智能 2023年7月17日
0059
3D目标检测(一)

【用心写文章分享尤其是经验之谈不容易，引用和转载请说明出处以尊重原创作者的劳动，前面发现有几个人居然偷本人文章上传到百度文库赚钱！再有这样的贼我必追究！】加入自动驾驶行业有一段时…

人工智能 2023年6月17日
00109
python实现非正态分布转正态分布（BoxCox转换）

功能：将一维非正态分布数据转化为正态分布输入：xlsx文件含有”患者密度（人/10万人）”一列输出：将”患者密度（人/10万人）&#8221…

人工智能 2023年7月15日
0082
opencv-python库的安装【一文读懂】

🥇 版权: 本文由【墨理学AI】原创首发、各位读者大大、敬请查阅、感谢三连🎉 声明: 作为全网 AI 领域干货最多的博主之一，❤️ 不负光阴不负卿 ❤️ 文章目录 * &#821…

人工智能 2023年6月19日
0071
【教程】情感分类识别lstm-keras版本_pos_neg_neutral三分类

这个专栏更新各种AI，以及各种有趣的教程，有兴趣的小伙伴可以订阅一下。直接上识别效果图如下：通过输入一段文本，即可识别出这个是积极（positive）还是消极的（negativ…

人工智能 2023年7月1日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31