【论文解读】Dual Contrastive Learning：Text Classification via Label-Aware Data Augmentation

2023年5月28日上午9:19 • 人工智能 • 阅读 98

🍥关键词：对比学习、有监督学习、文本多分类、数据增强
🍥发表期刊：arXiv 2022
🍥原始论文：[2201.08702] Dual Contrastive Learning
🍥代码链接：hiyouga/Dual-Contrastive-Learning

北航出了一篇比较有意思的文章，使用标签感知的数据增强方式，将对比学习放置在有监督的环境中，并将其运用到多类文本分类中，在低资源的环境中取得不错的效果。让我们来看看这篇论文

Abstract

对比学习在无监督环境下通过自我监督在表征学习中取得了显著的成功。然而，将对比学习有效地应用于监督学习任务仍然是实践中的一个挑战。在这项工作中，我们引入了一个双重对比学习（DualCL）框架，它同时学习输入样本的特征和分类器的参数。具体而言，DualCL将分类器的参数视为与不同标签相关联的增强样本，然后利用输入样本和增强样本之间的对比学习。对五个基准文本分类数据集及其低资源版本的实证研究表明，分类精度有所提高，并证实了学习DualCL的区分表示的能力

一、Introduction

传统的对比学习一直使用在无监督的环境中，具体来说，无监督的对比学习主要使用了一个损失函数，这可以使得同一个例子的的不同观点表示相近，而不同例子的表示不同。最近，对比学习被证明可以有效的同时实现alignment和uniformity

在有监督的环境中，虽然已经有人进行了研究，但是成果颇微，已有的成果其分类器和特征是分开学习。因此本篇论文希望在有监督的环境中开发一种更加自然的对比学习方法，每获得一个样本x后，它可以同时学到该样本的特征表示

【论文解读】Dual Contrastive Learning：Text Classification via Label-Aware Data Augmentation

和分类器

（本文设计了一种one example分类）

θ设计的比较有意思，它不仅仅是分类器，也是标签感知的数据增强样本集，随后作者对表征和分类器对比学习，直观的描述如图所示

可以明显的看到标准对比学习不能利用标签信息，而DualCL可以有效利用标签信息对文本进行分类

总体来说，文本的主要内容如下

提出了Dual Contrastive Learning(DualCL)，更自然的运用在有监督环境中
引入了标签感知的数据增强方式来获得样本的多个视图
在5个全资源和低资源版本的的文本分类数据集上验证了DualCL的有效性

二、Preliminaries

考虑一个具有K类的文本分类任务，假设给定的数据集包含了N个样本，

是由L个单词组成的输入句子，对应的标签为

。

为

的标准化表示，

为第i个样本的增强样本，A为负样本集合。标准的对比学习任务正负样本的的构造方式为每个样本只有一个增强样本，其余的N-2项都是负样本，其对比损失函数如下

从损失函数角度看，要使Loss最小化，即最大化log后面的项，即最大化分子和最小化分母，直观的讲，分子分母项分别为样本与正、负样本之间的相似性，即拉进正样本，推远负样本。

随后有改进版的对比学习，其构造正负样本的方式为将同一类别的样本视为正样本，不同类的样本视为负样本，P为正样本集合，其损失函数如下

三、Dual Contrastive Learning

3.1 Label-Aware Data Augmention

本论文使用了标签感知的数据增强方式来获取训练样本的不同视图，具体做法是将标签与文本整合输入到Bert Encoder中（将标签输入到Bert中2021年有一篇论文也有这样的做法Fusing label Embedding into BERT An Efficient Improvement for Text Classification），随后会获得整个文本的特征表示即[CLS]和每个标签输出的token，假设输入有K个标签，那么输出的标签集合即分类器

，对于包含多个单词的标签，采用token特征特征的平均池化方法。因为每个标签token都融合了文本信息,所以

的每一列

都是增强样本，每个样本都获得了K+1个视图

3.2 Dual Learning Loss

在获得了样本的多个视图之后，就可以使用这些视图来进行对比学习。对偶对比学习主要设计了两个对比损失函数，两个对比为下图中的两个橙色框。eCLS为该样本的特征表示，ePOS和eNEG为该样本的标签token。该对比学习的正负样本设计思想为，确定一个样本的文本序列，若其真实标签为POS，则所有其他样本的ePOS为正样本，而非ePOS为负样本。此外，确定一个样本真实标签ePOS，所有POS样本的CLS为正样本，非POS样本的CLS为负样本

设

表示

的ground-truth对应的标签，A为除去当前样本的所有其他样本集合，P为正样本集合，

为样本表征。

以上图中上位置的橙色框为例，固定标签

，定义以下的对比损失

以上图中下位置的橙色框为例，固定表征

，定义以下的对比损失

Dual的损失为将二者组合

3.3 Joint Training & Prediction

在训练上，作者使用了一个改进版的交叉熵

最终的损失函数为交叉熵加上与超参数λ调节的对比损失函数

直观的表示如下图所示

在分类方面，作者想更好的利用监督信息，因此设计了one-example分类器，对每一个样本，它都会生成标签token集合，而这token集合就是分类器，将表征与每一个标签token进行相似度计算，哪个值最高，它就属于哪一类

3.4 Theoretical Justification of DualCL

这里给出理论证明，来证明为最小化DualCL Loss等价于最大化输入和标签之间的户信息

四、Experiments

使用了5个文本数据集，包括了多分类文本数据集

实验结果上

除了RoBERTa +（CE+CL）的组合在TREC数据集上效果较好之外，其他的Bert+DualCL组合在所有数据集上的表现效果最好。
具体来说DualCL在BERT和RoBERTa上的平均改善率分别为0.46%和0.39%
眼前一亮的是DualCL在低资源环境中取得了不错的效果，具体来说在BERT和RoBERTa上的平均改善率分别为0.74%和0.51%

tSNE图可视化

由于在低资源中的表现较为突出，作者专门去做了低资源环境下的实验，选取每个类的5、10、30等样本，测试其准确率，结果发现相比于单一的交叉熵损失函数，DualCL的效果都比较好，而其中DualCL w/o为不适用DualCL损失函数的DualCL，其效果也比交叉熵好，这其实从一个侧面角度反映了标签感知的数据增强方式的有效性

为了验证DualCL能否有效的捕获句子关键信息的能力，作者计算了[CLS]的中的表征于每个单词之间的注意力得分。

五、Conclusion

对比学习一般用于无监督的环境中，若用在有监督的环境中那必须使用标签信息，随后使用标签感知的数据增强方式来有效的利用标签信息。最终在低资源的文本分类任务中取得了不错的效果。因此在低资源、多类文本分类、有监督环境中具有一定的借鉴意义。

此外，关于文中构造的对比模型对象是文本和标签，博主也尝试了文本和文本、标签与标签、文本和标签+文本与文本、文本与标签+标签与标签，其效果也不逊于原论文的方法

Original: https://blog.csdn.net/ccaoshangfei/article/details/126442227
Author: 北村南
Title: 【论文解读】Dual Contrastive Learning：Text Classification via Label-Aware Data Augmentation

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530757/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

“make cmake_check_build_system”

# ethminer [](https://github.com/RichardLitt/standard-readme) [][Gitter] [][Releases] >…

人工智能 2023年6月10日
00127
视觉3D感知（二）：单目3D物体检测

一、单目3D物体检测（1）反变换 1.基本思路 1.3D图像反变换到3D世界世界坐标，在进行物体检测 2.病态问题：通过一些额外信息来辅助解决: 几何假设：目标位于地面（Oy已知…

人工智能 2023年7月9日
0052
【数据治理】数据元、元数据、主数据、参考数据概述

【数据治理】数据元、元数据、主数据、参考数据概述数据元什么是数据元：《GB/T 19488.1 电子政务数据元第1部分：设计和管理规范》里是这样定义的：数据元（Data …

人工智能 2023年7月14日
0077
基于CNN卷积神经网络的TensorFlow+Keras深度学习的人脸识别

基于CNN卷积神经网络的TensorFlow+Keras深度学习的人脸识别前言 * 项目实现效果 – 补充模型数据 + 嵌入模型 CNN神经网络模型项目概述 * …

人工智能 2023年5月23日
0093
详解神经网络的过程

之前我们知道用卷积神经网络做图片识别 https://ieeexplore.ieee.org/document/726791/citations#citations 可是卷积神经网…

人工智能 2023年7月14日
0057
图像处理——图像增强（1）

目前没有一种图像增强技术，能够满足各种场合的图像增强需求。一，直接灰度变换 1，图像求反：增强图像暗色区域的白色/灰色细节（反白） t=L-1-s，灰度级为[0,L-1(255)…

人工智能 2023年6月21日
0086
【学习OpenCV4】轮廓查找与绘制总结

本文分享内容来自图书《学习OpenCV 4：基于Python的算法实战》，该书内容如下：第1章 OpenCV快速入门；第2章图像读写模块imgcodecs；第3章核心库模…

人工智能 2023年7月20日
0060
向毕业妥协系列之机器学习笔记:构建ML系统(一)

目录一.模型评估二.模型选择&交叉验证测试集的训练方法三.通过偏差与方差进行诊断四.正则化&偏差&方差一.模型评估以预测房价现在有十个训练示例…

人工智能 2023年6月28日
00150
Windows系统下使用Mingw编译并运行opencv教程

一、编译环境系统：Windows10旗舰版cmake版本下载：3.9.2QtMingw版本下载：qt-opensource-windows-x86-5.11.0.exe，太大了只…

人工智能 2023年7月19日
00111
【超全超详细】TensorFlow以及pytorch安装教程

【保姆级】TensorFlow以及pytorch安装教程 1. 前言 2. 安装pytorch教程 3. 安装TensorFlow教程 3. 参考前言简要总结我的安装环境和过程…

人工智能 2023年5月25日
00109
顶级赛事：第十届CCF大数据与计算智能大赛开赛！

2022年大数据与AI领域年度盛事——第十届CCF大数据与计算智能大赛正式开赛！规模宏大，阵容豪华，含金量高，奖励丰厚，在业内拥有不错的知名度、关注度和认可度，堪称”年…

人工智能 2023年6月19日
0097
什么是 PKI？公钥基础设施的定义和指南

公钥基础设施 (PKI) 管理 Internet 通信中的身份和安全性，以保护人员、设备和数据。组织依靠 PKI 解决方案来验证和加密流经 Web 服务器、数字身份、连接设备和应…

人工智能 2023年6月28日
0064
自然语言处理1—文本预测操作

实现分类并预测预训练的词向量操作（文本）一、环境配置准备二、数据集加载 1、定义数据集 2、载入预训练向量 3、给数据集的词匹配词向量三、组网 1、构建基于预训练向量的Emb…

人工智能 2023年5月28日
0090
RTX5000安装显卡驱动 CUDA9.0 CUDNN

最近公司买了台RTX5000的服务器，裸机一台，需要安装显卡驱动，CUDA，CUDNN，tensorflow-gpu-1.8, 以前没有装过，导致安装过程中遇到好多坑，最初安装随便…

人工智能 2023年5月25日
00101
tensorflow出现报错： Could not locate zlibwapi.dll或者Could not load library cudnn_cnn_infer64_8.dll.

Could not locate zlibwapi.dll 原因：没有安装zlip. 1.安装并配置zlib下载地址：http://www.winimage.com/zLibDll…

人工智能 2023年6月16日
00279
《动手学深度学习》（一）– 线性神经网络

1 线性回归 1. 导入需要的库 import random import torch from d2l import torch as d2l 2. 生成数据集这里将根据带有噪…

人工智能 2023年6月18日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【论文解读】Dual Contrastive Learning：Text Classification via Label-Aware Data Augmentation

3.1 Label-Aware Data Augmention

3.2 Dual Learning Loss

3.3 Joint Training & Prediction

3.4 Theoretical Justification of DualCL

大家都在看