【层级多标签文本分类】Incorporating Hierarchy into Text Encoder: a Contrastive Learning Approach for Hierarchic

2023年7月1日上午9:37 • 人工智能 • 阅读 64

Incorporating Hierarchy into Text Encoder: a Contrastive Learning Approach for Hierarchical Text Classification

1、背景

1、作者（第一作者和通讯作者）
王子涵，王厚峰
2、单位
Peking University
3、年份
2022
4、来源
ACL

2、四个问题

1、要解决什么问题？
层次文本分类是多标签分类的一个极具挑战性的子任务，因为它的标签层次结构复杂。解决层次文本分类下的多标签分类任务

2、用了什么方法解决？
提出了层次导引对比学习(HGCLR)，将层次结构直接嵌入到文本编码器中。

3、效果如何？
在三个基准数据集上的大量实验验证了HGCLR的有效性。

4、还存在什么问题？

论文笔记

1、INTRODUCTION

Hierarchical Text Classification（HTC）是指文本标签之间存在层次结构文本分类任务。不同的标签之间存在的潜在关联会为分类提供正向指导。一般来说，HTC大致可以分为两类：为每个节点或级别构建分类器的局部方法，仅为整个图构建一个分类器的全局方法。

现有的HTC方法不同程度地引入了层次化信息。最先进的模型分别 对文本和标签层次进行编码，并在按混合特征分类之前聚合两个表示。如下图左侧所示，他们的 主要目标是在文本和结构之间充分交互，以实现混合表示，这对分类非常有用。但是，由于标签层次结构对于所有文本输入都保持不变，因此无论输入是什么，图形编码器都会提供完全相同的表示。因此，文本表示与恒定的层次表示相互作用，因此这种相互作用似乎是 多余的且效率较低。

本文提出一种用于层次文本分类的对比学习方法。Hierarchy guided Contrastive Learning (HGCLR) 直接将分层嵌入到文本编码器中而不是单独地创建层次的结构。在训练过程中，HGCLR在标签层次结构的指导下，为输入文本构建正样本。通过将输入文本和它的正样本放在一起，文本编码器可以学习独立地生成支持层次结构的文本表示。具体的结构如下：

【层级多标签文本分类】Incorporating Hierarchy into Text Encoder: a Contrastive Learning Approach for Hierarchic

上图：引入层次结构信息的两种方式。(a)将以前的工作模型文本和标签分开，并找到混合的表示法。(b)我们的方法将层次信息结合到文本编码器中以获得层次感知的文本表示。

; 2 Related Work

2.1 Hierarchical Text Classification

HTC现有的工作可以根据它们处理标签层次的方式分为局部方法和全球方法。局部方法为每个节点或级别构建分类器，而全局方法仅为整个图构建一个分类器。早期的方法忽略掉了标签的层次结构，并将问题视为平面多标签分类。

2.2 Contrastive Learning

对比学习最早是在计算机视觉中提出的一种弱监督表征学习方法。对比学习是一种自监督学习方法，用于在没有标签的情况下，通过让模型学习哪些数据点相似或不同来学习数据集的一般特征。

4 Methodology

总体的模型结构如下：

; 4.1 Text Encoder

首先，本文利用BERT作为文本的编码器：

[CLS]和[SEP]是指示序列的开始和结束的两个特殊标记，输入被送入BERT

得到的不同token的隐状态为：

4.2 Graph Encoder

将图结构构建为一个Directed Acyclic Graph (DAG)无环有向图 G = ( Y ; E ) ，并使用Graphormer对图进行编码。标签作为节点，其初始特征为其编号以及文本的嵌入的加和：

之后，采用基于Transformer的传播方式在标签图上进行特征传播。首先，Graphormer利用两个节点fi,fj之间的一些潜在特征为其生成相似矩阵：

遵从Graphormer，公式中的三个项分别表示节点fi,fj之间的注意力、cij 表示节点之间的边的编码，bϕ则表示两个节点之间的连通性。在这里，还是参照一下Graphormer中的定义：
ϕ ϕϕ(yi,yj)表示节点之间的最短路径长度，然后bϕ是针对最短路径的值indexed的一个可学习的标量。这个项目很明显用于统计一些静态的图信息，最短路径值值是固定的。
cij则是节点之间路径上的边的特征编码：c i j = 1 N ∑ n = 1 N x e n ( w n E ) T c_{ij}=\frac{1}{N} {\sum \limits_{n=1}^{N}}x_{e_n}(w^E_n)^T c ij =N 1 n =1 ∑N x e n (w n E )T
这里的N表示路径上的边的条数，x e n x_{e_n}x e n 是相应的边的特征。而在本文中，cij的定义略有不同，省略了可学习的变换w n E w^E_n w n E :c i j = 1 D ∑ n = 1 D w e n c_{ij}=\frac{1}{D}{\sum_{n=1}^D}w_{e_n}c ij =D 1 ∑n =1 D w e n ,D就是N，w e i w_{e_i}w e i ∈R1是一个可学习的量。之后，类似于Transformer中的操作，也对A i j G A^G_{ij}A ij G 做Softmax乘一个可学习的参数矩阵V，然后添加残差F（所有节点的初始特征矩阵）：

; 4.3 Positive Sample Generation

其实上述针对标签图的学习主要还是对Graphormer做一个相关回顾，本文的重点我觉得还是在如何构造对比学习上。为了选取正样本，需要利用上一步学习到的标签特征对样本做一个注意力的选择（也就是图2中蓝色框内的部分）：

其中ei是token的表示：

这里的Pij表示token对不同标签的影响的概率。对于多标签分类，只需将所有ground-truth的概率相加，得到一个令牌xi对其ground-truth标签集y的概率为：

在这里，通过设置一个阈值γ \gamma γ确定采样的token的数量：

4.3 Contrastive Learning Module

所以，对于一个batch为N的输入，会产生2(N−1)个负例。然后，采用NT-Xent强迫正负例之间的距离变大：

sim()是余弦相似度，μ \mu μ的定义为:

4.5 Classification and Objective Function

之后，将多标签分类的层次结构扁平化。将隐藏的特征输入线性层，并使用sigmoid函数计算概率：

在测试过程中，只使用文本编码器进行分类，模型退化为带分类头的BERT编码器。

; 5 Experiments

5.1 Experiment Setup

; 5.2 Experimental Results

同一个颜色表示具有相同的父亲，本文的方法能够很好地提取出标签之间的层次结构相比于BERT来说。BERT的标签表示是分散的，而我们方法的标签表示是集群的，这表明我们的文本编码器可以学习层次感知的表示。

不同正例生成技术的影响：将模型复制为正例是有效的，但表现不佳

本文参考：https://blog.csdn.net/qq_36618444/article/details/124512478?spm=1001.2014.3001.5502

Original: https://blog.csdn.net/weixin_42417735/article/details/126536488
Author: wuli_乖
Title: 【层级多标签文本分类】Incorporating Hierarchy into Text Encoder: a Contrastive Learning Approach for Hierarchic

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663120/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习论文: Improved YOLOv5 network for real-time multi-scale trafficsign detection及其PyTorch实现

深度学习论文: Improved YOLOv5 network for real-time multi-scale trafficsign detection及其PyTorch实现…

人工智能 2023年7月23日
0065
CIAGAN: Conditional Identity Anonymization Generative Adversarial Networks阅读笔记

·Shape 是人脸姿态的指导信息，文章用了外轮廓、鼻梁和嘴巴指导生成器，而眼睛等其他人脸信息的生成则是自由灵活的。 ·Background 告诉模型关注人脸区域而非背景区域，多m…

人工智能 2023年6月4日
0074
Vision Transformer（ViT）PyTorch代码全解析（附图解）

Vision Transformer（ViT）PyTorch代码全解析最近CV领域的Vision Transformer将在NLP领域的Transormer结果借鉴过来，屠杀了各…

人工智能 2023年6月16日
00102
CV2逐步学习-2:cv2.GaussianBlur()详解

目录高斯模糊GaussianBlur()中参数详解 1.1. 由参数解释产生的问题深入理解前的准备：高斯函数、图像滤波处理及卷积核解释1.1的问题权重矩阵、高斯模糊的…

人工智能 2023年7月5日
00101
通过聚类方法改进测试用例优先级排序技术

论文《A Clustering Approach to Improving Test Case Prioritization: An Industrial Case Study》结…

人工智能 2023年6月3日
0076
【常用命令集】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0069
【PIE-Engine Studio学习笔记06】图像分类——监督分类

一、图像分类含义图像分类是将图像中每个像元根据其在不同波段的光谱亮度、空间结构特征或者其他信息，按照某种规则或算法划分为不同的类别。基于光谱特征的遥感影像分类方法主要包括：非监…

人工智能 2023年6月30日
0099
YOLO v5加入注意力机制、swin-head、解耦头部（回归源码）

可关注本人的github，关于opencv一些学习代码: https://github.com/xiaoaleiBLUE 文章目录 YOLO v5加入注意力机制、swin-head…

人工智能 2023年7月25日
0083
【深度学习】之激活函数篇[Sigmoid、tanh、ReLU、Leaky ReLU、Mish、Hardswish、SiLU]附绘图Python代码。

激活函数的作用为卷积神经网络提供非线性 1、Sigmoid激活函数 Sigmoid激活函数是常用的连续、平滑的”s”型激活函数，其数学定义比较简单，如公式…

人工智能 2023年7月5日
00108
DAICWOZ数据集官方文档翻译

DAIC_WOZ数据集官方文档翻译前言 * DAIC-WOZ Depression Database 数据说明 Auido File 前言本人是做语音抑郁分析的新手，DAIC_…

人工智能 2023年5月25日
00163
【论文精读】Network In Network（1*1 卷积层代替FC层 global average pooling）

Network In Network 文章目录 * – + Network In Network + * 摘要 * 1. 介绍 * – + 传统卷积网络有什…

人工智能 2023年7月3日
0088
LSTM案例airline-passengers全面解析与优化

前言刚开始学习LSTM的一些理解 torch版本 print(torch.__version__) 1.10.2 原数据下载 https://raw.githubusercont…

人工智能 2023年7月14日
0092
空间地理加权回归stata_如何用stata做地理加权回归（GWR）

地理加权回归是空间计量经济学中处理空间异质性的重要模型，现有的stata目前可以支持GWR分析，该命令包为gwr，其语法格式为： gwr depvar [varlist] [if …

人工智能 2023年6月18日
0099
知识图谱初阶笔记整理1

知识图谱与计算机子学科（知识表示、自然语言处理、数据库、机器学习）关系如下图所示。实体关系抽取抽取方法 1Pipeline 管道式方法，主要就是将关系抽取拆分为两个步骤，实体抽取…

人工智能 2023年6月1日
0063
如何看待第三代神经网络SNN？详解脉冲神经网络的架构原理、数据集和训练方法原创

作者丨科技猛兽编辑丨极市平台本文首发于极市平台公众号，转载请获得授权并标明出处。本文目录 1 脉冲神经网络简介2 脉冲神经网络原理3 脉冲神经网络数据集4 脉冲神经网络训练方法5…

人工智能 2023年5月26日
0060
pytorch 注意力机制

注意力机制：父母在学校门口接送孩子的时候，可以在人群中一眼的发现自己的孩子，这就是一种注意力机制。为什么父母可以在那么多的孩子中，找到自己的孩子？比如现在有100个孩子，要被找的…

人工智能 2023年7月22日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31