GNN NLP(15) Hierarchical Heterogeneous Graph Representation Learning for Short Text Classification

2023年5月28日上午11:37 • 大数据 • 阅读 99

EMNLP2021.

本文提出了一个基于图神经网络的短文本分类框架，用于捕捉短文本之间的稀疏语义关系。具体来说，提出了两种不同的构图方式：word-level component graphs以及short document graph。前者描述了词、词性标签和实体之间的交互作用，该组件图易于提取，并携带额外的语义和句法信息以弥补上下文信息的不足；后者是动态学习和优化的，以编码短文档之间的相似性，从而使更有效的标签传播之间的连接相似的短文档。
词级别的图一共有三种类型τ ∈ { w , p , e } \tau \in {w,p,e}τ∈{w ,p ,e }。w w w表示一单词之间的关系图，p p p使用POS标记短文中每个词的名词、动词等句法角色，有助于区分歧义词，e e e对应于能在辅助知识库中找到的词，以便补充知识。文档图则是自动学习的，自适应地为相似的文档之间添加边。

Word-Level Component Graphs

Node Embedding Learning

在给定相应的word图之后，本文使用简单的GCN进行节点特征学习：

; Graph Construction

Word Graph G w G_w G w 。使用互信息进行构建：

其中v w i v_w^i v w i 表示单词节点，当互信息大于0说明单词之间存在正向关系，因此添加边。之后，节点初始化为一个one-hot向量x w i x_w^i x w i ，然后使用公式（1）进行学习，得到H w H_w H w 。
POS Tag Graph G p G_p G p 。同G w G_w G w 类似，先使用NLTK对数据进行词性标注，然后以词性为节点V p V_p V p ，通过计算词性之间的互信息构建图：

Entity Graph G e G_e G e 。通过链接到外部知识库NELL进行实体的查找，一般来说一句话通常只包含一个实体，因此无法计算实体之间的互信息。因此，本文对NELL知识图谱首先做了一个TranE的嵌入，然后计算实体之间的余弦相似性c ( v e i , v e j ) c(v_e^i,v_e^j)c (v e i ,v e j )，并构建实体之间的边：

Short Document Graph

文档图使用G s G_s G s 进行表示，旨在捕捉文档级别的相似度并进行标签传播学习。G s G_s G s 节点的特征可以由word-level图的层次池化得到。

Hierarchical Pooling

给定由公式(1)计算的H τ ∈ R ∣ V τ ∣ × d H_\tau \in R^{|V_\tau|×d}H τ∈R ∣V τ∣×d，使用如下方式进行池化：

这里，u ( x ) = x / ∣ ∣ x ∣ ∣ 2 u(x)=x/||x||2 u (x )=x /∣∣x ∣∣2 ，用于对特征的normalization，然后s τ s\tau s τ应该是一个∣ D ∣ × ∣ V τ ∣ |D|×|V_\tau|∣D ∣×∣V τ∣的矩阵，用于将单词特征聚合到文档特征上。s τ i s_\tau^i s τi 的生成方式如下：

当τ = w , p \tau=w, p τ=w ,p，使用v τ v_\tau v τ以及文档v s v_s v s 之间的TF-IDF构建边：

而后，需要normalize s τ s_\tau s τ：
当τ = e \tau=e τ=e，则如果实体v e j v_e^j v e j 在文档v s i v_s^i v s i 中，那就是1，否则边值就是0。同样，也需要进行normalize。

之后，三种不同类型词图对应的特征进行拼接得到相应文档的特征表示：

; Dynamic Graph Learning

之后，采用文档特征之间的相似度去学习邻接矩阵：

最终，文档节点的标签概率分布由另外两层GCN学习得到：

损失函数是简单的交叉熵：

Experiments

数据集：

实验结果：

参数数量：

不同图组件的消融实验：

一些参数分析：

Original: https://blog.csdn.net/qq_36618444/article/details/122828245
Author: 五月的echo
Title: GNN NLP(15) Hierarchical Heterogeneous Graph Representation Learning for Short Text Classification

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531267/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30