Every Document Owns Its Structure: Inductive Text Classification via GNN (TextING)

2023年5月28日下午2:58 • 大数据 • 阅读 89

文章目录

*
– 摘要
– 引言
–
+ 文本分类方法
+ TextING构建思路和创新点
– 方法
–
+ 构图
+ 基于图的词交互
+ 读出函数
+ 模型变种
– 实验
–
+ 数据集
+ 对比模型
+ 实验设置
+ 结果
* 参考文献

摘要

文本分类是自然语言的基础，GNN进来被广泛用于该任务。然而，现有的基于图的工作既不能捕捉每个文档中的上下文关系也不能实现对新单词的归纳学习。在本工作中，为了克服如上问题，提出通过GNN进行归纳文本分类的模型TextING。首先对每一个文档建立独立的图，然后使用GNN学习基于局部结构的细粒度词表示。该方法也可以在新文档中对没有见过的词进行有效的嵌入。最后，将词节点合并为文档嵌入。在四个基准数据集上进行了大量实验，结果表明文章所提方法优于文本分类的先进方法。

引言

文本分类方法

传统方法：朴素贝叶斯、K近邻、支持向量机等。它们主要依赖手工特征，牺牲了劳动力和效率。
深度学习方法：RNN、CNN为典型，及其延伸方法TextCNN、TextRNN和TextRCNN等。它们只关注词的局部位置，因此忽略了长距离和非连续的词的交互。
图方法：不把文本视作一个序列而实将其看作一组共现的单词。如TextGCN将文本分类任务转换为一个节点分类任务，Huang等(2019)通过引入信息传递机制减少了内存消耗。
图方法有两个主要的弊端：首先，忽略了文档中上下文相关的单词关系；其次，由于图的全局结构，测试文档在训练中是强制性的。因此它们有着固有的转导性，并难以进行归纳学习。

TextING构建思路和创新点

如上，文章通过GNN提出了一种新颖的文本分类方法TextING，该方法仅通过训练文档就可以详细的描述词词之间的关系，并在测试中对新文档进行归纳。方法使用滑动窗口在每个文档中构建独立的图，词节点的信息通过门控GNN传递给他们的邻居，然后聚合到文档嵌入中。
作者进行了大量的实验验证模型相较于基线方法的优点，即便测试中的词很多都没有出现过。文章的主要贡献如下：

提出了一种用于文本分类的GNN，其中每个文档都是一个独立的图，并且文本级别的单词交互可以在其中学习。
所提方法可以对在训练中未出现的新单词进行归纳。
验证了方法的性能要优于已有的先进文本分类方法。

方法

方法的三个主要部分：构图、基于图的词交互、读出函数；

Every Document Owns Its Structure: Inductive Text Classification via GNN (TextING)

; 构图

通过将独特的词表示为顶点，将词与词之间的共同出现表示为边来构建文本文档的图。文本以标准化方式进行预处理，包括表计划和停止字删除。顶点嵌入使用单词特征进行初始化。由于每个文档建立了独立的图，词特征信息在词的交互阶段被传播和聚合。

基于图的词交互

在每个图上使用门控GNN学习词节点的嵌入。每个节点可以从它的邻居节点获得信息并与自身的表示合并来更新。当图层对一阶邻居进行操作时，我们可以将该层堆叠t次来实现高阶特征交互，则节点可以到达t跳远的另一个节点。

其中，A A A是邻接矩阵，σ \sigma σ是sigmoid函数，W , U , b W, U, b W ,U ,b是训练权重和偏置，z , r z, r z ,r分别表示更新门和重置门，决定邻居信息对当前节点嵌入的贡献程度。

; 读出函数

在词节点得到充分更新后，它们被聚合为文档的图级别的表示。基于此，最终的预测被产生。

其中，f 1 , f 2 f_{1}, f_{2}f 1 ,f 2 是两个多层的感知机，前者作为软注意力权重，后者作为非线性特征变换。除了平均加权的词特征之外，将最大池化函数用于图表示。这背后的想法是，每个词都在文本中发挥作用，关键词应该更明确地发挥作用。最后通过将图级向量喂入softmax层得到预测标签，损失函数使用交叉熵损失

模型变种

使用一个多通道的分支TextING-M拓展了模型，具有局部特征的图（TextING）和具有全局结构的图（来自TextGCN的子图）可以并行工作。节点保持不变，而后者的边是从每个文档的大图(建立在整个语料库上)中提取的。分别训练它们并使它们对最终的投票比为1：1。

实验

实验测试主要关注三个方面：1）所提方法和其他比较模型的性能及优点，2）方法对从未出现过的词的适应性，3）关于词语如何影响一个文档的方法的可解释性。

数据集

四个基线数据集：

MR：分为正面和负面情绪的电影评论
R8：将出现在路透社的文档分为8类
R52：将出现在路透社的文档分为52类
Ohsumed：将医疗摘要分为23个心血管疾病类别

; 对比模型

三类模型：

传统的深度学习方法TextCNN和TextRN；
简单而有效的策略fastText和SWEM；
用于文本分类的基于图的方法TextGCN；

实验设置

训练集：验证集=9：1，并根据验证集的性能表现调整超参数。
Adam优化器，学习率0.01，dropout=0.5。
对于单词的嵌入，使用预训练的Glove。

结果

; 参考文献

[1] Zhang Y, Yu X, Cui Z, et al. Every document owns its structure: Inductive text classification via graph neural networks[J]. arXiv preprint arXiv:2004.13826, 2020.

Original: https://blog.csdn.net/qq_41977459/article/details/123831902
Author: innerVoi
Title: Every Document Owns Its Structure: Inductive Text Classification via GNN (TextING)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/532211/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

docker pull proxy 代理

完整参考：Control Docker with systemd | Docker Documentation sudo mkdir -p /etc/systemd/system/…

大数据 2023年5月28日
0083
项目需求及架构设计

第2章项目需求及架构设计 2.1 项目需求分析用户行为数据采集平台搭建用户行为数据会以文件的形式存储在服务器，这个阶段需要考虑：采集用户行为数据使用的工具,需要提供详细的设计…

大数据 2023年11月12日
0042
【TTransportException: java.net.SocketException: Broken pipe (Write failed))】

@TOC Error querying database. Cause: java.sql.SQLException: org.apache.thrift.transport.TT…

大数据 2023年11月13日
0056
手把手带你入门 API 开发

手把手带你入门 API 开发文章目录手把手带你入门 API 开发 * 引言安装 SQLite 创建数据库创建表创建 db.py 创建 game_controller.py…

大数据 2023年11月10日
0058
运行megatron框架的运行环境

megatron是什么，为什么要用主要是在实现Yuan1.0大规模模型时，他们引用了Nvidia开发的megatron这个框架，因为这个框架就是为了分布式多卡环境而设计的，而要上…

大数据 2023年5月28日
0096
kafka简介

kafka是用于构建实时数据管道和流应用程序。具有横向扩展，容错，wicked fast（变态快）等优点，并已在成千上万家公司运行。简单说明什么是kafka Apache kaf…

大数据 2023年5月28日
0082
T

Tmux基本使用(2021.1.31) Tmux基本使用(2021.1.31) 一.基本概念 1.1 会话 1.2 Tmux 二.基本用法 2.1 安装 2.2 启动与退出 2.3…

大数据 2023年6月3日
0084
JVM 常用参数设置（针对 G1GC）

=========================================================== -XX 开头，这些是 JVM 的所有实现都支持的最常用的选…

大数据 2023年5月28日
0077
java.io.IOException: 你的主机中的软件中止了一个已建立的连接。（踩坑经历）

大数据 2023年11月14日
0036
C#使用SQLite查询时间段内数据

SQLite 数据类型与C#数据类型对应表，转自： https://www.cnblogs.com/swtool/p/8202965.html，备用 SQLite数据类型C#数据类…

大数据 2023年11月11日
0048
docker 搭建私服仓库

1.搭建私服 1.1 拉取 registry 镜像 docker pull registry 1.2 启动私有仓库镜像 docker run –name localre…

大数据 2023年5月26日
0072
大数据测试数据生成工具v1.0 –百万级别一键导出TXT，JSON，MYSQL 。—HIVE专属工具

目录生成演示生成5百万条记录(4个字段): 一次最大最好在5百万以内，在多就分开生成，主键可以接上上一个总共生成了3次，一共400MB的txt 使用教程: 1:先安装pytho…

大数据 2023年11月13日
0048
华为OpenEnler Linux系统部署LNMP

LNMP是Linux+Nginx+Mysql+PHP所构建的一个动态开发环镜我这里使用的系统是华为的OpenEnler系统，使用了Nginx1.12版本、Mysql8和PHP7….

大数据 2023年5月27日
0073
k8s记录-Docker基础

1. Docker容器介绍 Docker是一个开源的容器引擎，可以让开发者把他的应用和依赖环境打包到一个可移植的容器环境中。容器：可以理解为一个轻量级的”虚拟机&#…

大数据 2023年5月29日
0092
八种软件开发过程模型

前言所谓软件过程模型就是一种开发策略，这种策略针对软件工程的各个阶段提供了一套范形，使工程的进展达到预期的目的。对一个软件的开发无论其大小，我们都需要选择一个合适的软件过程模型，…

大数据 2023年6月3日
0074
linux 扩容

如何对Linux进行扩容： 1、在VM上添加硬盘 2、使用 lsblk ，查看新增的磁盘 3、使用 fdisk /dev/sdd ，对新增磁盘sdd进行磁盘分区依次输入，n,p,…

大数据 2023年5月27日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31