谣言检测（RDEA）《Rumor Detection on Social Media with Event Augmentations》

2023年10月19日上午10:59 • Python • 阅读 58

论文标题：Rumor Detection on Social Media with Event Augmentations
论文作者：Zhenyu He, Ce Li, Fan Zhou, Yi Yang
论文来源：2021，SIGIR
论文地址：download
论文代码：download

现有的深度学习方法取得了巨大的成功，但是这些方法需要大量可靠的标记数据集来训练，这是耗时和数据低效的。为此，本文提出了 RDEA ，通过事件增强在社交媒体上的谣言检测（RDEA），该方案创新地集成了三种增强策略，通过修改回复属性和事件结构，提取有意义的谣言传播模式，并学习用户参与的内在表示。

贡献：

*
– 涉及了三种可解释的数据增强策略，这在谣言时间图数据中没有得到充分的探索；
– 在谣言数据集中使用对比自监督的方法进行预训练；
– REDA 远高于其他监督学习方法；

总体框架如下：

主要包括三个模块：

*
– event graph data augmentation
– contrastive pre-training
– model fne-tuning

2.1 Event Augmentation

谣言事件中存在两种用户：

*
– malicious users
– naive users

malicious users 故意传播虚假信息，nvaive users 无意中帮助了 malicious users 传播虚假信息，所以 mask node 是可行的。

给定除 root node 的节点特征矩阵 $E^{-r} \in \mathbb{R}^{(|\mathcal{V}|-1) \times d}$，以及一个 mask rate $p_{m}$，mask 后的节点特征矩阵为：

$E_{\text {mask }}^{-r}=\mathrm{M} \odot E^{-r} $

其中，$M \in{0,1}^{(|\mathcal{V}|-1) \times d}$ 代表着 mask matrix，随机删除 $ (|\mathcal{V}|-1) \times p_{m}$ 行节点特征矩阵。

2.2 Subgraph

用户在早期阶段通常是支持真实谣言的，所以，在模型训练时，如果过多的访问谣言事件的整个生命周期，将阻碍早期谣言检测的准确性，所以本文采取随机游走生成谣言事件的子图 $G_{i_sub}$。

2.3 Edge dropping

形式上，给定一个邻接矩阵 $A$ 和 $N_{e}$ 条边和丢弃率 $p_{d}$，应用 DropEdge 后的邻接矩阵 $A_{d r o p}$，其计算方法如下：

$A_{d r o p}=A-A^{\prime}$

其中，$A^{\prime}$ 是随机采样 $N_{e} \times p_{d} $ 条边的邻接矩阵。

2.2 Contrastive Pre-training

在本节将介绍如何通过在输入事件和增强事件之间的对比预训练来获得互信息。

形式上，对于 node $j$ 和 event graph $G$，self-supervised learning 过程如下：

$\begin{array}{l}h_{j}^{(k)} &=&\operatorname{GCL}\left(h_{j}^{(k-1)}\right) \h^{j} &=&\operatorname{CONCAT}\left(\left{h_{j}^{(k)}\right}{k=1}^{K}\right)\H(G) &=&\operatorname{READOUT}\left(\left{h^{j}\right}{j=1}^{|\mathcal{V}|}\right)\end{array}$

其中，$h_{j}^{(k)}$ 是节点在第 $k$ 层的特征向量。GCL 是 graph convolutional encoder ，$h^{j}$ 是通过将 GCL 所有层的特征向量汇总为一个特征向量，该特征向量捕获以每个节点为中心的不同尺度信息，$H(G)$ 是应用 READOUT 函数的给定事件图的全局表示。本文并选择 GIN 作为 GCL 和 mean 作为 READOUT 函数。对比预训练的目标是使谣言传播图数据集上的互信息（MI）最大化，其计算方法为：

${\large \begin{aligned}I_{\psi}\left(h^{j}(G) ; H(G)\right):=& \mathbb{E}\left[-\operatorname{sp}\left(-T_{\psi}\left(\vec{h}^{j}\left(G_{i}^{\text {pos }}\right), H\left(G_{i}\right)\right)\right)\right] \&-\mathbb{E}\left[\operatorname{sp}\left(T_{\psi}\left(\vec{h}^{j}\left(G_{i}^{n e g}\right), H\left(G_{i}\right)\right)\right)\right]\end{aligned}} $

其中，$I_{\psi}$ 为互信息估计器，$T_{\psi}$ 为鉴别器（discriminator），$G_{i}$ 是输入 event 的 graph，$G_{i}^{\text {pos }}$ 是 $G_{i}$ 的 positive sample，$G_{i}^{\text {neg }}$ 是 $G_{i}$ 的负样本，$s p(z)=\log \left(1+e^{z}\right)$ 是 softplus function。对于正样本，可以是 $G_{i}\left(E_{\text {mask }}^{-r}\right)$，$G_{i_{-} s u b$，$G_{i}\left(A_{d r o p}\right)$，负样本是一个 batch 中其他 event graph 的局部表示。

在对 event graph 进行对比预训练后，我们得到了 input event graph $G_{i}$ 的预训练的向量 $H\left(G_{i}\right)$。然后，对于一个 event $C_{i}=\left[r_{i}, x_{1}^{i}, x_{2}^{i}, \cdots, x_{\left|\mathcal{V}{i}\right|-1}^{i}, G{i}\right]$，通过平均所有相关的回复帖子和源帖子的原始特征 $o_{i}=\frac{1}{n_{i}}\left(\sum_{j=1}^{\left|\mathcal{V}{i}\right|-1} x{j}^{i}+r_{i}\right)$，我们得到了文本图向量 $o_{i}$。为了强调 source post，将 contrastive vector、textual graph vector 和source post features 合并为：

$\mathbf{S}{i}=\mathbf{C O N C A T}\left(H\left(G{i}\right), o_{i}, r_{i}\right)$

2.3 Fine tuning

预训练使用了文本特征，得到了预训练的 event representation，并包含了原始特征和 source post 信息，在 fine-tune 阶段，使用预训练的参数初始化参数，并使用标签训练模型：

将上述生成的 $s_{i}$ 通过全连接层进行分类：

$\hat{\mathbf{y}}{i}=\operatorname{softmax}\left(F C\left(\mathbf{S}{i}\right)\right)$

最后采用交叉熵损失：

$\mathcal{L}(Y, \hat{Y})=\sum_{i=1}^{|C|} \mathbf{y}{i} \log \hat{\mathbf{y}}{i}+\lambda\|\Theta\|_{2}^{2}$

3.1 Baselines

*
– DTC [3]: A rumor detection approach applying decision tree that utilizes tweet features to obtain information credibility.

SVM-TS [10]: A linear SVM-based time-series model that leverages handcrafted features to make predictions.
RvNN [11]: A recursive tree-structured model with GRU units that learn rumor representations via the tree structure.
PPC_RNN+CNN [8]: A rumor detection model combining RNN and CNN for early-stage rumor detection, which learns the rumor representations by modeling user and source tweets.
Bi-GCN [2]: using directed GCN, which learns the rumor representations through Bi-directional propagation structure.

3.2 Performance Comparison

3.3 Ablation study

-R represent our model without root feature enhancement
-T represent our model without textual graph
-A represent our model without event augmentation
-M represent our model without mutual information

3.4 Limited labeled data

Figure 3 显示了当标签分数变化时的性能：

我们观察到，RDEA 对这两个数据集都比 Bi-GCN 更具有标签敏感性。此外，标签越少，改进幅度越大，说明RDEA的鲁棒性和数据有效性。

3.5 Early Rumor Detection

Original: https://www.cnblogs.com/BlairGrowing/p/16776829.html
Author: 加微信X466550探讨
Title: 谣言检测（RDEA）《Rumor Detection on Social Media with Event Augmentations》

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/801033/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【紧急情况】：回宿舍放下书包的我，花了20分钟敲了一个抢购脚本

文章目录情况紧急 ⁉️ 抢❗️抢❗️抢❗️ * 开抢时间说明💨 开抢过程💥 – Get_cookie.py 开抢结束语😱 情况紧急 ⁉️ 不管你信不信，这就是俺刚瞧…

Python 2023年7月31日
0056
Python实战项目：消消乐（源码分享）（文章较短，直接上代码）

✌ 作者简介：信年✘ ✌，大家可以叫我 ❤信年❤ ，一位精通五门语言的博主 ✌ 🏆 CSDN博客专家认证、华为云享专家、阿里云专家博主、掘金创作榜No.1 📫 如果文章知识点有错…

Python 2023年9月17日
0054
从GPT到chatGPT（二）：GPT2

GPT2 文章目录 GPT2 * 前言正文 – 摘要方法 + 概述训练数据输入表示模型结构实验 + 语言模型 Children’s Book T…

Python 2023年11月3日
0037
Matplotlib

Matplotlib ①Matpolib用于数据的可视化 ②引入–角度线图 import matplotlib.pyplot as plt import math import n…

Python 2023年9月7日
0040
【educoder实训答案】Pandas层级索引—–第1关：多级索引的取值与切片

第1关：多级索引的取值与切片任务描述本关任务：根据相关知识以及编程要求，得到目标DataFrame多级索引。相关知识创建多级索引通过MultiIndex构建多级索引： index…

Python 2023年8月7日
0050
pytest学习笔记–接口自动化测试基础之日志封装学习

logger.setLevel(level)方法配置过滤日志级别根据源码可以看到参数level可以使int类型或者string类型，以debug级别为例，level写int类型： …

Python 2023年9月11日
0063
flask操作MySQL

对象关系映射:(Object Relational Mapping)简称ORM，是一种 程序设&#x8BA…

Python 2023年8月15日
0057
Pandas之四缺失数据处理

Pandas之四缺失数据处理在实际的数据处理过程当中，不可避免地会遇到有部分数据缺失。比如在分析股票行情数据时，有部分股票有时会停牌就会出现行情数据缺失的情况。一般在panda…

Python 2023年8月8日
0038
Conda 环境迁移（在线迁移、离线迁移）

最近有多台服务器需要配置自己的环境，现有服务器上有配置好的环境，出于节省时间的考虑，简单的做下环境迁移。汇总了以下方法供参考：（所有服务器已经安装了conda）在线迁移：源服…

Python 2023年9月8日
0038
flask中间件

flask中有很多请求中间件也叫请求过滤下面的代码是所有中间件的汇总点击查看代码 from flask import Flask,render_template app = Fl…

Python 2023年6月3日
0070
Numpy数值计算

1.Numpy数组 1.1创建数组（1）array函数（2）arange函数（3）linspace函数（4）logspace函数（5）zeros函数（6）ones函数 …

Python 2023年8月25日
0040
Pygame入门 2022 （2）

动画前面已经知道如何显示图片，只需要改变图片（位置），就可以做出动画的效果了。首先和前面一样，我们把一只蜗牛显示在窗口中： snail_surface = pygame.imag…

Python 2023年9月18日
0038
Azure DevOps Server 设置项目管理用户，用户组

一，引言 Azure DevOps Server 搭建完成后，关于如何进行项目管理，项目成员管理等，我们接着上一篇文章，继续讲解 Azure DevOps Server 的用户，用…

Python 2023年10月15日
0040
【Linux】一文掌握Linux基本指令（下）

本章命令大致总结命令功能cat打印文件内容echo打印文件内容> 输出重定向追加重定向< 输入重定向 more 查看文本内容 less等价于morehead打印文本…

Python 2023年11月5日
0034
python自学最快多长时间学完？

showlist = (‘aa’,21,"时间") print(showlist,type(showlist)) print(showlist[-1]) #如果…

Python 2023年6月9日
0072
用pygame来制作你心中的那个游戏~可以进你的收藏夹吗

用pygame来制作你心中的那个游戏~可以进你的收藏夹吗第一章 pygame基础使用操作第二章 pygame创建人物显示（待更新） pygame基础使用操作用pygame来制作…

Python 2023年9月23日
0047

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30