谣言检测——《社会网络谣言检测综述》

2023年10月23日上午1:32 • Python • 阅读 46

（２）隐式特征

隐式特征指的是无法直接获取, 需通过关联分析或数值计算得到的一种潜在特征, 如平均情感特征、用户可信度以及质疑率等, 如表 3 所示。

$\mathrm{Guo}^{[3]}$ 等人提取了基于账户的特征 (Account-Based Features)，包含从用户简介和用户行为中提取用户可信度，可靠性和名誉等隐含信息。Wu 等人提出主题类型特征(Topic Type Feature）、用户类型的特征(User Type Feature)、平均情感特征(Avg Sentiment Feature) 以及转发时间特征( Repost Time Feature)，通过狄利克雷分布 (Latent Dirichlet Allocation,LDA) ${ }^{[43,44]}$ 提取消息的主题，该主题在消息中的概率分布可通过式 (1)求得：
$p\left(\beta_{1: K}, \theta_{1: D}, z_{1: D}, w_{1: D}\right) =\prod_{i=1}^{K} p\left(\beta_{i}\right) \prod_{d=1}^{D} p\left(\theta_{d}\right)\left(\prod_{n=1}^{N} p\left(z_{d, n} \mid \theta_{d}\right) p\left(w_{d, n} \mid \beta_{1 ; K}, z_{d, n}\right)\right)$

其中, $\beta_{1: K}$ 表示 $1$ 到 $K$ 的所有主题，$\beta_{i}$ 表示第 $i$ 个主题词的分布，$\theta_{d}$ 表示第 $d$ 个消息中主题所占的比例, $z_{d, n}$ 表示第 $d$ 个消息中第 $n$ 个词的主题，$w_{d, n}$ 表示第 $d$ 个消息中第 $ｎ$个词。

除得到推文的主题类型之外，他们还考虑发帖者是否是已被验证的用户，并通过基于词汇的平均情绪得分来判断情绪词与谣言之间的关联，并考虑原始消息和转发消息之间的时间间隔因素。通过基于随机游走图核（Random Walk Graph Kernel）的 SVM 检测算法在随机选取的微博数据上得到 91.3% 的准确率。在社会网络传播的信息其实隐藏着用户的某种行为，Mendoza等人［45］在研究智利大地震时 Twitter 中的推文变化情况发现：相较于真实信息，谣言更容易引起受众的质疑。由此 Liang 等人［46］提出了一种基于用户行为特征的谣言检测方法，他们通过收集的微博数据发现：造谣者相较于正常信息发布者，为了逃避可能承担的惩罚以及为了快速传播谣言信息，其用户行为与普通用户存在着较大的行为差异，用户在阅读正常信息与阅读谣言信息时也存在着较大的行为差异。在此基础上， Liang 等人［４７］还提出了包括质疑率，单位时间发文数在内共计１０条特征用于社会网络谣言的实验。其中，质疑率表示用户所质疑的评论在所有评论中所占的比例。实验结果表明，该方法相较于传统的基于文本、用户与传播结构特征方法，查准率与查全率的提高均超过了 15％。

基于单一信息的特征提取方式虽简单，但存在以下不足 :
(1) 依赖人工进行特征的选择，耗费人力物力的同时，得到特征向量的鲁棒性较差。
(2) 选取的特征主要集中在从原始消息和转发消息中提取大量的词汇和语义特征，并从标记的数据中学习模型 [8,21]，难以全面系统地概括谣言的特点。
(3) 加人用户特征虽引人了消息之间的关系且构造机器学习的特征向量也相对方便，但忽略了消息传输的内部图形结构以及该结构下用户之间的差异 [25]。同时，仅依赖于社交媒体平台提供的用户信息，无法真正有效地对不同平台用户发布的信息进行检测。

仅仅提取单一信息的特征往往忽略了谣言之间的联系，而基于事件级特征可通过其层次性结构反映出谣言之间的潜在关联。本节将基于事件级的特征定义为用户、消息、子事件、事件之间的层次关系特征。如图５所示．

该层次结构是由用户层、消息层、子事件层以及事件层组成的多类型网络结构。其中，事件层为 $E=\left{e_{1}\right. , \left.e_{2}, e_{3}, \cdots, e_{k}\right}$ , 指在特定时间、特定地点包含一定关键词的事件集合; 子事件层为 $S=\left{s_{k, 1}, s_{k, 2}, s_{k, 3}, \cdots, s_{k, n}\right}$，指每个事件中子主题的集合；消息层为 $M=\left{m_{n, 1}, m_{n, 2}\right. , \left.m_{n, 3}, \cdots, m_{n, i}\right}$ , 指用户发出的原贴以及转发贴的集合。层内链接反映同一层级内实体之间的关系, 而层间链接则反映了不同层级之间的关系。2012 年，Gupta 等人[49] 提出了一种基于事件图优化（Event Graph-based Optimization) 的可信度分析方法。根据事件重要程度的不同赋予不同的分数, 同时, 通过对新事件层次化关系之间使用正则化更新事件可信度得分来增强基本的可信度分析。在数百万条推文的数据集上，参考 Castillo 等人 [8] 用四种机器学习算法进行实验，得到高于文献 [8] 方法 14 % 的准确率,说明基于事件的层次化结构优于基本的基于单条推文的可信度分析方法。此后, Sun 等人 [24] 引人一种新的基于多媒体的特征 (MultimediaBased Feature)，加入了图片的特征, 并根据该项特征来判断微博信息中包含的图片是否是过去图片。采用朴素贝叶斯、贝叶斯网络、神经网络以及决策树对新特征进行验证，发现该特征在贝叶斯网络中可获得 85 % 的准确率。由于不同主题事件中不同层级或层内消息在谣言检测中的潜在联系也是不同的，因此，Jin 等人 [50]

首次引人子事件层, 提出了一种分级传播模型( Hierarchical Propagation Model), 用以对从消息级到事件级新闻可信度进行评估。该模型由事件、子事件和消息组成三层可信度网络，并利用这些实体之间的语义和社会关系建立联系，同时将该网络的可信度传播过程表示为图的优化问题，用以求出迭代算法的全局最优解。在两个数据集该模型的准确率提高了６％以上，F-score[51] 提高了16％以上。

结合谣言的层次结构虽然可弥补基于单条推文特征的一些不足，但其本质还是通过人工选择并提取特征。因此，仍存在机器学习中特征提取的通病：

（１）难以获得高维、复杂、抽象的特征数据。

（２）试图用一套通用的特征集合表征社会网络不同平台不同语言中的全部信息，训练出来的谣言分类器容易陷入”过拟合”状态 [52]，模型准确度不高。

（３）所有的实验都在研究者自己选择的数据集上进行实验，并不能有效地体现出新提出的特征在不同平台不同数据集下对谣言检测的作用。

４.３基于深度学习的谣言检测方法

由于传统机器学习的谣言检测方法依赖特征工程需要耗费大量的人力、物力与时间来选择合适的特征向量，因此, 研究者们尝试在社会谣言问题检测中引人深度学习的方法。深度学习具有很强的特征学习能力, 其模型学习的特征比传统机器学习算法中通过特征工程得到的特征数据对原数据具有更好的, 更本质的代表性，从而能实现更好的分类效果[14]。本节以基于深度学习的谣言检测技术的发展为线索，深人分析并总结了现有的基于深度学习的谣言检测方法。
微博中的信息是一种与时间密切相关的时序数据，而循环神经网络 ( Recurrent Neural Network, $\mathrm{RNN}$) [53,54] 在时间序列和句子等变长序列信息建模方面显示出了强大的功能。2016 年, $\mathrm{Ma}$ 等人 [55] 首次将循环神经网络引人到谣言检测中, 通过对文本序列数据进行时间维度上的建模分析得到谣言上下文信息随时间变化的隐式特征。加人长短期记忆 ( Long-ShortTerm Memory, LSTM ) [56,57] 以及门控循环单元 ( Gated Recurrent Unit, GRU) [58] 等额外的隐藏层，解决了在长序列训练过程中, 随着 RNN 层数的加深而造成的梯度消失与梯度爆炸问题 [59,60] , 从而提高谣言检测的准确度。在微博数据集上，加人双层 GRU 的循环神经网络准确率为88.1％，在 Twitter 数据集上，其准确率高达 91.0％，都超过了基础 tanh RNN 与加入一层 LSTM/GRU 的谣言检测准确率。

图６为基于循环神经网络的谣言检测的流程图。

首先，针对每个事件收集相关帖子，对输入的事件文本数据得到 tf-idf 值矩阵，再将高维的词袋模型向量通过词嵌入的方式转成低维空间的向量表示，得到输入值。然后，将该值输入到 RNN 模型中，通过循环神经网络捕获文本序列的相关语义特征，由于基础的隐藏层没有门控单元,在 $t$ 时刻向前反向传播的过程中，存在梯度消失（大部分情况下）或者梯度爆炸的情况，使得该结构难以捕捉长距离依赖，为缓解基础模型带来的缺陷，在隐藏层加入门控单元 LSTM/GRU，通过门（gate）机制控制隐藏层中的信息流动，保留了文本间的语义信息，以提高谣言检测的准确度。最后，通过 Sigmoid 激活函数输出分类标签，预测是否是谣言。

然而，在谣言爆发的初期，无法获取足够的标记数据用来训练模型，因此，为能够尽早地检测出社会网络中的谣言，Chen 等人［52］提出结合循环神经网络和变分自编码器（Variational Auto Encoder）［61］的无监督学习模型来学习社会网络用户的网络行为，由于正常数据与异常数据在降维过程中存在着显著的差异［62］，因此利用模型得到输出值和输入的目标值之间的误差与指定阈值进行比较，判断其是否是谣言。其中，RNN 与自编码器（Auto Encoder，ＡＥ）的结合模型如图７所示。

该模型主要分成两个模块进行层次训练，分别为 RNN 模块和 AE 模块。首先将收集到的不同时间节点的微博数据进行清洗后，建立特征工程，通过微博内容提取是否有图片，是否有转发，是否是积极态度等 15 个特征，传入 RNN 模块，并在时间维度上进行训练；然后将该模块的输出结合发博时间，发博来源等其余特征送入 AE 模块，通过 AE 实现无监督的异常检测，通过一系列的矩阵映射将输出重构成与输入形状相同的结构；最后，使用欧几里得范式计算 AE 模块输入的目标值和输出值之间的误差，并与设定的阈值比较，从而判断该推文是否是谣言。该模型实现了单隐藏层和多隐藏层结构，两层模型的准确率分别为 92.49％和 89.16％。但该模型只在新浪微博的谣言数据下进行实验，并不能很好地验证出其在不同平台数据下的适应性。因此，Wen 等人［23］设计了一个基于神经网络的模型，该模型采用了跨语言、跨平台的有限元分析方法，利用不同平台和语言之间的信息相似性和一致性来验证谣言。Ajao等人［63］利用卷积神经网络（Convolutional Neural Networks, CNN）和长短期循环神经网络模型（Long-Short Term Recurrent Neural Network Models）来检测并分类 Twitter 上发布的虚假新闻。该方法无需任何人工提取外部特征的步骤即可直观地识别与谣言相关的特征。

传统的基于深度学习的谣言检测方法摆脱了人工构建特征工程的方式。然而, 天然的端到端结构难以把握谣言信息中的关键成分, 模型训练缺乏可控性，训练时间长且模型复杂。因而引人注意力机制 (Attention Mechanism [30,64] 进行谣言检测。注意力机制最早提出于视觉图像 [65] 领域，该方法借鉴了人类的注意力思维方式，模仿人类对图片不同地方的观察侧重点，用以对图像不同位置施加不同的权重，从而决定更重要的部分，并提高该部分的权重，降低噪声部分的权重。 2014 年, Bahdanau 等人 [66] 首次将注意力机制引人自然语言处理领域，该工作首先通过对 Encoder 部分的输人和隐藏状态值经过循环神经网络进行编码，从而输出中间向量，再由 Decoder 部分将中间向量借助另一个循环神经网络解码成输出向量。

基于注意力机制在谣言检测领域的应用，Chen 等人 [11] 提出一种基于注意力机制的循环神经网络模型 CallAtRumors(Call Attention to Rumors)，加人注意力机制从重复、不断变化的推文中提取出隐式与显式的谣言特征，用于对社会网络信息序列中选择关注度高的信息进行检测，在模型训练中，采用交叉熵损失函数和双重随机正则化 [67] 相结合的方法，对输人字矩阵的每个元素进行校正,其损失函数如式 (2) 所示 :

$L=-\sum_{t=1}^{\tau} \sum_{i=1}^{c} y_{t, i} \log y_{t, i}^{\prime}+\lambda \sum_{i=1}^{K}\left(1-\sum_{t=1}^{\tau} a_{t, i}\right)^{2}+\gamma \varphi^{2} $

其中, $y_{i}$ 表示独热标签向量 (one hot label vector)，$y_{i}^{\prime}$ 表示在 $t$ 时刻的二分类概率向量, $\tau$ 表示总时间, $C$ 表示输出类的数目，其数值为 $2$ (表示谣言或非谣言 )，$ \lambda$ 表示注意力分配系数， $\gamma$ 表示权值系数, $\varphi$ 代表所有模型参数。
该模型在 Twitter 与新浪微博上分别取得 88.63 % 和 87.10 % 准确率。Jin 等人 [1] 在此基础上加人图片这一特征，使用循环神经网络来学习文本和社会背景( social context)相结合的表示；使用卷积神经网络训练提取图像的视觉特征；使用注意力机制对视觉特征和共同的文本／社会背景特征分配不同权重．融合了文本、图像和社会背景特征对 Twitter 和新浪微博数据集进行谣言检测，但其在两个数据集上的准确率分别为78.8％和68.2％，难以保证谣言检测的效果。因此，Guo 等人［３］提出了一种结合社会信息（social information）的层次神经网络（HSA-BLSTM）方法用于谣言检测。首先建立了表示学习的层次双向长短时记忆模型（Hierarchical Bi-directional Long Short-term Memory Model），然后通过注意力机制将社会背景整合到网络中，最后在新浪微博和 Twitter 中进行实验，分别取得94.3％和 84.4％的准确率。与 Guo 等人［3］类似，Liao 等人［68］通过采用两层带有注意力机制的双向 GRU 网络从微博内容和时间层面分别获取微博序列的隐藏层表示和时间段序列的隐藏层表示，从而在事件的特征表示中融入了时间段内各微博间的时序信息。此外，还针对各个时间段提取了局部用户特征及文本潜在特征，并将这些特征融入到时间段中，进一步捕获这些特征随时间变化的隐藏层状态值，最终得到 96.8％的谣言检测准确率。但该方法依赖人工对事件进行时间段划分，在花费人力及时间的基础上还可能带来信息的丢失。为通过区别原贴和转发贴来检测谣言，Xu等人［69］考虑原帖内容、转发帖的扩散情况以及用户信息三方面，提出一个融合神经谣言检测（Merged Neural Rumor Detection, MNRD）模型，通过基于内容的注意力机制的原贴编码和基于扩散的注意力机制的转发编码分别学习从原贴和转发中提取高层次的特征表示，通过用户特征编码器对用户信息进行编码，以获取用户可靠性和社会影响力，结合这些特征对谣言进行检测。在新浪微博数据集上取得 94.4％的准确率。

基于注意力机制的循环神经网络模型不仅具有很强的特征学习能力，同时能捕获谣言中的重要语义成分，但其仍存在以下不足：（１）对数据的需求量大，当样本数据较少时，训练出来的分类器仍存在分类偏倚［70］问题。（２）模型训练周期更长，训练出的模型可解释性差。（３）需要 GPU 来高效优化矩阵运算，对 GPU 的要求较高。

Original: https://www.cnblogs.com/BlairGrowing/p/16650417.html
Author: 加微信X466550探讨
Title: 谣言检测——《社会网络谣言检测综述》

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/803304/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Django安装

1、安装python与pycharm 需要安装python与pycharm（不一定要用pycharm编译器，但对于python语言推荐使用）。注：pycharm为社区版本。 2、…

Python 2023年8月6日
0037
爬取二手房信息、数据清洗并存入数据库

import pandas as pd import numpy as np import pymysql pymysql.install_as_MySQLdb() from sq…

Python 2023年6月3日
00121
20212218林思凡《Python程序设计》实验四Python综合实验实验报告

课程：《Python程序设计》班级： 2122姓名：林思凡学号：20212218实验教师：王志强实验日期：2022年5月27日必修/选修：公选课一、实验要求 Python综合…

Python 2023年6月10日
00116
在scrapy框架中如何随机更换请求头达到反爬的目的

在 Scrapy 中_实现 _随机请求头_可以通过自定义 _中_间件来实现。以下是一个示例： 1. 首先，在你的 _Scrapy_项 _目的_middlewares.py文件 …

Python 2023年10月5日
0030
Anaconda在非base环境中安装包出现Conda.core.link:_execute(699)错误解决方法。

解决方法一：环境路径问题，可在环境变量的系统变量Path中添加下面内容： %SystemRoot%\system32 解决方法二：还有种情况是，所选channel(渠道)连接不…

Python 2023年9月9日
0044
【Python飞机大战游戏实战+笔记】黑马程序员Python教程项目实战记录【超详细】

博主在哔哩哔哩上学习了黑马程序员的python教程，并且完成了老师讲的项目实战，为了巩固知识点通过这篇博客来记录一下。目录 1. 创建python项目+pygame模块下载 1….

Python 2023年9月17日
0068
python使用pytest框架设置用例在那个环境下执行，和用例执行的优先级

import pytest class TestCalc: @pytest.mark.ces # 这个是指定你想要让这条case在那个环境下运行，后边的这个ces可以随便写 @py…

Python 2023年9月10日
0034
企业spark案例 —— 出租车轨迹分析

有帮助的小伙伴可以帮我点个免费的好评和赞耶谢谢大家！ import org.apache.spark.sql.SparkSession object Step1 { def mai…

Python 2023年11月7日
0042
【机器学习】李宏毅——何为反向传播

回顾一下梯度下降的过程：假设当前神经网络有以下参数(\theta = {\omega_1,\omega_2,…,b_1,b_2,…})，那么梯度下降就是 …

Python 2023年10月24日
0042
用Python对淘宝用户行为数据的分析

目录项目前言一、分析目的二、数据获取与理解 1.数据来源 2.理解数据三、具体做法 1.导入并清洗数据 3.1.1.把时间戳改为datetime类型 3.1.2.查看是否存…

Python 2023年8月2日
0074
什么是数据探索？

什么是数据探索？简介步骤 * 1、缺失值处理 2、number数据和非number数据异常值的观察与处理： * 为什么要处理异常值？箱型图 – 箱型图介绍箱型…

Python 2023年10月10日
0050
【Python】tarfile目录遍历漏洞——从一道web题入手

题目来源：NSSCTF Round#6 Team- web1 打开题目，发现没有前端页面，直接是后端代码根目录源码： from flask import Flask,reques…

Python 2023年8月15日
00112
Python爬取天气数据及可视化分析

Original: https://www.cnblogs.com/123456feng/p/16145388.htmlAuthor: 蚂蚁ailingTitle: Python爬…

Python 2023年11月3日
0038
Pytest

pytest插件 1、pytest-html 生成html格式的自动化测试报告 2、pytest-xdist 测试用例分布式运行，多cpu并发 3、pytest-ordering …

Python 2023年9月14日
0047
Pycharm 搭建 Django 项目（非常详细）

目录 1. 安装需求 2. 准备工作 * 2.1 新建项目 2.2 输入相关配置 2.3 项目创建完成 2.4 查看安装 Django 版本 2.5 启动项目 2.6 解决一点小问…

Python 2023年8月1日
0058
一行代码加速Pytorch推理速度6倍

一行代码加速Pytorch推理速度6倍 Torch-TensorRT 是 PyTorch 的集成，它利用 NVIDIA GPU 上的 TensorRT 推理优化。只需一行代码，它…

Python 2023年11月8日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

谣言检测——《社会网络谣言检测综述》

４.３ 基于深度学习的谣言检测方法

大家都在看

４.３基于深度学习的谣言检测方法