【论文阅读】基于混淆的加强网络安全的方法

2023年6月29日上午2:37 • 人工智能 • 阅读 83

基于混淆的加强网络安全的方法

一、摘要：
二、相关工作
*
1 相关检测工作：
–
2 相关集成工作：
–
三、具体做法：
*
（1）数据集、预处理、特征提取、洗数据
（2）模型
（3）模糊投票计算得分
（4）测试
（5）评估得分

原文链接：https://ieeexplore.ieee.org/abstract/document/9330553

一、摘要：

背景：web垃圾网页是一种不公平的做法，它采取不道德的措施改变了搜索引擎的排名方法，以提高搜索引擎的搜索结果。本文贡献：本文提出了用于网络垃圾邮件检测的框架Cognitive spammer framework(CSF)，从而对搜索引擎结果页面进行校正。

CSF通过三个机器学习分类器和基于模糊规则的分类器来检测web垃圾网页，其中每个分类器为网页采用QAIR进行质量评分。然后，这些质量分数被综合起来生成一个分数，这个分数可以预测网页的垃圾信息。CSF集成了这几个模型，建立起了一个智能模型，旨在提高ML模型的精度。（感觉也可以用作购物网站筛选评论、屏蔽广告刷单一类的操作）

; 二、相关工作

1 相关检测工作：

现有的技术，主要集中在恶意网页被搜索引擎索引后的检测。

(1)排名算法:

谷歌遵循排名算法，PageRank计算网页的排名得分。但是，垃圾邮件发送者仍然试图操纵搜索结果。例如，作者[13]以这种方式更新了PageRank算法，以便在恶意网页出现在搜索结果之前检测到它们。

(2)用户行为分析:

用户行为分析是检测垃圾网页的一个很好的参数。一个网页的相关性是通过用户花费的时间和点击次数来预测的。所提出的web垃圾邮件检测方案考虑了停留时间和点击次数两个因素。

(3)网页质量:

分析网页质量可以帮助计算其重要性。计算网页质量评分，建立的模型称为内容信任模型。

(4)机器学习:

它是在不同领域发挥不同作用的范式。它是进行实验和验证垃圾邮件检测算法的核心。它预测了用来形成垃圾网页的网页特征的合并。利用大量合并的网页特征训练ML模型，以标准数据集成功检测垃圾网页。

2 相关集成工作：

(1)非加权投票:

每个分类器不仅产生分类决策，而且产生类概率估计。由所有分类器产生的估计量组合在式2中。在这个方程中，hl是分类器，结果是在数据点x处对k的真实预测。

; (2)最小二乘：

这种方法用于回归问题。该方法以最大权重为目标，提高了集成模型的精度。应用的原理是，由hl估计的方差与hl的权重成反比。

(3)似然组合:

该方法适用于分类问题。该方法根据独立的分类器权重计算每个分类器的精度。该方法采用先验分布P(hl)与估计似然P(S|hl)相乘的方法。

(4)门控网络:

它是一种组合分类器的方法，接受输入x并产生输出wl

; (5)堆叠:

它是通过遗漏一个交叉验证实现的。对于每个分类器和每个训练集，都会产生一个组合假设。在下一个迭代中，除了最后一个迭代之外，使用相同的过程。

三、具体做法：

（1）数据集、预处理、特征提取、洗数据

使用米兰大学的网络算法实验室发起的公开数据集(WEBSPAMUK2007)。数据集中，用包含2/3标签的SET1训练。进行预处理，采用PCA进行特征提取；然后使用一种过采样方法SOTU洗数据。

特征提取展示前七个：

特征选择：采用特征排序方法，即随机森林，计算特征的重要性。为特征排序计算的分数是”基尼指数”。不同的特征构成了树的不同节点。基尼值是为每个叶子计算的，无论是父叶子还是子叶子。然后，利用这些基尼值计算平均下降基尼值。选择的最优特性为：hostid, La-
bel, eq hp mp, indegree hp, indegree mp, outdegree hp, outdegree mp, pagerank hp, pagerank mp, trustrank hp,trustrank mp, truncatedpagerank 1 hp , truncatedpagerank 1 mp.

; （2）模型

设计了三个机器学习分类器（Bagged Mars（缺点：新知识并不能很好地归纳）, Bayesian广义线性模型，boosting线性模型）和一个基于模糊规则的分类器(FRBC)（由IF-THEN规则组成）。
分类规则：
1)收集每个分类器的输出，即网页的质量评分向量Vi。
2)将0到1范围内的每个向量归一化。
3)分数越接近0，垃圾网页的概率越高。分数越接近1，说明网页质量越好。0.5为分界线。
4)使用

生成所有选票的组合。n为分类器个数，hi为每个分类器产生的假设。
三个机器学习算法ROC曲线分别如下图所示：

（3）模糊投票计算得分

采用模糊投票法对计算得分，所提出的模糊投票集成方法提高了模型的性能。

（4）测试

在标准数据集WEBSPAM-UK 2007上另外1/3的SET2用于测试。

; （5）评估得分

结果如下：
达到了97.3%的Accuracy。

作者也比较了不同大小的训练集和测试集对于实验结果的影响，发现在训练集和测试集8:2的情况下效果比较好。

Original: https://blog.csdn.net/weixin_43737395/article/details/127798841
Author: PUdd
Title: 【论文阅读】基于混淆的加强网络安全的方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/658268/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

tf.math.reduce_mean和tf.keras.metrics.Mean的区别是什么，区别在于记不记忆之前的状态

今晚在学tensorflow的API的时候，看到reduce_mean，于是心生活意——为何不直接用mean呢？可能这个和mean有区别？查询官网后，发现了 tf.math.r…

人工智能 2023年5月26日
0088
C#，人工智能，深度学习，OpenCV，C#开发环境OpenCvSharp的安装、搭建与可视化教程

一、OpenCV OpenCV是基于Apache2.0许可（开源）发行的跨平台计算机视觉和机器学习函数库，支持Windows、Linux、Android和Mac OS操作系统。Op…

人工智能 2023年7月19日
00171
Magic Data入选亿欧智库2022中国语音交互车端应用产业图谱

Magic Data入选亿欧智库2022中国语音交互车端应用产业图谱以下文章来源于亿欧网，作者李浩诚 2022年3月18日，亿欧智库正式对外发布了《2022中国汽车智能化功能模…

人工智能 2023年5月25日
00116
tensorflow-gpu安装过程中出现的tf.test.is_gpu_avaiable()返回false的一部分解决方法

说起安装tensorflow-gpu的时候出现的一些坑就有点郁闷写个博客记录一下这一些坑，也算给后人一点解决方法 Question Ⅰ 第一种出现在 import tensorfl…

人工智能 2023年5月24日
00138
基于Python实现数字图像可视化水印系统

资源下载地址：https://download.csdn.net/download/sheziqiong/85604939 LSB 基本算法 LSB 基本算法包括 LSB 基本算法…

人工智能 2023年6月22日
0072
爆肝5万字❤️Open3D 点云数据处理基础（Python版）

Open3D 点云数据处理基础（Python版）文章目录 * – 1 概述 – 2 安装 – + 2.1 PyCharm 与 Python 安…

人工智能 2023年7月30日
0086
torchsummary和torchstat使用方法和结果分析

1 torchstat：查看模型的大小和浮动运算量安装工具 pip install torchstat 使用例子 import torch import torch.nn as …

人工智能 2023年6月17日
00100
机器学习应用——监督学习（上）（实例:人体运动状态预测&人体运动状态预测&房价与房屋尺寸关系的线性拟合与非线性拟合&交通流量预测）

前言机器学习应用博客中，将核心介绍三大类学习，即：无监督学习、监督学习、强化学习。本篇将简要介绍：1.监督学习概念（最常应用场景：分类和回归）2.分类——k近邻分类器、决策树、…

人工智能 2023年6月17日
00100
Python读取.xlsx指定行列

本文以Python3.9.1读取data.xlsx中包含的西瓜数据集3.0数据为例，数据集如下：编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜1青绿蜷缩浊响清晰凹陷硬滑0.6970….

人工智能 2023年7月14日
0080
ROS中的时间

ros::Time t1 = ros::Time::now(); double t_cur = t1.toSec(); printf("The time is: %16f…

人工智能 2023年7月8日
0077
主成分分析（PCA）：通过图像可视化深入理解

点击上方” 小白学视觉“，选择加” 星标“或” 置顶“ 重磅干货，第一时间送达主成分分析简介主成分分析（…

人工智能 2023年6月16日
00107
手把手教你绘制最基础的列线图

欢迎关注”生信修炼手册”! 在之前的文章中，我们介绍了列线图的含义和构建方法，本文重点介绍下绘制列线图的代码，经典的列线图如下所示当我们构建好一个预后模型…

人工智能 2023年7月15日
0074
分类精度评价中的TP、TN、FP、FN的理解

TP、TN、FP、FN主要用来统计两类分类的问题，当然多个类别也可以分别统计。将样本分为正样本（positive）和负样本(negative)。 TP、TN、FP、FN中第一个字母…

人工智能 2023年7月3日
00112
opencv实战—使用TesseractOCR进行文字识别

什么是tesseractOCR？ TesseractOCR 是一款由HP实验室开发由 Google 维护的开源 OCR（Optical Character Recognition …

人工智能 2023年7月19日
0053
R语言与临床模型预测——LASSO回归，单因素多因素cox，差异表达分析，Venn图，森林图，列线图，矫正曲线，ROC全套代码及解析——第九部分 lasso回归排除具有共线性的基因本专栏可免费答疑

1.下载数据匹配基因基因去重复 4.匹配临床数据 5.批量cox回归分析 6.差异表达基因筛选 7.取交集，选出预后相关的差异表达基因 8.森林图绘制 9.lasso回归进一步…

人工智能 2023年7月16日
0092
特征选择 | MATLAB实现RF(随机森林)特征选择

[ 随机森林特征选择_在 _MATLAB_中的 _实现_需要通过以下几个步骤： 1. 准备数据集：将数据集分为训练集和测试集，并进行特征工程（包括数据清理、 _特征选择_等）； …

人工智能 2023年6月16日
00103

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31