加密流量分类-论文2：Deep Packet: A Novel Approach For Encrypted Traffic Classification Using Deep Learning

2023年7月2日上午5:24 • 人工智能 • 阅读 75

加密流量分类-论文2：Deep Packet: A Novel Approach For Encrypted Traffic Classification Using Deep Learning

0、摘要
1、介绍
2、相关工作
3、深度学习背景
*
3.1 自编码器（Autoencoder，AE）
3.2 卷积神经网络(Convolutional Neural Network, CNN)
4、方法
*
4.1 数据集
4.2 预处理
4.3 网络架构
5、实验
6、总结

0、摘要

论文提出的方案称为”深度包”(deep packet)，可以处理网络流量分类为主要类别(如FTP和P2P)的流量表征，以及需要终端用户应用程序(如BitTorrent和Skype)识别的应用程序识别。与现有的大多数方法不同，深度报文不仅可以识别加密流量，还可以区分VPN网络流量和非VPN网络流量。网络架构基于CNN与SAE，能同时进行 应用识别与 流量类型的分类任务。

1、介绍

准确的流量分类已成为提供适当的服务质量(quality of service, QoS)、异常检测等高级网络管理任务的先决条件之一。流量分类在与网络管理相关的学术界和工业界都引起了极大的兴趣。

本文贡献：

在Deep Packet中，不需要专家来提取与网络流量相关的特征。这种方法省去了查找和提取特征的繁琐步骤。（只要是基于DL的方法都能做到这一点）
Deep Packet可以在两个粒度级别(应用程序识别和流量表征)上识别流量，并获得最先进的结果。
深度数据包可以准确地分类最难的一类应用程序，已知是P2P。

2、相关工作

等于是一个综述，概览了之前流量分类的一些方法以及它的适用性与优缺点。可以参考论文解读1

Port-based approach（基于端口）：提取过程简单，端口号不受加密方案的影响。然而，端口混淆、网络地址转换(NAT)、端口转发、协议嵌入和端口随机分配的普遍存在大大降低了这种方法的准确性， 目前已经不适用。
Payload Inspection Techniques（基于有效载荷）:即深度包检测（DPI）。
Statistical and machine learning approach（基于统计特征+机器学习方法）：这些方法依赖于流量的统计或时间序列特性，能够处理加密和未加密的流量。

总之，以前的方法，特征提取阶段依赖于人类的特征工程，耗时、昂贵且出错率高。

3、深度学习背景

依旧是综述，关于神经网络的。这里主要介绍了两种神经网络结构。

3.1 自编码器（Autoencoder，AE）

AE是一种无监督框架。考虑一个训练集{x1, x2，…， xn}其中对于每个训练数据我们有xi∈Rn。自编码器目标定义为yi = xi，对于i∈{1,2，…， n}，即网络的输出等于输入。自动编码器试图学习数据集的压缩表示，即 将高维数据通过编码器降维，然后降维后的数据通过解码器升维，输出尽量与输入相同。这样。降维后的数据则包含了原始输入数据的信息。一般地，编码器与解码器的结构都是对称的。

加密流量分类-论文2：Deep Packet: A Novel Approach For Encrypted Traffic Classification Using Deep Learning

在实践中，为了获得更好的性能，一般使用 堆栈式自动编码器(SAE)。将多个自动编码器堆叠起来，每个编码器的输出都是连续层的输入，而连续层本身就是一个自动编码器。堆叠式自动编码器的训练过程采用贪婪的分层方式完成。首先，该方法训练网络的每一层，同时冻结其他层的权值。在训练完所有层之后，为了得到更准确的结果，对整个神经网络进行微调。在微调阶段，利用反向传播算法调整各层权重。此外，对于分类任务，可以在最后一层应用额外的softmax层。

; 3.2 卷积神经网络(Convolutional Neural Network, CNN)

卷积：进行特征抽取
池化：聚合低级特征，获得局部不变性，并且能降低网络训练与测试的参数量。
一维卷积神经网络（1D-CNNs）可以捕获网络数据包中相邻字节之间的空间依赖关系，从而找到每一类协议/应用程序的区别模式，从而对流量进行准确的分类。

4、方法

4.1 数据集

ISCX VPN-nonVPN：该数据集实在数据链路层捕获的，因此，每个数据包都包含一个以太网报头、一个IP数据报报头、一个TCP/UDP报头。

4.2 预处理

删除以太网报头
将UDP报头填充0至20字节长度（TCP通常具有20字节长度的报头，而UDP具有8字节长度的报头。为了使传输层的段一致，在UDP段的报头末尾注入0，使它们的长度与TCP报头相等）
屏蔽IP数据报报头的IP
删除不相关的数据包，例如没有负载的数据包（TCP握手时SYN、ACK设置为1以及FIN设置为1的数据包）或者DNS数据段（将url转为IP地址的）
将原始数据包转为字节向量
截断超过1500的向量，不足1500长度的填充0
将向量的每个元素除以255来规范化字节向量
针对样本不均衡问题，对样本更多的类进行欠采样，直到类相对平衡。

; 4.3 网络架构

关于SAE的部分：
由五个全连接层（FC）,分别由400、300、200、100和50个神经元组成。为防止过拟合问题，每层后采用dropout技术，dropout率为0.05。针对应用识别和流量表征任务，在SAE的最后一层，分别添加了一个包含17个神经元和12个神经元的softmax分类器。
关于CNN的部分：
包括两个连续的卷积层，然后是池化层。将二维张量压缩为一维矢量，并将其送入三层全连接神经元网络，该网络采用dropout技术以避免过拟合。最后，将类似于SAE架构的softmax分类器应用于分类任务。

CNN的超参数如下：

5、实验

对于CNN的调参，此处改变了两个卷积层的滤波器大小、滤波器数量和步幅。总共评估了116个应用识别和交通表征任务的加权平均F1分数模型。通过结果得出如下结论： 对于流量分类任务，无法选择最优模型，因为”最优模型”的定义是不明确的，而且模型的精度和它的复杂性(即训练速度和测试速度)之间存在权衡。
增加神经网络的复杂度并不一定会带来更好的性能。可能的原因有：
一个复杂的模型在训练阶段更容易遇到梯度消失问题，从而导致模型的 欠拟合。
一个学习模型变得更复杂，而训练数据的大小保持不变，就会出现 过拟合问题。
该工作与Wang W, Zhu M, Wang J, Zeng X, Yang Z (2017)
End-to-end encrypted traffic classification with one-dimensional convolution neural networks. In: Intel-ligence and Security Informatics (ISI), 2017 IEEE International Conference on, IEEE. 的方法类似，但Wang等人在流量表征的任务上获得了100%的精度，可能的原因是 预处理过程中没有屏蔽IP地址字段，导致模型仅仅用IP地址这一特征来进行分类。

6、总结

Original: https://blog.csdn.net/qq_45125356/article/details/126661237
Author: 烟玉蓝田
Title: 加密流量分类-论文2：Deep Packet: A Novel Approach For Encrypted Traffic Classification Using Deep Learning

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664786/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

RKNN-toolkit-1.7.1 安装踩坑记录(安装成功)

官方给出的 python 依赖： * pip install tensorflow==1.14.0 pip install torch==1.5.1 torchvision==0….

人工智能 2023年5月25日
00137
C++：正则表达式【regex_match、regex_search、regex_replace】【使用smatch列表来存储匹配结果】

1、基本概念 cout << regex_match("123", regex("\\d")) << endl; /…

人工智能 2023年6月29日
0073
opencv学习笔记(五)——Sobel算子

文章目录一 . 概念 * 1 . 梯度 2 . 边缘 3 . 差分二 . 原理三 . API 四 . 代码一 . 概念 1 . 梯度把图片想象成连续函数，因为边缘部分的像…

人工智能 2023年6月22日
0069
【YOLOv5】yolov5目标识别+DeepSort目标追踪

引言利用yolov5训练的目标识别模型，结合DeepSort实现目标追踪源码下载：（1）Yolov5_DeepSort_Pytorch (该源码下载下来的yolov5文件夹是空的…

人工智能 2023年6月16日
0077
Ego-planner安装

使用Ubantu18.04，完整安装Ros(melodic)，否则会出现编译不成功的情况。按照其Github说明https://github.com/ZJU-FAST-Lab/eg…

人工智能 2023年6月11日
0089
python合并单元格索引_python笔记：纵向合并表格

工作中我们常常遇到多个格式相同的表格面要合并成一个表格，比如将2019年的数据与2020年的数据合并在一起来进行分析。平时EXCEL时我们通常直接复制粘贴，但有时因表格内容过大，直…

人工智能 2023年7月8日
0075
Python神经网络

神经网络介绍神经网络人工神经网络（Artificial Neural Networks）也简称为神经网络（NN）。是模拟人类大脑神经网络的结构和行为。 20 世纪 80 年代以…

人工智能 2023年7月14日
0068
一元线性回归及案例（Python）

目录 1 一元线性回归简介 2 一元线性回归数学形式 3 案例：不同行业工龄与薪水的线性回归模型 3.1 案例背景 3.2 具体代码 3.3 模型优化 4 总体展示 5 线性回归模…

人工智能 2023年7月18日
0052
朝阳医院2018年销售数据分析

一、分析背景及目的分析朝阳医院2018年药品销售数据，分析销量的变化趋势、影响销量的原因，并找出销量Top药品。使用python进行数据分析，tableau进行可视化。二、理解…

人工智能 2023年7月16日
0056
cv2.contourArea、cv2.arcLength、cv2.approxPolyDP、cv2.convexHull、cv2.boundingRect、cv2.minAreaRect

这里面相对比较核心的是cv2.boundingRect和cv2.minAreaRect，后者用的非常多，上述所有方法的输入都是点集，对于minAreaRect，输入的是findCo…

人工智能 2023年7月6日
0092
conda虚拟环境中安装cuda和cudnn，再也不用头疼版本号的问题了

文章目录背景（为什么）具体步骤 * 查看conda支持的cuda版本下载cuda 安装cuda 查看cuda对应的cudnn版本下载cudnn版本安装cudnn 测试安装…

人工智能 2023年7月4日
00240
《数字图像处理》题库5：计算题 ③

前言这是我在学习数字图像处理这门课程时，从网络上以及相关书籍中搜集到的一些题目，这些题目主要是针对期末考试的。做题之前你需要注意以下几点：这篇文章整理了第5种题型，即计算题…

人工智能 2023年6月20日
0072
P02014094汤雨瑶的信息论问答作业

对于信源的发送和接收，我们日常生活中有哪些应用？举里说明其工作原理与信息论的关系信息论的意义和应用范围已超出通信的领域。自然界和社会中有许多现象和问题，如生物神经的感知系统、遗传信…

人工智能 2023年5月25日
0069
安装mmdet,mmcv-full

前言由于最近可能要参加关于目标检测和跟踪的比赛,所以先提前装好环境. 我的环境以及各种配置版本: 系统: Ubuntu 18.04.6 CUDA : 11.04 Python 3…

人工智能 2023年7月20日
0048
CUDA的安装与配置

处理CUDA安装过程中的问题汇总(tensorflow.pytorch) 1.首先找到自己的控制面板看一下自己的配置2.确认自身系统支持最大的CUDA3.前往 https://de…

人工智能 2023年5月25日
0054
Pytorch安装完成后Pycharm如何配置环境并测试Pytorch

首先按照教程在电脑上安装Anaconda和pytorch，建议使用 conda 指令创建一个环境时名字取成自己想要的名字，最好不要取成pytorch，不然会把自己绕晕。接着进入软件…

人工智能 2023年6月17日
0091

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

加密流量分类-论文2：Deep Packet: A Novel Approach For Encrypted Traffic Classification Using Deep Learning

加密流量分类-论文2：Deep Packet: A Novel Approach For Encrypted Traffic Classification Using Deep Learning

3.1 自编码器（Autoencoder，AE）

; 3.2 卷积神经网络(Convolutional Neural Network, CNN)

4.1 数据集

4.2 预处理

; 4.3 网络架构

大家都在看