基于KMeans聚类算法的网络流量分类预测

2023年6月30日下午11:15 • 人工智能 • 阅读 109

温馨提示：文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :)

项目简介

网络流量分类或网络流量异常检测，采用基于聚类的机器学习算法，实现异常检测与分类，即划分为正常流量和异常流量。数据集来源自 KDD CUP，该数据集是从一个模拟的美国空军局域网上采集来的 9 个星期的网络连接数据, 分成具有标识的训练数据和未加标识的测试数据。测试数据和训练数据有着不同的概率分布, 测试数据包含了一些未出现在训练数据中的攻击类型, 这使得入侵检测更具有现实性。本项目利用 pandas + Matplotlib + seaborn + sklearn 对网络流量数据进行统计分析，并构建聚类算法实现对流量的分类建模。

功能组成

基于聚类方法的网络流量分类的主要功能包括：

工具包导入和数据读取

import warnings
warnings.filterwarnings('ignore')
import os
import gc
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
from IPython.display import display
np.random.seed(7)
plt.style.use('seaborn')
from tqdm import tqdm
import requests
from bs4 import BeautifulSoup
import json
import time

利用 pandas 完成数据集的读取，并将 attack_ type 进行类型转换：

data_df = pd.read_csv('data/kddcup.data_10_percent', sep=',', error_bad_lines=False, header=None)

def transform_target(attack_type):
    attack_type = attack_type[:-1]
    if attack_type == 'normal':
        return attack_type
    elif attack_type not in {'smurf', 'neptune'}:
        return 'attack'
    else:
        return 'None'

data_df['attack_type'] = data_df['attack_type'].map(transform_target)
data_df = data_df[data_df['attack_type'] != 'None']

durationprotocol_typeserviceflagsrc_bytesdst_byteslandwrong_fragmenturgenthot…dst_host_srv_countdst_host_same_srv_ratedst_host_diff_srv_ratedst_host_same_src_port_ratedst_host_srv_diff_host_ratedst_host_serror_ratedst_host_srv_serror_ratedst_host_rerror_ratedst_host_srv_rerror_rateattack_type346690tcphttpSF27627290000…2551.000.000.250.010.00.00.00.0normal1466192472udpotherSF1471050000…10.000.870.980.000.00.00.00.0normal298420tcphttpSF21914340000…2551.000.000.000.000.00.00.00.0normal1367190tcphttpSF3272740000…2240.880.020.000.000.00.00.00.0normal239700tcphttpSF2176260000…2551.000.000.000.000.00.00.00.0normal

数据探索式可视化分析

由于数据集太大，我们根据数据类型将数据集分为三部分（object、integer、float）并进行分析。在41个固定的特征属性中，9个特征属性为离散型，其他均为连续型。通过对41个固定特征属性的分析，比较能体现出状态变化的是前31个特征属性，其中9个离散型，22个连续型。因此对连接记录的分析处理是针对该31个特征属性。接下来将这31个特征属性进行总结分析。

4.1 攻击类型 attack_type

可以看出，有97277个正常样本，8752个攻击样本，占8.2%，标注样本极不平衡，攻击类型的样本太少，为验证聚类模型的效果，考虑将其合并为一种其他攻击类型。

4.2 连续记录的时间长度 duration

4.4 目的端的服务类型 service

4.6 源端发送到目的端的字节数的字节数 src_bytes

特征工程

5.1 类别特征编码

特征工程之前，先查看各列或特征在数据集中的不同值的个数，以梳理哪些是数值类型哪些是类别类型的特征。

查看各列或特征在数据集中的不同值的个数
for column in data_df.columns:
    print(len(set(data_df[column])), ':', column)

聚类算法中要使用计算距离的方法对数据进行聚类, 而连接记录的固定特征属性中有两种类型的数值: 离散型和连续型。对于连续型特征属性, 各属性的度量方法不一样。

针对类别型特征，进行 LabelEncoder 编码：

from sklearn import preprocessing

le = preprocessing.LabelEncoder()

字符串类型的特征进行 LabelEncode 编码
data_df['protocol_type'] = le.fit_transform(data_df['protocol_type'])
data_df['service'] = le.fit_transform(data_df['service'])
data_df['flag'] = le.fit_transform(data_df['flag'])

data_df['attack_type'] = data_df['attack_type'].map(lambda x: int(x == 'attack'))

target = data_df['attack_type']
del data_df['attack_type']

5.2 特征归一化处理

数据的量纲不同，数量级差别很大，经过标准化处理后，原始数据转化为无量纲化指标测评值，各指标值处于同一数量级别，可进行综合测评分析。

如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。

最大值-最小值归一化
scaler = preprocessing.MinMaxScaler()

data_df = scaler.fit_transform(data_df)

5.3 TSNE 降维可视化

plt.figure(figsize=(20, 8))
plt.scatter(data[target == 1][:, 0], data[target == 1][:, 1], label='1: attack', color='red')
plt.scatter(data[target == 0][:, 0], data[target == 0][:, 1], label='0: normal')
plt.legend()
plt.show()

KMeans 无监督聚类模型实现异常检测

6.1 数据集拆分

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

划分测试集
train_x, test_x, train_y, test_y, tsne_train, tsne_test = train_test_split(data_df, target.values, data, test_size=0.1, random_state=42)
print('训练集：{}, 测试集: {}'.format(train_x.shape[0], test_x.shape[0]))

&#x8BAD;&#x7EC3;&#x96C6;&#xFF1A;4819, &#x6D4B;&#x8BD5;&#x96C6;: 536

6.2 KMeans 聚类模型

from sklearn.cluster import KMeans

创建 KMeans 模型
kmeans_model = KMeans(n_clusters=2, random_state=42)

训练 kmeans 模型
kmeans_model.fit(train_x)

训练集预测
pred_trains = kmeans_model.predict(train_x)

测试集预测
pred_tests = kmeans_model.predict(test_x)

print('训练集正确率：{:f}，精确率：{:f}，召回率：{:f}，F1-Score：{:f}'.format(
      accuracy_score(pred_trains, train_y),
      precision_score(pred_trains, train_y),
      recall_score(pred_trains, train_y),
      f1_score(pred_trains, train_y))
)
print('测试集正确率：{:f}，精确率：{:f}，召回率：{:f}，F1-Score：{:f}'.format(
      accuracy_score(pred_tests, test_y),
      precision_score(pred_tests, test_y),
      recall_score(pred_tests, test_y),
      f1_score(pred_tests, test_y))
)

&#x8BAD;&#x7EC3;&#x96C6;&#x6B63;&#x786E;&#x7387;&#xFF1A;0.818220&#xFF0C;&#x7CBE;&#x786E;&#x7387;&#xFF1A;0.539043&#xFF0C;&#x53EC;&#x56DE;&#x7387;&#xFF1A;0.235943&#xFF0C;F1-Score&#xFF1A;0.328221
&#x6D4B;&#x8BD5;&#x96C6;&#x6B63;&#x786E;&#x7387;&#xFF1A;0.847015&#xFF0C;&#x7CBE;&#x786E;&#x7387;&#xFF1A;0.714286&#xFF0C;&#x53EC;&#x56DE;&#x7387;&#xFF1A;0.339806&#xFF0C;F1-Score&#xFF1A;0.460526

红色的为预测错误的样本，灰色的Wie预测正确的样本， 可以看出，单纯的 KMeans 模型的测试集 F1-Score 只有 0.334297，模型存在提升空间！

6.3 模型优化

本项目基于随机森林算法进行特征选择：

......

train_probs = clf.predict_proba(train_x)
test_probs = clf.predict_proba(test_x)

train_probs = np.reshape(train_probs[:, 0], (train_probs.shape[0], 1))
test_probs = np.reshape(test_probs[:, 0], (test_probs.shape[0], 1))

feature_importances = pd.DataFrame({'features': feature_names, 'important': clf.feature_importances_})

feature_importances.sort_values(by='important', ascending=False)

去掉特征主要程度低的特征
good_features = feature_importances['features'].values[:10]

特征筛选后，重新训练 kmeans 聚类算法：

print('训练集正确率：{:f}，精确率：{:f}，召回率：{:f}，F1-Score：{:f}'.format(
      accuracy_score(pred_trains, train_y),
      precision_score(pred_trains, train_y),
      recall_score(pred_trains, train_y),
      f1_score(pred_trains, train_y))
)
print('测试集正确率：{:f}，精确率：{:f}，召回率：{:f}，F1-Score：{:f}'.format(
      accuracy_score(pred_tests, test_y),
      precision_score(pred_tests, test_y),
      recall_score(pred_tests, test_y),
      f1_score(pred_tests, test_y))
)

&#x8BAD;&#x7EC3;&#x96C6;&#x6B63;&#x786E;&#x7387;&#xFF1A;0.925711&#xFF0C;&#x7CBE;&#x786E;&#x7387;&#xFF1A;0.765743&#xFF0C;&#x53EC;&#x56DE;&#x7387;&#xFF1A;0.534271&#xFF0C;F1-Score&#xFF1A;0.629400
&#x6D4B;&#x8BD5;&#x96C6;&#x6B63;&#x786E;&#x7387;&#xFF1A;0.917910&#xFF0C;&#x7CBE;&#x786E;&#x7387;&#xFF1A;0.591837&#xFF0C;&#x53EC;&#x56DE;&#x7387;&#xFF1A;0.547170&#xFF0C;F1-Score&#xFF1A;0.568627

可以看出，经过特征选择后，测试集的预测 F1-Score 从 0.460526 提升到 0.568627，同时由于特征维度的降低，运行速度也加快！

结论

网络流量分类或网络流量异常检测，采用基于聚类的机器学习算法，实现异常检测与分类，即划分为正常流量和异常流量。本项目利用 pandas + Matplotlib + seaborn + sklearn 对网络流量数据进行统计分析，并构建聚类算法实现对流量的分类建模。

欢迎大家 点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。
技术交流认准下方 CSDN 官方提供的学长 Wechat / QQ 名片 :)

Original: https://blog.csdn.net/andrew_extra/article/details/125493160
Author: Python极客之家
Title: 基于KMeans聚类算法的网络流量分类预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662259/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Informer代码详解

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 注：大家觉得博客好…

人工智能 2023年7月6日
0080
python求多元线性回归方程_Python—-多元线性回归

多元线性回归 1、多元线性回归方程和简单线性回归方程类似，不同的是由于因变量个数的增加，求取参数的个数也相应增加，推导和求取过程也不一样。、 y=β0＋β１x1+β2×2…

人工智能 2023年6月18日
0076
深度学习：AlexNet实现服装分类（Pytorch）

深度学习：AlexNet实现服装分类（Pytorch）前置知识表征学习模型介绍 * 模型架构模型特点代码实战 * 服装分类数据集定义模型测试数据训练模型结果展示 …

人工智能 2023年7月1日
0080
one-hot编码

one-hot编码什么是one-hot编码 one-hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任…

人工智能 2023年7月25日
0046
残差网络(ResNets)的残差块（Residual block）

来源：Coursera吴恩达深度学习课程五一假期结束了，听着梁博的《日落大道》，码字中。非常非常深的神经网络是很难训练的，因为存在梯度消失和梯度爆炸问题。跳跃连接（Skip co…

人工智能 2023年6月17日
00103
ci发什么音标_语音识别科普篇-术语定义-音素/音节/音标

一.音素和国际音标 1．什么是音素（phone）：音素是语音的最小单位。音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从…

人工智能 2023年5月27日
0089
机器学习之L1正则化和L2正则化（附源码解析）

前言今天还是机器学习的基础知识内容，也是最基础的哈。首先说一下什么是正则化，其实它就是一个减少方差的策略。那么什么是方差呢？在这里也引入一个和方差相辅相成的概念–偏…

人工智能 2023年6月25日
00103
整数规划Python

整数规划纯整数规划：所有决策变量都限定为整数混合整数规划：仅一部分变量限定为整数 0-1整数规划：决策变量仅限于0或1 1.整数规划问题与求解 import cvxpy as …

人工智能 2023年7月28日
0045
如何熟练掌握分子动力学LAMMPS软件模拟

随着理论化学及计算机技术的发展，分子模拟技术被越来越多地用来加快科学研究与开发过程。分子动力学模拟方法以统计热力学、分子力学及牛顿力学为基础，对纳观体系的状态与过程进行精细研究，已…

人工智能 2023年6月28日
0063
MySQL进阶实战4，那些年学过的索引，下篇

目录 * – 一、为什么不建议使用外键索引？ – 二、索引合并策略 – 三、选择合适的索引列顺序 – 四、聚簇索引 – …

人工智能 2023年6月27日
0077
yolov1代码解读

yolov1论文解读前面已经对yolov1的原理做了一个了解，下面就来看一下yolov1的代码实现过程 yolov1的代码倒是比Faster-Rcnn简单多了，但是一些逻辑顺序和F…

人工智能 2023年7月9日
0089
RTX3090+win10+CUDA11.6+cudnn8.5.0+pytorch1.12.1 环境——个人配置经验

主要参考博客：Ubuntu20.04+RTX3090ti+cuda11.6+cudnn8.4.1+pytorch安装过程记录配置时间：2022.9.14以下是我亲测有效的使用 R…

人工智能 2023年7月22日
0072
AdamW优化器（自适应梯度方法）

DECOUPLED WEIGHT DECAY REGULARIZATION解耦权值衰减正则化摘要 L2正则化和权值衰减正则化对于标准随机梯度下降是等价的(当按学习率重新调整时)，…

人工智能 2023年7月13日
00159
java 连接janusgraph_基于JanusGraph的大数据图数据库

导读知识图谱是近来很火的概念，很多领域都希望能用知识图谱解决一些问题。在零售领域其实也有使用知识图谱的场景，比如阿里使用知识图谱进行商品智能导购以及商品”巡检&#82…

人工智能 2023年6月1日
0099
恭喜PaddleOCRSharp开源项目通过PaddleOCR社区常规赛优秀项目首次评选

PaddleOCR优秀社区项目推荐： PaddleOCR社区常规赛首次评选结果已于日前出炉，本次优秀项目推广为大家带来的是【部署篇】：️ PaddleOCR的.NET调用库：包含文…

人工智能 2023年6月4日
00151
pandas 学习笔记

pandas中最主要的两个数据结构： Series、 DataFrame Series 一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（…

人工智能 2023年7月7日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31