数据分类：支持向量机

2023年7月2日上午5:17 • 人工智能 • 阅读 107

一、作业要求

编写SVM算法程序（可从网络查找相应代码），平台自选。
使用SVM 算法，分别用三种核函数对给定样本数据集建立分类模型。其中数据文件中维度”类型”为标识的类型。
用60%的数据为训练集，40%为测试集，用准确度、灵敏度和特效性检验你的结果。
完成挖掘报告。

二、数据集预分析

数据集前五条展示
查看数据集的整体信息
整个数据集共12列，569行，无缺失值，不需要做缺失值处理。
数据集列的注释
包括ID，类型与特征共12个
查看数据各特征下平均值，方差，最值，四分位数等指标值
数据两种类型分布情况可视化

; 三、数据预处理

特征选择

热力图对角线上的为单变量自身的相关系数是1，颜色越浅代表相关性越大。观察热力图可见radius_mean、perimeter_mean 和 area_mean 相关性非常大，compactness_mean、concavity_mean、concave_points_mean这3个字段也是相关的，因此可选择radius_mean，perimeter_mean，area_mean，compactness_mean，concavity_mean，concave_points_mean这六个特征作为最主要特征。

四、相关知识

SVM核函数
① 线性核函数
线性核函数（Linear Kernel）其实就是线性可分SVM，也就是说，线性可分SVM可以和线性不可分SVM归为一类，区别仅仅在于线性可分SVM用的是线性核函数。

② 高斯核函数
高斯核函数（Gaussian Kernel），在SVM中也称为径向基核函数（Radial Basis Function,RBF），它是非线性分类SVM最主流的核函数，是libsvm默认的核函数。

③ Sigmoid核函数
Sigmoid核函数（Sigmoid Kernel）也是线性不可分SVM常用的核函数之一。
SVM性能度量指标
① 混淆矩阵
针对二分类问题，通常将我们所关心的类别定为正类，另一类称为负类。混淆矩阵由如下数据构成：
True Positive (真正，TP)：将正类预测为正类的数目
True Negative (真负，TN)：将负类预测为负类的数目
False Positive(假正，FP)：将负类预测为正类的数目（误报）
False Negative(假负，FN)：将正类预测为负类的数目（漏报）

MBF(False,0)TNFPT(True,1)FNTP

② 准确率
准确率是最常见的评价指标，预测正确的样本数占所有的样本数的比例；通常来说，准确率越高分类器越好。

③ 敏感度（召回率）
灵敏度表示的是样本中所有正例中被识别的比例，衡量了分类器对正例的识别能力。

④ 特效性检验（特效度）
特效度表示的是样本中所有负例中被识别的比例，衡量了分类器对负例的识别能力。

; 五、概要设计

概要设计流程图：

六、详细设计及核心代码

读取数据集与数据集概况查看


data = pd.read_excel('分类作业数据集.xlsx')

print(data.info())
print(data.columns)
print(data.head(5))
print(data.describe())

数据清洗与类型映射


data.drop('ID',axis = 1,inplace=True)

data['类型'] = data['类型'].map({'M':1,'B':0})

数据可视化与特征选择


features_mean= list(data.columns[1:12])

sns.countplot(x="类型",data=data)
plt.show()

corr = data[features_mean].corr()
plt.figure(figsize=(14,14))

sns.heatmap(corr, annot=True)
plt.show()

features_remain = ['radius','texture', 'smoothnesscompactness','compactness','symmetry ', 'fractal dimension ']

切分数据集为训练集和测试集


train,test = train_test_split(data,test_size = 0.4)

train_X = train[features_remain]
train_y = train['类型']
test_X = test[features_remain]
test_y = test['类型']

标准化数据


ss = StandardScaler()
train_X = ss.fit_transform(train_X)
test_X = ss.transform(test_X)

采用SVM三个核函数建立分类模型与性能度量

print("%%%%%%%准确度%%%%%%%")
print("%%%%%%%敏感度%%%%%%%")
print("%%%%%%%特效度%%%%%%%")
print("%%%%%%%F1_score%%%%%%%")
kernelList = ['linear','rbf','sigmoid']
for kernel in kernelList:
    svc = SVC(kernel=kernel).fit(train_X,train_y)
    y_pred = svc.predict(test_X)

    score_svc = metrics.accuracy_score(test_y,y_pred)
    print(kernel+":")
    print(score_svc)

    print(recall_score(test_y, y_pred))

    C = confusion_matrix(test_y, y_pred)
    TN=C[0][0]
    FP=C[0][1]
    FN=C[1][0]
    TP=C[1][1]

    specificity=TN/(TN+FP)
    print(specificity)

七、运行截图

以下分别是三个核函数模型的准确度，敏感度，特效度结果：

为了更直观看到SVM三个核函数建立模型的性能度量值，将所得结果绘制成表格如下（保留小数点后五位）：

由表格可见，对于该数据集，核函数rbf建立的模型在准确度和敏感度上均高于其余两种核函数，特效度略低于linear核函数模型，从整体来看，核函数rbf建立的分类模型应用于该数据集性能更好。

; 八、完整代码

import matplotlib
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn import metrics
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

plt.rcParams['axes.unicode_minus'] = False

plt.rcParams['font.sans-serif'] = ['Simhei']

pd.set_option('display.max_columns', None)

data = pd.read_excel('分类作业数据集.xlsx')

print(data.info())
print(data.columns)
print(data.head(5))
print(data.describe())

data.drop('ID',axis = 1,inplace=True)

data['类型'] = data['类型'].map({'M':1,'B':0})

features_mean= list(data.columns[1:12])

sns.countplot(x="类型",data=data)
plt.show()

corr = data[features_mean].corr()
plt.figure(figsize=(14,14))

sns.heatmap(corr, annot=True)
plt.show()

features_remain = ['radius','texture', 'smoothnesscompactness','compactness','symmetry ', 'fractal dimension ']

train,test = train_test_split(data,test_size = 0.4)
train_X = train[features_remain]
train_y = train['类型']
test_X = test[features_remain]
test_y = test['类型']

ss = StandardScaler()
train_X = ss.fit_transform(train_X)
test_X = ss.transform(test_X)

print("%%%%%%%准确度%%%%%%%")
print("%%%%%%%敏感度%%%%%%%")
print("%%%%%%%特效度%%%%%%%")
print("%%%%%%%F1_score%%%%%%%")
kernelList = ['linear','rbf','sigmoid']
for kernel in kernelList:
    svc = SVC(kernel=kernel).fit(train_X,train_y)
    y_pred = svc.predict(test_X)

    score_svc = metrics.accuracy_score(test_y,y_pred)
    print(kernel+":")
    print(score_svc)

    print(recall_score(test_y, y_pred))

    C = confusion_matrix(test_y, y_pred)
    TN=C[0][0]
    FP=C[0][1]
    FN=C[1][0]
    TP=C[1][1]

    specificity=TN/(TN+FP)
    print(specificity)

Original: https://blog.csdn.net/weixin_46443403/article/details/122916026
Author: tick-tick
Title: 数据分类：支持向量机

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664774/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytorch计算Loss值为Nan的一种情况【exp计算溢出，利用softmax计算的冗余性解决】

一、报错提示 FutureWarning: Non-finite norm encountered in torch.nn.utils.clip_grad_norm_; conti…

人工智能 2023年7月22日
0045
【node进阶】深度解析Koa框架—路由|静态资源|获取请求参数

✅ 作者简介：一名普通本科大三的学生，致力于提高前端开发能力✨ 个人主页：前端小白在前进的主页🔥 系列专栏： node.js学习专栏⭐️ 个人社区 : 个人交流社区🍀 学习格言:…

人工智能 2023年6月29日
0081
小爱同学100个奇葩回复_杰理新一代蓝牙芯片将内置小爱同学，语音唤醒、降噪、连续对话加持蓝牙音箱…

在 11 月 20 日召开的小米 AI 生态峰会暨小爱同学 3.0 发布会上，珠海杰理科技作为小爱同学在芯片端赋能的代表企业，带来了 3 款内置小爱同学标准 SDK 的第二代降噪、…

人工智能 2023年5月27日
0087
anaconda迁移安装目录

0.问题 Anaconda安装好之后，使用一段时间，创建了一些环境并且安装了许多包，整个Anaconda3文件夹占空间很大。如果安装Anaconda的盘（可能就是系统盘）空间本身很…

人工智能 2023年7月9日
0068
踩坑系列之pytorch安装之后不能使用cuda

为什么torch.cuda.is_avaliable总是False 原因说明解决办法 * 方法一（较为方便）方法二参考的大神连接：安装pytorch报错torch.cuda….

人工智能 2023年7月20日
00116
【NLP】自己搭一个多轮对话聊天机器人（附实现源码）

【NLP】自己搭一个多轮对话聊天机器人（附实现源码） 01 项目框架 02 模型 * 2.1 粗排 – 2.1.1BM25 2.1.1 Bool检索 2.2 精排意图…

人工智能 2023年6月1日
00175
java-php-python-ssm校园面包超市系统计算机毕业设计

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月26日
0065
【论文发表】2022 HIRE–首篇基于异构图神经网络的高阶关系知识蒸馏方法

简介论文终于中啦啦啦，本人的研究方向是异构图神经网络和知识迁移，欢迎大家一起学习交流呀。本文内容同时投稿在 PaperWeekly，见HIRE–基于异构图神经网络的高阶关系级知识…

人工智能 2023年7月13日
00107
Python Pandas缺失值处理

在一些数据分析业务中，数据缺失是我们经常遇见的问题，缺失值会导致数据质量的下降，从而影响模型预测的准确性，这对于机器学习和数据挖掘影响尤为严重。因此妥善的处理缺失值能够使模型预测更…

人工智能 2023年7月6日
0056
[Python]-numpy模块-机器学习Python入门《Python机器学习手册》-01-向量、矩阵和数组

《Python机器学习手册——从数据预处理到深度学习》这本书类似于工具书或者字典，对于python具体代码的调用和使用场景写的很清楚，感觉虽然是工具书，但是对照着做一遍应该可以对…

人工智能 2023年6月4日
0062
Colmap学习二：前端部分（特征点提取、匹配与剔除）

1 Colmap特征提取和描述 colmap一般使用sift-gpu，涉及的知识： 1.1 图像金字塔：DOG图像金字塔，再找极值其中由于Euclidean distance …

人工智能 2023年6月25日
00173
详解YOLOv5中的Bottleneck

深度学习入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、背景知识 — 残差结构二、Bottlene…

人工智能 2023年7月27日
0064
Python时间序列分析–ARIMA模型实战案例

Python时间序列分析–ARIMA模型实战案例,利用ARIMA模型对时间序列进行分析的经典案例（详细代码）本文将介绍使用Python来完成时间序列分析ARIMA模型的完整步骤与…

人工智能 2023年7月30日
0069
TensorboardX和Tensorboard的介绍及使用

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、Tensorboard是什么？ * conda环境安装二、Tensorboard可供显示的内容三…

人工智能 2023年7月22日
00107
R语言dataframe分组数据汇总（aggregate and sum）：类似于excel的sumif函数

R语言dataframe分组数据汇总统计（aggregate and sum）：类似于excel的sumif函数目录 R语言dataframe分组数据汇总统计（aggregate…

人工智能 2023年7月18日
0058
神经网络权重初始化代码 init.kaiming_uniform_和kaiming_normal_

神经网络权重初始化–容易忽视的细节为什么要初始化 kaiming初始化方法由来代码实现 PReLu的使用后话禁止转载！！为什么要初始化神经网络要优化一个非常…

人工智能 2023年7月12日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31