【机器学习】sklearn实现SVM分类算法

2023年6月30日下午2:01 • 人工智能 • 阅读 90

概念讲解

1.什么是支持向量机?#小鲸云课堂的说法

支持向量机(support vector machines,SVM)是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器。除此之外，SVM算法还包括核函数，核函数可以使它成为非线性分类器。在了解SVM算法之前，我们要先认识一下线性分类器。

线性分类器：假设在一个二维线性可分的数据集中，我们要找到一个超平面把两组数据分开，已知的方法有我们已经学过的线性回归和逻辑回归，这条直线可以有很多种，如下图的H1、H2、H3哪一条直线的效果最好呢，也就是说哪条直线可以使两类的空间大小相隔最大呢？

我们凭直观感受应该觉得答案是H3。首先H1不能把类别分开，这个分类器肯定是不行的；H2可以，但分割线与最近的数据点只有很小的间隔，如果测试数据有一些噪声的话可能就会被H2错误分类(即对噪声敏感、泛化能力弱)。H3以较大间隔将它们分开，这样就能容忍测试数据的一些噪声而正确分类，是一个泛化能力不错的分类器。因此我们把这个划分数据的决策边界就叫做超平面。离这个超平面最近的点就是 “支持向量”,点到超平面的距离叫做间隔， 支持向量机的意思就是使超平面和支持向量之间的间隔尽可能的大，这样才可以使两类样本准确地分开。

2.支持向量机的种类：

a) 线性可分SVM：当数据线性可分的时候，通过硬间隔最大化可以学习得到一个线性分类器，即硬间隔SVM，如上图的H3
b) 线性SVM:当训练数据不能线性可分但是可以近似线性可分时，通过软间隔(soft margin)最大化也可以学习到一个线性分类器，即软间隔SVM
c) 非线性SVM：
当训练数据线性不可分时，通过使用核技巧(kernel trick)和软间隔最大化，可以学习到一个非线性SVM。

3.超平面与间隔：

我们从图上可以看到，这条中间的实线代表的超平面离直线两边的数据的间隔最大，对训练集的数据的噪声有最大的包容力。

对一个分类问题，我们假设，

我们知道，所谓的支持向量，就是使得上式等号成立，即最靠近两条虚边界线的向量。为什么像上面的式子那么假设呢？其实是为了方便计算。

更详细的理论推导可以看看这里：支持向量机（SVM）——原理篇

实际操作

由于 SVM 算法本身的实现非常复杂，所以不研究如何实现 SVM，而是采用 sklearn 库来学习 SVM 的应用问题。

单分类

①基本代码


from sklearn import svm
import matplotlib.pyplot as plt

定义三个点和标签
X = [[2, 0], [1, 1], [2,3]]
y = [0, 0, 1]

#可视化数据
plt.scatter(X[:, 0], X[:, 1], marker='o')  # 假设暂不知道y类别，不设置c=y，使用kmeans聚类
plt.plot([2,1,2],[0,1,3],'ro')
plt.show()
定义分类器，clf 意为 classifier，是分类器的传统命名
clf = svm.SVC(kernel = 'linear')  # .SVC（）就是 SVM 的方程，参数 kernel 为线性核函数
训练分类器
clf.fit(X, y)  # 调用分类器的 fit 函数建立模型（即计算出划分超平面，且所有相关属性都保存在了分类器 cls 里）
打印分类器 clf 的一系列参数
print("打印分类器 clf 的一系列参数:\n",clf)
支持向量
print("支持向量",clf.support_vectors_)
属于支持向量的点的 index
print("属于支持向量的点的:",clf.support_)
在每一个类中有多少个点属于支持向量
print("在每一个类中有多少个点属于支持向量:",clf.n_support_)
预测一个新的点
print(clf.predict([[2,0]]))

打印分类器 clf 的一系列参数: SVC(kernel=’linear’)
支持向量: [[1. 1.] [2. 3.]]
属于支持向量的点的: [1 2] #这是X数组的检索
在每一个类中有多少个点属于支持向量: [1 1]
预测一个新的点: [0]

②进阶代码

print(__doc__)
导入相关的包
import numpy as np
import pylab as pl  # 绘图功能
from sklearn import svm

创建 40 个点
np.random.seed(0) # 让每次运行程序生成的随机样本点不变
生成训练实例并保证是线性可分的
np._r表示将矩阵在行方向上进行相连
random.randn(a,b)表示生成 a 行 b 列的矩阵，且随机数服从标准正态分布
array(20,2) - [2,2] 相当于给每一行的两个数都减去 2
X = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]]
两个类别 每类有 20 个点，Y 为 40 行 1 列的列向量
Y = [0] * 20 + [1] * 20

建立 svm 模型
clf = svm.SVC(kernel='linear')
clf.fit(X, Y)

获得划分超平面
划分超平面原方程：w0x0 + w1x1 + b = 0
将其转化为点斜式方程，并把 x0 看作 x，x1 看作 y，b 看作 w2
点斜式：y = -(w0/w1)x - (w2/w1)
w = clf.coef_[0]  # w 是一个二维数据，coef 就是 w = [w0,w1]
a = -w[0] / w[1]  # 斜率
xx = np.linspace(-5, 5)  # 从 -5 到 5 产生一些连续的值（随机的）
.intercept[0] 获得 bias，即 b 的值，b / w[1] 是截距
yy = a * xx - (clf.intercept_[0]) / w[1]  # 带入 x 的值，获得直线方程

画出和划分超平面平行且经过支持向量的两条线（斜率相同，截距不同）
b = clf.support_vectors_[0] # 取出第一个支持向量点
yy_down = a * xx + (b[1] - a * b[0])
b = clf.support_vectors_[-1] # 取出最后一个支持向量点
yy_up = a * xx + (b[1] - a * b[0])

查看相关的参数值
print("w: ", w)
print("a: ", a)
print("support_vectors_: ", clf.support_vectors_)
print("clf.coef_: ", clf.coef_)

在 scikit-learin 中，coef_ 保存了线性模型中划分超平面的参数向量。形式为(n_classes, n_features)。若 n_classes > 1，则为多分类问题，(1，n_features) 为二分类问题。

绘制划分超平面，边际平面和样本点
pl.plot(xx, yy, 'k-')
pl.plot(xx, yy_down, 'k--')
pl.plot(xx, yy_up, 'k--')
圈出支持向量
pl.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1],
           s=80, facecolors='none')
pl.scatter(X[:, 0], X[:, 1], c=Y, cmap=pl.cm.Paired)

pl.axis('tight')
pl.show()

这里仅仅都是实现的二分类问题，而大多数时候我们都需要进行多分类问题。

多分类

参考资料

支持向量机（SVM）——原理篇【理论强化】顺序二#看完顺序一看顺序二会顺畅许多
 什么是支持向量？【精品入门】顺序一
 机器学习算法（一）SVM
支持向量机（SVM）的分析及python实现#参数说明的很到位（调参）

一个矩阵正定(Possitive definite) 到底能说明什么，能解决什么问题？ – 知乎

机器学习算法（一）SVM_yaoyz105-CSDN博客_svm

Svm实现多分类_早点变成刘强东就好-CSDN博客_svm多分类算法

Original: https://blog.csdn.net/weixin_43332715/article/details/120864251
Author: 思考实践
Title: 【机器学习】sklearn实现SVM分类算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/661423/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2022年下半年软件设计师下午真题及答案解析

试题一（共15分）随着新能源车数量的迅猛增长，全国各地电动汽车配套充电桩急速增长，同时也带来了充电桩计量准确性的问题。充电桩都需要配备相应的电能计量和电费计费功能，需要对充电计量…

人工智能 2023年6月28日
0081
pandas向已经拥有数据的Excel文件中添加新数据

不知道大家有没有过相同的经历，就是我们向 Excel表格中添加新数据的时候，经常会导致原先拥有的数据被覆盖掉了，那么如何解决这个问题呢，这里给出一种可行的方法。阅读此篇的基础是先理…

人工智能 2023年7月7日
0070
colaboratory详细教程

操作流程挂载云硬盘：from google.colab import drivedrive.mount(‘/content/drive’)设置路径：!cd…

人工智能 2023年5月25日
0083
Inception V3

目录 0 回顾 1 介绍 2 设计原则 3 大filter size卷积的分解 * 3.1 分解为小卷积 3.2 分解为非对称卷积 4 辅助分类器的效用 5 feature map…

人工智能 2023年6月17日
0052
python中 .reshape 的用法：reshape(1,-1)

reshape(1,-1)转化成1行： reshape(2,-1)转换成两行： reshape(-1,1)转换成1列： reshape(-1,2)转化成两列 reshape(2,8…

人工智能 2023年7月6日
00256
Dynaslam编译运行 ubuntu18 + cpu

1.运行结果展示一下 (小白教程,大佬勿喷) 运行很慢,离实时运行(>30FPS)差得很远,但最终跑起来了 2.环境(python2.7 + opencv2.4.11 + k…

人工智能 2023年5月25日
0070
【iOS】——分类、扩展和关联对象

目录一、分类Category和扩展Extension * 1.分类Category（运行期） 2.扩展Extension（编译期） 3.分类和扩展的区别二、分类Category…

人工智能 2023年7月1日
0072
鸿蒙开发套件全新升级，大型应用迈入简洁高效开发新阶段

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0071
【PyTorch深度学习项目实战100例】—— 基于Transformer实现100项体育运动分类 | 第48例

; 前言大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集…

人工智能 2023年7月23日
0060
用sklearn进行PCA降维——基于python语言

sklearn的PCA类在sklearn中，与PCA相关的类都在sklearn.decomposition包中，主要有： sklearn.decomposition.PCA 最常…

人工智能 2023年6月17日
0070
Matlab语句：rmoutliers（检测并删除数据中的离群值）

B = rmoutliers(A) B = rmoutliers(A,method) B = rmoutliers(A,’percentiles’,threshold) B = r…

人工智能 2023年6月18日
00166
java计算机毕业设计web开发数码产品推荐平台系统设计与实现源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月27日
0063
【OpenCV 例程200篇】37. 图像的灰度化处理和二值化处理（cv2.threshold）

『youcans 的 OpenCV 例程200篇 – 总目录』【OpenCV 例程200篇】37. 图像的灰度化处理和二值化处理按照颜色对图像进行分类，可以分为二值…

人工智能 2023年7月20日
0083
动手学数据分析task01 数据加载及探索性数据分析

第一章第一节数据加载——载入数据数据集下载 https://www.kaggle.com/c/titanic/overview 数据集采用的是kaggle竞赛的官方数据集 ; …

人工智能 2023年7月7日
0065
论文翻译：2022_PACDNN: A phase-aware composite deep neural network for speech enhancement

论文地址：相似代码：https://github.com/phpstorm1/SE-FCN引用格式：Hasannezhad M，Yu H，Zhu W P，et al. PACDNN…

人工智能 2023年6月6日
0069
目标检测中的mAP

要计算mAP必须先绘出各类别PR曲线，计算出AP。而如何采样PR曲线，VOC采用过两种不同方法。在VOC2010以前，只需要选取当Recall >= 0, 0.1, 0.2,…

人工智能 2023年6月17日
0087

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【机器学习】sklearn实现SVM分类算法

单分类

多分类

大家都在看