数据挖掘学习——支持向量机（SVM）

2023年7月17日下午7:56 • 人工智能 • 阅读 80

6.线性可分支持向量机的学习算法（最大间隔法）

2.实战（rbf+gamma做鸢尾花分类）

1.概论

SVM是一种 分类模型，是一个 定义在特征空间上间隔（距离）最大的线性分类器。

基本思路：SVM将训练样本数据集表示为特征空间的点，将各个类别的训练数据使用超平面进行分隔， 在预测时，输入一个新的测试数据点，若该测试数据点在特征空间的位置分布在超平面的某一侧，则判断该测试点的类别即为该侧所对应的类别。

共有三种类型的SVM：

线性可分支持向量机(硬间隔最大化)

线性不可分支持向量机（软间隔最大化）

非线性支持向量机（核技巧和软间隔最大化）

（1）线性可分支持向量机

1.原始问题：

将求解线性可分支持向量机的最优化问题作为原始最优化问题。

（SVM通常用于二分类问题，用-1和+1分别表示对应的两个类别，当yi=-1时称样本点xi为负例，当yi=+1时称样本点xi为正例）

2.SVM

当训练数据集为线性可分时，SVM算法期望能够在样本数据分布的特征空间中计算得到一个分离超平面，使得所有的样本（正例和负例）都可以按照其对应的类别，分布到超平面两侧。

线性可分支持向量机的 分类决策函数f(x)：

通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的 分离超平面为：

3.分类预测可靠度

在使用SVM对训练样本进行分类时，通常采用分类预测可靠度来评估非标类算法的可靠程度。

距离分离超平面越近，该数据的分类越不可靠，反之，距离越远，该数据的分类越可靠。

若w·xi+b的算术符号与样本数据点的分类标签yi的符号一致，则表示分类正确，反之则分类错误。

4.分类间隔

定义训练数据集T与超平面之间的几何间隔为：

支持向量机的目标是：找出一个能正确划分训练样本数据集，且其几何间隔最大化的分离超平面。

（图中，虚线穿过的点即支持向量，支持向量到实线的垂直距离即为分类间隔 γ）

5.约束条件

两个问题：

（1）如何判断分离超平面是否将样本点正确分类

（2）要求解分类间隔d，需要先找到支持向量，那么如何在众多训练样本中找到支持向量呢？

这两个问题就是求解最优分类间隔的约束条件，即求解最优分离超平面的约束和限制。

6.线性可分支持向量机的学习算法（最大间隔法）

输入：输入待训练的线性可分样本数据集T。

输出：输出最大间隔的分离超平面和分类决策函数。

算法过程：

（1）求解约束和限制条件下的最优化问题

（2）求解最优解（w，b）

（3）得到最优化的分离超平面w·x+b=0及其分类决策函数f(x)=sign(w·x+b)

7.对偶算法

采用拉格朗日方程的主要目的在于，将约束条件放到目标函数中，从而将有约束的最优化问题转换为无约束的新的目标函数的最优化问题。

通过拉格朗日对偶，将原始问题转换为求极大极小问题。

（2）线性不可分支持向量机

算法过程：

输入：输入待训练的样本数据集T和惩罚参数C

输出：输出软间隔最大化的分离超平面和分类决策函数

（1）求解约束最优化问题

（2）计算

同时选择a的某个分量aj，计算

（3）得到软间隔最大化的分离超平面和分类决策函数

（3）非线性支持向量机

1.对偶问题

核函数将输入空间中的任意两个向量x，z映射为特征空间中对应的向量之间的内积。这种将内积替换成核函数的方式称为核技巧。

在非线性支持向量机中，常用的核函数：

（1）多项式核函数

（2）高斯（Gauss）核函数

（3）sigmoid核函数

2.算法

输入：输入训练数据集T和惩罚参数C>0

输出：输出分类决策参数

算法过程：

（1）选择适当的核函数K(x,z)，求解约束最优化问题

（2）计算

同时选择a的某个分量aj，计算

（3）分类决策函数为

2.实战（rbf+gamma做鸢尾花分类）

代码：

from sklearn import datasets
import numpy as np
from sklearn.model_selection import train_test_split
&#x5212;&#x5206;&#x6570;&#x636E;&#x96C6;&#x4E3A;&#x8BAD;&#x7EC3;&#x96C6;&#x548C;&#x6D4B;&#x8BD5;&#x673A;
from sklearn import svm # &#x5BFC;&#x5165;SVM

iris=datasets.load_iris()
&#x5BFC;&#x5165;&#x9E22;&#x5C3E;&#x82B1;&#x6570;&#x636E;&#x96C6;
data_train,data_test,target_train,target_test=train_test_split(iris.data,iris.target,test_size=0.3)
&#x6D4B;&#x8BD5;&#x96C6;&#x5360;&#x603B;&#x6570;&#x636E;&#x96C6;&#x7684;0.3
svm_classifier=svm.SVC(C=1.0,kernel='rbf',
                       decision_function_shape='ovr',gamma=0.01)
&#x5B9A;&#x4E49;&#x4E00;&#x4E2A;svm&#x5BF9;&#x8C61;
svm_classifier.fit(data_train,target_train)# &#x8BAD;&#x7EC3;&#x6A21;&#x578B;

score=svm_classifier.score(data_test,target_test)
&#x628A;&#x6D4B;&#x8BD5;&#x96C6;&#x7684;&#x6570;&#x636E;&#x4F20;&#x5165;&#x5373;&#x53EF;&#x5F97;&#x5230;&#x6A21;&#x578B;&#x7684;&#x8BC4;&#x5206;
predict=svm_classifier.predict([[0.1,0.2,0.3,0.4]])
&#x9884;&#x6D4B;&#x7ED9;&#x5B9A;&#x6837;&#x672C;&#x6570;&#x636E;&#x5BF9;&#x5E94;&#x7684;&#x6807;&#x7B7E;

print(score)
print(predict)

参数解释：

参数c越大，对于训练集来说，其误差越小，但更容易过拟合。

参数coef0小，防止过拟合；coef0大，防止欠拟合。

gamma越大，支持向量影响区域小，模型复杂度高，容易过拟合；gamma越小，决策边界趋于光滑，模型复杂度低，容易欠拟合。

kernel参数： ‘linear’线性核函数

‘poly’多项式核函数

‘rbf’径向基核函数

‘sigmoid’sigmoid核函数

运行结果：

Original: https://blog.csdn.net/weixin_52135595/article/details/126918276
Author: 长弓同学
Title: 数据挖掘学习——支持向量机（SVM）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/699368/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python项目演练：使用深度学习自动识别车牌号【附源代码】

本文分享的项目旨在识别车牌。为了检测车牌，我们将使用 OpenCV 来识别车牌，并使用 python pytesseract 从车牌中提取字符和数字。 OpenCV 是一个开源机器…

人工智能 2023年7月20日
0040
KBQA-Bert学习记录-数据集构造

目录一、数据集构造 1.数据集切分 2.NER数据集构造 3.属性相似度数据集构造 4.三元组构造一、数据集构造 1.数据集切分使用的数据集是来自NLPCC ICCPOL 2…

人工智能 2023年5月30日
0061
什么是BI、什么是ETL？一篇文章告诉你

商业智能（Business Intelligence，简称：BI），又称商业智慧或商务智能，指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值…

人工智能 2023年7月16日
0091
Python 排序列表——如何按降序或升序排序

在 Python 中，你可以使用 sorted() 方法或 sort() 方法对数据进行排序。在本文中，我将提供 sorted() 和 sort() 方法的代码示例，并解释两者之…

人工智能 2023年7月4日
0095
基于骨骼关键点的动作识别（OpenMMlab学习笔记，附PYSKL相关代码演示）

一、骨骼动作识别骨骼动作识别是视频理解领域的一项任务 1.1 视频数据的多种模态 RGB：使用最广，包含信息最多，从RGB可以得到Flow、Skeleton。但是处理需要较大的计…

人工智能 2023年7月28日
0051
磁共振图像处理流程，基于北师大DPARSF

致谢这个博主的内容更为详细，需要的同学自取简介实验室做脑机接口方向，脑电为主，磁共振呢，属于实验室内部的鸡肋方向，我就是那个倒霉蛋。北师大严老师等人做的DPARSF是真的方便…

人工智能 2023年6月20日
0087
深度学习之BP神经网络

前言 bp神经网络是模拟人体中神经元结构而设计出来的: 神经元大致可以分为树突、突触、细胞体和轴突。树突为神经元的输入通道，其功能是将其它神经元的动作电位传递至细胞体。其它神经元的…

人工智能 2023年6月24日
0081
Unity接入TopOn聚合广告平台SDK【聚合了穿山甲，优量汇(腾讯广告)，快手，Mintegral，sigmob等各大广告平台SDK】

TopOn聚合穿山甲，优量汇，快手，Mintegral各大广告SDK教程接了好几家SDK，都有亿点点蛋疼，直到遇到了TopOn。TopOn的文档和SDK相当齐全，包括Androi…

人工智能 2023年7月30日
0077
机器学习之数学基础(四)～Lasso Regression回归, L1、L2 Regularization正则化, 回归问题中的损失函数

目录 1. Lasso回归 1.1 概念 1.2 正则化 1.3 Lasso回归模型 1.4 为什么Lasso Regression可以做降维？ 1.5 参数求解（1）坐标轴下降…

人工智能 2023年6月17日
0090
Python数据分析三剑客之Pandas

处理数值型以外的其他类型数据。常用类： Series，DataFrame 是一种类似于一维数组的对象，有两部分组成： values：一组数据（ndarray类型） index：相…

人工智能 2023年7月7日
0056
windows下NEO4J安装教程

安装neo4j之前需要安装JDK，本文提供的是JDK1.8.0和neo4j 社区版3.5.8网盘链接：JDK和neo4j下载，提取码：idzh 1.JDK的安装及配置下载JDK安…

人工智能 2023年6月1日
00104
第五天：了解越疆dobot机械臂，使用python，编写通过ros服务控制机械臂运动程序

一、了解越疆dobot机械臂详细信息可以查看用户手册和API开发手册，以及其它官方提供资料，这里我只列出我在开发过程中遇到的问题，以及需要了解的知识点。（1）坐标系我们可以看…

人工智能 2023年6月2日
0068
【OpenCv】霍夫直线检测

文章目录前言 1 原理 2 算法流程 3 优缺点前言 Hough变换是实现边缘检测的一种有效方法，其基本思想是将测量空间的一点变换到参量空间的一条曲线或曲面，而具有同一参量特征…

人工智能 2023年6月20日
0065
Python可视化数据分析06、Pandas进阶

Python可视化数据分析06、Pandas进阶 📋前言📋 💝博客：【红目香薰的博客_CSDN博客-计算机理论,2022年蓝桥杯,MySQL领域博主】💝✍本文由在下【红目香薰】原创…

人工智能 2023年6月11日
0086
斗图高手教你用Python批量爬取表情包

前言昨天跟小伙伴斗图，关于斗图这件事，我表示我从来没有输过。至于为什么不会输，这些都是男人的秘密，今天我想把这个小技巧告诉大家。学会了记得挑战你最好的朋友，打赌让他输了请你吃大…

人工智能 2023年6月19日
0060
Python数据分析-pandas基础-1-常用类

Series基本数据结构，一维标签数组，能够保存任何数据类型DataFrame基本数据结构，一般为二维数组，是一组有序的列。Index索引对象，负责管理轴的相关内容groupby分…

人工智能 2023年7月6日
0051

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据挖掘学习——支持向量机（SVM）

（1）线性可分支持向量机

1.原始问题 ：

2.SVM

3.分类预测可靠度

4.分类间隔

5.约束条件

6.线性可分支持向量机的学习算法（最大间隔法）

7.对偶算法

（2）线性不可分支持向量机

算法过程：

（3）非线性支持向量机

1.对偶问题

2.算法

大家都在看

1.原始问题：