支持向量机(SVM)原理及实现

2023年7月17日下午7:13 • 人工智能 • 阅读 59

一、原理：

以一个二分类为例（y = -1,1）：希望支持向量间的距离尽可能远。

我们可以看到上面三个方法的效果：

分类效果H1无法完成分类H2robost性较差（在新的数据集上健壮性较差）H3最稳健

1.SVM与其他分类器不同：
其他分类器将所有样本视为同样作用，而支持向量机 仅重视几个支持向量（很少的样本）。

2.利用 凸优化原理：

3.维数 超过样本样本数是ok的
SVM支持高维分类

4.训练 多个label的原理：
比如有1，2，3个类别，那么可以训练3个SVM模型

; 二、当两个类看似不一定可分时：

高维数据或者线性不可分数据利用 核函数映射到高维，直观理解如图：

三、代码示例

1.简单示例

from sklearn import svm

x = [[0, 0], [1, 1], [3, 3], [4, 4]]
y = [0, 1, 1, 1]

clf = svm.SVC()
clf.fit(x, y)

print(clf.predict([[2., 2.]]))
print(clf.support_vectors_)

2.SVM可视化


import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.datasets import make_blobs

x, y = make_blobs(n_samples=40, centers=2, random_state=6)
print(np.concatenate((x, y.reshape(-1, 1)), axis=1))

clf = svm.SVC(kernel="linear", C=1000)
clf.fit(x, y)

plt.scatter(x[:, 0], x[:, 1], c=y, s=30, cmap=plt.cm.Spectral)

ax = plt.gca()
xlim = ax.get_xlim()
print(xlim)
ylim = ax.get_ylim()
print(ylim)

xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
YY, XX = np.meshgrid(yy, xx)

xy = np.vstack([XX.ravel(), YY.ravel()]).T

z = clf.decision_function(xy).reshape(XX.shape)

ax.contour(
    XX, YY, z, colors="k", levels=[-1, 0, 1], alpha=0.5, linestyles=["--", "-", "--"]
)

ax.scatter(
    clf.support_vectors_[:, 0],
    clf.support_vectors_[:, 1],
    s=100,
    linewidth=1,
    facecolors="none",
    edgecolors="k",
)

plt.show()

3.具体实例：

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

data = pd.read_csv("D:\\university\\211term\\数据挖掘\\PDMBook\\第三章 分类模型\\3.8 SVM\\SVM.csv")
print(data.columns)
x = data[[
    'Alcohol', 'Malic acid', 'Ash',
    'Alcalinity of ash', 'Magnesium',
    'Total phenols', 'Flavanoids',
    'Nonflavanoid phenols',
    'Proanthocyanins', 'Color intensitys',
    'Hue', 'OD280/OD315 of diluted wines',
    'Proline'
]]
y = data['label']
x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.1
)

from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV

svc = SVC()

paramGrid = dict(
    kernel=['linear', 'poly', 'rbf', 'sigmoid']
)

gridSearchCV = GridSearchCV(
    svc, paramGrid,
    cv=3, verbose=1, n_jobs=5,
    return_train_score=True
)
grid = gridSearchCV.fit(x_train, y_train)

print('最好的得分是: %f' % grid.best_score_)
print('最好的参数是:')
for key in grid.best_params_.keys():
    print('%s=%s' % (key, grid.best_params_[key]))

best_model = grid.best_estimator_
print(best_model.predict(x_test))

s = pd . Series(best_model.predict(x_test),
                index=y_test.index)
print(s-y_test)
print(np.sum(s-y_test == 0))
print(best_model.score(x_test, y_test))

4.学习到的编程细节：
1.函数：np.concatenate，

2.网格搜索

Original: https://blog.csdn.net/qq_57082933/article/details/121347801
Author: Angel Q.
Title: 支持向量机(SVM)原理及实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/699300/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

mongodb/mongoTemplate.upsert批量插入更新数据的实现

今天来记录一下，项目中使用到的mongoTemplate.upsert，在批量更新数据上的用法。 // mongoTemplate.upsert有三种用法，主要功能是更新数据，如果…

人工智能 2023年7月30日
00115
app测试和web测试有什么区别

1.性能方面: web页面可能更关注响应时间，而app更关注流量、电量、QPS。 2.系统架构方面： web项目，一般都是b/s架构，基于浏览器的，而app则是c/s的，必须要有客…

人工智能 2023年6月29日
0080
CentOS7和CentOS8 Asterisk 20.0.0 简单图形化界面7–对接讯时FXO网关落地

CentOS7和CentOS8 Asterisk 20.0.0 简单图形化界面7–对接FXO网关落地 1、创建自动话务台 2、创建PBX SIP中继并设置呼入权限 3、…

人工智能 2023年6月29日
00105
LSTM在多分类中出现的loss不下降问题（pytorch实现）

最近在使用LSTM做基于THUCNews数据集的文本分类。之前用LSTM模型做10种新闻种类的分类时可以正常收敛，说明应该不是写错代码的原因，但是当我把新闻种类扩大到14种类别时，…

人工智能 2023年7月21日
0076
基于语音识别的QT设计的csgo互动类视频游戏

目录一、语音识别模块 1、服务器模块 2、客户端模块二、QT 1、登录界面 2、精彩视频播放器最近学校实习做了一个智能家居项目，完成之后再次基础上自己做了一个关于csgo的项…

人工智能 2023年5月27日
00121
统计学习实战–朴素贝叶斯分类手写数字图像（多项式模型、伯努利模型、高斯模型）

这次我们使用朴素贝叶斯分类最常用的3个衍生模型：多项式模型、伯努利模型、高斯模型对手写数字图像进行训练分类。我们直接采用sklearn框架，这个框架基本包含了所有机器学习统计学习…

人工智能 2023年7月2日
00117
动手学深度学习——数据操作之广播机制

在看这篇文章之前，首先你需要知道什么是张量。别被这个高逼格的名字唬住，其实张量就是我们常说的数组，在数学、物理领域的称呼， n维的数组就可以称为n阶张量。所以矩阵也可以叫…

人工智能 2023年7月15日
0060
机器学习基础-聚类算法

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月3日
0095
python学习实验报告（第十一周）

一、实验目的 1. 掌握pandas的read_csv函数 2. 掌握并使用matplotlib.pyplot中plot函数以及各个参数用法 3. 掌握并使用matplotlib….

人工智能 2023年7月15日
0094
【智能车】图像二值化算法–大津法OTSU

图像二值化算法–大津法OTSU 大津算法是一种图像二值化算法，作用是确定将图像分成黑白两个部分的阈值。大津法是针对灰度值进行阈值分割二值化，如果是彩色图像的话需要先转化成灰度图再…

人工智能 2023年6月17日
0075
机器学习笔记_关于贝叶斯分类中特征是连续属性的处理

前言机器学习笔记-朴素贝叶斯分类这篇文章中已经对朴素贝叶斯分类器做了详细的介绍，从原理，模型和例题各方面介绍了朴素贝叶斯。但是那篇文章中针对的全部都是离散属性，并没有说明如何处理…

人工智能 2023年7月13日
0070
DeepFaceLab3：工作目录和基本概念

上一篇文章我们已经讲了安装DeepFaceLab所需要的软硬件环境。正常来说就可以进入安装，实操的阶段了。但是，我觉得安装之前还是要先结合workspace来讲一些概念，这样用起来…

人工智能 2023年5月25日
0098
中国的消费不足及其成因-中国视角下的宏观经济

中国消费不足及其成因 – 潘登同学的宏观经济学笔记文章目录 * – 中国消费不足及其成因 — 潘登同学的宏观经济学笔记* 中国企业储蓄与居民储蓄的异常* …

人工智能 2023年6月26日
0066
论文学习笔记：使用知识库嵌入改进知识图谱上的多跳问答

公众号系统之神与我同在 https://www.aclweb.org/anthology/2020.acl-main.412.pdfwww.aclweb.org/antholo…

人工智能 2023年6月1日
0091
【OpenCv】相机标定介绍及python/c++实现

针孔相机内外参标定简单介绍之前有一个项目需要公司标内参，之前对这方面没有接触过，网上找了很多资料，记录下相机标定的基础知识。文章是个人浅显理解。如有错误还请指正，非常感谢！参考…

人工智能 2023年7月18日
0078
CMUSphinx免费离线语音识别开源库教程iOS开发

CMUSphinx开源语音识别工具包，可以基于CMUSphinx开发iOS版本的语音识别和语音合成库。本文介绍的语音识别库使您可以轻松快速地将多种语言的离线语音识别和合成语音添加…

人工智能 2023年5月25日
00117

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

支持向量机(SVM)原理及实现

一、原理：

; 二、当两个类看似不一定可分时：

三、代码示例

大家都在看