在python中使用SVM

2023年7月4日下午7:24 • 人工智能 • 阅读 57

在python 中使用支持向量机

三、在python中使用SVM
*
3.1 scikit-learn库
3.2 SVM在scikit-learn库中的使用
–
- 3.2.1 svm.SVC
- 3.2.2 datasets
3.3 应用实例

三、在python中使用SVM

3.1 scikit-learn库

Scikit-learn(sklearn）是一个开源项目，可以免费使用和分发，任何人都可以轻松获取其源代码来查看其背后的原理。Scikit-learn项目正在不断地开发和改进中，它的用户社区非常活跃。它包含许多目前最先进的机器学习算法，每个算法都有详细的文档 (http:// scikit-learn.org/stable/documentation
scikit-learn是一个非常流行的工具，也是最有名的 Python机器学习库。它广泛应用于工业界和学术界，网上有大量的教程和代码片段。而SVM也可以在scikit-learn库中选择使用。

3.2 SVM在scikit-learn库中的使用

3.2.1 svm.SVC


sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=None,random_state=None)

参数：

C

C越大，相当于惩罚松弛变量，希望松弛变量接近0，即对误分类的惩罚增大，趋向于对训练集全分对的情况，这样对训练集测试时准确率很高，但泛化能力弱。C值小，对误分类的惩罚减小，允许容错，将他们当成噪声点，泛化能力较强。

kernel

核函数，默认是rbf，可以是’linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’
– 线性：u’v
– 多项式：(gammau’v + coef0)^degree
– RBF函数：exp(-gamma|u-v|^2)
– sigmoid：tanh(gammau’v + coef0)

degree

多项式poly函数的维度，默认是3，选择其他核函数时会被忽略。

gamma

‘rbf’,’poly’ 和’sigmoid’的核函数参数。默认是’auto’，则会选择1/n_features

coef0

核函数的常数项。对于’poly’和 ‘sigmoid’有用。

probability

是否采用概率估计。默认为False，布尔类型可选。
决定是否启用概率估计。需要在训练fit()模型时加上这个参数，之后才能用相关的方法：predict_proba和predict_log_proba

shrinking

是否采用shrinking heuristic方法（启发式收缩），默认为true

tol

停止训练的误差值大小，默认为1e-3

cache_size

核函数cache缓存大小，默认为200

class_weigh

t类别的权重，字典形式传递。设置第几类的参数C为weight*C(C-SVC中的C)

verbose

允许冗余输出

max_iter

最大迭代次数。-1为无限制。

decision_function_shape

‘ovo’, ‘ovr’ or None, default=None3

random_state

数据洗牌时的种子值，int值

主要调节的参数有： C、kernel、degree、gamma、coef0。

方法：
fit(X, y)：训练模型。
predict(X)：用模型进行预测，返回预测值。
score(X, y[, sample_weight])：返回在(X, y)上预测的准确率(accuracy)。
predict_log_proba(X)：返回一个数组，数组的元素依次是X预测为各个类别的概率的对数值。
predict_proba(X)：返回一个数组，数组的元素依次是X预测为各个类别的概率值。

3.2.2 datasets

datasets有很多有用的、可以用来训练算法模型的数据库。主要有两种：
1.封装好的经典数据。在代码中以”load”开头。
2.自己设计参数，然后生成的数据。在代码中以”make”开头。
(一) 波士顿房价
统计了波士顿506处房屋的13种不同特征（包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等）以及房屋的价格，适用于回归任务。

boston = datasets.load_boston()

(二) 鸢尾花
这个数据集包含了150个鸢尾花样本，对应3种鸢尾花，各50个样本，以及它们各自对应的4种关于花外形的数据，适用于分类任务。

iris = datasets.load_iris()

(三) 糖尿病
主要包括442个实例，每个实例10个属性值，分别是：Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标，Target为一年后患疾病的定量指标，适用于回归任务。

diabetes = datasets.load_diabetes()

(四) 手写数字
共有1797个样本，每个样本有64个元素，对应到一个8×8像素点组成的矩阵，每一个值是其灰度值， target值是0-9，适用于分类任务。

digits = datasets.load_digits()

3.3 应用实例

import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm, datasets

iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target
C = 1.0

svc = svm.SVC(kernel='linear', C=1, gamma='auto').fit(X, y)

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
h = (x_max / x_min)/100
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
 np.arange(y_min, y_max, h))
plt.subplot(1, 1, 1)
Z = svc.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, cmap=plt.cm.Paired, alpha=0.8)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.xlim(xx.min(), xx.max())
plt.title('SVC with linear kernel')
plt.savefig('./test1.png')
plt.show()

test1.png如图所示

Original: https://blog.csdn.net/Messiah/article/details/123440884
Author: Messiah
Title: 在python中使用SVM

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/670301/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【机器学习】K-means算法Python实现教程

阅读须知：阅读本文需要有一定的Python及Numpy基础本文将介绍： K-means算法实现步骤使用Python实现K-means算法借助Numpy的向量计算提升计算速度…

人工智能 2023年6月19日
0063
Anaconda安装之后Spyder打不开解决办法–亲测有用2022.3.27

小白一个，搜索了大半天，还重装了两次，快被折磨疯了，终于探索出解决之道了。分享出来，希望后来者少走一些弯路，不要在安装上费这么大劲。如果你遇到了跟我一样的问题，希望可以帮到你（…

人工智能 2023年5月31日
0065
基于Pytorch实现LSTM（多层LSTM，双向LSTM）进行文本分类

LSTM原理请看这：点击进入 LSTM: nn.LSTM(input_size, hidden_size, num_layers=1, nonlinearity=tanh, bi…

人工智能 2023年6月16日
0094
【数据挖掘】视觉模式挖掘：Hog特征+余弦相似度/k-means聚类

实验概述本次实验使用的是VOC2012数据集，首先从图像中随机采样图像块，然后利用Hog方法提取图像块特征，最后采用余弦相似度和k-means聚类两种方法来挖掘视觉模式。数据集…

人工智能 2023年7月17日
0057
知识图谱表示学习-TransE算法

知识图谱表示学习-TransE算法表示学习 * 知识图谱表示学习 TransE （这是一篇小白入门笔记，请勿转载）表示学习表示学习是一个利用模型自动地学习数据的隐式特征的过程…

人工智能 2023年6月1日
0063
Logistic回归预测模型—— 整体概述（也适用于其他回归模型）

模型构建 —— 模型评价 —— 模型验证（整体思路） 1：变量筛选**先单后多即先进行单因素分析，将单因素有意义的变量再一起纳入多因素模型中。这样操作最为简单，并且在大多数情况下…

人工智能 2023年6月17日
00109
python_视频中语音识别转出文本

注意：没有”stepladder”的同学建议不要看啦目录 1. 安装需要的包 2. 视频转音频 3. 对音频进行切割 4. 对视频进行切割 5. 从音频中…

人工智能 2023年5月25日
0084
linux嵌入式 espeak的移植和注意事项

1.移植portaudio_v18_1 配置： ./configure CC=arm-linux-gnueabihf-gcc RANLIB=arm-linux-gnueabihf-…

人工智能 2023年5月27日
0052
（一）论文：TransGate。

这里记录下自己学习的论文，以作者的论文结构为骨架，做一个系统的整理。目录 Abstract Introduction Related Work Gate structure Tr…

人工智能 2023年6月5日
0056
Stable Diffusion 图像生成测试

最近图像多模态生成模型特别火，简单尝试了下。项目地址：GitHub – CompVis/stable-diffusion: A latent text-to-imag…

人工智能 2023年7月30日
0069
【深度学习前沿应用】文本分类Fine-Tunning

; 【深度学习前沿应用】文本分类Fine-Tunning 作者简介：在校大学生一枚，华为云享专家，阿里云星级博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教…

人工智能 2023年7月2日
0044
Python生成字符视频

Python生成字符视频一、前言在之前也写过生成字符视频的文章，但是使用的是命令行窗口输出，效果不是很好，而且存在卡顿的情况。于是我打算直接生成一个mp4的字符视频。大致思路和…

人工智能 2023年7月20日
0051
深度学习地震勘探入门

深度学习地震勘探入门简介我们在论文中提供了一个例子，但由于数据不容易下载，许多学生没有通过测试。在这篇文章中，我们详细诠释了这个例子，提供手把手教学，并将数据上传到百度网盘。如…

人工智能 2023年5月25日
0074
【无标题】Torch_geometric安装教程，问题汇总详解。

前情提要：本文只谈通过pip方式安装，conda安装的方式博主没有试过，感兴趣的小伙伴可以参考本文自己尝试一下。首先，在核心上，Torch_geometric的安装方法几乎和py…

人工智能 2023年6月17日
0086
pytorch简单实现GCN

目录 1.引入 2 环境配置 3 代码分析 4 模型搭建论文：SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NE…

人工智能 2023年7月22日
0078
深入浅出Pytorch系列（4）：实战–FashionMNIST时装分类

时装分类的任务 FashionMNIST数据集中包含已经预先划分好的训练集和测试集，其中训练集共60,000张图像，测试集共10,000张图像。每张图像均为单通道黑白图像，大小为3…

人工智能 2023年7月2日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31