【机器学习】吴恩达作业6.0，python实现SVM支持向量机

2023年6月17日下午4:49 • 人工智能 • 阅读 46

6.0支持向量机
使用支持向量机(SVM)处理各种两维的样本数据集，了解支持向量机如何工作，以及如何使用带高斯核函数的SVM。

SVM（鲁棒性，大间距分类器）
支持向量机（support vector machines, SVM）是一种 二分类模型，它的基本模型是定义在特征空间上的间隔最大的 线性分类器 ，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。 SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。 SVM的的学习算法就是求解凸二次规划的最优化算法。

假设函数

, = 1

, = 0

带正则化的损失函数

核函数：

, x far from

Predict 1,if

给新特征x,计算x与标记点的距离之和,标记点在给的特征向量里选择

SVM与核函数

给定特征向量，计算核函数，

, x far from

，得到

,判断y = 1

参数

C =

：

C值大，低偏差，高方差，C值小，高偏差，低方差

：

大，特征变化较缓，高偏差，低方差。

小，特征变化较快，低偏差，高方差

选择

当特征数量多、训练集数量较少时，一般选用逻辑回归或者不带核函数的SVM（线性核函数）
当特征数量少、训练集数量适中时，一般选用带高斯核函数的SVM
当特征数量少、训练集数量很大时，一般选用逻辑回归或者不带核函数的SVM（如果用高斯核函数可能过慢）
对于大部分情况神经网络表现都很好，但是训练慢。
且SVM是凸优化问题，因此总会找到一个全局最小值，不用担心局部极小的情况。
逻辑回归与SVM比较：逻辑回归对异常值敏感，SVM对异常值不敏感(抗噪能力强)——支持向量机改变非支持向量样本并不会引起决策面的变化；但是逻辑回归中改变任何样本都会引起决策面的变化

python

1 Scikit-learn(sklearn)是机器学习中常用的第三方模块，对常用的机器学习方法进行了封装，包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。里面包含了SVM的程序，直接调用调节参数即可。
2 svm.SVC( ) 可以选择C值，以及核函数，调用之后先fit，再predict，predict时输入为一个二维数组，因此在画等高线的时候需要先把网格展开成二维数组进行predict再重新组成网格画图。在选择核函数时可以自己定义，例如：svm.SVC(kernel=my_kernel)，内置核函数默认为rbf高斯核,其中包含一个gamma关键词，gamma默认为1/n_features。

1 线性可分SVM

1.1 导入数据可视化

import numpy as np
import matplotlib.pyplot as plt
import scipy.io as sio

data1 = sio.loadmat('ex6data1')
data2 = sio.loadmat('ex6data2')
data3 = sio.loadmat('ex6data3')

data1.keys()#dict_keys(['__header__', '__version__', '__globals__', 'X', 'y'])
data2.keys()#dict_keys(['__header__', '__version__', '__globals__', 'X', 'y'])
data3.keys()#dict_keys(['__header__', '__version__', '__globals__', 'X', 'y', 'yval', 'Xval'])

X1,y1 = data1['X'],data1['y'].flatten()
X2,y2 = data2['X'],data2['y'].flatten()
X3,y3 = data3['X'],data3['y'].flatten()
Xval,yval = data3['Xval'],data3['yval'].flatten()
X1.shape,y1.shape#((51, 2), (51,))
X2.shape,y2.shape#((863, 2), (863,))
X3.shape,y3.shape#((211, 2), (211,))
Xval.shape,yval.shape#((200, 2), (200,))

def plot_data(x,y):
    n = x[y == 0]
    p = x[y == 1]
    plt.scatter(p[:,0],p[:,1],c='r', marker='x', label='y=1')
    plt.scatter(n[:,0],n[:,1],c='g', marker='o', edgecolors='g', linewidths=0.5, label='y=0')
    plt.legend()
    plt.show

1.2 用sklearn拟合并预测

from sklearn.svm import SVC
svc1 =SVC(C = 1,kernel = 'linear')#线性核函数
svc1.fit(X1,y1.flatten())

svc1.predict(X1)

svc1.score(X,y.flatten())#0.9803921568627451

1.3 决策边界

#决策边界
def plot_boundary(svc,x):
    u = np.linspace(np.min(X1[:,0]),np.max(X1[:,0]),500)
    v = np.linspace(np.min(X1[:,1]),np.max(X1[:,1]),500)
    x,y = np.meshgrid(u,v)#将x,y转化为网格（500*500）
    z = svc.predict(np.c_[x.flatten(),y.flatten()])#因为predict中是要输入一个二维的数据，因此需要展开
    z = z.reshape(x.shape) #重新转为网格
    plt.contour(x,y,z,1,colors = 'b') #画等高线
    plt.title('The Decision Boundary')
    plt.show

plt.figure(1)
plot_data(X1, y1)
plot_boundary(svc1, X1)
plt.show

2 线性不可分SVM

可视化并训练模型

plot_data(X2,y2)
#定义高斯函数
def gaussianKernel(x1,x2,sigma):
    return np.exp( -((x1-x2).T@(x1-x2)) / (2*sigma*sigma) )

a1 = np.array([1, 2, 1])
a2 = np.array([0, 4, -1])
sigma = 2
gaussianKernel(a1, a2, sigma)

#训练模型（这里使用内置高斯核）
svc2 = SVC(C = 100,kernel = 'rbf',gamma=np.power(0.1, -2)/2)##对应sigma=0.1
svc2.fit(X2,y2)

svc2.predict([[0.4, 0.9]])
svc2.score(X2,y2.flatten())

#画图
plt.figure(2)
plot_data(X2, y2)
plot_boundary(svc2, X2)
plt.show

3 在验证集上寻找最佳参数

plot_data(X3,y3)
plot_data(Xval, yval)

#寻找最优参数C和gamma
gammas = [0.01,0.03,0.1,0.3,1,3,10,30,100]#9
Cvalues = [0.01,0.03,0.1,0.3,1,3,10,30,100]#9
best_score = 0
best_pramas = (0,0)
for c in Cvalues:
    for gamma in gammas:
        svc3 = SVC(c,kernel = 'rbf')
        svc3.fit(X3,y3)
        score = svc3.score(Xval,yval)
        if score > best_score:
            best_score = score
            best_pramas = (c,gamma)

print(best_score,best_pramas)#0.96 (30, 0.01)

plt.figure(3)
plot_data(X3, y3)
plot_boundary(svc3, X3)
plt.show

Original: https://blog.csdn.net/m0_51933492/article/details/123918970
Author: —Xi—
Title: 【机器学习】吴恩达作业6.0，python实现SVM支持向量机

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631052/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

NLP实战-基于弱标注数据的文本分类

目录分析现有数据解决方案初始语料集构建特征选择过滤语料 1、词频逆文档评率 2、信息增益 3、卡方检验训练模型缺失标签数据处理总结最近在做CSDN文库标签的分类，文…

人工智能 2023年7月1日
0081
距离度量 —— 切比雪夫距离（Chebyshev Distance）

Python学习系列文章：👉 目录 👈 文章目录 * – 一、概述 – 二、计算公式 – + ① 二维平面上的切比雪夫距离 + ② n维空间上的…

人工智能 2023年6月15日
0063
Scalable Zero-shot Entity Linking with Dense Entity Retrieval

BLink: 面向零样本学习的可扩展实体链接方法论文链接：https://arxiv.org/abs/1911.03814 代码地址：https://github.com/fac…

人工智能 2023年6月1日
0073
RestoreDet：低分辨率图像中目标检测

关注并星标从此不迷路计算机视觉研究院公众号ID｜ ComputerVisionGzq 学习群｜扫码在主页获取加入方式论文地址： https://arxiv.org/pdf…

人工智能 2023年7月10日
0085
爆火Chatgpt注册完全指南

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0039
labelme的安装过程

1.首先安装anaconda，这一步建议将添加到环境变量的选项√上，也可不勾选自己手动添加。安装好之后打开cmd输入conda可以查看有没有加入到环境变量中。如果出现了一大串代码…

人工智能 2023年7月22日
0061
Fast RCNN论文总结

原文链接 [1504.08083] Fast R-CNN (arxiv.org) Abstract Fast RCNN在实现了几个创新点后在提升训练、测试速度的同时增加了检测的准确…

人工智能 2023年7月10日
0067
【Python爬虫 • selenium】selenium4新版本使用指南

提示：本文默认你已经学会使用selenium的旧版本，因此对一些可以直接搜索到很多的内容，你应该是已经学会的文章目录前言一、设置驱动 * 1. selenium4推荐方法 2…

人工智能 2023年7月3日
0069
R语言基础数据分析—单因素方差分析

有了试验数据，我们就需要进行数据的处理与分析，而在试验设计中，通常分为单因素试验或者双因素试验。试验中要考察的指标称为试验指标，影响试验指标的条件称为因素，因素所处的状态称为 …

人工智能 2023年7月14日
00122
【论文】【翻译】目标检测中跨金字塔层级的渐进式困难样本挖掘

原文：Progressive Hard-case Mining across Pyramid Levels in Object Detection 字体颜色说明：一般重要、同级区别…

人工智能 2023年7月12日
0067
数据分析-思维分析逻辑day04

一、问题定义和拆解举个例子很多人的困惑小A同学每天都有大量的临时提数需求或者杂事，没有时间去做真正的专题分析。感觉自己的能力提升不了，工作越来越没意思，做事不认真，老师出错，…

人工智能 2023年6月11日
0066
目标检测和手势识别(笔记)

目录一.R-CNN 二.目标检测 1.具体过程如下： 2.R-CNN基本工作流程: 3.R-CNN的优点与不足：除此之外 ———————————————————————————…

人工智能 2023年7月12日
0068
【HSI】高光谱的数据集分类深度学习实战及代码理解

【HSI】高光谱的数据集分类深度学习实战及代码理解文章目录【HSI】高光谱的数据集分类深度学习实战及代码理解 * 一、配置文件编写二、高光谱图像的处理 – 2.1…

人工智能 2023年7月4日
0066
【调研】用「图神经网络」解决「小样本」分类问题

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月1日
0088
R 聚类热图-数据的标准化

热图（heatmap）的典型应用是简单地聚合大量数据，并使用一种渐进的色带来优雅地表现，最终效果一般优于离散点的直接显示，可以很直观地展现空间数据的疏密程度或频率高低。但也由于很直…

人工智能 2023年6月2日
00100
用R语言smotefamily包处理多分类类不平衡数据

目前做smote已经不能用DMwR包了，这个包已经停止更新了，smotefamily包是DMwR包的升级版，今天给大家介绍利用smotefamily包来处理多分类类不平衡数据。我…

人工智能 2023年7月2日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【机器学习】吴恩达作业6.0，python实现SVM支持向量机

大家都在看