机器学习——基于python的鸢尾花SVM练习（包含超参数批量筛选、交叉验证）

2023年6月15日上午7:19 • 人工智能 • 阅读 73

写在前面——虽然本人一直对机器学习感兴趣，但是一直没有动手实践，每次都是看一点入门就放弃了。现在因为课题需要，刚好可以边实践边学习。前面写了一个基于R语言的SVM练习，后来发现还是python好用啊。网上关于鸢(yuan)尾花的各种机器学习例子很多，但大部分都是浅浅一层。我最近在学习超参数优化跟交叉验证，所以就把它们揉在了一起。如有错误，还望大家批评指正。

这里没什么要说的，网上一大堆。放两个给大家参考一下。
https://www.cnblogs.com/luyaoblog/p/6775342.html
https://blog.csdn.net/qq_45769063/article/details/106628800

from sklearn import svm
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.utils import shuffle
from sklearn.model_selection import RepeatedKFold

def Iris_label(s):
    it = {b'Iris-setosa': 0, b'Iris-versicolor': 1, b'Iris-virginica': 2}
    return it[s]

path = 'iris.data'
data = np.loadtxt(path, dtype=float, delimiter=',', converters={4: Iris_label})

x, y = np.split(data, indices_or_sections=(4,), axis=1)
x = x[:, 0:2]

x, y = shuffle(x, y, random_state=123)

train_data, test_data, train_label, test_label = train_test_split(x, y, random_state=1, train_size=0.7, test_size=0.3)

classifier = svm.SVC(C=1, kernel='rbf', gamma=10)
classifier.fit(train_data, train_label.ravel())

print("train:", classifier.score(train_data, train_label))
print("test:", classifier.score(test_data, test_label))

输出结果：
train: 0.8571428571428571
test: 0.7111111111111111

注意此时的超参数C=1， gamma=10。

通过修改C与gamma的值，来优化预测的准确率，使用交叉验证来获得更为准确的反馈，帮助我们选择最优参数。

有关交叉验证的说明如下：

当评价估计器的不同设置（”hyperparameters(超参数)”）时，例如手动为 SVM 设置的 C 参数，由于在训练集上，通过调整参数设置使估计器的性能达到了最佳状态；但在 测试集上可能会出现 过拟合的情况。此时， 测试集上的信息反馈足以颠覆训练好的模型，评估的指标不再有效反映出模型的泛化性能。为了解决此类问题，还应该准备另一部分被称为 “validation set(验证集)” 的数据集，模型训练完成以后在验证集上对模型进行评估。当验证集上的评估实验比较成功时，在测试集上进行最后的评估。
然而，通过将原始数据分为3个数据集合，我们就大大减少了可用于模型学习的样本数量，并且得到的结果依赖于集合对（训练，验证）的随机选择。这个问题可以通过 交叉验证（CV ） 来解决。
交叉验证仍需要测试集做最后的模型评估，但不再需要验证集。最基本的方法被称之为，k-折交叉验证。 k-折交叉验证将训练集划分为 k 个较小的集合。每一个 k 折都会遵循下面的过程：

将 k-1 份训练集子集作为 training data （训练集）训练模型
将剩余的1份训练集子集用于模型验证（也就是把它当做一个测试集来计算模型的性能指标，例如准确率）。

k-折交叉验证得出的性能指标是循环计算中每个值的平均值。该方法虽然计算代价很高，但是它不会浪费太多的数据（如固定任意测试集的情况一样），在处理样本数据集较少的问题（例如，逆向推理）时比较有优势。

法一：cross_val_score

参考：https://blog.csdn.net/qq_45769063/article/details/106693502
scoring的参数选择：https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

代码其实很简单，两行就搞定了！！！

X = []
Y = []
Z = []
M = []
for C in range(5, 15, 1):
    for gamma in range(1, 11, 1):

        rbk = RepeatedKFold(n_splits=5, n_repeats=5, random_state=12)
        accuracy = cross_val_score(svm.SVC(C=C / 10, kernel='rbf', gamma=gamma), x, y.ravel(), cv=rbk, scoring='accuracy').mean()
        X.append(C / 10)
        Y.append(gamma)
        Z.append(accuracy)
        M.append((C / 10, gamma, accuracy))

print(max(Z))

classifier = svm.SVC(C=0.6, kernel='rbf', gamma=1)
classifier.fit(train_data, train_label.ravel())

print("train:", classifier.score(train_data, train_label))
print("test:", classifier.score(test_data, test_label))

输出结果：
0.8057142857142857
train: 0.8380952380952381
test: 0.7777777777777778

通过此方法得到的最优参数分别为：C=1， gamma=10。
我们优化的目的是为了提高预测模型的泛化性，提高模型在测试集上的准确度。
0.78 > 0.71！！！ nice~
还可以通过提高K的数值来进行模型优化，比如来个10折、20折交叉验证…

PS：多说一点

参考：https://stackoom.com/question/4QoaS
RepeatedKFold是重复KFold 。它执行n_repeats次。当n_repeats=1 ，与KFold(n_splits = 5, shuffle = True)完全相同。当然，random_state要一样。

所以在RepeatedKFold中，数据集是默认被打乱滴~
所以前面打乱数据集的操作在用到这个函数的时候可以省略。

法二：GridSearchCV（推荐）

GridSearchCV的名字其实可以拆分为两部分，GridSearch和CV，即网格搜索和交叉验证。网格搜索，搜索的是参数，即在指定的参数范围内，按步长依次调整参数，利用调整的参数训练学习器，从所有的参数中找到在验证集上精度最高的参数，这其实是一个训练和比较的过程。k折交叉验证将所有数据集分成k份，不重复地每次取其中一份做测试集，用其余k-1份做训练集训练模型，之后计算该模型在测试集上的得分,将k次的得分取平均得到最后的得分。

GridSearchCV可以保证在指定的参数范围内找到精度最高的参数，但是这也是网格搜索的缺陷所在，他要求遍历所有可能参数的组合，在面对大数据集和多参数的情况下，非常耗时。

GridSearchCV，它存在的意义就是自动调参，只要把参数输进去，就能给出最优化结果和参数。但是这个方法适合于小数据集，一旦数据的量级上去了，很难得到结果。

C_range = []
gamma_range = []
for C in range(5, 15, 1):
    C_range.append(C / 10)

for gamma in range(1, 11, 1):
    gamma_range.append(gamma)

param_grid = dict(gamma=gamma_range, C=C_range)
print(param_grid)
rbk = RepeatedKFold(n_splits=5, n_repeats=5, random_state=12)
grid = GridSearchCV(svm.SVC(kernel='rbf'), param_grid=param_grid, scoring="accuracy", cv=rbk)
grid.fit(x, y.ravel())

print(
    "The best parameters are %s with a score of %0.2f"
    % (grid.best_params_, grid.best_score_)
)

输出结果：
{‘gamma’: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], ‘C’: [0.5, 0.6, 0.7, 0.8,
0.9, 1.0, 1.1, 1.2, 1.3, 1.4]} The best parameters are {‘C’: 0.5, ‘gamma’: 1} with a score of 0.81

classifier = svm.SVC(C=0.5, kernel='rbf', gamma=1)
classifier.fit(train_data, train_label.ravel())

print("train:", classifier.score(train_data, train_label))
print("test:", classifier.score(test_data, test_label))

输出结果：
train: 0.819047619047619
test: 0.8

0.8 > 0.78
更有效果！nice~

from sklearn import svm
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.utils import shuffle
from sklearn.model_selection import RepeatedKFold
from sklearn.model_selection import GridSearchCV

def Iris_label(s):
    it = {b'Iris-setosa': 0, b'Iris-versicolor': 1, b'Iris-virginica': 2}
    return it[s]

path = 'iris.data'
data = np.loadtxt(path, dtype=float, delimiter=',', converters={4: Iris_label})

x, y = np.split(data, indices_or_sections=(4,), axis=1)
x = x[:, 0:2]
x, y = shuffle(x, y, random_state=123)

train_data, test_data, train_label, test_label = train_test_split(x, y, random_state=1, train_size=0.7, test_size=0.3)

C_range = []
gamma_range = []
for C in range(5, 15, 1):
    C_range.append(C / 10)

for gamma in range(1, 11, 1):
    gamma_range.append(gamma)

param_grid = dict(gamma=gamma_range, C=C_range)
print(param_grid)
rbk = RepeatedKFold(n_splits=5, n_repeats=5, random_state=12)
grid = GridSearchCV(svm.SVC(kernel='rbf'), param_grid=param_grid, cv=rbk)
grid.fit(train_data, train_label.ravel())

print(
    "The best parameters are %s with a score of %0.2f"
    % (grid.best_params_, grid.best_score_)
)

classifier = svm.SVC(C=0.5, kernel='rbf', gamma=1)
classifier.fit(train_data, train_label.ravel())

print("train:", classifier.score(train_data, train_label))
print("test:", classifier.score(test_data, test_label))

Original: https://blog.csdn.net/narutodzx/article/details/123902457
Author: Dzfly..
Title: 机器学习——基于python的鸢尾花SVM练习（包含超参数批量筛选、交叉验证）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614078/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python导出csv中文乱码utf_8_sig没用

python读写文件基本操作在数据过滤操作中，常常需要对源文件（source）中的数据进行读取、分析、判别处理，而后再写入新的文件。在文件的读取上可以是 .xlsx也可以是 .c…

人工智能 2023年7月7日
0066
c# Class vs Structure

4.2 The Timer Class…………………………&…

人工智能 2023年6月26日
0075
回归与聚类算法————分类算法-逻辑回归与二分类

目录 1、逻辑回归的应用场景 2、逻辑回归的原理 2.1 输入 2.2 激活函数 2.3 损失以及优化 2.3.1 损失 2.3.2优化 3、逻辑回归API 4, 案例：癌症分类…

人工智能 2023年6月17日
0081
【Pandas】多种添加行列数据方法

发现自己学习python 的各种库老是容易忘记，所有想利用这个平台，记录和分享一下学习时候的知识点，以后也能及时的复习，最近学习pandas，那我们来看看pandas添加数据的一些…

人工智能 2023年7月14日
0069
利用随机森林对特征重要性进行评估（公式原理）

本文参考来源于：杨凯, 侯艳, 李康. 随机森林变量重要性评分及其研究进展[J]. 2015. 码字不易，各位看官大大的赞是我更细的动力！一、引言随机森林（r a n d o …

人工智能 2023年6月15日
0085
Pandas 最全的使用方式（上）

大家好，作为一名互联网行业的小白，写博客只是为了巩固自己学习的知识，但由于水平有限，博客中难免会有一些错误出现，有不妥之处恳请各位大佬指点一二！博客主页：链接:https://bl…

人工智能 2023年7月7日
0067
Doris大数据分析保姆级使用教程

目录 Doris安装 * 集群部署扩容缩容 – FE 扩容和缩容 BE 扩容和缩容 Doris操作手册 * 创建用户表操作数据模型数据导入 – Br…

人工智能 2023年7月15日
00105
CNCC——多模态会议

一.多模态语义理解 1.视觉与语言生成 1.1 语义鸿沟和异构鸿沟但如果解决好这两大科学问题，就会多出来一些有用信息，来做到一些只用图像做不到的事情是有可能的。比如加上一些文本…

人工智能 2023年5月28日
00114
小熊飞桨练习册-06Paddlex垃圾分类

文件说明文件说明 train.py 训练程序 quant.py 量化程序 prune.py 裁剪程序 test.py 测试程序 infer.py 预测程序 onekey.sh …

人工智能 2023年6月4日
0076
丢弃法(Dropout)——原理及代码实现

一、原理 1.1、动机一个好的模型需要对输入数据的扰动具有鲁棒性什么是一个”好”的预测模型？我们期待”好”的预测模型能在未知的…

人工智能 2023年6月23日
0061
基于SVM 4种核函数kernel的乳腺癌数据集分类案例分析

一、SVM分类 SVM既可以做回归，也可以做分类器。如何创建一个 SVM 分类器呢？首先使用 SVC 的构造函数：model = svm.SVC(kernel=’rb…

人工智能 2023年6月30日
0081
python3.7+anaconda3-5.3.1+pytorch1.10.1环境搭建

根据github上bert的pytorch版本Readme当中的安装说明，它支持的python版本是3.6以上的，PyTorch是1.3.1以上的，所有我决定用python3.7来…

人工智能 2023年7月24日
0049
2021年研究生数学建模竞赛优秀论文汇总

竞赛题目一般来源于工程与管理等领域的实际问题，并经过提炼加工，不要求参赛者预先掌握深入的专门知识。面向全国研究生培养单位和企事业单位广泛征集竞赛命题，由专家委员会讨论最终确定。 …

人工智能 2023年7月29日
0042
目标检测损失函数（二）DIOU、CIOU、ALPHA IOU

个人学习记录，如有错误请指出，感谢大家的指导建议。在前文中讨论了IOU与GIOU。目标检测中的损失函数（一） IOU,GIOU_黑野桥的博客-CSDN博客对比起前二者，DIO…

人工智能 2023年7月9日
0080
Pytorch：图卷积神经网络-半监督学习实现，对比SVM, LP

Pytorch: 图卷积神经网络-半监督网路实践-对比SVM, LP Copyright: Jingmin Wei, Pattern Recognition and Intelli…

人工智能 2023年7月23日
0050
MacOS(M1芯片 arm架构)下如何安装tensorflow

导语由于目前anconda官网上对于macos系统只支持X86结构的，因此基于arm结构的MacOS暂时无法使用anconda来对tensorflow进行配置。虽然Anconda…

人工智能 2023年5月23日
00262

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习——基于python的鸢尾花SVM练习（包含超参数批量筛选、交叉验证）

法一：cross_val_score

法二：GridSearchCV（推荐）

大家都在看