sklearn-鸢尾花分类

2023年7月3日上午1:07 • 人工智能 • 阅读 53

0、导入所需的包

from sklearn.svm import SVC
from sklearn import datasets
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

1、获取数据


iris = datasets.load_iris()
x = iris.data
y = iris.target
print(x)
print(y)

鸢尾花数据共150个，每个样本有4个特征如下：

其标签有3种类型，分别是0，1，2：
sklearn-鸢尾花分类

2、数据预处理

特征缩放：我们可以观察到X的值之间相差比较大，为了能够得到更好的分类效果，我们采用特征缩放对数据进行处理。这里用到的是MinMaxScaler。还有其他特征缩放方法参见：其他特征缩放方法


scaler = MinMaxScaler(feature_range=(0,1))
x = scaler.fit_transform(x)

3、划分训练集和测试集

 X_train, X_test, y_train, y_test = train_test_split(x, y, test_size= 1/3, random_state=0)

4、模型训练

SVC分类器，线性核函数，probability = True才能用predict_proba()函数查看每种类别的概率

classifier = SVC(kernel="linear",probability=True)
classifier.fit(X_train,y_train)

5、预测

y_pred = classifier.predict(X_test)

6、模型评估


params = classifier.get_params()
print(params)

y_pred_each = classifier.predict_proba(X_test)

score = classifier.score(X_test,y_test)
print("score: ",score)
print(y_pred)
print(y_test)
查看分类模型评分报告
report = classification_report(y_test,y_pred)
print(report)

7、交叉验证

cv=5表示分为5份进行划分

cross_scores = cross_val_score(classifier, x,y,cv=5)
print("cross_scores: ",cross_scores)

8、模型优化

优化模型的方法包括：网格搜索法、随机搜索法、模型特定交叉验证，信息准则优化。
网络搜索：在指定超参数空间对每种情况进行交叉验证评分并选出最好的超参数模型


 classifier_2 = SVC()

 param_grid = [{'C':[0.1, 1, 10, 100, 1000], 'kernel':['linear']},
            {'C':[0.1, 1, 10, 100, 1000], 'kernel':['rbf'], 'gamma':[0.001, 0.01]}]

 clf = GridSearchCV(classifier_2,param_grid,scoring='accuracy',cv=10)
 clf.fit(X_train,y_train)
 y_pred_best = clf.predict(X_test)
 score_best = clf.score(X_test,y_test)
 print("score best: ", score_best)
 print(y_pred_best)
 print(y_test)

9、总结

官方教程：

from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
if __name__ == '__main__':

    pipe = make_pipeline(
        StandardScaler(),
        LogisticRegression()
    )

    x,y = load_iris(return_X_y=True)
    X_train, X_test, y_train, y_test = train_test_split(x,y, test_size= 1/3,random_state=0)

    pipe.fit(X_train,y_train)

    y_pred = pipe.predict(X_test)
    print(accuracy_score(y_pred,y_test))
    print(y_pred)
    print(y_test)

根据上面官方教程的方法得到的 score = 84%
根据第6步的方法得到的 score = 96%
根据第8步的方法得到的 score = 98%

参考链接:添加链接描述

Original: https://blog.csdn.net/ETF6996/article/details/115957558
Author: SIAT_啊哦
Title: sklearn-鸢尾花分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666571/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenAI掌门人Sam Altman：AI的下一个发展阶段

来源｜Greylock OneFlow社区编译翻译｜胡燕君、贾川预告了一整年的GPT-4迟迟没来，人们猜想OpenAI是不是要跳票了，更何况他们之前的得意之作DALL-E也被开…

人工智能 2023年7月29日
0056
天诚股价语音播报软件实时播报A股股票价格涨跌幅MACD

使用视频的股票价格语音广播教程 [En] Stock price voice broadcast using video tutorial 前言：你有没有过股价瞬间上涨错失逢高抛…

人工智能 2023年5月25日
00256
【综述寿命预测】基于机器学习的设备剩余寿命预测方法综述

论文题目:基于机器学习的设备剩余寿命预测方法综述论文年份:2019论文作者:裴洪/胡昌华/司小胜/张建勋/庞哲楠/张鹏论文单位:火箭军工程大学导弹工程学院DOI:10.3901/J…

人工智能 2023年7月28日
0085
机器学习深度神经网络——实验报告

机器学习实验报告〇、实验报告pdf可在该网址下载一、实验目的与要求二、实验内容与方法 * 2.1 深度神经网络的知识回顾 – 2.1.1 神经元模型 2.1.2 …

人工智能 2023年7月25日
0050
【李宏毅】机器学习——作业1-PM2.5预测

作业代码地址：点我 1.分析数据训练集列是时间，一共24列，是每天的24小时行是检测的特征值，每次会检测18个特征值，故每18行是一天的数据一个月20天，一年12个月，所以…

人工智能 2023年6月29日
0084
SLAM学习笔记（二十一）3D雷达与相机的标定方法详细教程

目录写在前面环境安装制作标定版打印ArUco二维码裁剪硬纸板修改文件参数调整launch文件第一，remap字段：第二，marker_size字段：第三，修改z…

人工智能 2023年6月11日
00101
医疗知识图谱项目实战资料

核心算法： · textcnn申请网络病例诊断 · 病例核心语句挑选(f(x1,x2,x3) ,x1,x2,x3依次置空的方式获得贡献度） · ngram +fp_growth …

人工智能 2023年6月1日
0075
人工智能 —— 知识图谱

引言初学者刚开始学习人工智能时，面对铺天盖地的概念，如，人工智能、机器学习、深度学习、计算机视觉等等，一时间可能就被这些”高深”的名称给唬住了，不知道如何…

人工智能 2023年7月26日
0071
ABB机器人RobotStudio编程指令大全

ABB编程指令大全指令类型指令说明程序的调用 ProcCall 调用例行程序程序的调用 CallByVar 经过带变量的例行程序名称调用例行程序程序的调用 RETURN 返…

人工智能 2023年6月23日
00506
Matlab色图处理

色图处理函数命令：colormap,brighten调用格式：colormap(map),brighten(s)解释：colormap为将当前色图设置为系统预定义的map格式。b…

人工智能 2023年6月20日
0084
【OpenCV学习】（十）特征点检测与匹配

【OpenCV学习】（十）特征点检测与匹配背景提取图像的特征点是图像领域中的关键任务，不管在传统还是在深度学习的领域中，特征代表着图像的信息，对于分类、检测任务都是至关重要的；…

人工智能 2023年6月20日
0072
全网最全RuntimeError: CUDA error: out of memory解决方法

第一种情况如果这个报错后面跟了想要占用多少显存但是不够这样的字眼，如下：解决办法就很简单了：改小batchsize，batchsize砍半可以差不多省掉一半的显存推理阶段加上…

人工智能 2023年7月6日
0061
识别红色区域（python+opencv)

版本： Python：3.7 OpenCV: 4.5.5 步骤： 1、将图片转到HSV色彩空间； 2、设定H、S、V三值的范围；参考链接：OpenCV中HSV颜色模型及颜色分量范…

人工智能 2023年5月26日
00112
论文翻译：2018_LSTM剪枝_Learning intrinsic sparse structures within long short-term memory

论文地址：在长短时记忆中学习内在的稀疏结构论文代码：https://github.com/wenwei202/iss-rnns引用格式：Wen W, He Y, Rajbhanda…

人工智能 2023年6月4日
0084
R语言基于方差分析ANOVA检验模型拟合度（Fit Test）实战：检验同一数据集简单模型和复杂模型的拟合度差异

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0065
电商数据应用体系建设总结（一）—— 数据应用架构剖析

什么是数据应用数据应用是通过各种各样的数据分析方式将数据展示出来，给决策者、管理者、运营等人员透传数据价值的工具，帮助决策者、管理者及时调整战略目标、公司目标、业务目标，帮助运营…

人工智能 2023年7月16日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

sklearn-鸢尾花分类

8、模型优化

9、总结

大家都在看