机器学习鸢尾花分类的原理和实现（一）

2023年6月16日上午8:53 • 人工智能 • 阅读 99

机器学习鸢尾花分类的原理和实现（一）

前言： 鸢尾花数据集是机器学习中的经典小规模数据集。通过查阅资料和视频进行学习，将整个实验的学习心得和实验过程分享，希望对喜爱机器学习并入门的新手提供帮助，同时也鞭策自己稳步向前。本文主要分为”实验前期的知识储备，实验过程的重要实现，实验结束的学习总结”三部分，限于文章篇幅，后两部分内容将在后边的博文中更新…

实验要求：利用逻辑回归进行鸢尾花的分类

实验目的：

遵循并理解完整的机器学习过程
对机器学习原理和相关术语有基本的了解
了解评估机器学习模型的基本过程

实验步骤：

数据预处理：原始数据集中标签为字符串，需将其装换成数字。
设置学习率：利用训练集训练相关模型。
在测试集上进行测试：计算模型准确度。

工具/平台：
工具：python、java等语言。
建议：可使用TensorFlow（或Pytorch）等框架。

要求：
1）可运行代码+运行结果；
2）成功率计算方式：性别预测正确的鸢尾花数量/所有测试集的数据数量，要求预测成功率在70%以上；

参考资源：
代码：logistic_regression.py
数据集：数据包括花萼长度、花萼宽度、花瓣长度和花瓣宽度等5个属性。
训练集：iris_train.data
测试集：iris_test.data

一、实验前期的知识储备

鸢尾花数据集介绍：

lris 数据集是常用的分类实验数据集，由Fisher在1936年收集整理，包含四个特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度，特征值都为正浮点数，单位为厘米。目标值为鸢尾花的三个分类：山鸢尾、杂色鸢尾，维吉尼亚鸢尾。

scikit-learn数据集API的使用：

sklearn 包不仅有很多机器学习的算法，也自带了许多经典的数据集，鸢尾花数据集就是其中之一
sklearn.database：加载流行数据集：
datasets.load_ _()：获取小规模数据集，数据包含在datasets里
datasets.fetch__(data.home=None)：获取大规模数据集，需要从网络上下载，函数的第一个参数是data_done,表示数据集下载的目录，默认是-/scikit_learn_data/

sklearn提供的常用数据集：

a. 自带的小规模数据集：鸢尾花数据集，手写数字数据集等
b. 可在线下载的数据集（一般规模较大）
c. 计算机生成的数据集
d. svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(…)
e. data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(…)
更多详细的介绍请点击这里查阅了解

sklearn小规模数据集的获取：

from sklearn.datasets.load._iris()：加载并返回鸢尾花数据集：

在pip3 install那个命令时，已经安装好，选择即可，可点击参考我的上一篇分享

array里边的四列分别对应的是花瓣的长度、宽度、花萼的长度、宽度

sklearn大规模数据集的获取：

sklearn提供了该数据的接口：sklearn.datasets.fetch_20newsgroups
根据sklearn文档的描述，此方法的参数设置如下：

 fetch_20newsgroups(data_home=None,
                   subset='train',
                   categories=None,
                   shuffle=True,
                   random_state=42,
                   remove=(),
                   download_if_missing=True
                   )

下边是获取新闻数据集合的演示：

sklearn数据集返回值：

load 和 fetch 返回的数据类型 datasets.base.Bunch (字典格式)
（Bunch 虽然是字典格式，但可以通过 ‘点’ 的形式把属性点出来）
data：特征数据数组（特征值输入），是【n_samples*n_feature】的二维数组
target：标签数组（目标输出），是n_samples的以为数组
feature_names：特征名称
target_names：标签名称
DESCR：数据描述

from sklearn.datasets import load_iris,fetch_20newsgroups

iris=load_iris()

print(iris)

print("数据集中特征值是：\n",iris["data"])

print("数据集中目标值是：\n",iris.target)

print("数据集中特征值名字是：\n",iris.feature_names)

print("数据集中目标值名字是：\n",iris.target_names)

print("数据集的描述：\n",iris.DESCR)

如下图所示：

鸢尾花数据可视化：

通过创建一些图，以查看不同类别是如何通过特征进行区分的。在理想情况下，标签类将由一个或多个特征对完美分割，在现实世界中，这种理想情况会很少发生。

seaborn介绍：

Seaborn是基于matplotlib的图形可视化python包，它在matplotlib的基础上进行了更高级的API封装，能高度兼容numpy与pandas数据结构以及scipy与statsmodels等统计模式。它提供了一种高度交互式界面，同时对于配色上也更加舒服，图标元素的样式也更加细腻，便于用户能够更容易做出各种有吸引力的统计图表。
与matplotlib的关系：使用matplotlib能制作具有更多特色的图，应该把Seaborn视为matplotlib的补充，而不是替代物。

seaborn安装:

pip3 install seaborn,大家也可点击此处进入文章参考，我的可能anaconda\lib已经有了，截图如下：

seaborn.Implot()是一个非常有用的方法，它会在绘制二进制散点图时，自动完成回归拟合，里边参数x,y分别代表横纵坐标的列名示例如下：

sns.lmplot(x='total_bill', y='tip',
           hue='species',
           data=tips,
           palette='Set1',
           ci=70,
           size=5,
           markers=['+', 'o']
           )

关于seaborn可视化的相关技巧还有很多，详细请查看知乎上一位博主写的这个系列，我举一例进行演示，代码和截图如下：

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
iris = pd.read_csv('iris.csv')
sns.pairplot(iris, hue="species")
plt.show()

可能因为网络的问题访问不了数据集，会导致报错。建议直接下载好了用，我的iris.csv数据集也会在文末分享

下边再通过另一绘制实例进一步描述：

补充说明：

核心代码：

from sklearn.datasets import load_iris,fetch_20newsgroups

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
iris=load_iris()

iris_data=pd.DataFrame(data=iris.data,columns=['Sepal_Length','Sepal_Width','Petal_Length','Petal_Width'])
iris_data["target"]=iris.target
def iris_plot(data,col1,col2):
    sns.lmplot(x=col1,y=col2,data=data,hue="target")
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    plt.title("鸢尾花数据展示")
    plt.xlabel(col1)
    plt.ylabel(col2)
    plt.show()
iris_plot(iris_data,'Sepal_Length','Petal_Width')

什么是Pandas：

（详细了解请点击查看博客）
Pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。
Pandas纳入了大量库和一些标准的数据模型，提供了大量能使我们快速便捷地处理数据的函数和方法。
主要包含两种数据类型：Series和DataFrame：

Series可以理解为dict的升级版本，主数组存放numpy数据类型，index数据存放索引
DataFrame相当于多维的Series，有两个索引数组，分别是行索引和列索引，可以理解成Series组成的字典

什么是Pyplot：

详细参考博文Python深度学习入门之plt画图工具基础使用

plt.title（”鸢尾花数据展示”）无法显示中文的解决办法：


plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False

不加fit_reg=False的话，显示时自动绘制直线，即默认为True，线性拟合，如下图所示：

本文资源可通过以下链接免费下载【 2022.10 更新】：

https://download.csdn.net/download/qq_40506723/27333865

Original: https://blog.csdn.net/qq_40506723/article/details/120524339
Author: 白白净净吃了没病
Title: 机器学习鸢尾花分类的原理和实现（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/622823/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

简单回归模型：普通最小二乘法OLS（一）

简单回归模型基本概念回归分析：在其他条件不变的情况下，考察一个变量对另一个变量的影响。 X自变量解释变量Y因变量被解释变量设变量u表示关系式中的干扰项，表示除X之外其他影响Y…

人工智能 2023年6月17日
00153
NLP 学习笔记之 Seq2seq

基础知识储备：首先知道计算机把语言当作sequence有一些标识符BOS：begining of sequence，代表序列开始。EOS：End of sequence，代表序列结…

人工智能 2023年5月28日
00136
ES数据的导出与导入

安装npm，node elasticsearch-dump可用ES的数据备份、迁移、同步操作等 wget https://nodejs.org/dist/v10.14.2/node…

人工智能 2023年6月28日
00153
深度学习中的反向传播算法是如何工作的

问题描述深度学习中的反向传播算法是如何工作的？详细介绍反向传播算法是深度学习神经网络中最重要的算法之一。它通过计算和调整神经网络中的权重和偏差，使得网络能够学习和适应不同的任…

人工智能 2024年1月1日
0045
Laravel_5.4.0_8.6.12+_反序列化链_RCE1

对应 PHPGGC 中的 Laravel/RCE2 这是 Laravel 反序列化链系列的第一篇文章 0x00 漏洞环境 https://github.com/N0puple/ph…

人工智能 2023年5月30日
0078
android studio实现小吃商城，android课程设设计

Android移动开发课程设计项目名称：小吃云商城（云小吃app）源码文末获取文章目录 Android移动开发课程设计项目名称：小吃云商城（云小吃app） 1．任务要求…

人工智能 2023年7月29日
0078
YOLOv5 PyQt5（一起制作YOLOv5的GUI界面）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月24日
0088
python科研作图系列-01热力图相关性分析

参考文章目录 * – 数据样本和分析结果 – 代码的讲解 – 附代码和运行结果数据样本和分析结果本学渣补充数学知识点：1 Pearson …

人工智能 2023年7月28日
00115
Pytorch-Lightning中的训练器—Trainer

参数名称含义默认值接受类型添加回调函数或回调函数列表None( 默认值)Union[List[Callback], Callback, None] 是否使用callbacksTr…

人工智能 2023年7月21日
0065
SpringBoot SpringBoot 基础篇 4 基于 SpringBoot 的SSMP 整合案例 4.7 数据层标准开发【条件查询】

SpringBoot 【黑马程序员SpringBoot2全套视频教程，springboot零基础到项目实战（spring boot2完整版）】 SpringBoot 基础篇文章目…

人工智能 2023年6月27日
00136
双十一到了，当我用Python采集了电商平台所有商品后发现….

Python采集电商平台写在前面环境及模块案例实现思路代码展示效果展示最后写在前面这不是双十一快到了，为了以最优惠的价格买到自己想买的商品，我不惜用Python把y…

人工智能 2023年7月3日
00101
一文看尽 CVPR2022 最新 22 篇论文（附打包下载）

CVPR 2022 已经放榜，本次一共有2067篇论文被接收，接收论文数量相比去年增长了24%。由于每年的 CVPR 全部论文以及相关细节都需要等到六月会议召开才会正式公布，在这之…

人工智能 2023年5月26日
00149
使用VS2022手动编译OpenCV3.4.0

当需要使用高版本的vs编译低版本的opencv时可能会出现一些奇奇怪怪的错误，这时可以尝试手动编译生成opencv库文件来进行适配。编译OpenCV:opencv3.4.0源码下…

人工智能 2023年7月18日
0071
历时两天，我终于在TensorFlow里面调用起来了gpu

新买的笔记本怎么配置TensorFlow-gpu 新买的笔记本怎么配置TensorFlow-gpu 为了更好地学习深度学习，我今年斥重金买了一台联想-拯救者-R9000，除了P90…

人工智能 2023年7月30日
0066
Python+OpenCV人脸识别，训练模型

1.引入库代码如下（示例）： import cv2 as cv import os import numpy as np from PIL import Image 2.读入数据…

人工智能 2023年7月19日
0094
ISIS路由协议详解（特征、与OSPF对比、拓扑结构、专业术语、路由器分类、网络类型、DIS、报文类型及抓包、邻居关系、路由渗透、路由过载OL位、ISIS认证分类、ISIS管理标签以及各种实验等）

IS-IS特征：Isis：中间系统到中间系统链路状态路由协议IGP协议SPF算法ISIS采用TLV结构，因此扩展性很好（为支持新的协议和特性，只需要扩展新的TLV或子TLV；可以轻…

人工智能 2023年7月1日
00121

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习 鸢尾花分类的原理和实现（一）

一、实验前期的知识储备

大家都在看

机器学习鸢尾花分类的原理和实现（一）