机器学习系列4 使用Python创建Scikit-Learn回归模型

2023年6月17日下午3:42 • 人工智能 • 阅读 89

本文中包含的案例jupyter笔记本可在我的资源中免费下载：
机器学习系列4 使用Python创建Scikit-learn线性回归模型.ipynb

图1 使用Python和Scikit-learn库实现回归模型

三、创建你的第一个Scikit-learn Notebook

一、内容介绍

在本文中，我将会带你了解如何构建回归模型，但在构建模型之前，我们需要先搭建运行环境，确保读者能够复现本次练习。

在本文中,你将会学习到如何：

0 在本地计算机搭建机器学习环境
1 安装并使用Jupyter notebook
2 安装并使用Scikit-learn库
3 探索并实现线性回归

二、配置本地机器学习环境

1.安装python

确保你的计算机上安装了Python，博主的python版本是3.8，大家可以根据自己的情况选择合适的版本，但要保证是Python 3系列。

由于博主以及安装过，这里就借用一下知乎@呆呆的图片。选择自定义安装并勾选加入系统变量，选择安装位置，一路确定即可。WIN+R输入cmd打开命令行，输入python，如下图所示表示安装成功。

2.安装jupyter notebook

确保电脑安装了Jupyter，jupyter notebook是一个基于Web的轻量级开发应用，是数据科学常用的工具，入门数据科学使用这个就足够，如果工作需要版本控制的话，可以安装Anaconda,这个软件可以在一台电脑上配置多个不同版本的python。

在Windows桌面按WIN + R，弹出运行窗口，输入cmd，打开命令行；输入：

pip install -i https://mirrors.aliyun.com/pypi/simple/ jupyter

期间可能会出现pip版本过低导致安装失败，此时只需要更新pip后再次安装即可；

安装好以后输入：

cd D:\ML\ #转移到项目目录

若目录没有改变，可以再次输入项目目录所在位置的根目录,回车以后即可转移成功。

转移到项目所在目录后，输入jupyter notebook，稍等片刻，便会打开jupyter notebook，此时代表jupyter安装完成，可在里面创建文件，ipynb是jupyter的专用文件格式：

jupyter notebook

3.安装Scikit-learn

Scikit-learn是针对 Python 编程语言的免费软件机器学习库。它具有各种分类，回归和聚类算法，包括支持向量机，随机森林，梯度提升，k均值等算法，并且常常与数值科学库 NumPy和 SciPy联合使用。在本课程中，我将使用 Scikit-learn和其他工具来构建传统机器学习模型。

在Windows桌面按WIN + R，弹出运行窗口，输入cmd，打开命令行；输入

pip install -U scikit-learn

如果安装较慢，也可使用阿里或者清华的镜像源来安装；

pip install -i https://mirrors.aliyun.com/pypi/simple/ scikit-learn

稍等一会儿后即可安装完成。同理，安装本文需要的 matplotlib库以及 numpy库。

Scikit-learn使构建模型并评估其使用变得简单明了。它主要侧重于使用数值数据，并包含几个现成的数据集，可用作学习工具。它还包括供学生尝试的预构建模型。

三、创建你的第一个Scikit-learn Notebook

在本文中，你将使用一个糖尿病的小型数据集，该数据集内置在Scikit-learn中，用于学习目的。想象一下，你想测试糖尿病患者的治疗方法。机器学习模型可能会根据变量组合，帮助您确定哪些患者对治疗反应更好。即使是非常基本的回归模型；当可视化数据时，显示有关变量隐藏的信息，这些信息将帮助您组织理论临床试验。

回归方法有很多种类型，选择哪一种取决于您正在寻找的答案。如果要预测给定年龄的人的可能身高，则可以使用线性回归，因为您正在寻找的数据是数值。如果问题是判断一种的美食是否应该被视为素食，那么你这是一个分类问题，因此您将使用逻辑回归。以后的文章中你将了解有关逻辑回归的详细信息。考虑一下你可以想到的一些问题，探索哪种方法更合适。

我们开始本次练习。

1.导入第三方库

对于本次练习，我们将导入下列库：

0 matplotlib 这是一个经典的绘图库，我们将用它来创建图表。
1 numpy 这是一个数值计算的python库，我们将用它处理数值数据。
2 sklearn 这是Scikit-learn的库名。

代码如下：

import matplotlib.pyplot as plt
import numpy as np from sklearn
import datasets,linear_model,model_selection

以上库用于绘图，数据处理，数据集调用，模型构建等。

2.糖尿病数据集介绍

内置的糖尿病数据集包括442个糖尿病数据样本，该数据集包括10个特征变量，其中包括：

0 年龄单位年
1 体重指数
2 血压平均血压

该数据集包括”性别”的特征，作为对糖尿病研究很重要的特征变量。许多医学数据集都包含这种类型的二元分类。想想像这样的分类如何将某些人群排除在治疗之外，思考一下机器学习的公平性。

现在，加载输入变量X 和标签 Y 数据。因为线性回归是有监督学习，需要的标签样本数据Y。

在新的代码单元中，通过调用 load_diabetes()函数加载糖尿病数据集，返回特征变量与标签。

通过print()函数查看输入数据X的结构与值；

X, Y = datasets.load_diabetes(return_X_y=True)
print(X.shape)
print(X[0])

通过打印出的结果，我们得到了一个元组与一个列表，前者表示输入数据是442行10列。可以看到此数据有 442 个样本，后者表示每个样本由10 个特征变量的数组形式组成：

大家可以思考一下特征变量X与回归标签Y之间的关系。

3.数据预处理

接下来，通过使用 numpy库的函数将其转换成一个新数组以分割训练集与测试集。我们将使用线性回归函数基于它确定的模式在数据点之间生成一条回归线。

X = X[:, np.newaxis, 2] #取出每个样本中第3列的数据并单独形成一个1行1列的向量

打印数据以检查其结构。 np.newaxis等价于 None，作用是把X的类型从列向量变为行向量，方便后面的训练；

现在，我们已经准备好绘制数据，在此之前，我们需要将特征（X）和标签（Y）拆分为训练集和测试集。 Scikit-learn有一个简单的方法来做到这一点;通过 train_test_split（）函数选择测试集比例来拆分测试数据。

X_train, X_test, Y_train, Y_test = model_selection.train_test_split(X, Y, test_size=0.33)#test_size=0.33 表示测试集占比33%，即训练集占67%

4.模型训练

好耶！😆现在，我们可以训练模型了！加载线性回归模型，并使用 model.fit()函数进行训练：

model = linear_model.LinearRegression() #调用线性模型中的线性回归函数
model.fit(X_train, Y_train) #输入训练集数据进行模型训练

model.fit()是在许多机器学习库（如 TensorFlow）中常见的函数，其用于模型训练。

5.模型预测

然后，调用 predict()函数将测试数据输入训练好的线性模型中进行预测。并将预测结果赋予 Y_pred，这个结果将用于回归线的绘制。

Y_pred = model.predict(X_test) #利用训练好的模型进行预测

6.数据可视化

现在是时候在图中显示数据了。 Matplotlib是执行此任务的非常有用的工具。创建所有 X 和Y测试数据的散点图，并使用预测值在模型的数据点之间的最合适位置绘制一条回归线。

plt.scatter(X_test, y_test, color='black') #基于测试集数据生成散点图
plt.plot(X_test, y_pred, color='blue', linewidth=3) #利用线性回归的结果绘制回归线 plt.xlabel('Scaled BMIs')
plt.ylabel('Disease Progression')
plt.title('A Graph Plot Showing Diabetes Progression Against BMI')
plt.show()

显示糖尿病周围数据点的散点图：

想想这里发生了什么。一条直线穿过许多小数据点，但它到底在做什么呢？如何使用这条线来预测一个新的、看不见的数据点？试着用语言来表达这个模型的实际用途。

恭喜，我们在此构建了第一个线性回归模型，用它预测了结果，并将其显示在图表中！

四、结论

在本文中，我们学习了机器学习本地环境的配置过程，利用 Scikit-learn库简单的走完了机器学习模型的基本流程，最终创建了一个线性回归模型。麻雀虽小，五脏俱全；读者需要从简单的线性回归练习开始慢慢培养自己的机器学习思维，一步步去理解机器学习的内涵。

课后测验

学习链接

“本站所有文章均为原创，欢迎转载，请注明文章出处:https://blog.csdn.net/qq_45590504/category_11752103.html?spm=1001.2014.3001.5482百度和各类采集站皆不可信，搜索请谨慎鉴别。技术类文章一般都有时效性，本人习惯不定期对自己的博文进行修正和更新，因此请访问出处以查看本文的最新版本。”

Original: https://blog.csdn.net/qq_45590504/article/details/124237938
Author: GISer Liu
Title: 机器学习系列4 使用Python创建Scikit-Learn回归模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630740/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【毕业设计】单片机机器视觉人体识别小车 – 深度学习 yolo目标检测人体识别树莓派

文章目录 0 前言 1 简介 2 主要器件 3 线路连接 4 Yolo环境搭建 5 yolo模型训练 6 模型转化 7 树莓派环境配置 8 最后 0 前言 🔥 这两年开始毕业设计和…

人工智能 2023年6月17日
0098
基于K-Means聚类算法对NBA球员数据的聚类分析

啊哦~你想找的内容离你而去了哦 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:ser…

人工智能 2023年6月2日
0071
代码会说话——pyttsx3简介

目录一、pyttsx3 概述二、pyttsx3的安装三、pyttsx3的运用四、全套代码一、pyttsx3 概述代码会说话：pyttsx3是Python中的文本到语音转…

人工智能 2023年7月29日
0063
Windows下安装pytorch-GPU版本（小白踩坑安装过程记录）

本来之前跌跌撞撞安装完pytorch-CPU版本，但无奈跑代码实在是太慢了，正好搞到一块显卡（嘿嘿），那就重新安一个GPU版本吧。一、下载Anaconda 1.由于anacond…

人工智能 2023年7月22日
0085
【GNN框架系列】DGL第二讲：使用Deep Graph Library实现GNN进行链接预测

作者：CHEONG公众号：AI机器学习与知识图谱研究方向：自然语言处理与知识图谱本文先简单概述GNN链接预测任务，接下来使用Deep Graph Library实现GNN进行链接…

人工智能 2023年6月1日
0092
3D点云目标检测算法Pointnet++项目实战 Pytorch实现

刚刚复现完成PointNet++分类和分割网络，效果还不错，分享给大家。 Pointnet++算法的原理在此不再赘述，本文专注讲一下重要代码，从输入数据到输出结果展现复现过程。注：…

人工智能 2023年6月16日
0065
python绘制堆叠图_在python中使用plotly创建堆叠图形或条形图

您可以使用pandas堆积条形图。这样做的好处是，您可以使用pandas轻松创建必须生成的列/值对表。在from matplotlib import pyplot as plt i…

人工智能 2023年7月8日
0074
怎么用图文预训练模型CLIP做视频任务？

关注公众号，发现CV技术之美 ▊ 1 写在前面 CLIP由于其强大的泛化性能，简单的代码逻辑，受到了广泛的关注。目前CLIP也被应用到各个其他场景中，在这篇文章中，我们就来盘点一下…

人工智能 2023年5月30日
0082
pandas的Series和DataFrame

文章目录 pandas的核心类 Series(数据系列)带标签的数组 * 一、创建Series对象二、Series索引和切片三、Series的基本用法 – 1.处理…

人工智能 2023年7月8日
0045
大学生端午节网页作业制作学生端午节日网页设计模板传统文化节日端午节静态网页成品代码下载端午节日网页设计作品

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月27日
0094
逻辑回归（Logistic Regression）原理及其应用

目录第一章：逻辑回归的应用场景第二章：逻辑回归的原理 1.输入 2.Sigmoid函数 3.损失函数 4.优化损失采用梯度下降：第三章逻辑回归应用案例 1.数据集 2.具…

人工智能 2023年6月13日
0072
YOLOv5网络结构完全解读【源码+手绘网络结构+模块结构】

🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀YOLOv5网络结构详解 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 🚀 …

人工智能 2023年7月23日
00111
OpenCV简单应用（四、waitKey和waitKeyEx）

1.waitKey是OpenCV中很常用的一个函数，原型为：waitKey(delay)delay为延时时间，也可以看做间隔时间，单位为毫秒，0表示永远等待。其返回值为ASCII键…

人工智能 2023年7月19日
0041
如何搭建普罗米修斯 Prometheus

如何搭建普罗米修斯 Prometheus 1.下载Prometheus 进到这个网址 https://github.com/prometheus/prometheus/releas…

人工智能 2023年6月26日
0085
关于Pytorch中的train()和eval()（以及no_grad()）

1、三剑客：train()、eval()、no_grad() * 1.1 train() 1.2 eval() 1.3 no_grad() 2、简单分析下 * 2.1 为什么要使用…

人工智能 2023年6月17日
0079
KDD 2022 | 生命科学中的图神经网络：机遇和解决方案

文章目录一、前言二、主要内容 ; 一、前言 Zichen Wang, Vassilis N. Ioannidis, Huzefa Rangwala, Tatsuya Arai,…

人工智能 2023年6月1日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习系列4 使用Python创建Scikit-Learn回归模型

1.安装python

2.安装jupyter notebook

3.安装Scikit-learn

1.导入第三方库

2.糖尿病数据集介绍

3.数据预处理

4.模型训练

5.模型预测

6.数据可视化

大家都在看