pycaret在钻石数据集上的使用 – 回归问题

2023年6月18日下午3:59 • 人工智能 • 阅读 67

from pycaret.datasets import get_data
dataset = get_data('diamond')

#check the shape of data
dataset.shape

data = dataset.sample(frac=0.9, random_state=786)
data_unseen = dataset.drop(data.index)

data.reset_index(drop=True, inplace=True)
data_unseen.reset_index(drop=True, inplace=True)

print('Data for Modeling: ' + str(data.shape))
print('Unseen Data For Predictions: ' + str(data_unseen.shape))

from pycaret.regression import *
exp_reg101 = setup(data = data, target = 'Price', session_id=123)

session_id ：一个伪随机数，作为种子分布在所有函数中，以供以后重现。如果没有传递 session_id，则会自动生成一个随机数，分发给所有函数。在本实验中，将 session_id 设置为 123 以便以后重现。

成功执行设置后，它会打印包含几条重要信息的信息网格。大多数信息与执行 setup() 时构建的预处理管道有关。这些功能中的大部分都超出了本教程的范围。但是，在此阶段需要注意的一些重要事项包括：

原始数据：显示数据集的原始形状。在这个实验中 (5400, 8) 表示 5400 个样本和 8 个特征，包括目标列。

缺失值：当原始数据中存在缺失值时，这将显示为 True。对于这个实验，数据集中没有缺失值。

数字特征：推断为数字的特征数量。在这个数据集中，8 个特征中有 1 个被推断为数字。

分类特征：推断为分类的特征数量。在这个数据集中，8 个特征中有 6 个被推断为分类特征。

变换训练集：显示变换训练集的形状。请注意，对于变换后的训练集， (5400, 8) 的原始形状已转换为 (3779, 28)。由于分类编码，特征数量从 28 个增加到 8 个

转换的测试集：显示转换的测试/保留集的形状。测试/保留集中有 1621 个样本。此拆分基于默认值 70/30，可以使用 setup 中的 train_size 参数进行更改。

注意一些必须执行建模的任务是如何自动处理的，例如缺失值插补（在这种情况下，训练数据中没有缺失值，但我们仍然需要对看不见的数据进行插补）、分类编码等。 setup() 中的参数是可选的，用于自定义预处理管道。这些参数超出了本教程的范围，但随着您进入中级和专家级别，我们将更详细地介绍它们。

7.0 比较所有模型
比较所有模型以评估性能是建议在设置完成后建模的起点（除非您确切知道需要哪种模型，但通常情况并非如此）。此函数训练模型库中的所有模型，并使用 k 折交叉验证对它们进行评分以进行度量评估。输出打印一个分数网格，显示平均 MAE、MSE、RMSE、R2、RMSLE 和 MAPE（默认为 10）以及训练时间。

best = compare_models(exclude = ['ransac'])

两个简单的代码词（甚至不是一行）已经使用交叉验证训练和评估了 20 多个模型。上面打印的分数网格突出显示了性能最高的指标，仅用于比较目的。默认情况下，网格使用 R2（从最高到最低）排序，可以通过传递排序参数来更改。例如 compare_models(sort = ‘RMSLE’) 将按 RMSLE 对网格进行排序（从低到高，因为越低越好）。如果要将 fold 参数从默认值 10 更改为不同的值，则可以使用 fold 参数。例如 compare_models(fold = 5) 将在 5 折交叉验证上比较所有模型。减少折叠次数将改善训练时间。默认情况下， compare_models 根据默认排序顺序返回性能最佳的模型，但可用于通过使用 n_select 参数返回前 N 个模型的列表。 /br

请注意，排除参数如何用于阻止某些模型（在本例中为 RANSAC）。

8.0 创建模型
create_model 是 PyCaret 中最细粒度的函数，通常是大多数 PyCaret 功能的基础。顾名思义，此函数使用可以使用折叠参数设置的交叉验证来训练和评估模型。输出打印一个分数网格，按折叠显示 MAE、MSE、RMSE、R2、RMSLE 和 MAPE。

对于本教程的剩余部分，我们将使用以下模型作为我们的候选模型。这些选择仅用于说明目的，并不一定意味着它们是此类数据的最佳表现或理想选择。

AdaBoost 回归器（’ada’）
光梯度提升机（’lightgbm’）
决策树 (‘dt’)
PyCaret 的模型库中有 25 个回归量可用。要查看所有回归器的列表，请检查文档字符串或使用模型函数查看库。

Original: https://blog.csdn.net/sinat_37574187/article/details/125830793
Author: 人工智能曾小健
Title: pycaret在钻石数据集上的使用 – 回归问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635710/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在运行yolo5的v5.0版本detect.py时遇到的一些错误

跟着小土堆的视频教学自己遇到的一些问题。出现错误的原因：由于yolov5目前最新版本为v6.1，但我跑的是5.0版本，则运行detect.py时自动从github上下载的训练好的…

人工智能 2023年7月20日
0077
记录：TensorFlow2.6版本环境搭建cuda11.2 anaconda python3.9 ++++ pytorch环境安装

我用的是CUDA11.2+TensorFlow2.6 因此，让我们正式开始安装过程： [En] So let’s officially begin the instal…

人工智能 2023年5月23日
00123
毕设题目：Matlab图像修复

1 案例背景随着大数据时代的到来,数据的形态更趋于直观化和系统化,因此图像数据的分析与研究变得更为重要,对大量图像数据的分析与研究要求必须有更加完善和可行的方法,在MATLAB中,…

人工智能 2023年6月22日
0080
安卓模拟器下使用TensorflowLite实现Object Detection｜CSDN创作打卡

非常入门的TFLite目标检测，基本上是整合了官网的一些教程，自己加上了配合安卓模拟器使用的这一部分。移动端比较：移动端跑深度学习模型大概现在TFLite用的比较多，所以有移动…

人工智能 2023年7月10日
0064
为机器学习模型设置最佳阈值：0.5是二元分类的最佳阈值吗

对于二元分类，分类器输出一个实值分数，然后通过对该值进行阈值的区分产生二元的相应。例如，逻辑回归输出一个概率(一个介于0.0和1.0之间的值);得分等于或高于0.5的观察结果产生正…

人工智能 2023年7月29日
0071
Embedding 基础

一、什么是Embedding 简单来说，Embedding 就是用一个数值向量”表示”一个对象（Object）的方法，这里说的对象可以是一个词、一个物品，也…

人工智能 2023年7月26日
0055
连续目标检测综述 Continual Object Detection: A review of definitions, strategies, and challenges

标题 Continual Object Detection: A review of definitions, strategies, and challenges 摘要 The …

人工智能 2023年7月10日
0055
视觉SLAM十四讲

内部交流，写的很乱，各路大神不建议观看以免影响思路 1、激光SLAM 激光SLAM相对成熟，比如2005年出版的《概率机器人》中就介绍了很多关于激光SLAM的知识，在ROS里也能找…

人工智能 2023年6月1日
0075
Python-中北大学人工智能OpenCV人脸识别（根据图片训练数据，根据训练好的数据识别人脸）

文章目录 1. 根据训练照片训练数据模型 2. 根据训练的数据文件，进行人脸识别根据训练照片训练数据模型训练流程：读取文件夹下的所有文件，使用PIL 库中的Image方法打开…

人工智能 2023年7月26日
0064
神经网络对多变量的性别结果预测

神经网络这几年可谓是火得一塌糊涂，它是目前最为火热的研究方向——深度学习的基础。在神经网络刚被发明之初，人们欢呼雀跃，认为是创造出来了比人更强的思维怪兽。它类比于人的神经元的工作方…

人工智能 2023年6月26日
0098
【强化学习PPO算法】

强化学习PPO算法一、PPO算法二、伪代码三、相关的简单理论 * 1.ratio 2.裁断 3.Advantage的计算 4.loss的计算四、算法实现五、效果六、感悟…

人工智能 2023年7月4日
00104
回归预测 | MATLAB实现CNN-LSTM(卷积长短期记忆神经网络)多输入单输出

回归预测 | MATLAB实现CNN-LSTM(卷积长短期记忆神经网络)多输入单输出目录 * – 回归预测 | MATLAB实现CNN-LSTM(卷积长短期记忆神经网…

人工智能 2023年7月12日
0065
使用C++ OpenCV实现椭圆区域检测与Aruco码的生成与检测并估计位姿

前景概要很多机器视觉的定位与识别场景，如无人车、无人机，都会用 Aruco码或特定的标志物来实现，Aruco码的优点在于，xxxx(自行搜索)。对于像在低成本轻量级的无…

人工智能 2023年6月19日
0088
Manifold2 + Pytorch/Tensorflow

1）Pytorch 之前配置了ElasticFusion花了半天多的时间。各种坑。现在为了测试深度学习模型在无人机上的效率，感觉又要跳一个新坑…… 首先就…

人工智能 2023年5月26日
0060
基于opencv的MTF算法开发

使用ctf-chart需要注意的一点是线对宽度需要结合摄像头测试的nyquist频率，视场，增距镜来确定，不然起不到有效管控模组解像力的要求。这个我有这套系统的计算方法，适合8M以…

人工智能 2023年7月19日
0069
MMDetection亲测安装教程

MMDetection是一个基于 PyTorch 的目标检测开源工具箱。接下来就安装看看吧。本人安装环境：系统环境：Ubuntu 20.04.2 LTS cuda版本：11.0…

人工智能 2023年7月5日
0087

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pycaret在钻石数据集上的使用 – 回归问题

大家都在看