数据分析-参数调优-GridSearchCV

2023年7月18日上午1:12 • 人工智能 • 阅读 65

前言

参数调优

人工循环搜索

网格搜索交叉验证（GridSearchCV）

随机搜索交叉验证（RandomizedSearchCV）

前言

算法模型中的两种参数：
模型参数：从数据中学习估计得到，如：回归中的系数与截距。
模型超参数：无法从数据中估计，需根据经验人工设置，如：k近邻算法中的k值，距离的度量方法等。

参数调优

调整超参数来提升模型的泛化性能。
常用方法有：
循环搜索：以穷举的方式遍历所有可能的参数组合。
网格搜索交叉验证（GridSearchCV）：以穷举的方式遍历所有可能的参数组合。
随机搜索交叉验证（RandomizedSearchCV）：依据某种分布对参数空间采样，随机的得到一些候选参数组合方案。

人工循环搜索

通过循环遍历可能的超参数组合，通过对不同组合的性能的评价，获取最优的参数组合。

如k近邻分类采用列表推导式计算不同k值的模型性能。

from sklearn.neighbors import KNeighborsClassifier
[KNeighborsClassifier(n_neighbors=k).fit(X_train,Y_train).score(x_test,y_test) for k in range(1,10)]

或

from itertools import product
from sklearn.neighbors import KNeighborsClassifier
for k,weights_,algorithm_ in product(range(1,10),['uniform','distance'],['auto', 'ball_tree', 'kd_tree', 'brute']):
    print(k,weights_,algorithm_)
    print(KNeighborsClassifier(n_neighbors=k,weights=weights_,algorithm=algorithm_).fit(X_train,Y_train).score(x_test,y_test))

网格搜索交叉验证（GridSearchCV）

定义一个n 维的网格，每格都有一个超参数映射，如：n=(超参数1，超参数2，…，超参数n。对每个超参数确定可能的取值，如：超参数1=[1，2，3，4，5，6，7，8]，使用交叉验证来评估每种组合的性能，获取最佳性能的参数。

from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
param_grid={"n_neighbors":range(1,10),"weights":['uniform','distance'],"algorithm":['auto', 'ball_tree', 'kd_tree', 'brute']}
grid_search=GridSearchCV(KNeighborsClassifier(),param_grid,cv=5)
grid_search.fit(X_train,y_train)
print(grid_search.score(x_test,y_test))
print(grid_search.best_params_)
print(grid_search.best_score_)

采用网格搜索交叉验证，假如超参数n个，每超参数可能的取值有Xi个，需要用交叉验证评估的组合数量为：

当n较大，每个超参数的取值Xi较多时，组合数量过大，模型训练将变得非常费时。

随机搜索交叉验证（RandomizedSearchCV）

随机搜索交叉验证在参数空间上进行随机搜索，选择相对较少的参数组合数量，获取较优的性能。可以更广泛地探索超参数空间，解决网格搜索组合数量过大，计算代价过高的问题，但通常只能获取次优的解。

from sklearn.model_selection import RandomizedSearchCV
from sklearn.neighbors import KNeighborsClassifier
param_grid={"n_neighbors":range(1,10),"weights":['uniform','distance'],"algorithm":['auto', 'ball_tree', 'kd_tree', 'brute']}
grid_search=RandomizedSearchCV(KNeighborsClassifier(),param_grid,cv=5)
grid_search.fit(X_train,y_train)
print(grid_search.score(x_test,y_test))
print(grid_search.best_params_)
print(grid_search.best_score_)

总结

人工循环搜索需要人工查找最优的模型参数。网格搜索交叉验证采用交叉验证模型的性能评价更客观，可以直接给出最优模型参数。当超参数较多时这两种方法的计算量都很大。

随机搜索交叉验证克服了计算量大的问题，但其获得的参数和模型往往不是最优的。

Original: https://blog.csdn.net/it_liujh/article/details/123648383
Author: ITLiu_JH
Title: 数据分析-参数调优-GridSearchCV

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/699851/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

超分辨率——基于SRGAN的图像超分辨率重建(Pytorch实现)

基于SRGAN的图像超分辨率重建本文偏新手项，因此只是作为定性学习使用，因此不涉及最后的定量评估环节目录基于SRGAN的图像超分辨率重建 * 1 简要介绍 2 代码实现 &#…

人工智能 2023年6月16日
0083
QT安装OpenCv步骤流程及相关问题（基于Windows下的QT Creator编程）

一、软件准备 1、Qt软件2、CMake3、OpenCV 1、安装QT：5.12.4版本（我用的版本）（1）安装在D盘（任意选择一个盘）（2）将QT环境变量添加到系统环境变量PAT…

人工智能 2023年6月19日
00114
对不起！《唐人街探案3》和《你好，李焕英》相比，我更推荐《你好，李焕英》！

作者: 锋小刀微信搜索【Python与Excel之交】关注我的公众号查看更多内容 hi~大家好！自春节以来，《唐人街探案3》和《你好，李焕英》两部电影的热搜就没有停过，&#822…

人工智能 2023年7月7日
0059
【环形链表】

目录：前言一、相交链表 * （一）题目分析（二）题目代码二、环形链表 ① * （一）题目分析（二）题目代码三、环形链表 ② * （一）解法1 — 数学分析，…

人工智能 2023年6月26日
0094
python机器学习之分类预测

目录逻辑回归 * 水位判断案例引入逻辑回归计算原理逻辑回归单次项逻辑回归代码示例二阶项及以上项式的边界函数计算和绘制 – 二阶多项式逻辑回归案例 + 尝试用一阶…

人工智能 2023年6月30日
0060
常见的AI过滤器有哪些类型？每种类型的过滤器都有哪些应用领域

AI过滤器的类型 AI过滤器是一种基于人工智能技术的数据处理工具，用于从海量数据中过滤出特定类型的信息。常见的AI过滤器主要有文本过滤器、图像过滤器和音频过滤器三种类型。文本过滤…

人工智能 2024年1月5日
0058
决策树分类算法（if-else原理）

决策树分类算法（if-else原理）在本节我们将介绍”机器学习”中的”明星”算法”决策树算法”。决策树算法…

人工智能 2023年7月2日
0095
DOTA数据集

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月6日
0099
行为识别C3D代码(pytorch)实现过程及常见错误

行为识别C3D代码(pytorch)实现过程及常见错误 1.C3D网络代码 C3D（pytorch）实现代码链接： C3D代码 2.C3D代码复现过程（1）环境版本要求pytor…

人工智能 2023年7月22日
0070
机器学习实战——3.1 决策树的构造

目录 1. 信息增益 2. 划分数据集 2.1 按照给定特征划分数据集 2.2 选择最好的数据集划分方式 3. 递归构建决策树 3.1 多数表决的方法 3.2 创建树信息增益在…

人工智能 2023年7月2日
0099
(

问题介绍这个问题是关于如何使用机器学习算法来预测房屋的销售价格。我们希望通过使用一个开源数据集，来训练一个模型能够预测房屋的价格。我们将使用Python来实现算法，并使用虚拟数据…

人工智能 2023年12月31日
0036
手把手教你玩转YOLOX–（下）数据集标注及训练

数据集的标注是做训练的重要一环，本次数据集标注以口罩检测为例，介绍使用labelimg的数据标注，并且使用YOLOX进行训练。我们从百度网上搜了一些图片，我们就拿这些图片进行标注并…

人工智能 2023年5月26日
0085
OpenCV调用检测包时出现 error: (-215:Assertion failed) !empty() in function ‘cv::CascadeClassifier::detect的情况

文章目录前言 1. 错误的原因 2. 尝试的方法 3. 查找路径 4. 最终的解决方法 5.测试源代码写在最后前言作者这几天开始学的OpenCV，看着官方文档做的Demo发…

人工智能 2023年7月18日
00103
pytorch导入自定义数据集

最近刚学图神经网络，数据集导入折腾了很久，终于开窍了一点。目前常用的数据导入方法主要有两种：（1）torchvision自带的导入方式:这种导入方式使用了torchvision自…

人工智能 2023年6月25日
0081
tianchi电商搜索competition

文章目录 tianchi电商搜索competition * 一、环境配置&实践数据下载二、解决方法 – 2.1 tf-idf 2.2 dssm tianchi…

人工智能 2023年5月31日
0075
【数据分析】认识Pandas：DataFrame和Series结构、属性

数据分析工具——Pandas 认识Pandas * Dataframe 结构 – DataFrame 构造方法 dtype参数 Series 结构 – Se…

人工智能 2023年7月6日
00127

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析-参数调优-GridSearchCV

大家都在看