【skLearn 回归模型】岭回归 —- 选择最佳正则化参数＜带交叉验证的岭回归RidgeCV()＞

2023年6月18日上午11:12 • 人工智能 • 阅读 83

文章目录

一、岭迹图
*
介绍
简单使用
二、交叉验证岭回归 —- klearn.linear_model.RidgeCV
*
加利福尼亚房屋价值测试

一、岭迹图

介绍

既然要选择α的范围,我们就不可避免地要进行 α最优参数的选择 。在各种机器学习教材中,都会使用岭迹图来判断正则项参数的最佳取值。传统的岭迹图长这样,形似一个开口的喇叭图(根据横坐标的正负,喇叭有可能朝右或者朝左):

【skLearn 回归模型】岭回归 ---- 选择最佳正则化参数＜带交叉验证的岭回归RidgeCV()＞

这一个 以正则化参数α为横坐标, 线性模型求解的系数w为纵坐标 的图像,其中 每一条彩色的线都是一个系数w 。其目标是建立正则化参数与系数w之间的直接关系,来观察正则化参数的变化如何影响了系数w的拟合。岭迹图认为,线条交叉越多,则说明特征之间的多重共线性越高，应该选择系数较为平稳的喇叭口所对应的α取值作为最佳的正则化参数的取值。

返回顶部;

简单使用


import numpy as np
import matplotlib.pyplot as plt
from sklearn import  linear_model

plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False

x = 1. / (np.arange(1,11) + np.arange(0,10)[:,np.newaxis])
y = np.ones(10)

n_alphas = 200
alphas = np.logspace(-10,-2,n_alphas)

coefs = []
for a in alphas:
    ridge = linear_model.Ridge(alpha=a,fit_intercept=False)
    ridge.fit(x,y)
    coefs.append(ridge.coef_)

ax = plt.gca()
ax.plot(alphas,coefs)
ax.set_xscale('log')
ax.set_xlim(ax.get_xlim()[::-1])
plt.xlabel('正则化参数alpha')
plt.ylabel('系数w')
plt.title('岭回归下的岭迹图')
plt.axis('tight')
plt.show()

历史角：

岭回归最初始由HoerlKennard和在170提出来用来改进多重共线性问题的模型,在这篇1970年的论文中,两位作者提出了岭迹图并且向广大学者推荐这种方法,然而遭到了许多人的批评和反抗。大家接受了岭回归,却鲜少接受岭迹图,这使得岭回归被发明了50年之后,市面上关于岭迹图的教材依然只有1970年的论文中写的那几句话（线条交叉越多,则说明特征之间的多重共线性越高）。
*1974年, Stone发表论文,表示应当在统计学和机器学习中使用交叉验证。1980年代,机器学习技术迎来第一次全面爆发(1979年D3决策树被发明出来,1980年之后CART树,adaboost,带软间隔的支持向量,梯度提升树逐渐诞生),从那之后,除了统计学家们,几乎没有人再使用岭迹图了。在2000年以后,岭迹图只是教学中会被略微提到的一个知识点(还会被强调是过时的技术)。在现实中,真正应用来选择正则化系数的技术是交叉验证,并且选择的标准非常明确： 我们选择让交叉验证下的均方误差最小的正则化系数a 。

返回顶部

二、交叉验证岭回归 —- klearn.linear_model.RidgeCV

class sklearn.linear_model.RidgeCV(alphas=0.1, 1.0, 10.0, *, fit_intercept=True, normalize=False,
                                   scoring=None, cv=None, gcv_mode=None, store_cv_values=False,
                                   alpha_per_target=False)[source]

加利福尼亚房屋价值测试

import numpy as np
import pandas as pd
from sklearn.linear_model import Ridge,RidgeCV
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.datasets import fetch_california_housing as fch

house_value = fch()
x = pd.DataFrame(house_value.data)
y = house_value.target
x.columns = ["住户收入中位数","房屋使用年代中位数","平均房间数目","平均卧室数目","街区人口","平均入住率","街区的纬度","街区的经度"]

Ridge_ = RidgeCV(alphas=np.arange(1,1001,100),

                 store_cv_values=True,

                ).fit(x,y)

score = Ridge_.score(x,y)

cv_score = Ridge_.cv_values_
cv_score_mean = Ridge_.cv_values_.mean(axis=0)

best_alpha = Ridge_.alpha_

无论怎样更改交叉验证岭回归的参数，对于最终的最佳正则化系数都是没有影响的。

返回顶部

Original: https://blog.csdn.net/qq_45797116/article/details/112546868
Author: 骑着蜗牛ひ追导弹’
Title: 【skLearn 回归模型】岭回归 —- 选择最佳正则化参数＜带交叉验证的岭回归RidgeCV()＞

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/634694/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas写入Excel文件如何避免覆盖已有Sheet

Pandas是Python处理数据最好用的工具包。处理好了的数据，也可以写回到原来的或新的Excel文件。但如果处理结果要写入到多张表，就要注意了。用Pandas把DataFra…

人工智能 2023年7月15日
00124
利用深度学习模型基于遗传算法（GA）寻求最优解

文章目录前言一、各种优化算法的优缺点二、深度学习模型+遗传算法 * 1.思路 2.代码部分三、完整代码四、总结前言深度学习模型的训练前面的文章已经记录过，深度学习-L…

人工智能 2023年5月25日
00103
《知识图谱从入门到实践》03 Python操作Neo4j

书山有路勤为径，学海无涯苦作舟 1.建立Python连接需要Py2neo，通过该包，与Python建立连接这个包的版本需要在5以上，不然对应不了 pip install py2n…

人工智能 2023年6月4日
0082
时间序列进行分析的一些手法以及代码实现(移动平均、指数平滑、SARIMA模型、时间序列的（非）线性模型)

文章目录 1、移动平均 * moving average方法 weighted average方法 2、指数平滑 * 单指数平滑 exponential_smoothing 双指数…

人工智能 2023年7月16日
0060
mmdetection修改源码来进行backbone结构改进

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录 1、找到mmdet中的backbone相关的模型源码 2、修改backbone源码 3、修改对应的con…

人工智能 2023年7月9日
0091
BERT中的Tokenizer说明

预训练BERT的Tokenizer有着强大的embedding的表征能力，基于BERT的Tokenizer的特征矩阵可以进行下游任务，包括文本分类，命名实体识别，关系抽取，阅读理解…

人工智能 2023年6月24日
0075
【论文笔记】A Survey of Visual Transformers（完结）

声明：本人是来自 γ 星球的外星人为了学习地球的深度学习知识的，好回去建设自己的家乡每周不定期更新自己的论文精读笔记，中心思想是两个字 — 易懂没啥事的兄弟姐妹们，…

人工智能 2023年5月28日
0087
ECCV 2022 | 单点监督目标检测！国科大提出P2BNet：标一个点就能训练出强有力的目标检测器…

点击下方卡片，关注” CVer“公众号 AI/CV重磅干货，第一时间送达针对于单点监督的精准目标检测网络：P2BNet 目标检测只需要标一个点就行，比强…

人工智能 2023年6月24日
0091
逻辑回归算法模型

目录前言从对数变换到逻辑回归二项逻辑回归模型逻辑回归模型的应用逻辑回归模型的评价实践案例前言从这一期开始，我们准备介绍一系列经典机器学习算法模型，主要包括逻辑回归，…

人工智能 2023年6月17日
0084
量化感知训练QAT(Quantification Aware Training)

目录前言对称量化非对称量化基于Pytorch官方API量化代码实现前言为了减少网络模型的空间占用和运行速度，除了在网络方面进行改进，模型剪枝和量化算是最常用的优化方法。…

人工智能 2023年7月12日
0067
PaddleHub实战篇{ERNIE实现文新闻本分类、ERNIE3.0 实现序列标注}【四】

NLP专栏简介：数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等专栏详细介绍：[NLP专栏简介：数据增强、智能…

人工智能 2023年5月28日
0060
neo4j的使用（以红楼梦人物关系为例）

参考：知识图谱实战：构建红楼梦知识图谱_任萌新的小生活-CSDN博客_知识图谱构建实战https://blog.csdn.net/RHJlife/article/details/1…

人工智能 2023年6月1日
0075
克隆你的声音，可能只需要5秒钟：MockingBird实现AI拟声 (详解)

克隆你的声音，可能只需要5秒钟：MockingBird实现AI拟声 0. 引 1. 背景 2. 环境搭建 * 2.1 安装pytorch 2.2 安装ffmpeg 2.3 下载Mo…

人工智能 2023年6月23日
00109
使用spss做各种相关性分析的方法和步骤

目录数据类型相关性分析的方法用spss操作卡方检测 Eta检测皮尔逊(Pesrson)检测 Spearman(斯皮尔曼) 数据类型先说明spss里的三种数据类型, 可以…

人工智能 2023年7月18日
00102
语义分割方法总结与综述

语义分割论文 Dilated convolution low-level & high-level information fusion * 2019 CVPR DFANe…

人工智能 2023年5月26日
00101
Vision Transformer 必读系列之图像分类综述(三): MLP、ConvMixer 和架构分析

文 @ 000007 号外号外：awesome-vit 上新啦，欢迎大家 Star Star Star ~ https://github.com/open-mmlab/awesom…

人工智能 2023年6月25日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【skLearn 回归模型】岭回归 —- 选择最佳正则化参数 ＜带交叉验证的岭回归RidgeCV()＞

文章目录

介绍

简单使用

加利福尼亚房屋价值测试

大家都在看

【skLearn 回归模型】岭回归 —- 选择最佳正则化参数＜带交叉验证的岭回归RidgeCV()＞