【skLearn 回归模型】Lasso —- 选择最佳正则化参数＜带交叉验证的Lasso LassoCV()＞

2023年6月17日下午1:23 • 人工智能 • 阅读 188

文章目录

一、linear_model.LassoCV()
*
♦ 正则化路径 regularization path
♦ linear_model.LassoCV类
–
- ① 自定义alpha范围测试
- ② LassoCV默认参数配置测试

一、linear_model.LassoCV()

使用交叉验证的 Lasso类的参数看起来与岭回归略有不同,这是由于 Lasso对于alpha的取值更加敏感的性质决定的。之前提到过,由于 Lasso对正则化系数的变动过于敏感,因此我们往往让α在很小的空间中变动。这个小空间小到超乎人们的想象(不是0.01到0.02之间这样的空间,这个空间对 lasso而言还是太大了),因此我们设定了一个重要概念”正则化路径”,用来设定正则化系数的变动.

♦ 正则化路径 regularization path

假设我们的特征矩阵中有 n个特征,则我们就有 特征向量x1,x2…xn 。对于 每一个α 的取值,我们都 可以得出一组对应这个特征向量的参数向量w,其中 包含了n+1个参数,分别是 w0,w1,w2,...wn. 这些参数可以被看作是一个n维空间中的一个点 。对于 不同的α取值,我们 就将得到许多个在n维空间中的点,所有的这些 点形成的序列,就 被我们称之为是正则化路径 。

我们把形成这个正则化路径的α的最小值除以α的最大值得到的量（ α.min/α.max ）称为 正则化路径的长度(length of the path) 。在 sklearn中,我们可以通过规定正则化路径的长度(即限制α的最小值和最大值之间的比例),以及路径中α的个数,来让 sklearn为我们自动生成α的取值,这就避免了我们需要自己生成非常非常小的α的取值列表来让交叉验证类使用,类Lassocv自己就可以计算了。

和岭回归的交叉验证类相似,除了进行交叉验证之外, LassoCV也会单独建立模型。它会先找出最佳的正则化参数,然后在这个参数下按照模型评估指标进行建模。需要注意的是, LassoCV的模型评估指标(交叉验证结果)选用的是均方误差,而岭回归的模型评估指标是可以自己设定的,并且默认是R2。

返回顶部

♦ linear_model.LassoCV类

class sklearn.linear_model.LassoCV(*, eps=0.001, n_alphas=100, alphas=None, fit_intercept=True,
                                   normalize=False, precompute='auto', max_iter=1000, tol=0.0001,
                                   copy_X=True, cv=None, verbose=False, n_jobs=None, positive=False,
                                   random_state=None, selection='cyclic')[source]

【skLearn 回归模型】Lasso ---- 选择最佳正则化参数＜带交叉验证的Lasso LassoCV()＞

① 自定义alpha范围测试

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.datasets import fetch_california_housing as fch
from sklearn.linear_model import LassoCV
from sklearn.model_selection import train_test_split

house_value = fch()
x = pd.DataFrame(house_value.data)
y = house_value.target
x.columns = ["住户收入中位数","房屋使用年代中位数","平均房间数目","平均卧室数目","街区人口","平均入住率","街区的纬度","街区的经度"]

xtrain,xtest,ytrain,ytest = train_test_split(x,y,test_size=0.3,random_state=420)

for i in [xtrain,xtest]:
    i.index = range(i.shape[0])

alpha_range = np.logspace(-10,-2,200,base=10)
print(alpha_range)

lasso_ = LassoCV(alphas=alpha_range,cv=5).fit(xtrain,ytrain)

best_alpha = lasso_.alpha_

each_five_alpha = lasso_.mse_path_

mean = lasso_.mse_path_.mean(axis=1)
print(mean.shape)

w = lasso_.coef_

r2_score = lasso_.score(xtest,ytest)

② LassoCV默认参数配置测试


ls_ = LassoCV(eps=0.0001,n_alphas=300,cv=5).fit(xtrain,ytrain)

b_alpha = ls_.alpha_

new_alpha = ls_.alphas_
print(ls_.alphas_.shape)

r2 = ls_.score(xtest,ytest)

W = ls_.coef_

可以看出来通过自定义alpha或LassoCV自带的正则化路径进行测试，最终的结果都相差不大，所以按照本数据而言，最佳正则化系数约为0.002-0.003之间，此时的模型训练最佳。

返回顶部

Original: https://blog.csdn.net/qq_45797116/article/details/112676554
Author: 骑着蜗牛ひ追导弹’
Title: 【skLearn 回归模型】Lasso —- 选择最佳正则化参数＜带交叉验证的Lasso LassoCV()＞

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630211/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

相机标定——张氏标定法

目录 * – 前言 – + 动机 + 为什么要进行相机标定 + 什么是张氏标定法 – 张氏标定法的原理 – + 透镜成像原理 + 世…

人工智能 2023年5月26日
0080
编译原理：CH4 静态语义分析

CH4 静态语义分析文章目录 * – CH4 静态语义分析 – + 4.1 语法制导翻译 + * 4.1.1 语法与语义 * – （1）语法与…

人工智能 2023年6月1日
0086
蒙特卡洛方法（入门详解）

一、定义蒙特卡洛又称统计试验法，是基于概率论的算法。其实质就是将问题转化为一个概率问题，并用计算机模拟产生一堆随机数，再对随机数进行统计工作。蒙特卡洛模拟方法=建立概率模型+…

人工智能 2023年7月5日
0068
[rknpu][yolov5]自训练yolov5模型运行于rv1126npu上（一）训练yolov5模型并转换为onnx模型

首先有几个跑通所有流程然后再回来不断调整的坑。其中与这一阶段相关的为： 1）如果用原版yolov5s.pt这种模型构架，最终跑出来，在不使用零拷贝的情况下可能在1126上运行一次6…

人工智能 2023年7月13日
0089
TensorFlow中的变量和常量有什么区别

TensorFlow中的变量和常量有什么区别？在TensorFlow中，变量（Variables）和常量（Constants）是两种重要的数据类型。虽然它们都可以存储和操作数据，…

人工智能 2023年12月30日
0046
极智Paper | YOLOv7 更高更快更强

欢迎关注我的公&#…

人工智能 2023年7月10日
0063
知识图谱：知识表示学习（KRL）/知识嵌入（KE）必读论文

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0077
三层神经网络实现手写数字图像分类

数据集采用MNIST。MNIST 数据集包含 4 个文件，分别是训练集图像、训练集标记、测试集图像、测试集标记。每个样本都由灰度图像（即单通道图像）及其标记组成，图像大小为 2…

人工智能 2023年7月13日
0089
密度峰值聚类介绍与matlab实现

1、算法简介： 2014年6⽉，Alex Rodriguez和Alessandro Laio在Science上发表了⼀篇名《Clustering by fast search an…

人工智能 2023年6月2日
00102
Yolov5训练自己的数据集–从数据集制作到模型训练、测试（一）

本篇博客将记录本人从下载下Yolov5官方代码，到数据集制作、模型训练、测试整个过程，轻重的项目代码本人的环境将一起奉上，如有错误，欢迎在评论区指正。同为程序员，一起进步！先放上…

人工智能 2023年7月12日
0086
ViT模型关联的Layer Normalization研读（一）初学者

巨佬请关闭！原文： https://arxiv.org/abs/1607.06450 博主水平有限，本文目的是让大一大二有志于NLP领域学习的大学生们少走弯路，可当作学习笔记。今天…

人工智能 2023年5月27日
0077
目标检测综述

原创：悬鱼铭目标检测(Object Detection)任务是计算机视觉中非常重要的基础问题，也是解决图像分割、目标跟踪、图像描述等问题的基础。目标检测是检测输入图像是否存在给定…

人工智能 2023年6月10日
0090
图像分割总结

在DeepLab中，将输入图片与输出特征图的尺度之比记为 output_stride，如输入图片是256256，输出是1616，那么output_stride为16。这篇总结主要…

人工智能 2023年5月26日
0076
Pytorch中对tensor进行reshape的两种常用方法 .view() & .reshape()

在使用Pytorch时，我们经常需要对一些tensor进行形状的改变以满足神经网络对输入数据的维度要求，我们最常用的两种方式就是 .view() 以及 .reshape(), 除此…

人工智能 2023年7月21日
0062
世界杯太精彩了，带大家用Python做个足球游戏，边玩游戏边看比赛

文章目录 Python零基础快速制作足球游戏（附源代码）前言一、Python环境说明二、游戏程序说明 1、游戏开始界面 2、人物移动规则说明，可支持两位玩家 3、足球规则 4…

人工智能 2023年7月29日
0078
【机器学习】详解 BERT

目录摘要一、引言二、原理 2.1 模型架构 2.2 输入/输出表示 2.3 预训练 BERT 2.3.1 任务一：Masked LM 2.3.1 任务二：Next Sente…

人工智能 2023年5月28日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【skLearn 回归模型】Lasso —- 选择最佳正则化参数 ＜带交叉验证的Lasso LassoCV()＞