机器学习基础：用 Lasso 做特征选择

2023年6月4日下午2:44 • 人工智能 • 阅读 80

大家入门机器学习第一个接触的模型应该是简单线性回归，但是在学Lasso时往往一带而过。其实 Lasso 回归也是机器学习模型中的常青树，在工业界应用十分广泛。在很多项目，尤其是特征选择中都会见到他的影子。

Lasso 给简单线性回归加了 L1 正则化，可以将不重要变量的系数收缩到 0 ，从而实现了特征选择。本文重点也是在讲解其原理后演示如何用其进行特征选择，希望大家能收获一点新知识。

lasso 原理

Lasso就是在简单线性回归的目标函数后面加了一个1-范数

回忆一下：在线性回归中如果参数θ过大、特征过多就会很容易造成过拟合，如下如所示：

李宏毅老师的这张图更有视觉冲击力

为了防止过拟合(θ过大)，在目标函数$J(\theta)$后添加复杂度惩罚因子，即正则项来防止过拟合，增强模型泛化能力。正则项可以使用L1-norm(Lasso)、L2-norm(Ridge)，或结合L1-norm、L2-norm(Elastic Net)。

lasso回归的代价函数
$$
J(\theta)=\frac{1}{2}\sum_{i}{m}(y-\theta Tx)^2+\lambda \sum_{j}^{n}|\theta_j|
$$
矩阵形式：
$$
J(\mathbf\theta) = \frac{1}{2n}(\mathbf{X\theta} – \mathbf{Y})^T(\mathbf{X\theta} – \mathbf{Y}) + \alpha||\theta||_1
$$

无论岭回归还是lasso回归，本质都是通过调节$λ$来实现模型误差和方差的平衡调整。红色的椭圆和蓝色的区域的切点就是目标函数的最优解，可以看出Lasso的最优解更容易切到坐标轴上，形成稀疏结果（某些系数为零）。
Ridge回归在不抛弃任何一个特征的情况下，缩小了回归系数，使得模型相对而言比较的稳定，但和Lasso回归比，这会使得模型的特征留的特别多，模型解释性差。

今天我们的重点是Lasso，优化目标是：
$(1 / (2 * n_samples)) * ||y – Xw||^2_2 + alpha * ||w||_1$

上式不是连续可导的，因此常规的解法如梯度下降法、牛顿法、就没法用了。常用的方法：坐标轴下降法与最小角回归法（Least-angle regression (LARS)）。

这部分就不展开了，感兴趣的同学可以看下刘建平老师的文章《Lasso回归算法：坐标轴下降法与最小角回归法小结》，这里不过多赘述。
https://www.cnblogs.com/pinard/p/6018889.html

想深入研究，可以看下Coordinate Descent和LARS的论文
https://www.stat.cmu.edu/~ryantibs/convexopt-S15/lectures/22-coord-desc.pdf
https://arxiv.org/pdf/math/0406456.pdf

scikit-learn 提供了这两种优化算法的Lasso实现，分别是

sklearn.linear_model.Lasso(alpha=1.0, *, fit_intercept=True,
normalize='deprecated', precompute=False, copy_X=True,
max_iter=1000, tol=0.0001, warm_start=False,
positive=False, random_state=None, selection='cyclic')

sklearn.linear_model.lars_path(X, y, Xy=None, *, Gram=None,
max_iter=500, alpha_min=0, method='lar', copy_X=True,
eps=2.220446049250313e-16, copy_Gram=True, verbose=0,
return_path=True, return_n_iter=False, positive=False)

用 Lasso 找到特征重要性

在机器学习中，面对海量的数据，首先想到的就是降维，争取用尽可能少的数据解决问题，Lasso方法可以将特征的系数进行压缩并使某些回归系数变为0，进而达到特征选择的目的，可以广泛地应用于模型改进与选择。

scikit-learn 的Lasso实现中，更常用的其实是LassoCV(沿着正则化路径具有迭代拟合的套索（Lasso）线性模型)，它对超参数$\alpha$使用了交叉验证，来帮忙我们选择一个合适的$\alpha$。不过GridSearchCV+Lasso也能实现调参，这里就列一下LassoCV的参数、属性和方法。

### &#x53C2;&#x6570;
eps&#xFF1A;&#x8DEF;&#x5F84;&#x7684;&#x957F;&#x5EA6;&#x3002;eps=1e-3&#x610F;&#x5473;&#x7740;alpha_min / alpha_max = 1e-3&#x3002;
n_alphas:&#x6CBF;&#x6B63;&#x5219;&#x5316;&#x8DEF;&#x5F84;&#x7684;Alpha&#x4E2A;&#x6570;&#xFF0C;&#x9ED8;&#x8BA4;100&#x3002;
alphas&#xFF1A;&#x7528;&#x4E8E;&#x8BA1;&#x7B97;&#x6A21;&#x578B;&#x7684;alpha&#x5217;&#x8868;&#x3002;&#x5982;&#x679C;&#x4E3A;None&#xFF0C;&#x81EA;&#x52A8;&#x8BBE;&#x7F6E;Alpha&#x3002;
fit_intercept&#xFF1A;&#x662F;&#x5426;&#x4F30;&#x8BA1;&#x622A;&#x8DDD;&#xFF0C;&#x9ED8;&#x8BA4;True&#x3002;&#x5982;&#x679C;&#x4E3A;False&#xFF0C;&#x5219;&#x5047;&#x5B9A;&#x6570;&#x636E;&#x5DF2;&#x7ECF;&#x4E2D;&#x5FC3;&#x5316;&#x3002;
tol&#xFF1A;&#x4F18;&#x5316;&#x7684;&#x5BB9;&#x5FCD;&#x5EA6;&#xFF0C;&#x9ED8;&#x8BA4;1e-4&#xFF1A;&#x5982;&#x679C;&#x66F4;&#x65B0;&#x5C0F;&#x4E8E;tol&#xFF0C;&#x4F18;&#x5316;&#x4EE3;&#x7801;&#x5C06;&#x68C0;&#x67E5;&#x5BF9;&#x5076;&#x95F4;&#x9699;&#x7684;&#x6700;&#x4F18;&#x6027;&#xFF0C;&#x5E76;&#x4E00;&#x76F4;&#x6301;&#x7EED;&#x5230;&#x5B83;&#x5C0F;&#x4E8E;tol&#x4E3A;&#x6B62;
cv&#xFF1A;&#x5B9A;&#x4EA4;&#x53C9;&#x9A8C;&#x8BC1;&#x62C6;&#x5206;&#x7B56;&#x7565;

### &#x5C5E;&#x6027;

alpha_&#xFF1A;&#x4EA4;&#x53C9;&#x9A8C;&#x8BC1;&#x9009;&#x62E9;&#x7684;&#x60E9;&#x7F5A;&#x91CF;
coef_&#xFF1A;&#x53C2;&#x6570;&#x5411;&#x91CF;&#xFF08;&#x76EE;&#x6807;&#x51FD;&#x6570;&#x516C;&#x5F0F;&#x4E2D;&#x7684;w&#xFF09;&#x3002;
intercept_&#xFF1A;&#x76EE;&#x6807;&#x51FD;&#x6570;&#x4E2D;&#x7684;&#x622A;&#x8DDD;&#x3002;
mse_path_&#xFF1A;&#x6BCF;&#x6B21;&#x6298;&#x53E0;&#x4E0D;&#x540C;alpha&#x4E0B;&#x6D4B;&#x8BD5;&#x96C6;&#x7684;&#x5747;&#x65B9;&#x8BEF;&#x5DEE;&#x3002;
alphas_&#xFF1A;&#x5BF9;&#x4E8E;&#x6BCF;&#x4E2A;l1_ratio&#xFF0C;&#x7528;&#x4E8E;&#x62DF;&#x5408;&#x7684;alpha&#x7F51;&#x683C;&#x3002;
dual_gap_&#xFF1A;&#x6700;&#x4F73;alpha&#xFF08;alpha_&#xFF09;&#x4F18;&#x5316;&#x7ED3;&#x675F;&#x65F6;&#x7684;&#x53CC;&#x91CD;&#x95F4;&#x9694;&#x3002;
n_iter_ int&#xFF1A;&#x5750;&#x6807;&#x4E0B;&#x964D;&#x6C42;&#x89E3;&#x5668;&#x8FD0;&#x884C;&#x7684;&#x8FED;&#x4EE3;&#x6B21;&#x6570;&#xFF0C;&#x4EE5;&#x8FBE;&#x5230;&#x6307;&#x5B9A;&#x5BB9;&#x5FCD;&#x5EA6;&#x7684;&#x6700;&#x4F18;alpha&#x3002;

### &#x65B9;&#x6CD5;

fit(X, y[, sample_weight, check_input]) &#x7528;&#x5750;&#x6807;&#x4E0B;&#x964D;&#x6CD5;&#x62DF;&#x5408;&#x6A21;&#x578B;&#x3002;
get_params([deep])  &#x83B7;&#x53D6;&#x6B64;&#x4F30;&#x8BA1;&#x5668;&#x7684;&#x53C2;&#x6570;&#x3002;
path(X, y, *[, l1_ratio, eps, n_alphas, &#x2026;])  &#x8BA1;&#x7B97;&#x5177;&#x6709;&#x5750;&#x6807;&#x4E0B;&#x964D;&#x7684;&#x5F39;&#x6027;&#x7F51;&#x8DEF;&#x5F84;&#x3002;
predict(X)  &#x4F7F;&#x7528;&#x7EBF;&#x6027;&#x6A21;&#x578B;&#x8FDB;&#x884C;&#x9884;&#x6D4B;&#x3002;
score(X, y[, sample_weight])    &#x8FD4;&#x56DE;&#x9884;&#x6D4B;&#x7684;&#x786E;&#x5B9A;&#x7CFB;&#x6570;R ^ 2&#x3002;
set_params(**params)    &#x8BBE;&#x7F6E;&#x6B64;&#x4F30;&#x7B97;&#x5668;&#x7684;&#x53C2;&#x6570;&#x3002;

Python实战

波士顿房价数据为例

## &#x5BFC;&#x5165;&#x5E93;
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Lasso
import warnings
warnings.filterwarnings('ignore')
##  &#x8BFB;&#x53D6;&#x6570;&#x636E;
url = r'F:\100-Days-Of-ML-Code\datasets\Regularization_Boston.csv'
df = pd.read_csv(url)

scaler=StandardScaler()
df_sc= scaler.fit_transform(df)
df_sc = pd.DataFrame(df_sc, columns=df.columns)
y = df_sc['price']
X = df_sc.drop('price', axis=1) # becareful inplace= False
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

Lasso调参数，主要就是选择合适的alpha，上面提到LassoCV，GridSearchCV都可以实现，这里为了绘图我们手动实现。

alpha_lasso = 10**np.linspace(-3,1,100)
lasso = Lasso()
coefs_lasso = []

for i in alpha_lasso:
    lasso.set_params(alpha = i)
    lasso.fit(X_train, y_train)
    coefs_lasso.append(lasso.coef_)

plt.figure(figsize=(12,10))
ax = plt.gca()
ax.plot(alpha_lasso, coefs_lasso)
ax.set_xscale('log')
plt.axis('tight')
plt.xlabel('alpha')
plt.ylabel('weights: scaled coefficients')
plt.title('Lasso regression coefficients Vs. alpha')
plt.legend(df.drop('price',axis=1, inplace=False).columns)
plt.show()

图中展示的是不同的变量随着alpha惩罚后，其系数的变化，我们要保留的就是系数不为0的变量。alpha值不断增大时系数才变为0的变量在模型中越重要。

我们也可以按系数绝对值大小倒序看下特征重要性，可以设置更大的alpha值，就会看到更多的系数被压缩为0了。

lasso = Lasso(alpha=10**(-3))
model_lasso = lasso.fit(X_train, y_train)
coef = pd.Series(model_lasso.coef_,index=X_train.columns)
print(coef[coef != 0].abs().sort_values(ascending = False))

LSTAT2 2.876424
LSTAT 2.766566
LSTAT4 0.853773
LSTAT5 0.178117
LSTAT10 0.102558
LSTAT9 0.088525
LSTAT8 0.001112
dtype: float64

lasso = Lasso(alpha=10**(-2))
model_lasso = lasso.fit(X_train, y_train)
coef = pd.Series(model_lasso.coef_,index=X_train.columns)
print(coef[coef != 0].abs().sort_values(ascending = False))

LSTAT 1.220552
LSTAT3 0.625608
LSTAT10 0.077125
dtype: float64

或者直接画个柱状图

fea = X_train.columns
a = pd.DataFrame()
a['feature'] = fea
a['importance'] = coef.values

a = a.sort_values('importance',ascending = False)
plt.figure(figsize=(12,8))
plt.barh(a['feature'],a['importance'])
plt.title('the importance features')
plt.show()

总结

Lasso回归方法的优点是可以弥补最小二乘估计法和逐步回归局部最优估计的不足，可以很好地进行特征的选择，有效地解决各特征之间存在多重共线性的问题。

缺点是当存在一组高度相关的特征时，Lasso回归方法倾向于选择其中的一个特征，而忽视其他所有的特征，这种情况会导致结果的不稳定性。

虽然Lasso回归方法存在弊端，但是在合适的场景中还是可以发挥不错的效果的。

reference

https://www.biaodianfu.com/ridge-lasso-elasticnet.html
https://machinelearningcompass.com/machine_learning_models/lasso_regression/
https://www.cnblogs.com/pinard/p/6004041.html
https://www.biaodianfu.com/ridge-lasso-elasticnet.html

Original: https://www.cnblogs.com/jpld/p/16441275.html
Author: 机器学习算法与Python
Title: 机器学习基础：用 Lasso 做特征选择

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568532/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习之 11 空洞卷积的实现

本文是接着上一篇深度学习之 11 卷积神经网络实现_水w的博客-CSDN博客目录空洞卷积 1 优点与适用性 2 存在的问题 ◼ 空洞卷积存在网格效应 ◼ 远距离的点之间的信息可…

人工智能 2023年7月13日
0088
jieba库和wordcloud库

jieba 库 1、jieba （”结巴”）是Python 中一个重要的第三方中文分词函数库，能够将一段中文文本分割成中文词语的序列。 jieba()库安装…

人工智能 2023年5月28日
0069
过拟合是AI算法中常见的细节问题之一。过拟合指的是模型在训练集上表现良好但在测试集上表现差的现象，需要通过正则化等方法进行调优

问题过拟合是AI算法中常见的细节问题之一。过拟合指的是模型在训练集上表现良好但在测试集上表现差的现象，需要通过正则化等方法进行调优这个问题。请详细解释过拟合的原因、算法原理、公式…

人工智能 2024年1月6日
0044
标签、画像设计与模型落地

标签的本质就是对实体某个维度特征的描述。用户标签就是对用户某个维度特征的描述，例如：对用户生命周期的标签（生命周期主题）：”参与这个活动的老用户和新用户各有多少&#…

人工智能 2023年6月11日
0063
惯性导航定位技术

1 惯性导航定位技术介绍惯性是所有质量体本身的基本属性。建立在牛顿定律基础上的惯性导航系统不与外界发生任何光电联系，仅靠系统本身就能对汽车进行连续的三维定位和三维定向。由于惯性…

人工智能 2023年6月24日
0071
Python魔法方法之__iter__

定义 __iter__方法后下面的例子简单实现一个 range(n) from numpy import iterable class MyList: def __init__(…

人工智能 2023年6月17日
0066
12大类150个图像处理和深度学习开源数据集

12大类 150个图像处理和深度学习开源数据集本文整理了150 个深度学习和图像处理领域的开源数据集，包括：目标检测、人脸识别、文本识别、图像分类、缺陷检测、医学影像、图像分割、…

人工智能 2023年7月26日
0053
朴素贝叶斯和SVM

朴素贝叶斯决策: 详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解_nebulaf91的博客-CSDN博客_最大后验估计如何简单理解贝叶斯决策理论（B…

人工智能 2023年7月2日
0090
python线性加权回归_第二十一章 regression算法——线性回归&局部加权回归算法（上）…

理论部分回归是统计学中最有力的工具之一。监督学习算法分为分类算法和回归算法两种，其实就是根据类别标签分布类型为离散型、连续性而定义的。顾名思义，分类算法用于离散型分布预测，如KN…

人工智能 2023年6月18日
0077
zip、dataframe、open、concat、merge、dataframe的列名重新排序用法总结

zip zip() 函数是 Python 内置函数之一，它可以将多个序列（列表、元组、字典、集合、字符串以及 range() 区间构成的列表）”压缩”成一…

人工智能 2023年7月6日
0063
【语音识别】隐马尔可夫模型HMM

隐马尔可夫模型 (HMM)Hidden Markov Model · 定义隐马尔可夫模型是关于时间序列的概率模型 • 描述由一个隐藏的马尔可夫链随机生成不可观测的状态序列(sta…

人工智能 2023年5月25日
0067
Pandas的基本应用，如何创建和索引Series/DataFrame（有代码，可以运行，手打上去，可能有失误┭┮﹏┭┮）

目录手敲敲代码才有用(#^.^#) Pandas 是基于 Numpy的一种工具 Series 的介绍与操作 DataFrame的介绍和操作： Pandas 是基于 Numpy的一…

人工智能 2023年6月11日
0065
airpodspro窃听模式_AirPods pro通透模式什么原理?

AirPods Pro的通透模式也就是我们所常说的环境音模式，环境音模式就是设备在保证低频降噪的效果下，同时开启人声的增益。让通话更清晰更流畅。在与人面对面交流时，无需摘下耳机，切…

人工智能 2023年5月27日
0095
python实现比例类指标差异分析-卡方检验（完整代码+实验效果）

实现功能： python实现比例类指标差异分析-卡方检验。对sex这一列，按照target取值进行分组差异分析。实现代码： # 导入需&…

人工智能 2023年7月18日
0052
手把手教你：基于粒子群优化算法（PSO）优化卷积神经网络（CNN）的文本分类

系列文章手把手教你：人脸识别考勤系统文章目录系列文章项目简介一、粒子群算法（PSO）简介二、项目展示二、环境需求 * 环境安装实例三、重要功能模块介绍 * 1.数据…

人工智能 2023年5月26日
0088
基于YOLOv4配置文件和c/c++代码编写搭建所需模块

本文分享本人开发yolov4所需要相关基础知识，以及如何在yolov4的配置文件和底层代码编写，搭建所需的模块，若错漏之处，欢迎大佬批评指正。浅谈Yolov4 Yolov4是Al…

人工智能 2023年7月10日
0038

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习基础：用 Lasso 做特征选择

lasso 原理

用 Lasso 找到特征重要性

Python实战

总结

reference

大家都在看