【可解释机器学习】-线性回归案例【lasso特征选择版】（python）

2023年6月15日上午4:48 • 人工智能 • 阅读 86

可解释机器学习：黑盒模型可解释性理解指南
作者: 【德】 Christoph Molnar
出版社: 电子工业出版社
译者: 朱明超
英文版（作者在持续更新）：Interpretable Machine Learning
原书github：GitHub – christophM/interpretable-ml-book: Book about interpretable machine learning
注意：原书使用R语言，本文的Python代码为我自己开发。内容基本参考原书，我进行了结构调整，并且添加了自己的理解和其他书籍的知识。

本文在【基础版】上做了以下变化（蓝色）：

本案例模型简述
模型：最基础的多元线性回归
特征选择： lasso选择特征
特征交互：无

本案例数据集简述
目标变量：自行车租赁量，连续型，因此为回归问题
分类特征处理方式：进行one-hot编码，其中未出现的取值（例如春、晴）作为参照类别
连续特征处理方式：使用原始值（不进行标准化和归一化）

lasso要点
为什么使用lasso：当特征数量过多，线性回归模型的解释能力就会下降。lasso使用L1范数对权重加大惩罚，可以使很多权重的估计值为0。
如何选择正则化参数λ：将其视为一个优化参数，通过交叉验证找到模型预测效果+保留特征数量均合适的值。
进行lasso选择时特征构造要求：分类型使用one-hot编码时保留参照类别；由于添加了惩罚项，特征集需要统一进行z-score标准化。
本案例中，lasso仅作为特征选择的工具，后续将lasso选择的k个特征代入线性模型（流程参考基础线性回归模型），特别注意分类特征的入选。

1.3.以正则化参数为x轴，特征数量、评估指标为双y轴画图

1.4.参照图，找到模型预测效果+保留特征数量均合适的正则化参数值

第一，将权重表的值组合为一个DataFrame

第二，对比实例的真实值、预测值、置信区间，并画图

第一步：观察模型拟合效果。

第二步：文本解释特征（数值型和分类型有不同的文本模板）。

具体操作细节请先看【可解释机器学习】-线性回归案例【基础版】（python代码）_python线性回归的例子代码_totobey的博客-CSDN博客，本文不做过多解释了。

第0节：数据集处理

import numpy as np
import pandas as pd
import time  #&#x7EDF;&#x8BA1;&#x8FD0;&#x884C;&#x65F6;&#x95F4;&#x7528;
import copy  #&#x6DF1;&#x62F7;&#x8D1D;&#x7684;&#x65F6;&#x5019;&#x7528;
import _pickle as cPickle
import gc #&#x91CA;&#x653E;&#x5185;&#x5B58;&#x4F7F;&#x7528;
from tqdm import tqdm,tqdm_notebook  #Tqdm &#x662F;&#x4E00;&#x4E2A;&#x5FEB;&#x901F;&#xFF0C;&#x53EF;&#x6269;&#x5C55;&#x7684;Python&#x8FDB;&#x5EA6;&#x6761;
import datetime #&#x5904;&#x7406;&#x65F6;&#x95F4;&#x6570;&#x636E;
import os

from sklearn.preprocessing import OneHotEncoder
from sklearn.linear_model import Lasso
from sklearn.metrics import r2_score,mean_squared_error,roc_auc_score,log_loss
from sklearn.model_selection import KFold
from sklearn.preprocessing import StandardScaler

import matplotlib.pyplot as plt
from matplotlib.pyplot import MultipleLocator, FormatStrFormatter
plt.rcParams['font.sans-serif']=['SimHei'] #&#x7528;&#x6765;&#x6B63;&#x5E38;&#x663E;&#x793A;&#x4E2D;&#x6587;&#x6807;&#x7B7E;
plt.rcParams['axes.unicode_minus']=False #&#x7528;&#x6765;&#x6B63;&#x5E38;&#x663E;&#x793A;&#x8D1F;&#x53F7;
import seaborn as sns
%matplotlib inline
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.filterwarnings("ignore")
pd.set_option('display.max_columns',100)
pd.set_option('max_colwidth',100)

path='../data/'
#&#x539F;&#x59CB;&#x6570;&#x636E;&#x96C6;
bike=pd.read_csv(path+'Bike-Sharing-Dataset/day.csv',parse_dates=['dteday'])
#&#x76EE;&#x524D;&#x4E0B;&#x8F7D;&#x7684;&#x539F;&#x59CB;&#x6570;&#x636E;&#xFF0C;&#x5B63;&#x8282;&#x88AB;&#x66F4;&#x65B0;&#x4E86;&#xFF0C;&#x65E0;&#x6CD5;&#x4E0E;&#x4F5C;&#x8005;&#x4E66;&#x4E2D;&#x7684;&#x6570;&#x5B57;&#x4FDD;&#x6301;&#x4E00;&#x81F4;&#xFF0C;&#x56E0;&#x6B64;&#x5BFC;&#x5165;&#x65E7;&#x6570;&#x636E;&#x96C6;
bike_oldseason=pd.read_csv(path+'Bike-Sharing-Dataset/bike_oldseason.csv' )
bike['season']=bike_oldseason['season'].map({'WINTER':1,'SPRING':2,'SUMMER':3,'FALL':4})
bike.head()

#&#x6DFB;&#x52A0;&#x7279;&#x5F81;days_since_2011&#xFF0C;&#x81EA;&#x6570;&#x636E;&#x96C6;&#x4E2D;&#x7B2C;&#x4E00;&#x5929;&#xFF08;20110101&#xFF09;&#x8D77;&#x7684;&#x5929;&#x6570;&#xFF09;&#xFF0C;&#x5F15;&#x5165;&#x6B64;&#x7279;&#x5F81;&#x4E3A;&#x4E86;&#x8003;&#x8651;&#x968F;&#x65F6;&#x95F4;&#x53D8;&#x5316;&#x7684;&#x8D8B;&#x52BF;
bike['days_since_2011']= (bike['dteday']-min(bike['dteday'])).dt.days
#&#x539F;&#x59CB;&#x6570;&#x636E;&#x96C6;&#x4E2D;&#x7684;&#x51E0;&#x4E2A;&#x7279;&#x5F81;&#x8FDB;&#x884C;&#x4E86;&#x6807;&#x51C6;&#x5316;&#xFF0C;&#x8FD9;&#x91CC;&#x8FD8;&#x539F;&#x5230;&#x539F;&#x59CB;&#x503C;
denormalize weather features:
temp : Normalized temperature in Celsius. The values are derived via (t-t_min)/(t_max-t_min), t_min=-8, t_max=+39 (only in hourly scale)
bike['temp'] = bike['temp'] * (39 - (-8)) + (-8)
windspeed: Normalized wind speed. The values are divided to 67 (max)
bike['windspeed'] = 67 * bike['windspeed']
hum: Normalized humidity. The values are divided to 100 (max)
bike['hum'] = 100 * bike['hum']

#&#x4FDD;&#x7559;&#x7684;&#x7279;&#x5F81;&#xFF1A;&#x79DF;&#x8D41;&#x6570;&#x91CF;cnt(&#x76EE;&#x6807;&#x53D8;&#x91CF;)&#xFF0C;&#x5B63;&#x8282;&#xFF0C;&#x662F;&#x5426;&#x5047;&#x671F;&#xFF08;1&#x662F;&#xFF0C;0&#x4E0D;&#x662F;&#xFF09;&#xFF0C;&#x662F;&#x5426;&#x5DE5;&#x4F5C;&#x65E5;&#xFF08;1&#x662F;&#xFF0C;0&#x4E0D;&#x662F;&#xFF09;&#xFF0C;&#x5929;&#x6C14;&#x60C5;&#x51B5;&#xFF08;&#x6674;&#x3001;&#x96FE;&#x3001;&#x96E8;&#x96EA;&#xFF09;&#xFF0C;&#x6E29;&#x5EA6;&#xFF08;&#x5355;&#x4F4D;&#x4E3A;&#x2103;&#xFF09;&#xFF0C;&#x6E7F;&#x5EA6;&#xFF08;&#x76F8;&#x5BF9;&#x6E7F;&#x5EA6;&#x767E;&#x5206;&#x6BD4;0~100%&#xFF09;&#xFF0C;&#x98CE;&#x901F;&#xFF08;&#x5355;&#x4F4D;&#x4E3A;km/h&#xFF09;&#xFF0C;&#x5929;&#x6570;
select_cols=['cnt','season','holiday', 'workingday', 'weathersit', 'temp', 'hum', 'windspeed', 'days_since_2011']
bike=bike[select_cols]
bike.to_csv(path+'&#x5904;&#x7406;&#x5B8C;&#x6570;&#x636E;&#x96C6;/bike.csv',index=False,encoding='utf_8_sig')


def f_ohe(df,col,new_names=None,keep_cate='auto'):
    '''
    &#x3010;&#x529F;&#x80FD;&#x3011;&#x5BF9;&#x4E00;&#x4E2A;&#x7279;&#x5F81;&#x8FDB;&#x884C;&#x72EC;&#x70ED;&#x7F16;&#x7801;
    &#x3010;&#x53C2;&#x6570;&#x3011;df&#xFF1A;dataframe,&#x6570;&#x636E;&#x96C6;
           col&#xFF1A;str,&#x9700;&#x8981;&#x8FDB;&#x884C;&#x72EC;&#x70ED;&#x7F16;&#x7801;&#x7684;&#x7279;&#x5F81;&#x540D;
           new_names: dic,&#x5982;&#x679C;&#x9700;&#x8981;&#x5BF9;&#x53D6;&#x503C;&#x91CD;&#x547D;&#x540D;&#xFF08;&#x4F7F;&#x7279;&#x5F81;&#x540D;&#x66F4;&#x80FD;&#x8868;&#x8FBE;&#x771F;&#x5B9E;&#x610F;&#x601D;&#xFF09;,&#x5219;&#x65B0;&#x5EFA;&#x4E00;&#x4E2A;&#x5B57;&#x5178;&#xFF0C;&#x9ED8;&#x8BA4;None&#x5219;&#x7279;&#x5F81;&#x540D;&#x4E3A;col_&#x53D6;&#x503C;
           keep_cate: list,&#x9700;&#x8981;&#x4FDD;&#x7559;&#x7684;&#x53D6;&#x503C;&#xFF0C;&#x5982;&#x679C;&#x53D6;&#x503C;&#x662F;&#x6570;&#x503C;&#x578B;&#x5219;&#x9700;&#x8981;&#x5148;&#x6392;&#x5E8F;,&#x4F8B;&#x5982;[[1,3,4]];&#x9ED8;&#x8BA4;'auto'&#x8868;&#x793A;&#x4FDD;&#x7559;&#x6240;&#x6709;&#x503C;
    &#x3010;&#x8FD4;&#x56DE;&#x3011;dataframe
    &#x3010;&#x4E3E;&#x4F8B;&#x3011;t_season=f_ohe(df=bike,col='season',new_names={1:'&#x51AC;',3:'&#x590F;',4:'&#x79CB;'},keep_cate=[[1,3,4]])

    '''
    ohe=OneHotEncoder(dtype=np.int8,handle_unknown='ignore',sparse=False,categories=keep_cate)
    ohe.fit(df[col].values.reshape(-1,1))
    tmp=pd.DataFrame(ohe.transform(df[col].values.reshape(-1,1)))
    org_names=ohe.get_feature_names_out([col]).tolist()  #col&#x4F5C;&#x4E3A;&#x65B0;&#x751F;&#x6210;&#x5B57;&#x6BB5;&#x7684;&#x524D;&#x7F00;
    if new_names is None:
        tmp.columns=org_names
    else:
        new_names_keys=list(new_names.keys()) #&#x83B7;&#x53D6;&#x8F93;&#x5165;&#x7684;keys
        new_names_keys=[col+'_'+str(item) for item in new_names_keys] #&#x8F93;&#x5165;&#x7684;keys&#x52A0;&#x4E0A;col&#x524D;&#x7F00;
        # print(new_names_keys)
        new_names=dict(zip(new_names_keys,list(new_names.values()))) #&#x52A0;&#x4E0A;&#x524D;&#x7F00;&#x7684;keys&#x548C;&#x8F93;&#x5165;&#x7684;values&#x91CD;&#x65B0;&#x6253;&#x5305;&#x4E3A;&#x5B57;&#x5178;
        # print(new_names)
        a=list(pd.Series(data=org_names).map(new_names).values) #list&#x4E0D;&#x80FD;&#x76F4;&#x63A5;map,&#x628A;&#x539F;&#x7279;&#x5F81;&#x540D;map&#x8F6C;&#x4E3A;Series&#x540E;&#x6620;&#x5C04;&#x4E3A;&#x65B0;&#x7279;&#x5F81;&#x540D;
        tmp.columns=[col+'_'+str(item) for item in a]  #&#x52A0;&#x4E0A;col&#x524D;&#x7F00;

    return tmp

#&#x5BF9;&#x4E8E;&#x53D6;&#x503C;&#x6709;&#x4E24;&#x7C7B;&#x7684;&#x7279;&#x5F81;&#xFF08;&#x662F;&#x5426;&#x5047;&#x671F;holiday&#x3001;&#x662F;&#x5426;&#x5DE5;&#x4F5C;&#x65E5;workingday&#xFF09;&#xFF0C;&#x7531;&#x4E8E;&#x672C;&#x8EAB;&#x5DF2;&#x662F;0/1&#x7F16;&#x7801;&#xFF0C;&#x56E0;&#x6B64;&#x4E0D;&#x4F5C;&#x8FDB;&#x4E00;&#x6B65;&#x5904;&#x7406;
#&#x5BF9;&#x4E8E;&#x53D6;&#x503C;>2&#x7C7B;&#x7684;&#x7279;&#x5F81;&#xFF08;&#x5B63;&#x8282;season&#x3001;&#x5929;&#x6C14;&#x60C5;&#x51B5;weathersit&#xFF09;&#xFF0C;&#x8FDB;&#x884C;one-hot&#x7F16;&#x7801;
path='../data/'
bike=pd.read_csv(path+'&#x5904;&#x7406;&#x5B8C;&#x6570;&#x636E;&#x96C6;/bike.csv')
bike

#&#x5B63;&#x8282;&#xFF0C;&#x5168;&#x90E8;&#x7C7B;&#x522B;&#x4FDD;&#x7559;
t_season=f_ohe(df=bike,col='season',new_names={1:'&#x51AC;',2:'&#x6625;',3:'&#x590F;',4:'&#x79CB;'},keep_cate='auto')
#&#x5929;&#x6C14;&#x60C5;&#x51B5;&#xFF0C;&#x5168;&#x90E8;&#x7C7B;&#x522B;&#x4FDD;&#x7559;
t_weathersit=f_ohe(df=bike,col='weathersit',new_names={1:'&#x6674;',2:'&#x96FE;',3:'&#x96E8;&#x96EA;'},keep_cate='auto')

bike_ohe_comp=pd.concat((bike[['cnt','holiday', 'workingday', 'temp', 'hum', 'windspeed', 'days_since_2011']],
                    t_season,t_weathersit),axis=1)
bike_ohe_comp

bike_ohe_comp.to_csv(path+'&#x5904;&#x7406;&#x5B8C;&#x6570;&#x636E;&#x96C6;/bike_ohe_comp.csv',index=False,encoding='utf_8_sig')

path='../data/'
bike_ohe_comp=pd.read_csv(path+'&#x5904;&#x7406;&#x5B8C;&#x6570;&#x636E;&#x96C6;/bike_ohe_comp.csv')
bike_ohe_comp

df=bike_ohe_comp
label='cnt'

feas=df.columns.tolist()
feas.remove(label)
print('&#x7279;&#x5F81;&#x6570;&#x91CF;:',len(feas))

X_train=df[feas]
y_train=df[label]
print('X_train:',X_train.shape)
print('y_train:',y_train.shape)

第一节：使用lasso进行特征选择

1.1.进行z-score标准化

scaler = StandardScaler()  # &#x6807;&#x51C6;&#x5316; z = (x - u) / s
X_train_std = pd.DataFrame(scaler.fit_transform(X_train))
X_train_std.columns=X_train.columns
X_train_std

1.2.运行lasso

def select_feas_lasso(trainX,trainy,metric_name='rmse',kfNum=2):
    '''
        &#x3010;&#x529F;&#x80FD;&#x8BF4;&#x660E;&#x3011;
        &#x3010;&#x53C2;&#x6570;&#x3011;trainX:DataFrame,&#x8BAD;&#x7EC3;&#x96C6;&#x7684;&#x7279;&#x5F81;&#x90E8;&#x5206;&#xFF0C;&#x9700;&#x8981;&#x5148;&#x8FDB;&#x884C;&#x6807;&#x51C6;&#x5316;&#xFF0C;one-hot&#x7F16;&#x7801;&#x9700;&#x8981;&#x4FDD;&#x7559;&#x53C2;&#x7167;&#x7C7B;&#x522B;
               trainy:Series&#xFF0C;&#x8BAD;&#x7EC3;&#x96C6;&#x7684;&#x6807;&#x7B7E;&#x5217;
               metric_name:str&#xFF0C;&#x8BC4;&#x4F30;&#x6307;&#x6807;&#xFF0C;&#x9ED8;&#x8BA4;'rmse',&#x53EF;&#x9009;'logloss','auc'
               kfNum:int,>=2,&#x9ED8;&#x8BA4;2&#xFF0C;&#x4EA4;&#x53C9;&#x9A8C;&#x8BC1;&#x8F6E;&#x6570;
        &#x3010;&#x8FD4;&#x56DE;&#x3011;&#x5B57;&#x5178;&#xFF0C;&#x5305;&#x542B;&#x53C2;&#x6570;array&#xFF0C;&#x8BC4;&#x4F30;&#x6307;&#x6807;&#x5747;&#x503C;&#x3001;&#x6807;&#x51C6;&#x5DEE;&#xFF0C;&#x4FDD;&#x7559;&#x7279;&#x5F81;&#x6570;&#x5747;&#x503C;&#x3001;&#x6807;&#x51C6;&#x5DEE;
        &#x3010;&#x4E3E;&#x4F8B;&#x3011;scaler = StandardScaler()  # &#x6807;&#x51C6;&#x5316; z = (x - u) / s
               X_train_std = pd.DataFrame(scaler.fit_transform(X_train))
               res=select_feas_lasso(trainX=X_train_std,trainy=y_train,metric_name='rmse',kfNum=2)
               lasso_alphas=res['lasso_alphas']
               valid_scores=res['valid_scores']
               keep_var_nums=res['keep_var_nums']
        &#x3010;&#x7248;&#x672C;&#x3011;V1.0

    '''
    s=time.time()
    print('\n********lasso_select_feas...start')
    print('&#x8BC4;&#x4F30;&#x6307;&#x6807;&#xFF1A;',metric_name)
    print('&#x4EA4;&#x53C9;&#x9A8C;&#x8BC1;&#x8F6E;&#x6570;&#xFF1A;',kfNum)
    print('&#x8BAD;&#x7EC3;&#x96C6;&#x5F62;&#x72B6;&#xFF1A;',trainX.shape,type(trainX))

    #&#x5BF9;&#x4E8E;#0.001-100&#xFF0C;&#x4F7F;&#x7528;logspace
    lasso_alphas1 = np.logspace(start=-3, stop=2, num=50, base=10) #0.001-100
    #&#x5BF9;&#x4E8E;&#x6BD4;&#x8F83;&#x5927;&#x7684;lambda&#xFF0C;&#x4F7F;&#x7528;&#x6574;&#x6570;&#x6B65;&#x957F;
    lasso_alphas2 = np.arange(start=100,stop=1000,step=20)
    lasso_alphas= np.concatenate((lasso_alphas1, lasso_alphas2))
    print('&#x5F85;&#x8BA1;&#x7B97;&#x6B63;&#x5219;&#x5316;&#x53C2;&#x6570;&#x6570;&#x91CF;&#xFF1A;',len(lasso_alphas))
    print('&#x5F85;&#x8BA1;&#x7B97;&#x6B63;&#x5219;&#x5316;&#x53C2;&#x6570;&#x6700;&#x5C0F;&#x503C;&#xFF1A;',np.min(lasso_alphas))
    print('&#x5F85;&#x8BA1;&#x7B97;&#x6B63;&#x5219;&#x5316;&#x53C2;&#x6570;&#x6700;&#x5927;&#x503C;&#xFF1A;',np.max(lasso_alphas))

    valid_scores = [] #&#x5B58;&#x50A8;&#x6BCF;&#x4E2A;&#x6B63;&#x5219;&#x5316;&#x53C2;&#x6570;&#x4E0B;&#x7684;&#x8BC4;&#x4F30;&#x6307;&#x6807;&#x5747;&#x503C;&#x5982;rmse
    keep_var_nums = [] #&#x5B58;&#x50A8;&#x6BCF;&#x4E2A;&#x6B63;&#x5219;&#x5316;&#x53C2;&#x6570;&#x4E0B;&#x4FDD;&#x7559;&#x7684;&#x7279;&#x5F81;&#x6570;&#x91CF;&#x5747;&#x503C;
    valid_scores_std = [] #&#x6807;&#x51C6;&#x5DEE;
    keep_var_nums_std = []  #&#x6807;&#x51C6;&#x5DEE;
    for  alpha in tqdm(lasso_alphas):
        clf = Lasso(max_iter=1000,random_state=2020,alpha=alpha)
        kf=KFold(n_splits=kfNum, shuffle=True, random_state=2020)
        valid_score=[]  #&#x5B58;&#x50A8;&#x6BCF;&#x8F6E;&#x4EA4;&#x53C9;&#x9A8C;&#x8BC1;&#x7684;&#x8BC4;&#x4F30;&#x6307;&#x6807;&#x5982;rmse
        keep_var_num=[] #&#x5B58;&#x50A8;&#x6BCF;&#x8F6E;&#x4EA4;&#x53C9;&#x9A8C;&#x8BC1;&#x4FDD;&#x7559;&#x7279;&#x5F81;&#x6570;&#x91CF;
        for i,(trn_index,val_index) in enumerate(kf.split(trainX,trainy)):  #i&#x4ECE;0&#x5F00;&#x59CB;&#xFF0C;&#x53EF;&#x4EE5;&#x663E;&#x793A;&#x7B2C;&#x51E0;&#x8F6E;&#x4E86;
            trn_df=trainX.iloc[trn_index]
            val_df=trainX.iloc[val_index]
            trn_y=trainy.iloc[trn_index]
            val_y=trainy.iloc[val_index]

            clf.fit(X=trn_df, y=trn_y)
            #&#x5229;&#x7528;&#x672C;&#x8F6E;&#x6A21;&#x578B;&#x9884;&#x6D4B;&#x672C;&#x8F6E;&#x9A8C;&#x8BC1;&#x96C6;
            valid_pred=clf.predict(val_df)
            #-------&#x8BA1;&#x7B97;&#x672C;&#x8F6E;&#x8BC4;&#x4F30;&#x6307;&#x6807;--------#
            if metric_name == 'rmse':
                valid_score_this=mean_squared_error(val_y,valid_pred,squared=True)
            elif metric_name == 'logloss':
                valid_score_this=log_loss(y_true=val_y,y_pred=valid_pred)
            elif metric_name == 'auc':
                valid_score_this=roc_auc_score(y_true=val_y,y_score=valid_pred)
            else:
                print('&#x4EB2;&#xFF0C;&#x6CA1;&#x8FD9;&#x8BC4;&#x4F30;&#x6307;&#x6807;')
                return

            valid_score.append(valid_score_this)  #&#x5217;&#x8868;append&#x540E;&#x76F4;&#x63A5;&#x66FF;&#x6362;&#x539F;&#x5BF9;&#x8C61;&#xFF0C;&#x6240;&#x4EE5;&#x4E0D;&#x7528;&#x518D;&#x8D4B;&#x503C;
            # print(valid_score)
            keep_var_num=sum(clf.coef_ != 0) #&#x7EDF;&#x8BA1;&#x7CFB;&#x6570;&#x4E0D;&#x4E3A;0&#x7684;&#x7279;&#x5F81;&#x6570;&#x91CF;&#xFF08;&#x4E0D;&#x542B;&#x622A;&#x8DDD;&#xFF09;
            # print(keep_var_num)
        valid_scores.append(np.mean(valid_score)) #metric&#x53D6;&#x5747;&#x503C;&#xFF0C;&#x5B58;&#x5165;
        keep_var_nums.append(np.mean(keep_var_num)) #&#x4FDD;&#x7559;&#x7279;&#x5F81;&#x6570;&#x91CF;&#x53D6;&#x5747;&#x503C;&#xFF0C;&#x5B58;&#x5165;
        valid_scores_std.append(np.std(valid_score)) #metric&#x53D6;&#x6807;&#x51C6;&#x5DEE;&#xFF0C;&#x5B58;&#x5165;
        keep_var_nums_std.append(np.std(keep_var_num)) #&#x4FDD;&#x7559;&#x7279;&#x5F81;&#x6570;&#x91CF;&#x53D6;&#x5747;&#x503C;&#x53D6;&#x6807;&#x51C6;&#x5DEE;&#xFF0C;&#x5B58;&#x5165;

    res={'lasso_alphas':lasso_alphas,
         'valid_scores':valid_scores,'valid_scores_std':valid_scores_std,
         'keep_var_nums':keep_var_nums,'keep_var_nums_std':keep_var_nums_std}

    return res

res=select_feas_lasso(trainX=X_train_std,trainy=y_train,metric_name='rmse',kfNum=2)

1.3.以正则化参数为x轴，特征数量、评估指标为双y轴画图

lasso_alphas=res['lasso_alphas']
valid_scores=res['valid_scores']
keep_var_nums=res['keep_var_nums']
mertic_name='RMSE'

fig  = plt.figure(figsize=(18, 8))
ax1=fig.add_subplot(111)
ax1.plot(lasso_alphas,keep_var_nums, "b-o",label='&#x7279;&#x5F81;&#x6570;&#x91CF;') #&#x753B;&#x51FA;&#x6298;&#x7EBF;&#x5E76;&#x4E14;&#x6DFB;&#x52A0;&#x5B9E;&#x5FC3;&#x5706;&#x70B9;
ax1.set_ylabel('&#x7279;&#x5F81;&#x6570;&#x91CF;',fontsize=20)
ax1.grid(True) #&#x663E;&#x793A;&#x7F51;&#x683C;&#x7EBF;
xmajorLocator  = MultipleLocator(100)  # x&#x8F74;&#x523B;&#x5EA6;&#x95F4;&#x9694; 100
ymajorLocator  = MultipleLocator(1)    # y&#x8F74;&#x523B;&#x5EA6;&#x95F4;&#x9694; 1
ax1.yaxis.set_major_locator(ymajorLocator)
ax1.xaxis.set_major_locator(xmajorLocator)
plt.xlabel('&#x6B63;&#x5219;&#x5316;&#x53C2;&#x6570;',fontsize=18) #&#x6DFB;&#x52A0;x&#x8F74;&#x540D;&#x79F0;

ax2 = ax1.twinx()
ax2.plot(lasso_alphas,valid_scores, "r-D",label=mertic_name)  #&#x753B;&#x51FA;&#x6298;&#x7EBF;&#x5E76;&#x4E14;&#x6DFB;&#x52A0;&#x5B9E;&#x5FC3;&#x83F1;&#x5F62;
ax2.set_ylabel(mertic_name,fontsize=20)

ax1.legend(loc='center left',fontsize=15) #&#x6DFB;&#x52A0;&#x56FE;&#x4F8B;
ax2.legend(loc='center right',fontsize=15)

plt.title('lasso',fontsize=30)
plt.show()

1.4.参照图，找到模型预测效果+保留特征数量均合适的正则化参数值

### &#x4FDD;&#x7559;5&#x4E2A;&#x53D8;&#x91CF;&#xFF08;&#x793A;&#x4F8B;&#xFF09;
&#x7531;&#x4E8E;&#x753B;&#x56FE;&#x4F7F;&#x7528;&#x7684;&#x662F;&#x4EA4;&#x53C9;&#x9A8C;&#x8BC1;&#xFF0C;&#x540E;&#x7EED;&#x7528;&#x7684;&#x662F;&#x5168;&#x91CF;&#x5B9E;&#x4F8B;&#xFF0C;&#x56E0;&#x6B64;&#x6B63;&#x5219;&#x5316;&#x53C2;&#x6570;&#x503C;&#x53EF;&#x80FD;&#x4F1A;&#x6709;&#x5FAE;&#x5C0F;&#x533A;&#x522B;&#x3002;
&#x4EE5;&#x4E0A;&#x56FE;&#x7684;&#x6B63;&#x5219;&#x5316;&#x53C2;&#x6570;&#x503C;220&#x4E3A;&#x57FA;&#x7840;&#xFF0C;&#x8C03;&#x8BD5;&#x540E;&#x5C06;&#x5176;&#x8BBE;&#x5B9A;&#x4E3A;250
&#x627E;&#x5230;&#x4FDD;&#x7559;&#x7684;5&#x4E2A;&#x53D8;&#x91CF;
best_clf = Lasso(max_iter=1000,random_state=2020,alpha=250)
best_clf.fit(X=X_train_std, y=y_train)
coef=pd.Series(best_clf.coef_,index=best_clf.feature_names_in_)
coef

1.5.确定最终入选特征

连续型变量直接入选（temp、days_since_2011 ）
上表中，季节中只有春季入选，因此其他三个季节（非春季）统一构成参照类别。这与基础线性回归时将春单独作为参照类别有很大不同，后续进行模型解释时要特别注意
上表中，天气情况入选的为晴、雨雪，最终选择雾、雨雪。变更后本质一样，只是将参照类别从雾变更为了晴以提高可解释性

#&#x8FDE;&#x7EED;&#x578B;&#x53D8;&#x91CF;&#x76F4;&#x63A5;&#x5165;&#x9009;&#xFF08;temp&#x3001;days_since_2011 &#xFF09;
#&#x4E0A;&#x8868;&#x4E2D;&#xFF0C;&#x5B63;&#x8282;&#x4E2D;&#x53EA;&#x6709;&#x6625;&#x5B63;&#x5165;&#x9009;&#xFF0C;&#x56E0;&#x6B64;&#x5176;&#x4ED6;&#x4E09;&#x4E2A;&#x5B63;&#x8282;&#xFF08;&#x975E;&#x6625;&#x5B63;&#xFF09;&#x7EDF;&#x4E00;&#x6784;&#x6210;&#x53C2;&#x7167;&#x7C7B;&#x522B;&#x3002;&#x8FD9;&#x4E0E;&#x57FA;&#x7840;&#x7EBF;&#x6027;&#x56DE;&#x5F52;&#x65F6;&#x5C06;&#x6625;&#x5355;&#x72EC;&#x4F5C;&#x4E3A;&#x53C2;&#x7167;&#x7C7B;&#x522B;&#x6709;&#x5F88;&#x5927;&#x4E0D;&#x540C;&#xFF0C;&#x540E;&#x7EED;&#x8FDB;&#x884C;&#x6A21;&#x578B;&#x89E3;&#x91CA;&#x65F6;&#x8981;&#x7279;&#x522B;&#x6CE8;&#x610F;
#&#x4E0A;&#x8868;&#x4E2D;&#xFF0C;&#x5929;&#x6C14;&#x60C5;&#x51B5;&#x5165;&#x9009;&#x7684;&#x4E3A;&#x6674;&#x3001;&#x96E8;&#x96EA;&#xFF0C;&#x6700;&#x7EC8;&#x9009;&#x62E9;&#x96FE;&#x3001;&#x96E8;&#x96EA;&#x3002;&#x53D8;&#x66F4;&#x540E;&#x672C;&#x8D28;&#x4E00;&#x6837;&#xFF0C;&#x53EA;&#x662F;&#x5C06;&#x53C2;&#x7167;&#x7C7B;&#x522B;&#x4ECE;&#x96FE;&#x53D8;&#x66F4;&#x4E3A;&#x4E86;&#x6674;&#x4EE5;&#x63D0;&#x9AD8;&#x53EF;&#x89E3;&#x91CA;&#x6027;
keep_var5=['temp','days_since_2011','season_&#x6625;','weathersit_&#x96FE;','weathersit_&#x96E8;&#x96EA;']

第二节：进行线性回归

df=bike_ohe_comp
label='cnt'

feas=df.columns.tolist()
feas.remove(label)
print('&#x7279;&#x5F81;&#x6570;&#x91CF;:',len(feas))

X_train=df[keep_var5]
y_train=df[label]
print('X_train:',X_train.shape)
print('y_train:',y_train.shape)

2.1.检验多重共线性和目标变量正态性

def checkVIF(df):
    '''
    &#x3010;&#x529F;&#x80FD;&#x3011;&#x8BA1;&#x7B97;&#x65B9;&#x5DEE;&#x81A8;&#x80C0;&#x56E0;&#x5B50;
    &#x3010;&#x53C2;&#x6570;&#x3011;df:dataframe,&#x7279;&#x5F81;&#x96C6;&#xFF08;&#x4E0D;&#x542B;target&#xFF09;
    &#x3010;&#x8FD4;&#x56DE;&#x3011;dataframe&#xFF0C;&#x5C55;&#x793A;&#x5404;&#x4E2A;&#x7279;&#x5F81;&#x7684;VIF
    &#x3010;&#x53C2;&#x8003;&#x3011;&#x5F53;0<vif<10，不存在多重共线性；当10≤vif<100，存在较强的多重共线性；当vif≥100，存在严重多重共线性。 122342338 【来源与介绍】https: blog.csdn.net nixiang_888 article details 【举例】vif1="checkVIF(X_train)" ''' from statsmodels.stats.outliers_influence import variance_inflation_factor #计算方差膨胀因子 statsmodels.tools.tools add_constant #添加常量 df="add_constant(df)" #添加一列常量const作为截距，全部赋值为1（不会改变原数据集） name="df.columns" x="np.matrix(df)" vif_list="[variance_inflation_factor(x,i)" for i in range(x.shape[1])] vif="pd.DataFrame({'feature':name,"VIF":VIF_list})" #删除截距const行 vif.sort_values(['vif'],ascending="False,inplace=True)" vif['remark']="np.where(VIF['VIF']">=100,'&#x4E25;&#x91CD;&#x591A;&#x91CD;&#x5171;&#x7EBF;&#x6027;',np.where(VIF['VIF']>=10,'&#x8F83;&#x5F3A;&#x591A;&#x91CD;&#x5171;&#x7EBF;&#x6027;','&#x65E0;&#x591A;&#x91CD;&#x5171;&#x7EBF;&#x6027;'))

    return VIF

def checkNORM(se,p=0.05,alt='two-sided',if_plot=True):
    '''
    &#x3010;&#x529F;&#x80FD;&#x3011;&#x68C0;&#x9A8C;&#x4E00;&#x7EC4;&#x6570;&#x636E;&#x662F;&#x5426;&#x7B26;&#x5408;&#x6B63;&#x6001;&#x5206;&#x5E03;
    &#x3010;&#x53C2;&#x6570;&#x3011;se:Series
           p&#xFF1A;float,p&#x503C;&#xFF0C;&#x9ED8;&#x8BA4;0.05
           alt&#xFF1A;str,&#x9ED8;&#x8BA4;&#x53CC;&#x4FA7;&#x68C0;&#x9A8C;'two-sided'&#xFF0C;&#x53EF;&#x9009;'less', 'greater'
           if_plot,&#x662F;&#x5426;&#x753B;&#x56FE;&#xFF0C;&#x9ED8;&#x8BA4;True
    &#x3010;&#x8FD4;&#x56DE;&#x3011;dataframe&#xFF0C;&#x5C55;&#x793A;&#x5404;&#x4E2A;&#x7279;&#x5F81;&#x7684;VIF
    &#x3010;&#x53C2;&#x8003;&#x3011;&#x7ED3;&#x679C;&#x8FD4;&#x56DE;&#x4E24;&#x4E2A;&#x503C;&#xFF1A;statistic &#x2192; D&#x503C;&#xFF0C;pvalue &#x2192; P&#x503C;
    &#x3010;&#x5907;&#x6CE8;&#x3011;import matplotlib.pyplot as plt
           %matplotlib inline
    &#x3010;&#x4E3E;&#x4F8B;&#x3011; res=checkNORM(y_train)
    '''
    from scipy import stats

    print('&#x6570;&#x636E;&#x91CF;&#xFF1A;',len(se))

    u = se.mean()  # &#x8BA1;&#x7B97;&#x5747;&#x503C;
    std = se.std()  # &#x8BA1;&#x7B97;&#x6807;&#x51C6;&#x5DEE;
    res=stats.kstest(rvs=se, cdf='norm',args= (u, std), alternative=alt)
    print('p&#x503C;&#x4E3A;:',res[1])
    if res[1]>p:
        print('p&#x503C;>',p,'&#x7B26;&#x5408;&#x6B63;&#x6001;&#x5206;&#x5E03;')
    else:
         print('p&#x503C;<=',p,'不符合正态分布') if if_plot="=True:" fig="plt.figure(figsize" = (10,6)) se.hist(bins="30,alpha" 0.5) #直方图 alpha表示透明度 se.plot(kind="kde" , secondary_y="True)" #核密度估计kde plt.show() return res vif1="checkVIF(X_train)"></=',p,'不符合正态分布')></vif<10，不存在多重共线性；当10≤vif<100，存在较强的多重共线性；当vif≥100，存在严重多重共线性。>

2.2.建模

from statsmodels.regression.linear_model import OLS,GLS #Ordinary least squares&#x666E;&#x901A;&#x6700;&#x5C0F;&#x4E8C;&#x4E58;&#x6CD5;
import statsmodels.formula.api as smf
import statsmodels.api as sm

#&#x5EFA;&#x6A21;&#x65B9;&#x5F0F;1&#xFF1A;&#x4F7F;&#x7528;smf.ols&#xFF0C;&#x81EA;&#x5DF1;&#x7F16;&#x5199;formula&#xFF0C;&#x4F1A;&#x81EA;&#x52A8;&#x6DFB;&#x52A0;&#x5E38;&#x6570;&#x5217;
#cnt&#x4E3A;&#x76EE;&#x6807;&#x53D8;&#x91CF;&#xFF0C;&#x5206;&#x7C7B;&#x7279;&#x5F81;&#x53EF;&#x4F7F;&#x7528;C(season)&#x8FDB;&#x884C;&#x7F16;&#x7801;&#xFF0C;&#x7531;&#x4E8E;&#x672C;&#x6570;&#x636E;&#x96C6;&#x7684;&#x5206;&#x7C7B;&#x7279;&#x5F81;&#x90FD;&#x5DF2;&#x4E8B;&#x5148;&#x7F16;&#x7801;&#xFF0C;&#x56E0;&#x6B64;&#x4E0D;&#x9700;&#x8981;&#x6DFB;&#x52A0;c()
model=smf.ols(formula='cnt ~  season_&#x6625; + weathersit_&#x96FE; + weathersit_&#x96E8;&#x96EA; + temp + days_since_2011 ',data=df)
results=model.fit()
results.summary()

第一，将权重表的值组合为一个DataFrame

df_coef=pd.DataFrame(results.params ) #&#x6743;&#x91CD;
df_coef.columns=['coef']
df_coef['lw']=results.conf_int(alpha=0.05)[0].values #&#x83B7;&#x53D6;&#x6743;&#x91CD;&#x7684;&#x7F6E;&#x4FE1;&#x533A;&#x95F4;&#x4E0B;&#x9650;
df_coef['up']=results.conf_int(alpha=0.05)[1].values #&#x83B7;&#x53D6;&#x6743;&#x91CD;&#x7684;&#x7F6E;&#x4FE1;&#x533A;&#x95F4;&#x4E0A;&#x9650;
df_coef['SE']=results.bse.values #&#x6743;&#x91CD;&#x7684;&#x6807;&#x51C6;&#x8BEF;std err
df_coef['t']=results.tvalues.values #&#x6743;&#x91CD;&#x7684;t&#x7EDF;&#x8BA1;&#x91CF;&#xFF0C;&#x7B49;&#x4E8E;&#x6743;&#x91CD;/&#x6807;&#x51C6;&#x8BEF;
df_coef['p']=results.pvalues.values #&#x53C2;&#x6570;&#x7684;t&#x7EDF;&#x8BA1;&#x7684;&#x53CC;&#x5C3E; p &#x503C;
df_coef['t_abs']=abs(df_coef['t']) #&#x6C42;&#x7EDD;&#x5BF9;&#x503C;
#&#x6839;&#x636E;&#x5DF2;&#x6709;&#x7684;&#x6743;&#x91CD;&#x548C;&#x7F6E;&#x4FE1;&#x533A;&#x95F4;&#x8BA1;&#x7B97;&#x4E0A;&#x4E0B;&#x8BEF;&#x5DEE;&#xFF0C;&#x8BA1;&#x7B97;&#x5B8C;&#x6BD5;&#x540E;&#x53D1;&#x73B0;&#x4E0A;&#x4E0B;&#x8BEF;&#x5DEE;&#x76F8;&#x540C;
df_coef['lw_err']=df_coef['coef']-df_coef['lw']
df_coef['up_err']=df_coef['up']-df_coef['coef']
df_coef

第二，对比实例的真实值、预测值、置信区间，并画图

#&#x83B7;&#x53D6;&#x7F6E;&#x4FE1;&#x533A;&#x95F4;&#x7684;&#x4E0A;&#x4E0B;&#x9650;
pred_ols = results.get_prediction()
iv_l = pred_ols.summary_frame()["obs_ci_lower"]
iv_u = pred_ols.summary_frame()["obs_ci_upper"]

#results.fittedvalues&#x4E3A;&#x6A21;&#x578B;&#x9884;&#x6D4B;&#x503C;
target_df=pd.concat((y_train,results.fittedvalues,iv_l,iv_u),axis=1)
target_df.columns=['true','predict','ci_lower','ci_upper']
target_df['resid']=results.resid #&#x6B8B;&#x5DEE;
target_df

#&#x6309;&#x5B9E;&#x9645;&#x79DF;&#x8D41;&#x91CF;&#x6392;&#x5E8F;&#xFF0C;reset_index&#x662F;&#x5FC5;&#x987B;&#x7684;
plot_df=target_df.sort_values(['true']).reset_index(drop=True)

fig, ax = plt.subplots(figsize=(20, 9))

ax.plot(plot_df['true'], "b-", label="True")
ax.plot(plot_df['predict'], "r", label="Pred")
ax.plot(plot_df['ci_lower'], "r--",alpha=0.5) #&#x7F6E;&#x4FE1;&#x533A;&#x95F4;&#x865A;&#x7EBF;
ax.plot(plot_df['ci_upper'], "r--",alpha=0.5) #&#x7F6E;&#x4FE1;&#x533A;&#x95F4;&#x865A;&#x7EBF;
plt.fill_between(plot_df.index,plot_df['ci_lower'],plot_df['ci_upper'],color='blue',alpha=0.15)
ax.legend(loc="best")

plt.ylabel('&#x81EA;&#x884C;&#x8F66;&#x79DF;&#x8D41;&#x91CF;',fontsize=18)
plt.title('&#x771F;&#x5B9E;&#x503C;&#x4E0E;&#x9884;&#x6D4B;&#x503C;&#x5BF9;&#x6BD4;',fontsize=20)
plt.show()

上图中，蓝线为真实值，红色实线为预测值，蓝紫色为置信区间。
由上图可知，左侧租赁量较小时，部分预测值远高于真实值且波动较大；右侧租赁量较大时，预测值整体偏低。
由此图也可以看出，前文中提到的线性回归模型的【同方差性】在现实中是很难满足的。
本案例数据量较小，如果数据量较大，可以随机抽样后再画图。

#&#x6B8B;&#x5DEE;&#x2014;&#x2014;&#x540C;&#x65B9;&#x5DEE;&#x6027;
#1.&#x5E94;&#x8BE5;&#x4E3A;&#x5747;&#x503C;&#x662F;0&#x7684;&#x6B63;&#x6001;&#x5206;&#x5E03;
sns.set(style="whitegrid",font_scale=1.2)#&#x8BBE;&#x7F6E;&#x4E3B;&#x9898;&#xFF0C;&#x6587;&#x672C;&#x5927;&#x5C0F;
plt.hist(target_df['resid'])
plt.show()

#2.&#x6B8B;&#x5DEE;&#x4E0E;predict&#x4E4B;&#x95F4;&#x5E94;&#x8BE5;&#x4E0D;&#x76F8;&#x5173;
#regplot&#x9ED8;&#x8BA4;&#x53C2;&#x6570;&#x7EBF;&#x6027;&#x56DE;&#x5F52;&#x56FE;
plt.figure(figsize=(8, 8))
sns.set(style="whitegrid",font_scale=1.2)#&#x8BBE;&#x7F6E;&#x4E3B;&#x9898;&#xFF0C;&#x6587;&#x672C;&#x5927;&#x5C0F;
g=sns.regplot(x='resid', y='predict', data=target_df,
             color='#000000',#&#x8BBE;&#x7F6E;marker&#x53CA;&#x7EBF;&#x7684;&#x989C;&#x8272;
             # marker='*',#&#x8BBE;&#x7F6E;marker&#x5F62;&#x72B6;
             )

下面进行模型解释。

第一步：观察模型拟合效果。

观察调整后R方（解释一个该值很低的模型是没有意义的，对权重的任何解释都没有意义）。

该模型的调整后R方是0.756，表示该模型解释了目标结果75.6%的总方差，拟合度较优。
未进行特征选择的模型调整后R方是0.79，为了提高可解释性（减少特征数量），牺牲了一部分的模型预测准确度。

第二步：文本解释特征（数值型和分类型有不同的文本模板）。

数值特征文本模板：当所有其他特征保持不变时，特征x增加一个单位，则预测结果y增加β。

分类特征文本模板：当所有其他特征保持不变时，将特征x从参照类别改变为其他类别时，预测结果y会增加β。

观察权重（上图中coef列）（由于本数据集使用了原始值，即未进行标准化和归一化，因此可以直接进行表述）：
温度（数值特征）：当所有其他特征保持不变时，将温度升高1℃，自行车的预测数量增加96辆（基础线性回归为110，近似）。
季节（分类特征）：所有其他特征保持不变，春季的自行车租赁量比其他三个季节少了692辆（注意，由于只有春季入选，因此其他三个季节（非春季）统一构成参照类别）。

第三步：解释截距。

截距权重：对所有数值特征为0和分类特征为参照类别的实例，模型预测值即为截距的权重。上述解释通常没有意义（特征全部为0 的实例通常无实际含义）。但是，当特征标准化（均值为0，标准差为1）时，这种解释将会有实际含义，此时截距反应所有特征都处于均值时实例的预测结果。

本例中，截距的权重为2399，表示当处于非春季、晴天，温度为0，且为2011年1月1号时，预测的自行车数量为1766辆。以上解释无实际意义。

第四步：解释特征重要性。

使用t-统计量的绝对值解释特征重要性，（t=权重/SE，其中SE是标准误）。特征的重要性随着权重的增加而增加，随着方差的增加而减小（方差越大表明对正确值的把握越小）。

本例中，t统计量已经被计算出来了，上图中的t=coef/std err。

plot_df=df_coef.drop(index='Intercept') #&#x5220;&#x9664;&#x622A;&#x8DDD;&#x884C;
plot_df=plot_df.sort_values(['t_abs']) #&#x6392;&#x5E8F;

fig = plt.figure(figsize = (9,5))
plt.barh(plot_df.index,plot_df['t_abs']) #&#x753B;&#x6C34;&#x5E73;&#x6761;&#x5F62;&#x56FE;

#&#x8BBE;&#x7F6E;x&#x8F74;y&#x8F74;
plt.xlabel('t-value&#x7EDD;&#x5BF9;&#x503C;',fontsize=18)
plt.ylabel('&#x7279;&#x5F81;',fontsize=18)
plt.xticks(fontsize=12) #&#x653E;&#x5927;&#x6A2A;&#x7EB5;&#x5750;&#x6807;&#x523B;&#x5EA6;&#x7EBF;&#x4E0A;&#x7684;&#x7279;&#x5F81;&#x540D;&#x5B57;&#x4F53;
plt.yticks(fontsize=12)
plt.title('&#x7279;&#x5F81;&#x91CD;&#x8981;&#x6027;',fontsize=20)
plt.show()

由上图可知，最重要的特征为距离2011年第一天的天数，排名第二的为温度，排名第三的为是否是雨雪天气 （与基础线性回归排名一致）

第五步：进一步可视化解释权重。

第二步已通过文本解释了权重（coef）的实际含义，这一步根据权重和置信区间画权重图。

plot_df=df_coef.drop(index='Intercept') #&#x5220;&#x9664;&#x622A;&#x8DDD;&#x884C;
fig = plt.figure(figsize = (11,7))
#&#x7531;&#x4E8E;&#x4E0A;&#x4E0B;&#x8BEF;&#x5DEE;&#x76F8;&#x540C;&#xFF0C;&#x56E0;&#x6B64;&#x76F4;&#x63A5;&#x7528; xerr=plot_df['lw_err']&#xFF0C;&#x5426;&#x5219;&#x53EF;&#x4EE5;&#x4F7F;&#x7528;xerr=plot_df[['lw_err','up_err']].T.values&#x6765;&#x5206;&#x522B;&#x89C4;&#x5B9A;&#x4E0A;&#x4E0B;&#x9650;
plt.errorbar(x=plot_df['coef'], y=plot_df.index,xerr=plot_df['lw_err'], color="black", capsize=3,
             linestyle="None",
             marker="s", markersize=7, mfc="black", mec="black")

plt.grid(True) #&#x663E;&#x793A;&#x7F51;&#x683C;&#x7EBF;

plt.xlabel('&#x6743;&#x91CD;&#x4F30;&#x8BA1;',fontsize=18)
plt.ylabel('&#x7279;&#x5F81;',fontsize=18)
plt.xticks(fontsize=12) #&#x653E;&#x5927;&#x6A2A;&#x7EB5;&#x5750;&#x6807;&#x523B;&#x5EA6;&#x7EBF;&#x4E0A;&#x7684;&#x7279;&#x5F81;&#x540D;&#x5B57;&#x4F53;
plt.yticks(fontsize=12)
plt.title('&#x6743;&#x91CD;&#x4F30;&#x8BA1;&#x56FE;',fontsize=20)

plt.axvline(c="c",ls="--",lw=2) #&#x539F;&#x70B9;&#x7AD6;&#x7EBF;
plt.show()

由上图可知：
1.雨雪天气对自行车租赁量有很大的负效应。
2.天数、温度的置信区间很短，估计值接近于0，但特征效应在统计上是显著的。
3.如果某特征的权重接近于0，并且95%的置信区间包含0，这表明该效应在统计上不显著。（基础线性回归中有是否工作日）

权重图的问题：
各个特征的量纲不一样，比如天气情况反映了晴天和雨雪天的差异，但是温度只反映了1℃的变化情况。
因此可以通过在建模前对特征进行标准化（均值为0，标准差为1），使估计的权重更具有可比性。

第六步：可视化效应图。

效应图（effect plot）帮助了解权重和特征的组合对数据预测的贡献程度。特征效应为每个特征的权重乘以实例的特征值。如改变特征的量纲，则权重会发生变化，但特征效应不会改变。

通过画箱线图（注意，分类特征总结为一个箱线图），可以观察下面几个方面：1）特征效应的正负性；2）特征效应的绝对值大小；3）特征效应的方差（如果方差小，则意味着这个特征几乎在所有实例中都有类似的贡献）。

#&#x6C42;&#x7279;&#x5F81;&#x6548;&#x5E94;&#x2014;&#x2014;&#x6BCF;&#x4E2A;&#x7279;&#x5F81;&#x7684;&#x6743;&#x91CD;&#x4E58;&#x4EE5;&#x5B9E;&#x4F8B;&#x7684;&#x7279;&#x5F81;&#x503C;
w=df_coef['coef'].values
w_order=[] #&#x5C06;&#x7279;&#x5F81;&#x6743;&#x91CD;&#x4E0E;&#x5B9E;&#x4F8B;&#x4E2D;&#x7684;&#x987A;&#x5E8F;&#x4E00;&#x4E00;&#x5BF9;&#x5E94;
my_dict={0:4,1:5,2:1,3:2,4:3} #&#x6743;&#x91CD;&#x8868;&#x4E0E;&#x6570;&#x636E;&#x96C6;&#x4E2D;&#x7279;&#x5F81;&#x7684;&#x5BF9;&#x5E94;&#x987A;&#x5E8F;
for i in range(5):
    w_order.insert(i,w[my_dict[i]])

#&#x8BA1;&#x7B97;&#x7279;&#x5F81;&#x6548;&#x5E94;
effect=X_train*w_order

#&#x5206;&#x7C7B;&#x7279;&#x5F81;&#x5408;&#x5E76;
effect['season']=np.sum(effect[['season_&#x6625;']],axis=1)
effect['weathersit']=np.sum(effect[['weathersit_&#x96FE;','weathersit_&#x96E8;&#x96EA;']],axis=1)
effect

plt.subplots(figsize=(9, 9))

cols=[ 'temp',   'days_since_2011',
       'season', 'weathersit']
sns.boxplot(data=effect[cols],orient="h",width=0.5,whis=0.5, palette="Set2")

plt.grid(True) #&#x663E;&#x793A;&#x7F51;&#x683C;&#x7EBF;

plt.xlabel('&#x7279;&#x5F81;&#x6548;&#x5E94;',fontsize=18)
plt.ylabel('&#x7279;&#x5F81;',fontsize=18)
plt.xticks(fontsize=12) #&#x653E;&#x5927;&#x6A2A;&#x7EB5;&#x5750;&#x6807;&#x523B;&#x5EA6;&#x7EBF;&#x4E0A;&#x7684;&#x7279;&#x5F81;&#x540D;&#x5B57;&#x4F53;
plt.yticks(fontsize=12)
plt.title('&#x7279;&#x5F81;&#x6548;&#x5E94;&#x56FE;',fontsize=20)

plt.axvline(c="c",ls="--",lw=2) #&#x539F;&#x70B9;&#x7AD6;&#x7EBF;
plt.show()

由上图可知：
1.对预测自行车租赁数量正向贡献最大的来自温度和天数。
2.天气的情况参照类别为晴天，图中说明除了晴天外的天气（雾、雨雪）都会对自行车租赁量产生负向影响。

第七步：通过效应图解释单个实例。

通过计算单个实例的特征效应，可以得到这个实例的各个特征对预测有多大的贡献。

步骤1：得到这个实例的预测值、所有实例的平均预测值、这个实例的实际值。将这个实例的预测值与所有实例的平均预测值进行对比，如果差距很大，则进一步解释原因。

步骤2：计算这个实例的特征效应，然后加入第六步的特征效应图中。即将这个实例的特征效应与所有实例的特征效应分布进行比较，得出结论。

single_idx=5 #&#x7B2C;6&#x4E2A;&#x5B9E;&#x4F8B;
print(bike_ohe.loc[single_idx])

target_predict=target_df.loc[single_idx,'predict']
target_predict_mean=np.mean(target_df['predict'])
target_true=target_df.loc[single_idx,'true']
print('&#x8BE5;&#x5B9E;&#x4F8B;&#x9884;&#x6D4B;&#x503C;',target_predict)
print('&#x6240;&#x6709;&#x5B9E;&#x4F8B;&#x5E73;&#x5747;&#x9884;&#x6D4B;&#x503C;',target_predict_mean)
print('&#x8BE5;&#x5B9E;&#x4F8B;&#x5B9E;&#x9645;&#x503C;',target_true)

plt.subplots(figsize=(9, 9))

cols=[ 'temp',   'days_since_2011',
       'season', 'weathersit']
sns.boxplot(data=effect[cols],orient="h",width=0.5,whis=0.5, palette="Set2")

plt.grid(True) #&#x663E;&#x793A;&#x7F51;&#x683C;&#x7EBF;

plt.xlabel('&#x7279;&#x5F81;&#x6548;&#x5E94;',fontsize=18)
plt.ylabel('&#x7279;&#x5F81;',fontsize=18)
plt.xticks(fontsize=12) #&#x653E;&#x5927;&#x6A2A;&#x7EB5;&#x5750;&#x6807;&#x523B;&#x5EA6;&#x7EBF;&#x4E0A;&#x7684;&#x7279;&#x5F81;&#x540D;&#x5B57;&#x4F53;
plt.yticks(fontsize=12)
plt.title('&#x5355;&#x4E2A;&#x5B9E;&#x4F8B;&#x7684;&#x7279;&#x5F81;&#x6548;&#x5E94;&#x56FE;',fontsize=20)

plt.axvline(c="c",ls="--",lw=2) #&#x539F;&#x70B9;&#x7AD6;&#x7EBF;

#&#x753B;&#x5355;&#x4E2A;&#x5B9E;&#x4F8B;&#x4E2D;&#x6BCF;&#x4E2A;&#x7279;&#x5F81;&#x7684;&#x6548;&#x5E94;
for col in cols:
    col_index=cols.index(col) #&#x83B7;&#x53D6;&#x67D0;&#x4E2A;&#x7279;&#x5F81;&#x5728;&#x7279;&#x5F81;&#x540D;&#x5217;&#x8868;&#x7684;&#x7D22;&#x5F15;&#x4F4D;&#x7F6E;
    plt.plot(effect.loc[single_idx,col], col_index,'rx', ms=10)  #rx &#x7EA2;&#x8272;&#x53C9;&#x53F7;&#xFF0C;ms&#x63A7;&#x5236;&#x5927;&#x5C0F;

plt.show()

以数据集中第6个实例为例：
相较于所有实例的平均预测值4504辆，该实例的预测值很小，只有1251辆自行车被租赁。
效应图揭示了原因：
1.该实例温度的特征效应较小，这一天温度仅为1.6℃，与其他大多数日期的温度相比较低（温度权重为正）。
2.该实例天数的特征效应也较小，该实例自第一天起仅过了5天（天数权重为正）。

参考：statsmodels模块的fit_regularized实现lasso

&#x53C2;&#x8003;&#xFF1A;statsmodels&#x6A21;&#x5757;&#x7684;fit_regularized&#x5B9E;&#x73B0;lasso
from statsmodels.regression.linear_model import OLS,GLS #Ordinary least squares&#x666E;&#x901A;&#x6700;&#x5C0F;&#x4E8C;&#x4E58;&#x6CD5;
import statsmodels.formula.api as smf
import cvxopt #lasso&#x9700;&#x8981; &#x51F8;&#x4F18;&#x5316;&#x6A21;&#x5757;
import statsmodels.api as sm

#&#x5EFA;&#x6A21;&#x65B9;&#x5F0F;1&#xFF1A;&#x4F7F;&#x7528;smf.ols&#xFF0C;&#x81EA;&#x5DF1;&#x7F16;&#x5199;formula&#xFF0C;&#x4F1A;&#x81EA;&#x52A8;&#x6DFB;&#x52A0;&#x5E38;&#x6570;&#x5217;
#cnt&#x4E3A;&#x76EE;&#x6807;&#x53D8;&#x91CF;&#xFF0C;&#x5206;&#x7C7B;&#x7279;&#x5F81;&#x53EF;&#x4F7F;&#x7528;C(season)&#x8FDB;&#x884C;&#x7F16;&#x7801;&#xFF0C;&#x7531;&#x4E8E;&#x672C;&#x6570;&#x636E;&#x96C6;&#x7684;&#x5206;&#x7C7B;&#x7279;&#x5F81;&#x90FD;&#x5DF2;&#x4E8B;&#x5148;&#x7F16;&#x7801;&#xFF0C;&#x56E0;&#x6B64;&#x4E0D;&#x9700;&#x8981;&#x6DFB;&#x52A0;c()
model=smf.ols(formula='cnt ~  season_&#x590F; +  season_&#x79CB; + season_&#x51AC; + holiday + workingday +weathersit_&#x96FE; + weathersit_&#x96E8;&#x96EA; + temp + hum + windspeed +days_since_2011 ',data=df)
results=model.fit_regularized(method='sqrt_lasso',alpha=10)
results

Original: https://blog.csdn.net/totobey/article/details/124994579
Author: totobey
Title: 【可解释机器学习】-线性回归案例【lasso特征选择版】（python）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613725/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Large-Scale Relation Learning for Question Answering over Knowledge Bases with Pre-trained Langu论文笔记

文章目录 * – 一. 简介 – + 1.知识库问答（KBQA）介绍 + 2.知识库问答（KBQA）的主要挑战 + 3.以往方案 + 4.本文方法 &#82…

人工智能 2023年6月1日
0082
yolov5 deepsort 基于yolov5和deepsort的行人跟踪计数系统【yolov5】【deepsort】【行人检测】【跟踪计数】

行人跟踪计数系统 * – 介绍 – 环境 – 项目源码（github) – 部分代码* 虚拟环境介绍本项目使用yolov5作为检…

人工智能 2023年6月16日
00144
大数据之实时数据分析之Apache Doris数据库

一、概要 Apache Doris是一款现代 MPP (Massively Parallel Processing大规模并行处理)的分布式 SQL 分析数据库，所谓分析数据库就是…

人工智能 2023年7月15日
00118
985大学新增专业，考数据结构+自然语言处理！中央民族大学新增语言信息安全…

中央民族大学是一所985大学，位于北京市。虽然是一所985，但是计算机学科评估C-，软件工程学科评估没有，计算机实力在985中非常弱，即使放到211大学中也不强。前段时间，这样一…

人工智能 2023年5月27日
0098
Keras之二分类问题

Keras之二分类问题一、Keras开发概述 Keras模型主要包括以下几个部骤：(1)定义训练数据：输入张量和目标张量。(2)定义层的组成网络（即模型），将输入映射到目标。(3…

人工智能 2023年7月3日
00104
RNNoise算法

RNNoise算法论文阅读摘要尽管噪声抑制是信号处理中的一个相对成熟的领域，但它仍然依赖于估计器算法和参数微调。本文中，作者展示了一种噪声抑制的混合DSP/深度学习方法。作者在…

人工智能 2023年5月27日
00139
推荐两款桌面OCR识别神器~

前言今天分享的是两款OCR识别软件 PandaOCR：OCR文字识别翻译、游戏机翻懒人视频字幕提取：字幕提取、语音识别转字幕一般OCR识别工具都用的是大厂识别引擎，如百度、搜狗…

人工智能 2023年5月25日
00104
自然语言处理NLP星空智能对话机器人系列：第4、5、6、7次星空智能对话机器人Zoom线上演示安排

自然语言处理NLP星空智能对话机器人系列：第4、5、6、7次星空智能对话机器人Zoom线上演示安排月是故乡明、祝福大家和家人中秋节一切喜悦圆满由于过节等因素，需要把9月19号的…

人工智能 2023年6月1日
00109
图入度大于出度 java实现_GitHub – bulebule00/Knowledge_Graph_Partitioning: 基于密度的大规模知识图谱分割算法…

[TOC] 基于节点纬度的知识图谱分割目录说明 ./Database 目录存放数据集 ./Image 存放readme中的相关图片 ./Tools 存放相关工具代码 Neo4j …

人工智能 2023年6月10日
0082
Android导入OpenCV库

1、下载OpenCV库官网下载 https://opencv.org/releases/ 这是我下载的版本4.5.5 ; 2、导入OpenCV库注意直接导入OpenCV里面的s…

人工智能 2023年7月18日
0095
服务器（Linux系统）指定目录安装Anaconda教程

1.下载 ①通过weg命令下载: Xshell终端输入命令：  wget -c https://repo.anaconda.com/archive/Anacond…

人工智能 2023年7月22日
0092
什么是递归神经网络（RNN）中的梯度消失问题

什么是递归神经网络（RNN）中的梯度消失问题递归神经网络（Recurrent Neural Network，RNN）是一种用于处理序列数据的神经网络结构。与传统前馈神经网络不同，…

人工智能 2024年1月1日
0058
librosa、nnAudio、torchAudio三者的差异

librosa、nnAudio、torchAudio三者的差异 python可以使用的语音处理第三方库一览图 * – 下面是三个模块的简单使用参考 python可以使…

人工智能 2023年5月25日
0078
使用LIME解释CNN

我们已经介绍过很多解析机器学习模型的方法，例如如pdp、LIME和SHAP，但是这些方法都是用在表格数据的，他们能不能用在神经网络模型呢？今天我们来LIME解释CNN。图像与表格…

人工智能 2023年6月27日
0078
相机和livox激光雷达外参标定：ROS功能包—livox_camera_lidar_calibration 介绍

相机和livox激光雷达外参标定：ROS功能包—livox_camera_lidar_calibration 相机与激光雷达外参标定功能包介绍环境配置及功能包安装 …

人工智能 2023年6月2日
00114
AcWing第 76 场周赛

给定两个由小写字母构成的字符串 ss 和 tt，请你判断 ss 的反转字符串是不是 tt。输入格式第一行包含字符串 ss。第二行包含字符串 tt。输出格式如果 ss 的反…

人工智能 2023年6月27日
00109

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【可解释机器学习】-线性回归案例【lasso特征选择版】（python）

1.1.进行z-score标准化

1.2.运行lasso

1.3.以正则化参数为x轴，特征数量、评估指标为双y轴画图

1.4.参照图，找到模型预测效果+保留特征数量均合适的正则化参数值

1.5.确定最终入选特征

2.1.检验多重共线性和目标变量正态性

2.2.建模

第一，将权重表的值组合为一个DataFrame

第二， 对比实例的真实值、预测值、置信区间，并画图

第一步：观察模型拟合效果。

第二步：文本解释特征（数值型和分类型有不同的文本模板）。

第三步：解释截距。

第四步：解释特征重要性。

第五步：进一步可视化解释权重。

第六步：可视化效应图。

第七步：通过效应图解释单个实例。

大家都在看

第二，对比实例的真实值、预测值、置信区间，并画图