数据挖掘（六）——回归算法

2023年6月17日下午7:00 • 人工智能 • 阅读 62

本文主要介绍回归问题的算法，包括线性回归、岭回归、losso回归、多项式回归算法。

理论介绍见(2条消息) 回归算法_langsiming的博客-CSDN博客_回归算法

1、线性回归

一元线性回归分析
多元线性回归分析

这里的目标函数（损失函数）的推导实际运用了极大似然的思想，假设误差服从高斯分布，使误差最小。

2、岭回归

岭回归是对线性回归的变体

3、losso回归

losso回归模型是对线性回归的另一种改进，可以防止出现过拟合

4、多项式回归

多项式模型的损失函数与多元线性回归的损失函数相同，都是最小二乘误差。求解最优模型也是求解使得损失函数最小的参数，还是用梯度下降法。

5、梯度下降法

10 回归算法 – 梯度下降在线性回归中的应用 – 简书 (jianshu.com)

批量梯度下降

随机梯度下降

小批量梯度下降

6、正则化

其中，L1范数容易得到稀疏解。

6、评估指标

7、回归算法实操

实验介绍

本实验使用Lasso回归模型作为汽车价格预测的模型，该模型相对于岭回归模型来说，更容易产生权重为0的特征项，这个特点符合汽车价格预测的任务。因为影响汽车的价格的关键因素不多，数据集中的很多特征项可以不考虑在内。

数据集

汽车价格预测，根据汽车的各种特征属性，对汽车的价格进行预测。汽车价格预测数据集主要包含以下，主要包括3类指标:

汽车的各种特性.

symboling保险风险评级：(-3, -2, -1, 0, 1, 2, 3).

normalized-losses 每辆保险车辆年平均相对损失支付.

类别属性

make: 汽车的商标（奥迪，宝马。。。）

fuel-type: 汽油还是天然气

aspiration: 涡轮

num-of-doors: 两门还是四门

body-style: 硬顶车、轿车、掀背车、敞篷车

drive-wheels: 驱动轮

engine-location: 发动机位置

engine-type: 发动机类型

num-of-cylinders: 几个气缸

fuel-system: 燃油系统

连续指标

bore: continuous from 2.54 to 3.94.

stroke: continuous from 2.07 to 4.17.

compression-ratio: continuous from 7 to 23.

horsepower: continuous from 48 to 288.

peak-rpm: continuous from 4150 to 6600.

city-mpg: continuous from 13 to 49.

highway-mpg: continuous from 16 to 54.

price: 价格，5118 ~45400.

任务一导入包

导入相关的工具包，便于后续的开发使用。

输入：

&#x5BFC;&#x5165;&#x76F8;&#x5173;&#x5305;
import numpy as np
import pandas as pd

&#x5BFC;&#x5165;&#x53EF;&#x89C6;&#x5316;&#x5305;
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno #&#x7F3A;&#x5931;&#x6570;&#x636E;&#x53EF;&#x89C6;&#x5316;&#x5DE5;&#x5177;&#x5305;

&#x7EDF;&#x8BA1;&#x51FD;&#x6570;&#x5DE5;&#x5177;&#x5305;
from statsmodels.distributions.empirical_distribution  import ECDF
from sklearn.metrics import mean_squared_error, r2_score

&#x673A;&#x5668;&#x5B66;&#x4E60;&#x6A21;&#x578B;&#x5DE5;&#x5177;&#x5305;
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.linear_model import LinearRegression, Lasso, LassoCV
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestRegressor

&#x8BBE;&#x7F6E;&#x56FA;&#x5B9A;&#x7684;&#x968F;&#x673A;&#x6570;&#x79CD;&#x5B50;&#xFF0C;&#x4FDD;&#x8BC1;&#x6BCF;&#x6B21;&#x968F;&#x673A;&#x4EA7;&#x751F;&#x7684;&#x6570;&#x5B57;&#x7684;&#x4E00;&#x81F4;
seed = 100

任务二获取数据

使用pandas，从本地获取数据集，数据集的地址需要根据实际的路径替换。

输入：


csv_dir = '/data/dm/Auto-Data.csv' # &#x6839;&#x636E;&#x5B9E;&#x9645;&#x8DEF;&#x5F84;&#x8FDB;&#x884C;&#x66FF;&#x6362;
## &#x901A;&#x8FC7;&#x67E5;&#x770B;CSV&#x4E2D;&#x7684;&#x6570;&#x636E;&#x770B;&#x5230;&#xFF0C;&#x7F3A;&#x5931;&#x6570;&#x636E;&#x662F;&#x7528; &#x2018;&#xFF1F;&#x2019;&#x8868;&#x793A;&#x7684;
## &#x56E0;&#x6B64;&#x6CE8;&#x610F;&#xFF0C;&#x4F7F;&#x7528;pandas&#x8BFB;&#x5165;&#x6570;&#x636E;&#x65F6;&#x9700;&#x8981;&#x6307;&#x5B9A;na_values&#xFF0C;&#x5426;&#x5219;&#x5728;&#x7F3A;&#x5931;&#x503C;&#x53EF;&#x89C6;&#x5316;&#x65F6;&#x4E0D;&#x80FD;&#x6B63;&#x5E38;&#x663E;&#x793A;
data = pd.read_csv(csv_dir, na_values='?', engine='python')

任务三探索数据

了解数据类型及基本情况
数据质量检查：主要包括检查数据中是否有错误，如性别类型，是否会有拼写错误的，把female 拼写为fmale等等，诸如此类

步骤1 数据概览

&#x5206;&#x6790;&#x6570;&#x636E;&#x7C7B;&#x578B;&#xFF0C;&#x770B;&#x54EA;&#x4E9B;&#x662F;&#x5206;&#x7C7B;&#x6570;&#x636E;&#xFF0C;&#x54EA;&#x4E9B;&#x662F;&#x6570;&#x503C;&#x578B;&#x6570;&#x636E;&#xFF0C;
&#x7528;&#x6765;&#x8FDB;&#x884C;&#x6570;&#x636E;&#x7C7B;&#x578B;&#x8F6C;&#x6362;&#x7684;&#x4F9D;&#x636E;
data.dtypes

&#x8F93;&#x51FA;
symboling              int64
normalized-losses    float64
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                 float64
stroke               float64
compression-ratio    float64
horsepower           float64
peak-rpm             float64
city-mpg               int64
highway-mpg            int64
price                float64
dtype: object

&#x67E5;&#x770B;&#x6570;&#x636E;&#x7684;&#x57FA;&#x672C;&#x4FE1;&#x606F;
## &#x8FD4;&#x56DE;&#x6570;&#x636E;&#x603B;&#x91CF;&#xFF0C;&#x7279;&#x5F81;&#x5217;&#x6570;&#x91CF;&#xFF0C;&#x6240;&#x6709;&#x7279;&#x5F81;&#x5217;&#x7684;&#x6570;&#x636E;&#x7C7B;&#x578B;&#x3001;&#x7A7A;&#x503C;&#x6570;&#x91CF;&#x7B49;&#x7B80;&#x8981;&#x4FE1;&#x606F;
data.info()

&#x67E5;&#x770B;&#x6570;&#x636E;&#x91CF;&#x7684;&#x5927;&#x5C0F;&#xFF0C;&#x5E76;&#x9884;&#x89C8;&#x6570;&#x636E;&#x7684;&#x524D;5&#x6761;&#x6570;&#x636E;
print(data.shape)   # 205,26
data.head(5)

&#x67E5;&#x770B;&#x6570;&#x636E;&#x6709;&#x54EA;&#x4E9B;&#x7279;&#x5F81;&#x5217;
print(data.columns)

输出：

Index(['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration',
       'num-of-doors', 'body-style', 'drive-wheels', 'engine-location',
       'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type',
       'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke',
       'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg',
       'highway-mpg', 'price'],
      dtype='object')

&#x5BF9;&#x6570;&#x503C;&#x578B;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x63CF;&#x8FF0;&#x7EDF;&#x8BA1;,&#x4F1A;&#x8FD4;&#x56DE;&#x4E00;&#x4E2A;DataFrame&#x7ED3;&#x6784;&#x7684;&#x6570;&#x636E;
## DataFrame.describe(percentiles=None, include=None, exclude=None)
## &#x53C2;&#x6570;&#x89E3;&#x91CA;&#xFF1A;
##percentiles&#xFF1A; 1&#x3001;&#x767E;&#x5206;&#x4F4D;&#x6570;&#xFF1A;&#x6570;&#x5B57;&#x5217;&#x8868;&#xFF0C;&#x53EF;&#x9009;&#xFF1A;&#x8F93;&#x51FA;&#x4E2D;&#x5305;&#x542B;&#x7684;&#x767E;&#x5206;&#x4F4D;&#x6570;&#x3002; &#x5168;&#x90E8;&#x5E94;&#x8BE5;&#x5728;0&#x548C;1&#x4E4B;&#x95F4;&#x3002;&#x9ED8;&#x8BA4;&#x503C;&#x4E3A;[.25&#xFF0C;.5&#xFF0C;.75]&#xFF0C;&#x8FD4;&#x56DE;&#x7B2C;25&#xFF0C;&#x7B2C;50&#x548C;&#x7B2C;75&#x767E;&#x5206;&#x4F4D;&#x6570;
##include&#xFF1A;&#x8981;&#x5305;&#x62EC;&#x5728;&#x7ED3;&#x679C;&#x4E2D;&#x7684;&#x767D;&#x540D;&#x5355;&#x6570;&#x636E;&#x7C7B;&#x578B;&#x3002;
###        all&#xFF1A;&#x8F93;&#x5165;&#x7684;&#x6240;&#x6709;&#x5217;&#x90FD;&#x5C06;&#x5305;&#x542B;&#x5728;&#x8F93;&#x51FA;&#x4E2D;&#xFF1B;&#x7C7B;&#x4F3C;dtypes&#x7684;&#x5217;&#x8868;&#xFF1A;
###        &#x5C06;&#x7ED3;&#x679C;&#x9650;&#x5236;&#x4E3A;&#x63D0;&#x4F9B;&#x7684;&#x6570;&#x636E;&#x7C7B;&#x578B;&#x3002; &#x5C06;&#x7ED3;&#x679C;&#x9650;&#x5236;&#x4E3A;&#x6570;&#x5B57;&#x7C7B;&#x578B;&#xFF0C;&#x63D0;&#x4EA4;numpy.number&#x3002;&#x8981;&#x5C06;&#x5176;&#x9650;&#x5236;&#x4E3A;&#x5206;&#x7C7B;&#x5BF9;&#x8C61;&#xFF0C;&#x8BF7;&#x63D0;&#x4EA4;numpy.object&#x6570;&#x636E;&#x7C7B;&#x578B;&#x3002; &#x5B57;&#x7B26;&#x4E32;&#x4E5F;&#x53EF;&#x4EE5;&#x4EE5;select_dtypes&#x7684;&#x6837;&#x5F0F;&#x4F7F;&#x7528;&#xFF08;&#x4F8B;&#x5982;&#xFF0C;df.describe&#xFF08;include = ['O']&#xFF09;&#xFF09;
###        &#x9ED8;&#x8BA4;&#xFF1A;&#x7ED3;&#x679C;&#x5C06;&#x5305;&#x62EC;&#x6240;&#x6709;&#x6570;&#x5B57;&#x5217;
data_desc = data.describe()
print(data_desc)

步骤2 检查数据

&#x6240;&#x6709;&#x5206;&#x7C7B;&#x578B;&#x7684;&#x7279;&#x5F81;
classes = ['make', 'fuel-type', 'aspiration', 'num-of-doors',
           'body-style', 'drive-wheels', 'engine-location',
           'engine-type', 'num-of-cylinders', 'fuel-system']

&#x5BF9;&#x4E8E;&#x6BCF;&#x4E00;&#x4E2A;&#x5206;&#x7C7B;&#x578B;&#x7684;&#x7279;&#x5F81;&#xFF0C;&#x4F7F;&#x7528;.unique()&#x67E5;&#x770B;&#x6709;&#x591A;&#x5C11;&#x53D6;&#x503C;
for each in classes:
    print(each + ':
')
    print(data[each].unique())
    print('
')

任务四数据预处理

数据预处理是非常重要的环节，干净合理的数据是模型成功的关键因素，。数据预处理主要包括以下几个环节：

缺失值处理
异常值处理：对数值型、类别性特征进行缺失值处理。
特征重加工：对数值型的特征进行特征重加工，例如去除相关性较高的特征。
特征编码：对类别型特征进行编码，便于回归模型的处理。

步骤1 缺失值分析&处理

缺失值查看：观测异常值的缺失情况，可通过missingno提供的可视化工具，也可以以计数的形式，查看缺失值及所占比例。

缺失值处理方法： 1、缺失值较少时可以直接去掉； 2、缺失值较多时可用已有的值取平均值或众数； 3、用已知的数做回归模型，进行预测。

缺失值查看

&#x901A;&#x8FC7;&#x56FE;&#x793A;&#x67E5;&#x770B;&#x7F3A;&#x5931;&#x503C;
seaborn&#x9884;&#x5148;&#x5B9A;&#x4E49;&#x4E86;5&#x4E2D;&#x4E3B;&#x9898;&#x6837;&#x5F0F;&#xFF0C;&#x4EE5;&#x9002;&#x5408;&#x4E0D;&#x540C;&#x573A;&#x666F;&#x9700;&#x8981;,sns.set style&#x53C2;&#x6570;&#xFF1A;
## darkgrid &#x9ED1;&#x8272;&#x7F51;&#x683C;&#xFF08;&#x9ED8;&#x8BA4;&#xFF09;
## whitegrid &#x767D;&#x8272;&#x7F51;&#x683C;
## dark &#x9ED1;&#x8272;&#x80CC;&#x666F;
## white &#x767D;&#x8272;&#x80CC;&#x666F;
## ticks &#x523B;&#x5EA6;&#x503C;
sns.set(style='ticks') #&#x8BBE;&#x7F6E;sns&#x7684;&#x6837;&#x5F0F;&#x80CC;&#x666F;
msno.matrix(data)

输出：

&#x7F3A;&#x5931;&#x503C;&#x7EDF;&#x8BA1;

&#x6839;&#x636E;&#x4EE5;&#x4E0A;&#x6570;&#x636E;&#x53EF;&#x4EE5;&#x770B;&#x51FA;&#xFF0C;&#x53EA;&#x6709;nrmaized-losses&#x5217;&#x7F3A;&#x5931;&#x503C;&#x6BD4;&#x8F83;&#x591A;&#xFF0C;&#x5176;&#x4F59;&#x7684;&#x7F3A;&#x5931;&#x503C;&#x5F88;&#x5C11;
&#x770B;&#x4E00;&#x4E0B;&#x5177;&#x4F53;&#x7F3A;&#x5931;&#x591A;&#x5C11;
null_cols = ['normalized-losses', 'num-of-doors', 'bore', 'stroke', 'horsepower', 'peak-rpm', 'price']
total_rows = data.shape[0]
for each_col in null_cols:
    # &#x4F7F;&#x7528;.isnull().sum() &#x7EDF;&#x8BA1;&#x7A7A;&#x503C;&#x6570;&#x91CF;
    # print('{}:{}'.format(each_col,data[each_col].isnull().sum() / total_rows))
    print('{}:{}'.format(each_col, pd.isnull(data[each_col]).sum() / total_rows))

输出：

normalized-losses:0.2
num-of-doors:0.00975609756097561
bore:0.01951219512195122
stroke:0.01951219512195122
horsepower:0.00975609756097561
peak-rpm:0.00975609756097561
price:0.01951219512195122

#normalized-losses&#x7F3A;&#x5931;&#x503C;&#x5904;&#x7406;

&#x67E5;&#x770B;nrmaized-losses&#x7684;&#x5206;&#x5E03;&#x60C5;&#x51B5;
sns.set(style='darkgrid')
plt.figure(figsize=(12,5))
plt.subplot(121)

&#x7D2F;&#x8BA1;&#x5206;&#x5E03;&#x66F2;&#x7EBF;
cdf = ECDF(data['normalized-losses'])
cdf = [[each_x, each_y] for each_x, each_y in zip(cdf.x, cdf.y)]
cdf = pd.DataFrame(cdf, columns=['x','y'])
sns.lineplot(x="x", y="y",data=cdf)

输出：

plt.subplot(122)
&#x76F4;&#x65B9;&#x56FE;
x = data['normalized-losses'].dropna()
sns.distplot(x, hist=True, kde=True, kde_kws={"color": "k", "lw": 3, "label": "KDE"},
                   hist_kws={"histtype": "step", "linewidth": 3,
                             "alpha": 1, "color": "g"})

输出：

&#x67E5;&#x770B;&#x4E0D;&#x540C;symboling&#x4E0B;normalized-losses&#x5206;&#x5E03;,symboling&#x4FDD;&#x9669;&#x98CE;&#x9669;&#x8BC4;&#x7EA7;&#xFF1A;(-3, -2, -1, 0, 1, 2, 3).

data.groupby('symboling')['normalized-losses'].describe()

out：

&#x5176;&#x4ED6;&#x7EF4;&#x5EA6;&#x7684;&#x7F3A;&#x5931;&#x503C;&#x8F83;&#x5C0F;&#xFF0C;&#x76F4;&#x63A5;&#x5220;&#x9664;
sub_set = ['num-of-doors', 'bore', 'stroke', 'horsepower', 'peak-rpm', 'price']
## &#x4F7F;&#x7528;dropna&#x65B9;&#x6CD5;&#x5220;&#x9664;&#x7F3A;&#x5931;&#x503C;
## &#x4F7F;&#x7528;reset_index&#x91CD;&#x7F6E;&#x7D22;&#x5F15;&#x503C;&#xFF0C;drop=True&#x8868;&#x793A;&#x4E22;&#x5F03;&#x539F;&#x7D22;&#x5F15;
data = data.dropna(subset=sub_set).reset_index(drop=True)

&#x7528;&#x5206;&#x7EC4;&#x7684;&#x5E73;&#x5747;&#x503C;&#x8FDB;&#x884C;&#x586B;&#x5145;
## groupby&#xFF1A;&#x5206;&#x7EC4;&#x5904;&#x7406;
### &#x4E00;&#x822C;&#x60C5;&#x51B5;&#x4E0B;&#xFF0C;&#x6211;&#x4EEC;&#x5728;groupby&#x4E4B;&#x540E;&#x4F7F;&#x7528;aggregate , filter &#x6216; apply&#x6765;&#x6C47;&#x603B;&#x6570;&#x636E;
### aggregation&#x4F1A;&#x8FD4;&#x56DE;&#x6570;&#x636E;&#x7684;&#x7F29;&#x51CF;&#x7248;&#x672C;&#xFF0C;&#x800C;transformation&#x80FD;&#x8FD4;&#x56DE;&#x5B8C;&#x6574;&#x6570;&#x636E;&#x7684;&#x67D0;&#x4E00;&#x53D8;&#x6362;&#x7248;&#x672C;&#x4F9B;&#x6211;&#x4EEC;&#x91CD;&#x7EC4;&#x3002;
### &#x8FD9;&#x6837;&#x7684;transformation&#xFF0C;&#x8F93;&#x51FA;&#x7684;&#x5F62;&#x72B6;&#x548C;&#x8F93;&#x5165;&#x4E00;&#x81F4;&#x3002;&#x4E00;&#x4E2A;&#x5E38;&#x89C1;&#x7684;&#x4F8B;&#x5B50;&#x662F;&#x901A;&#x8FC7;&#x51CF;&#x53BB;&#x5206;&#x7EC4;&#x5E73;&#x5747;&#x503C;&#x6765;&#x5C45;&#x4E2D;&#x6570;&#x636E;&#x3002;
## fillna&#xFF1A;&#x7A7A;&#x503C;&#x586B;&#x5145;&#x65B9;&#x6CD5;
data['normalized-losses'] = data.groupby('symboling')['normalized-losses'].transform(lambda x: x.fillna(x.mean()))
print(data.shape) #(193, 26)
data.head()

out：

步骤2 异常值分析&处理

异常值检测方法：一般异常值的检测方法有基于统计的方法，基于聚类的方法，以及一些专门检测异常值的方法等。常用的是基于统计的方法：

基于正态分布的方法：数据需要服从正态分布。在3∂原则下，异常值如超过3倍标准差，则认为是异常值。
基于四分位矩的方法：利用箱型图的四分位距（QR）对异常值进行检测。四分位距(QR)就是上四分位与下四分位的差值。而我们通过QR的1.5倍为标准，规定：超过上四分位+1.5倍QR距离，或者下四分位-1.5倍QR距离的点为异常值（使用’*’表示），规定：超过上四分位+3倍QR距离，或者下四分位-3倍QR距离的点为极端异常值（使用’O’表示）。

异常值处理方法：对检测到的异常值一般会进行删除操作。

&#x5F02;&#x5E38;&#x503C;&#x67E5;&#x770B;

&#x6240;&#x6709;&#x6570;&#x503C;&#x578B;&#x7279;&#x5F81;&#x5217;
num = ['symboling', 'normalized-losses', 'length', 'width', 'height', 'horsepower', 'wheel-base',
       'bore', 'stroke','compression-ratio', 'peak-rpm','engine-size','highway-mpg']

&#x53EF;&#x4EE5;&#x4E00;&#x6B21;&#x6027;&#x7ED8;&#x5236;&#x51FA;&#x6240;&#x6709;&#x7684;&#x7BB1;&#x7EBF;&#x56FE;&#xFF0C;&#x4F46;&#x7531;&#x4E8E;&#x5176;&#x5EA6;&#x91CF;&#x5E76;&#x4E0D;&#x4E00;&#x81F4;&#xFF0C;&#x53EF;&#x4EE5;&#x5206;&#x522B;&#x7ED8;&#x5236;.

&#x7528;sns&#x7ED8;&#x5236;&#x65F6;&#xFF0C;&#x9700;&#x8981;&#x8003;&#x8651;&#x5230;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x60C5;&#x51B5;&#xFF0C;&#x8FD9;&#x91CC;&#x76F4;&#x63A5;&#x7528;dataframe&#x7684;&#x529F;&#x80FD;&#x7ED8;&#x5236;
&#x7BB1;&#x7EBF;&#x56FE;&#x7684;&#x7406;&#x89E3;&#xFF1A;
for each in num:
    plt.figure()
    x = data[each]
    x.plot.box()
&#x5728;&#x7BB1;&#x7EBF;&#x56FE;&#x4E2D;&#x53EF;&#x4EE5;&#x76F4;&#x63A5;&#x89C2;&#x6D4B;&#x5230;&#x79BB;&#x7FA4;&#x70B9;&#xFF0C;&#x4E00;&#x822C;&#x5E94;&#x5C06;&#x5176;&#x5220;&#x9664;

&#x5F02;&#x5E38;&#x503C;&#x7684;&#x5904;&#x7406;
data_outliers=data.copy()
for each in num:
    #&#x5B9A;&#x4E49;&#x4E00;&#x4E2A;&#x4E0B;&#x9650;
    lower = data_outliers[each].quantile(0.25)-1.5*(data_outliers[each].quantile(0.75)-data_outliers[each].quantile(0.25))
    #&#x5B9A;&#x4E49;&#x4E00;&#x4E2A;&#x4E0A;&#x9650;
    upper = data_outliers[each].quantile(0.25)+1.5*(data_outliers[each].quantile(0.75)-data_outliers[each].quantile(0.25))

    #&#x91CD;&#x65B0;&#x52A0;&#x5165;&#x4E00;&#x5217;&#xFF0C;&#x7528;&#x4E8E;&#x5224;&#x65AD;
    data_outliers['qutlier'] = (data_outliers[each] < lower) | (data_outliers[each] > upper)

    #&#x8FC7;&#x6EE4;&#x6389;&#x5F02;&#x5E38;&#x6570;&#x636E;
    data_outliers = data_outliers[data_outliers['qutlier'] ==False]
    plt.figure()
    data_outliers[each].plot.box()
    data_outliers = data_outliers.drop('qutlier',axis=1)

步骤3 数据相关性分析&处理

对于一个模型来说，特征并不是越多越好，而是越简洁包含的信息越多越好。对于有些特征之间，线性关联性非常强，这样的特征可以只保留一个的，减少特征的冗余。

&#x76F8;&#x5173;&#x6027;&#x8BA1;&#x7B97;

&#x4F7F;&#x7528;corr()&#x8BA1;&#x7B97;&#x6570;&#x636E;&#x7684;&#x76F8;&#x5173;&#x6027;&#xFF0C;&#x8FD4;&#x56DE;&#x7684;&#x4ECD;&#x662F;dataframe&#x7C7B;&#x578B;&#x6570;&#x636E;&#xFF0C;&#x53EF;&#x4EE5;&#x76F4;&#x63A5;&#x5F15;&#x7528;
### &#x76F8;&#x5173;&#x7CFB;&#x6570;&#x7684;&#x53D6;&#x503C;&#x8303;&#x56F4;&#x4E3A;[-1, 1],&#x5F53;&#x63A5;&#x8FD1;1&#x65F6;&#xFF0C;&#x8868;&#x793A;&#x4E24;&#x8005;&#x5177;&#x6709;&#x5F3A;&#x70C8;&#x7684;&#x6B63;&#x76F8;&#x5173;&#x6027;&#xFF0C;
### &#x6BD4;&#x5982;&#x2018;s&#x2019;&#x548C;&#x2018;x&#x2019;&#xFF1B;&#x5F53;&#x63A5;&#x8FD1;-1&#x65F6;&#xFF0C;&#x8868;&#x793A;&#x6709;&#x5F3A;&#x70C8;&#x7684;&#x7684;&#x8D1F;&#x76F8;&#x5173;&#x6027;&#xFF0C;&#x6BD4;&#x5982;&#x2018;s&#x2019;&#x548C;&#x2018;c&#x2019;&#xFF0C;
### &#x800C;&#x82E5;&#x503C;&#x63A5;&#x8FD1;0&#xFF0C;&#x5219;&#x8868;&#x793A;&#x76F8;&#x5173;&#x6027;&#x5F88;&#x4F4E;.

cor_matrix = data_outliers.corr()
cor_matrix

&#x76F8;&#x5173;&#x6027;&#x53EF;&#x89C6;&#x5316;&#x5C55;&#x793A;

&#x5E03;&#x5C14;&#x578B;&#x7684;mask&#xFF0C;&#x7136;&#x540E;&#x4ECE;&#x4E2D;&#x53D6;&#x4E0A;&#x4E09;&#x89D2;&#x77E9;&#x9635;&#x3002;&#x53BB;&#x4E0B;&#x4E09;&#x89D2;&#x77E9;&#x9635;&#x662F;np.tril_indices_from(mask)
&#x5176;&#x76EE;&#x7684;&#x662F;&#x5254;&#x9664;&#x5197;&#x4F59;&#x6620;&#x5C04;&#xFF0C;&#x53EA;&#x53D6;&#x4E00;&#x534A;&#x5C31;&#x597D;
mask = np.zeros_like(cor_matrix, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True
sns.heatmap(cor_matrix,
            vmin=-1, vmax=1,
            square=True,
            cmap=sns.color_palette("RdBu_r", 100),
            mask=mask,
            linewidths=.5);

输出热力图：

&#x5F3A;&#x76F8;&#x5173;&#x7279;&#x5F81;&#x67E5;&#x770B;

&#x67E5;&#x770B;&#x76F8;&#x5173;&#x6027;&#x8F83;&#x9AD8;&#x7684;&#x5143;&#x7D20;&#xFF0C;&#x5206;&#x6790;&#x5173;&#x7CFB;&#xFF0C;&#x5BF9;&#x7279;&#x5F81;&#x8FDB;&#x884C;&#x5904;&#x7406;&#x3002;
## &#x6BD4;&#x5982;&#xFF1A;&#x53BB;&#x9664;&#x76F8;&#x5173;&#x6027;&#x8F83;&#x9AD8;&#x7684;&#x7279;&#x5F81;
## &#x6216;&#x8005;&#xFF1A;&#x5BF9;&#x6709;&#x903B;&#x8F91;&#x76F8;&#x5173;&#x6027;&#x7684;&#x7279;&#x5F81;&#x8FDB;&#x884C;&#x878D;&#x5408;&#x52A0;&#x5DE5;
cor_matrix *= np.tri(*cor_matrix.values.shape, k=-1).T
cor_matrix = cor_matrix.stack()#&#x5728;&#x7528;pandas&#x8FDB;&#x884C;&#x6570;&#x636E;&#x91CD;&#x6392;&#xFF0C;stack:&#x4EE5;&#x5217;&#x4E3A;&#x7D22;&#x5F15;&#x8FDB;&#x884C;&#x5806;&#x79EF;&#xFF0C;unstack:&#x4EE5;&#x884C;&#x4E3A;&#x7D22;&#x5F15;&#x5C55;&#x5F00;&#x3002;
cor_matrix = cor_matrix.reindex(cor_matrix.abs().sort_values(ascending=False).index).reset_index()
cor_matrix.columns = ["FirstVariable", "SecondVariable", "Correlation"]
cor_matrix.head(10)

输出：

&#x6839;&#x636E;&#x7ED3;&#x679C;
## 1.city-mpg highway-mpg&#x4E4B;&#x95F4;&#x76F8;&#x4F3C;&#x5EA6;&#x8FC7;&#x9AD8;&#xFF0C;&#x53EA;&#x4FDD;&#x7559;&#x4E00;&#x4E2A;&#x5373;&#x53EF;
## 2.city-mpg &#x548C; curb-weight&#x4E4B;&#x95F4;&#x76F8;&#x5173;&#x6027;&#x4E5F;&#x8FC7;&#x9AD8;&#xFF0C;&#x53EA;&#x4FDD;&#x7559;&#x4E00;&#x4E2A;&#x5373;&#x53EF;
## 3.data2.length * data2.width * data2.height&#x4E09;&#x8005;&#x4E4B;&#x95F4;&#x548C;
&#x6570;&#x636E;&#x9884;&#x5904;&#x7406;
data2 = data_outliers.copy()
data2['volume'] = data2.length * data2.width * data2.height
#drop&#x9ED8;&#x8BA4;&#x5220;&#x9664;&#x884C;&#x5143;&#x7D20;&#xFF0C;&#x5220;&#x9664;&#x5217;&#x9700;&#x52A0; axis = 1
data2.drop(['width', 'length', 'height',
           'curb-weight', 'city-mpg'],
          axis = 1, # 1 for columns
          inplace = True)
data2.info()

步骤4 数值特征的标准化

对于数值型的特征，需要进行标准化处理，减少由于不同数量级的度量范围对模型带来的影响。

&#x76EE;&#x6807;&#x9884;&#x6D4B;&#x6570;&#x636E;
target = data2['price']
target = data2.price

&#x7279;&#x5F81;&#x6570;&#x636E;
features = data2.drop(columns=['price'])

&#x6570;&#x5B57;&#x7C7B;&#x578B;&#x7684;&#x7279;&#x5F81;
num = ['symboling', 'normalized-losses', 'volume', 'horsepower', 'wheel-base',
       'bore', 'stroke','compression-ratio', 'peak-rpm','engine-size','highway-mpg']

&#x5BF9;&#x6570;&#x5B57;&#x7C7B;&#x578B;&#x7684;&#x7279;&#x5F81;&#x8FDB;&#x884C;&#x6807;&#x51C6;&#x5316;&#x5904;&#x7406;
standard_scaler = StandardScaler()
features[num] = standard_scaler.fit_transform(features[num])
features.head(10)

&#x7ED8;&#x5236;&#x7BB1;&#x7EBF;&#x56FE;&#x770B;&#x6570;&#x636E;&#x5206;&#x5E03;
&#x4F7F;&#x7528;pandas &#x7684;plot.box&#x51FD;&#x6570;
&#x6B64;&#x65F6;&#x6570;&#x636E;&#x5DF2;&#x7ECF;&#x5F52;&#x4E00;&#x5316;&#x5904;&#x7406;&#xFF0C;&#x56E0;&#x6B64;&#x53EF;&#x4EE5;&#x5728;&#x4E00;&#x5F20;&#x56FE;&#x4E2D;&#x5C55;&#x793A;&#x6240;&#x6709;&#x7279;&#x5F81;&#x7684;&#x7BB1;&#x7EBF;&#x56FE;
features.plot.box(title="Auto-Car", vert=False)
plt.xticks(rotation=-20)

out:

(array([-3., -2., -1.,  0.,  1.,  2.,  3.]),
 )

步骤5 类别特征的编码

由于是回归模型，因此需要对类别特征进行数字化的编码处理。便于后续模型的数值化处理。

&#x7C7B;&#x522B;&#x5C5E;&#x6027;&#x7684;one-hot&#x7F16;&#x7801;

## &#x9700;&#x8981;&#x8FDB;&#x884C;one-hot&#x7F16;&#x7801;&#x7684;&#x7279;&#x5F81;&#x5217;
classes = ['make', 'fuel-type', 'aspiration', 'num-of-doors',
           'body-style', 'drive-wheels', 'engine-location',
           'engine-type', 'num-of-cylinders', 'fuel-system']

## &#x4F7F;&#x7528;pandas&#x7684;get_dummies&#x8FDB;&#x884C;one-hot&#x7F16;&#x7801;
dummies = pd.get_dummies(features[classes])
print(dummies.columns)

## one-hot&#x7F16;&#x7801;&#x52A0;&#x5DE5;&#x597D;&#x7684;&#x7279;&#x5F81;&#x6570;&#x636E;
features3 = features.join(dummies).drop(classes, axis = 1)
print(features3.columns)
features3.head()

任务五数据建模

步骤1 划分数据集

输入：

使用sklearn.model_selection.train_test_split随机划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(features3, target,
                                                    test_size = 0.3,
                                                    random_state = seed)

步骤2 回归模型

lasso回归模型中有一个超参数需要选择，也就是正则化的参数alpha，合适的超参数选择是获取好的模型的重要因素。超参数选择的可以使用的方法很多，常见的有网格查找法，还有就是机器学习工具包sklearn中自带的交叉验证法.

#lassocv&#xFF1A;&#x4EA4;&#x53C9;&#x9A8C;&#x8BC1;&#x6A21;&#x578B;&#xFF0C;

#lassocv &#x8FD4;&#x56DE;&#x62DF;&#x5408;&#x4F18;&#x5EA6;&#x8FD9;&#x4E00;&#x7EDF;&#x8BA1;&#x5B66;&#x6307;&#x6807;&#xFF0C;&#x8D8A;&#x8D8B;&#x8FD1;1&#xFF0C;&#x62DF;&#x5408;&#x7A0B;&#x5EA6;&#x8D8A;&#x597D;
lassocv = LassoCV(cv = 10, random_state=seed,alphas =(2,3,4,5,6,7,8,9,10,11))
#&#x5236;&#x5B9A;&#x6A21;&#x578B;&#xFF0C;&#x5C06;&#x8BAD;&#x7EC3;&#x96C6;&#x5E73;&#x5747;&#x5207;10&#x5206;&#xFF0C;9&#x4EFD;&#x7528;&#x6765;&#x505A;&#x8BAD;&#x7EC3;&#xFF0C;1&#x4EFD;&#x7528;&#x6765;&#x505A;&#x9A8C;&#x8BC1;&#xFF0C;&#x53EF;&#x8BBE;&#x7F6E;alphas=[]&#x662F;&#x591A;&#x5C11;&#xFF08;&#x5E8F;&#x5217;&#x683C;
#&#x5F0F;&#xFF09;&#xFF0C;&#x9ED8;&#x8BA4;&#x4E0D;&#x8BBE;&#x7F6E;&#x5219;&#x627E;&#x9002;&#x5408;&#x8BAD;&#x7EC3;&#x96C6;&#x6700;&#x4F18;alpha
lassocv.fit(features3, target)                    # &#x8BAD;&#x7EC3;&#x6A21;&#x578B;
lassocv_score = lassocv.score(features3, target)  # &#x6D4B;&#x8BD5;&#x6A21;&#x578B;,&#x8FD4;&#x56DE;r^2&#x503C;?????

lassocv_alpha = lassocv.alpha_                    # &#x6700;&#x4F73;&#x60E9;&#x7F5A;&#x7CFB;&#x6570;alpha

plt.figure(figsize = (10, 4))
plt.plot(lassocv_alpha, lassocv_score, '-ko')

plt.axhline(lassocv_score, color = 'c')
plt.xlabel(r'$alpha$')       # X&#x8F74;&#x6807;&#x7B7E;
plt.ylabel('CV Score')        # Y&#x8F74;&#x6807;&#x7B7E;
plt.xscale('log', basex = 2)  # x&#x8F74;&#x523B;&#x5EA6;&#x4EE5;&#x5BF9;&#x6570;&#x4E3A;&#x5E95;

sns.despine(offset = 15)

print('CV results:', lassocv_score, lassocv_alpha)

out:

步骤3 查看模型训练结果

查看哪些特征是比较重要的，哪些特征是不重要的。因为LASSO回归的特性，会产生很多特征的重要性参数为0。

&#x7279;&#x5F81;&#x6743;&#x91CD;&#x7684;&#x5206;&#x5E03;

lassocv.coef_&#x662F;&#x53C2;&#x6570;&#x5411;&#x91CF;w&#xFF0C;&#x8FD4;&#x56DE;&#x7ECF;&#x8FC7;&#x5B66;&#x4E60;&#x540E;&#x7684;&#x6240;&#x6709; feature &#x7684;&#x53C2;&#x6570;&#x3002;
coefs = pd.Series(lassocv.coef_, index = features3.columns)
print(coefs)

&#x6253;&#x5370;&#x4FE1;&#x606F;
print("Lasso picked " + str(sum(coefs != 0)) + " features and eliminated the other " +
      str(sum(coefs == 0)) + " features.")

&#x53EF;&#x89C6;&#x5316;&#x7279;&#x5F81;&#x6743;&#x91CD;&#x7684;&#x5206;&#x5E03;
## &#x9009;&#x53D6;&#x524D;5&#x4E2A;&#x91CD;&#x8981;&#x548C;&#x540E;5&#x4E2A;&#x91CD;&#x8981;&#x7279;&#x5F81;
coefs = pd.concat([coefs.sort_values().head(5), coefs.sort_values().tail(5)])   #&#x5C06;&#x76F8;&#x540C;&#x5B57;&#x6BB5;&#x9996;&#x5C3E;&#x76F8;&#x63A5;
## &#x53EF;&#x89C6;&#x5316;&#x5C55;&#x793A;
plt.figure(figsize = (10, 4))
coefs.plot(kind = "barh", color = 'c')
plt.title("Coefficients in the Lasso Model")
plt.show()

步骤4 模型测试

&#x8BAD;&#x7EC3;&#x6A21;&#x578B;
model_l1 = LassoCV(alphas=(2,3,4,5,6,7,8,9,10,11), cv=10, random_state=seed).fit(X_train, y_train)

&#x6A21;&#x578B;&#x9884;&#x6D4B;![img](https://arch-source-hebutai.obs.cn-north-4.myhuaweicloud.com:443/service-course/fbb46e56_735.png?AccessKeyId=BJHU7DFLUZHKDPEEKMJL&Expires=1622363406&Signature=BqFHw7iVgX%2Bzr78UKCEje7EYGNA%3D)
y_pred_l1 = model_l1.predict(X_test)

&#x6A21;&#x578B;&#x6253;&#x5206;
model_l1.score(X_test, y_test)

out：

0.6181257534685929

&#x67E5;&#x770B;&#x9884;&#x6D4B;&#x503C;&#x548C;&#x771F;&#x5B9E;&#x503C;&#x4E4B;&#x95F4;&#x7684;&#x5DEE;&#x5F02;
plt.rcParams['figure.figsize'] = (6.0, 6.0)

## &#x6784;&#x9020;pandas &#x6570;&#x636E;&#x5E93;&#x3002;preds&#xFF1A;&#x9884;&#x6D4B;&#x503C;&#xFF0C;true&#xFF1A;&#x771F;&#x5B9E;&#x503C;&#xFF0C;residuals&#xFF1A;&#x771F;&#x5B9E;&#x503C;-&#x9884;&#x6D4B;&#x503C;
preds = pd.DataFrame({"preds": model_l1.predict(X_train), "true": y_train})
preds["residuals"] = preds["true"] - preds["preds"]
## &#x53EF;&#x89C6;&#x5316; {preds&#xFF1A;&#x9884;&#x6D4B;&#x503C; }&#x548C; {residuals&#xFF1A;&#x771F;&#x5B9E;&#x503C;-&#x9884;&#x6D4B;&#x503C; }&#x4E4B;&#x95F4;&#x7684;&#x5173;&#x7CFB;
sns.scatterplot(x='preds',y="residuals",data=preds)

Original: https://blog.csdn.net/weixin_46310648/article/details/117386013
Author: ??(lxy)
Title: 数据挖掘（六）——回归算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631550/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

HMM隐马尔科夫模型

隐马尔科夫模型(HMM) 隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔…

人工智能 2023年5月23日
0067
【目标检测-YOLO】YOLOv5-v5.0-yolov5s网络架构详解（第一篇）

1. 前言源码：GitHub – ultralytics/yolov5 at v5.0 由于YOLO v5 代码库在持续更新，如上图，有多个版本，每个版本的网络结构不…

人工智能 2023年7月26日
00114
Yolov1-pytorch版论文、原理及代码实现

Yolov1-pytorch版论文、原理及代码实现 Yolov1 论文、原理、代码实现 * 1、论文 2、原理 – 2.1 目标检测方法 2.2 相关名词解释 2.3…

人工智能 2023年7月23日
0054
OpenCV的图像直角坐标系转极坐标系的函数warpPolar()详解,并附自己写的实现直角坐标系转极坐标系的MATLAB代码

【草稿】详解OpenCV实现图像直角坐标系转极坐标系的函数warpPolar(),并附自己写的实现直角坐标系转极坐标系的MATLAB代码有些时候我们需要把图像或矩阵从直角坐标系(…

人工智能 2023年7月18日
0077
VAE变分自编码器

我在学习VAE的时候遇到了很多问题，很多博客写的不太好理解，因此将很多内容重新进行了整合。我自己的学习路线是先学EM算法再看的变分推断，最后学VAE，自我感觉这个线路比较好理解。 …

人工智能 2023年6月6日
0064
【3D激光SLAM(四)】Velodyne激光SLAM学习之激光雷达+IMU外参标定-lidar_align联合标定激光雷达和IMU外参

本系列往期文章：【3D激光SLAM（一）】Velodyne激光SLAM学习之Velodyne-16线雷达室内建图基本使用_Canminem的博客-CSDN博客_velodyne1…

人工智能 2023年6月2日
00132
python笔记

知识点：python与：中括号；选取行、选取列；loc与iloc的区别 pd.read_excel()[选取列]pd.read_excel().loc[按索引选取行]pd.read…

人工智能 2023年7月8日
0076
CentOS7和CentOS8 Asterisk 20.0.0 简单图形化界面8–PJSIP的环境NAT设置

CentOS7和CentOS8 Asterisk 20.0.0 简单图形化界面8–PJSIP的环境NAT设置 1、NAT设置 2、PJSIP 后台配置文件参考图形界面…

人工智能 2023年6月29日
0074
【Anaconda环境】安装gym+pytorch

创建conda新环境 conda create –name gymTorch python=3.7 conda activate gymTorch（进入新环境） (py…

人工智能 2023年7月22日
0054
什么是过拟合问题，深度学习中如何解决过拟合问题

问题描述过拟合问题是指在机器学习模型中，训练集上的表现非常好，但在新的数据上表现很差的现象。在深度学习中，由于模型参数数量庞大，网络结构复杂，更容易出现过拟合问题。本文将介绍过拟…

人工智能 2024年1月1日
0046
openGauss运维操作命令及其相关介绍

目录一、前言二、常用运维相关命令 1、第一组：openGauss启停 2、第二组：openGauss状态查询 3、第三组：openGauss实例主备切换 4、第四组：openG…

人工智能 2023年6月19日
0077
数据挖掘-KNN算法+sklearn代码实现(六)

🤵‍♂️ 个人主页：@Lingxw_w的个人主页✍🏻作者简介：计算机科学与技术研究生在读🐋 希望大家多多支持，我们一起进步！😄如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂…

人工智能 2023年7月18日
0083
Keras CIFAR-10分类 SVM 分类器篇

; Keras CIFAR-10图像分类（SVM 分类器）文章目录 Keras CIFAR-10图像分类（SVM 分类器） * keras介绍 – keras具有的特…

人工智能 2023年7月1日
0083
会思考的机器你造嘛——AI技术

目录前言一、人工智能的划分二、人工智能关键技术三、鸢尾花数据集实践人工智能（附代码）总结系列文章目录前言近年来，人工智能（Artificial In…

人工智能 2023年6月4日
00104
6-1 列表推导生成随机数矩阵（高教社，《Python编程基础及应用》习题4-10 Python

编写一个Python函数，生成一个m行n列的元素值不大于20的随机数矩阵（二维列表）。提示：使用random.randint()函数来生成随机数。函数接口定义：def gener…

人工智能 2023年6月26日
00134
Python制作词云

参考的视频教程：https://www.bilibili.com/video/BV1ut4y1S7gP?p=3 1. 环境 python3.9PyCharm 需要的模块如下： wo…

人工智能 2023年7月4日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据挖掘（六）——回归算法

实验介绍

数据集

任务一 导入包

任务二 获取数据

任务三 探索数据

步骤1 数据概览

任务四 数据预处理

步骤1 缺失值分析&处理

步骤2 异常值分析&处理

步骤3 数据相关性分析&处理

步骤4 数值特征的标准化

步骤5 类别特征的编码

任务五 数据建模

步骤1 划分数据集

步骤2 回归模型

步骤3 查看模型训练结果

步骤4 模型测试

大家都在看

任务一导入包

任务二获取数据

任务三探索数据

任务四数据预处理

任务五数据建模