【sklearn学习】线性回归LinearRegression

2023年7月15日下午3:26 • 人工智能 • 阅读 97

多元线性回归指一个样本中有多个特征的线性回归问题

class_sklearn.linear_model.LinearRegression(*, _fit_intercept=True, normalize=’deprecated’, copy_X=True, n_jobs=None, positive=False)

fit_intercept：默认为True，计算模型的截距
normalize 默认是False，如果为True，训练样本会在回归之前被归一化
copy_X 默认为True，否则特征矩阵被线性回归影响并覆盖
n_jobs：用于计算的作业数，-1表示使用所有cpu

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import RidgeCV
from sklearn.linear_model import Lasso
from sklearn.datasets import load_boston
import warnings
warnings.simplefilter("ignore")

boston = load_boston()
df_data = pd.DataFrame(boston.data)
df_data.columns = boston.feature_names
df_target = pd.DataFrame(boston.target)
df_target.columns = ['LABEL']
df = pd.concat([df_data, df_target], axis=1)

线性回归方法：

X_train, X_test, y_train, y_test = train_test_split(df_data, df_target, test_size=0.2, random_state=0)
linR = LinearRegression()
linR.fit(X_train, y_train)
train_score = linR.score(X_train, y_train)
test_score = linR.score(X_test, y_test)
print('train_score',train_score)
print('test_score',test_score)
y_pred = linR.predict(X_test)
mae_score = mean_absolute_error(y_pred, y_test)
mse_score = mean_squared_error(y_pred, y_test)
print('mae_score',mae_score)
print('mse_score',mse_score)

k折交叉验证的线性回归：

from sklearn.model_selection import KFold
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error

data_train, data_test, target_train, target_test = train_test_split(df_data, df_target['LABEL'], test_size=0.2, random_state=0)

folds = KFold(n_splits=10)
train_scores = 0
val_scores = 0
mae_scores = 0
mse_scores = 0
for fold, (train_index, val_index) in enumerate(folds.split(data_train, target_train)):
    print("fold {}".format(fold+1))
    X_train, X_val, y_train, y_val = data_train.values[train_index],data_train.values[val_index],target_train.values[train_index],target_train.values[val_index]
    linR = LinearRegression()
    linR.fit(X_train, y_train)
    train_score = linR.score(X_train, y_train)
    val_score = linR.score(X_val, y_val)
    print('train_score',train_score)
    print('val_score',val_score)
    y_pred = linR.predict(X_val)
    mae_score = mean_absolute_error(y_pred, y_val)
    mse_score = mean_squared_error(y_pred, y_val)
    train_scores += train_score
    val_scores += val_score
    mae_scores += mae_score
    mse_scores += mse_score

    print('train_score',train_score)
    print('val_score',val_score)
    print('mae_score',mae_score)
    print('mse_score',mse_score)

print("total train score",train_scores/10)
print("total val scores",val_scores/10)
print("total train score",mae_scores/10)
print("total val scores",mse_scores/10)

test_score = linR.score(data_test, target_test)
y_test_pred = linR.predict(data_test)
mae_score = mean_absolute_error(y_test_pred, target_test)
mse_score = mean_squared_error(y_test_pred, target_test)

print('test_score',test_score)
print('mae_score',mae_score)
print('mse_score',mse_score)

可视化预测结果：

plt.figure(figsize=(20,5),dpi=80)

x = np.arange(0,50,1)
y = y_test[0:50]
z = y_pred[0:50]
plt.scatter(x, y, s=20, color='blue', label='y_test')
plt.scatter(x, z, s=20, color='red', label='y_pred')

&#x6DFB;&#x52A0;&#x63CF;&#x8FF0;&#x4FE1;&#x606F;
plt.xlabel('index')
plt.ylabel('value')
plt.title('y_test and y_pred')
plt.legend(loc='upper left')
plt.show()

岭回归与Lasso

多重共线性，当不是满秩矩阵时存在多个解析解，都能使均方误差最小化，常见方法使引入正则化项，所谓正则化，就是对模型的参数添加一些先验假设，控制模型空间，以达到使得模型复杂度较小的目的。岭回归和Lasso是目前最为流行的两种线性回归正则化方法。

岭回归

通过在损失函数中加入L2范数惩罚项，来控制线性模型的复杂程度，从而使模型更稳健。

class_sklearn.linear_model.Ridge(_alpha=1.0, *, fit_intercept=True, normalize=’deprecated’, copy_X=True, max_iter=None, tol=0.001, solver=’auto’, positive=False, random_state=None)

solver{‘auto’, ‘svd’, ‘cholesky’, ‘lsqr’, ‘sparse_cg’, ‘sag’, ‘saga’, ‘lbfgs’}, default=’auto’

alpha：α值，值越大则正则化的占比越大

fit_intercept：bool，是否需要计算b值，如果为false，那么不计算b值，模型假设数据已经中心化

max_iter：指定最大迭代次数

normalize：bool，如果为True，训练样本会在回归之前被归一化

solver：字符串，指定求解最优化问题的算法

auto：根据数据集自动选择算法

svd：使用奇异值分解来计算回归系数

cholesky：使用scipy.linalg.solve函数来求解

如果一个数据集在岭回归中使用各种正则化参数取值下模型没有明显上升，则说明数据没有多重共线性；反之，如果一个数据集在岭回归的各种正则化参数取值下表现出明显上升的趋势，则说明数据存在多重共线性。

class_sklearn.linear_model.RidgeCV(_alphas=(0.1, 1.0, 10.0), *, fit_intercept=True, normalize=’deprecated’, scoring=None, cv=None, gcv_mode=None, store_cv_values=False, alpha_per_target=False) [source] ¶

alphas：需要测试的正则化参数的取值的元组

scoring：用来进行交叉验证的模型评估指标

cv：交叉验证的模式，默认使留一交叉验证

srore_cv_values：是否保存每次交叉验证的结果

alpha_：查看交叉验证选中的alpha

cv_values_：调用所有交叉验证的结果

Ridge_model = Ridge()
Ridge_model.fit(data_train, target_train)
train_score = Ridge_model.score(data_train, target_train)
print('train score:',train_score)
test_score = Ridge_model.score(data_test, target_test)
print('test score:',test_score)

Lasso与多重共线性

Lasso回归和岭回归的区别在于它的惩罚项是基于L1范数，可以将系数控制收缩到0，从而达到变量选择的效果。

class_sklearn.linear_model.Lasso(_alpha=1.0, *, fit_intercept=True, normalize=’deprecated’, precompute=False, copy_X=True, max_iter=1000, tol=0.0001, warm_start=False, positive=False, random_state=None, selection=’cyclic’)

selection:{‘positive’, ‘cyclic’}

Lasso_model = Lasso()
Lasso_model.fit(data_train, target_train)
train_score = Lasso_model.score(data_train, target_train)
print('train score:',train_score)
test_score = Lasso_model.score(data_test, target_test)
print('test score:',test_score)

class_sklearn.linear_model.LassoCV(*, _eps=0.001, n_alphas=100, alphas=None, fit_intercept=True, normalize=’deprecated’, precompute=’auto’, max_iter=1000, tol=0.0001, copy_X=True, cv=None, verbose=False, n_jobs=None, positive=False, random_state=None, selection=’cyclic’)

eps：正则化路径的长度

n_alphas：正则化路径中α的个数

alphas：需要测试的正则化参数的取值的元组

cv：交叉验证的次数

Original: https://blog.csdn.net/qq_41807261/article/details/123844441
Author: jaeden_xu
Title: 【sklearn学习】线性回归LinearRegression

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/694540/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

KNN算法推理与实现

Overview K近邻值算法 KNN (K — Nearest Neighbors) 是一种机器学习中的分类算法；K-NN是一种非参数的惰性学习算法。非参数意味着没有对基础数…

人工智能 2023年7月1日
0094
我的机器学习笔记（三）— 分类问题与K近邻算法

文章目录一、分类问题的定义二、分类问题的类型 * 2.1 二分类问题 2.2 多分类问题三、常用的分类算法四、模型分类器的实现 * 4.1 模型的构建 4.2 模型的使用 …

人工智能 2023年7月1日
00101
动手学OCR笔记-介绍与实践

参考：https://gitee.com/paddlepaddle/PaddleOCR/tree/release/2.5/notebook/notebook_ch OCR技术挑战 …

人工智能 2023年7月9日
00107
图像分类之机器学习基础厕所级讲解

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月1日
0087
python知识推理知识图谱_一文了解知识图谱常见的知识表示，图谱存储和查询方法…

对于知识图谱构建，有两个问题是永远绕不掉的。一个是知识图谱的知识表示，一个是知识图谱的存储方式。这两个问题大家也比较关注，而且知识图谱的表示跟知识图谱的存储还是有一定的相关性。知识…

人工智能 2023年6月1日
0087
盘点五大类 DeFi 数据分析工具

Feb. 2022，Grace 伴随着 DeFi 的繁荣，加密数据分析的市场也方兴未艾。已实现对一个 DeFi 项目的初步解析。笔者在使用诸多分析工具后，整理了比较好用的，且市面上…

人工智能 2023年6月11日
0089
BI与报表的区别在哪里

报表，就是用表格、图表等格式来动态显示数据。市面上有一些报表工具，它们可以用来制作各种数据报表、图形报表，展示数据。BI，它是一套完整的解决方案，用来将企业中现有的数据进行有效的整…

人工智能 2023年7月16日
0067
使用python实现灰度变换

由于最近临近期末，老师留了几个题目，并且兴趣使然，选择学习一下使用python实现图像的处理。在此，墙裂推荐一个b站的up：十四阿哥很nice首先声明，学习内容目前均来自于此up…

人工智能 2023年6月17日
0085
谷歌工程师『代码补全』工具；『Transformers NLP』随书代码；FastAPI开发模板；PyTorch模型加速工具；前沿论文 | ShowMeAI资讯日报

ShowMeAI 日报系列全新升级！覆盖AI人工智能工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文等方向。点…

人工智能 2023年5月28日
0091
BERT微调finetune笔记

参考：什么是BERT？ – 知乎 (zhihu.com) 词向量之BERT – 知乎 (zhihu.com) BERT 详解 – 知乎 (zh…

人工智能 2023年5月28日
00101
常用激活函数：Sigmoid、Tanh、Relu、Leaky Relu、ELU优缺点总结

1、激活函数的作用什么是激活函数？在神经网络中，输入经过权值加权计算并求和之后，需要经过一个函数的作用，这个函数就是激活函数（Activation Function）。激活函…

人工智能 2023年7月13日
0062
QGC地面站使用教程

文章目录 ==👉👉👉无人机硬件，提供全程指导👈👈👈== 前言一、下载固件二、选择机型三、校准 * 1.校准罗盘 2.校准陀螺仪 3.校准加速度计 4.校准地平线 5.校准遥控…

人工智能 2023年6月23日
00759
基于Geoda的经典空间回归模型（OLS）、空间误差模型（SEM）和空间迟滞模型（SLM）

引言最近在网上搜索有关空间误差模型的方法，看到的最多的就是https://editor.csdn.net/md/?not_checkout=1&spm=1001.2014…

人工智能 2023年7月18日
0094
Pytorch深度学习实战网站指路DeepLearningwithPytorch

### 回答1： PyTorch 深度学习_简明 _实战_电子版是一本帮助读者入门 _深度学习_框架 _PyTorch_的书籍。本书内容详细，分为四个部分，分别是： _PyTorc…

人工智能 2023年7月24日
0083
在pycharm用python画图：matplotlib

安装matplotlib 先找到自己的python位置，再进入Scripts文件夹，我的是C:\Users\mi\AppData\Local\Programs\Python\Pyt…

人工智能 2023年7月4日
00116
论文阅读之 Diffusion Models Beat GANs on Image Synthesis

扩散首次打败gan 来源 OpenAI * 无条件图像合成* 条件图像合成背景 * 目标函数和参数化方式的来源 Alex Nichol and Prafulla Dhariwal…

人工智能 2023年7月27日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【sklearn学习】线性回归LinearRegression

大家都在看