机器学习之线性回归

2023年6月17日下午3:39 • 人工智能 • 阅读 68

文章目录

一、线性回归
*
1、普通线性回归（Linear Regression）
2、岭回归（Ridge Regression）
3、套索回归（lasso回归）
二、python实战
*
0、导包数据说明
1、线性回归
2、岭回归
3、Lasso回归

一、线性回归

1、普通线性回归（Linear Regression）

线性回归是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。
这种函数是一个或多个称为回归系数的模型参数的线性组合（自变量都是一次方）；
只有一个自变量的情况称为一元回归，大于一个自变量情况的叫做多元回归；
线性回归常被选用在线性预测模型中，在这个模型中，因变量是连续的，自变量可以是连续或离散的，回归线的性质是线性的。
损失函数：怎么确定最终的自变量系数呢，我们就需要了解损失函数了。从字面意思了解，肯定是损失越小越好了。在线性回归中，预测值与实际值的差距肯定是越小越好。又有问题了，那么多的点，怎么看差距呢？将每个点的实际值和预测值的差进行平方（去除负数影响，取绝对值也可）和计算。我们的要求就是最小化J ( θ ) J(\theta)J (θ)。（1 2 m \frac{1}{2m}2 m 1 仅为了求导数计算方便）
如果我们一味追求提高对训练数据的预测能力，所选模型的复杂度往往会比真模型更高。这种现象称为过拟合。过拟合是指学习时选择的模型所包含的参数过多，以致出现这一模型对已有数据预测的很好，但对未知数据预测的很差的现象。下面介绍一种常见的模型选择方法：正则化。
由于线性回归可能出现过拟合的情况，因此有了岭回归和Lasso回归。这俩个回归是为了解决线性回归出现的过拟合以及在通过正规方程方法求解回归系数的过程中出现的x转置乘以x不可逆这两类问题的，这两种回归均通过在损失函数中引入正则化项来达到目的。

; 2、岭回归（Ridge Regression）

岭回归是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价，获得回归系数更为符合实际、更可靠的回归方法，对病态数据的耐受性远远强于最小二乘法。
解决方法：
✓ (1)：丢弃一些对我们最终预测结果影响不大的特征，具体哪些特征需要丢弃可以通过PCA（主成分分析）算法来实现；
✓ (2)：使用L2正则化技术，保留所有特征，但是减少特征前面的参数θ的大小，具体就是修改线性回归中的损失函数形式即可；

3、套索回归（lasso回归）

Lasso回归于岭回归非常相似，它们的差别在于使用了不同的正则化项，最终都实现了约束参数从而防止过拟合的效果。
具体地，岭回归引入的是L2范数惩罚项，Lasso回归引入的是L1范数惩罚项。
Lasso回归能够使得损失函数中的许多θ均变成0，这点要优于岭回归，因为岭回归是要所有的θ均存在的，这样计算量Lasso回归将远远小于岭回归。
岭回归L2正则化：尽可能使自变量回归系数接近于0但不能为0；Lasso回归L1正则化：可以将系数变为0，减少特征变量。

; 二、python实战

0、导包数据说明

&#x6570;&#x636E;&#x96C6; &#xFF1A;tushare&#x63A5;&#x53E3;&#x83B7;&#x53D6;&#x80A1;&#x7968;&#x6570;&#x636E;
&#x4F7F;&#x7528;&#x4E0D;&#x540C;&#x7684;&#x56DE;&#x5F52;&#x5206;&#x6790;&#x6A21;&#x578B;&#xFF0C;&#x57FA;&#x4E8E;&#x80A1;&#x7968;&#x5F53;&#x5929;&#x7684;&#x5F00;&#x76D8;&#x4EF7;&#xFF08;open&#xFF09;&#x3001;&#x6700;&#x9AD8;&#x4EF7;&#xFF08;high&#xFF09;&#x3001;&#x6700;&#x4F4E;&#x4EF7;&#xFF08;low&#xFF09;&#x548C;&#x6210;&#x4EA4;&#x91CF;&#xFF08;volume&#xFF09;
&#x6765;&#x9884;&#x6D4B;&#x8BE5;&#x80A1;&#x7968;&#x6B21;&#x65E5;&#x7684;&#x6536;&#x76D8;&#x4EF7;&#x4F7F;&#x7528;&#x4E0D;&#x540C;&#x8BC4;&#x4EF7;&#x6307;&#x6807;&#xFF0C;&#x5BF9;&#x6BD4;&#x5206;&#x6790;&#x4E0D;&#x540C;&#x6A21;&#x578B;&#x5728;&#x80A1;&#x7968;&#x9884;&#x6D4B;&#x65F6;&#x6027;&#x80FD;&#x3002;&#xFF08;R2&#xFF09;

import pandas as pd
import numpy as np
import tushare as ts
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso

data = ts.get_k_data('000001', start='2020-01-01', end='2022-03-31').reset_index(drop = True)
data['HL_PCT']=(data['high']-data['low'])/data['low']
data['PCT_change']=(data['close']-data['open'])/data['open']
data

1、线性回归

x=data.drop(['date', 'code', 'close'],axis=1)
y=data.close
x=preprocessing.scale(x)
y=y.values
x_train,y_train = x[0:381,:],y[0:381]
x_test,y_test = x[381:544,:],y[381:544]

model1 = LinearRegression()
model1.fit(x_train, y_train)
print('系数矩阵:\n',model1.coef_)
print('模型截距:\n',model1.intercept_)
print('回归模型:\n',model1)
y_predict1=model1.predict(x_test)

print("决定系数(R2) : %0.4f" % model1. score (x_test, y_test) )

plt.plot(y_test,label='y_test')
plt.plot(y_predict1,label='y_predict1')
plt.legend()
plt.xlabel('x')
plt.ylabel('y')
plt.show()

2、岭回归


model2 = Ridge()
model2.fit(x_train, y_train)
print('系数矩阵:\n',model2.coef_)
print('模型截距:\n',model2.intercept_)
print('回归模型:\n',model2)
y_predict2=model2.predict(x_test)

print("决定系数(R2) : %0.4f" % model2. score (x_test, y_test) )

plt.plot(y_test,label='y_test')
plt.plot(y_predict2,label='y_predict2')
plt.legend()
plt.xlabel('x')
plt.ylabel('y')

3、Lasso回归

model3 = Lasso()
model3.fit(x_train, y_train)
print('系数矩阵:\n',model3.coef_)
print('模型截距:\n',model3.intercept_)
print('回归模型:\n',model3)
y_predict3=model3.predict(x_test)

print("决定系数(R2) : %0.4f" % model3. score (x_test, y_test) )

plt.plot(y_test,label='y_test')
plt.plot(y_predict3,label='y_predict3')
plt.legend()
plt.xlabel('x')
plt.ylabel('y')
plt.show()

结果：R2最高的是线性回归和岭回归，说明有99%的预测值和实际值是一致的；而Lasso回归的拟合优度为94%。稍比前两个模型差一点。
参考：
《统计学习方法》李航著；
课后ppt

Original: https://blog.csdn.net/m0_69435474/article/details/124493535
Author: 小磊要努力哟
Title: 机器学习之线性回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630722/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

零基础学习Transformer：AttentionLayer and Self-AttentionLayer

Transformer Model Transformer是一个Seq2Seq模型，有一个encoder和一个decoder Transformer不是RNN，没有循环的结构，只有…

人工智能 2023年5月28日
0071
粒子滤波（PF）原理详解

文章目录背景介绍 * 动态模型卡尔曼滤波重要性采样 * 蒙特卡洛采样法重要性采样基本原理将重要性采样引入filtering问题序列重要性采样基本粒子滤波算法 SIR …

人工智能 2023年6月15日
00143
目标检测算法——YOLOv5/YOLOv7改进结合BotNet（Transformer）

💖💖>>> 加勒比海带，QQ2479200884 << Original: https://blog.csdn.net/m0_53578855/art…

人工智能 2023年6月17日
0086
【MeanSquaredError报错&】module ‘tensorflow.python.keras.losses‘ has no attribute ‘MeanSquaredError‘

tf.keras.losses.MeanSquaredError()在低版本的tensorflow不可用，在官网看到似乎1.15以上版本才有用，反正我的1.7用不了，重新安装ten…

人工智能 2023年5月23日
00110
Halcon图像拼接-算法速度优化

参考例程mosaicking_pyramid.hdev 原理简要说明：在上一篇的基础上，我们知道了在halcon中，图像拼接的大致原理，知道了算法运行的过程，其中一个关键步骤至关重…

人工智能 2023年7月10日
00117
Ananconda下安装pytorch(GPU)，亲测成功(清华源镜像快速下载)

安装了一上午终于成功了！创建Pytorch虚拟环境打开Anaconda Prompt,输入下列命令： conda create -n pytorch python=3.8 启用…

人工智能 2023年6月16日
00241
第五篇：AWS deepracer student 赛道分析（Ace speedway）最佳路径，数据分析，waypoint分析（初步

文章目录前言一,为什么需要分析赛道二，分析赛道需要的东西三，如何获得waypoint数据四，正式开始 * 1.获取waypoint的数据 2.处理数据三，导入excel…

人工智能 2023年7月15日
0088
Google最新开源机器学习框架，Github已超18万Stars！

Google最新开源机器学习框架，Github已超18万Stars！前言 * 1、JAX是什么 2、 JAX能够用来做什么？ 3、什么环境下可以使用JAX? 前言近年来深度学…

人工智能 2023年5月26日
0083
python虚拟变量回归_第二周：python实现线性回归（哑变量回归）的高效方法

我怎么觉得自己就像小学生在写青创日记…… 知道了pickle是啥。pickle提供了一个简单的持久化功能。可以将对象以文件的形式存放在磁盘上。老板给了我一…

人工智能 2023年6月18日
0088
卷积神经网络图像处理,卷积神经网络图片识别

卷积神经网络每层提取的特征是什么样的卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。图：卷积神经网络的概念示范：输入图像通过和三个可训…

人工智能 2023年6月20日
00104
YOLOv5实战之PCB板缺陷检测

在前面的文章中已经详细介绍了在本机上安装YOLOv5的教程，安装YOLOv5可参考前面的文章YOLOv5训练自己的数据集(超详细)https://blog.csdn.net/qq_…

人工智能 2023年6月18日
0090
pgsql如何判断读取的是最后一行数据_使用Python Pandas模块 loc、iloc方法，灵活选取DataFrame数据…

如何示例 Excel 数据我们以Python Pandas数据加载类型表格为例，演示Python Pandas Excel操作。本文将使用Pandas中 read_excel函…

人工智能 2023年7月8日
0085
pandas常用功能_2：数据合并merge

python有多种数据合并的方法，在不同的场合我们可以使用不用的方法 merge可能是我们最熟悉，也最常用的一个方法，因为它的用法与mysql的连接（join）非常类似。函数介绍…

人工智能 2023年7月8日
0083
spss进行主成分分析

什么是主成分分析简而概之, 就是一组数据受太多因素影响, 选出几个能代表他们的因素,并进行线性组合得到一组比原维度小的因素组合, 作为新的因素集用spss操作随手拿出一组数据…

人工智能 2023年6月19日
00101
使用卷积神经网络和 Python 进行图像分类

介绍本文将讨论有关图像分类的所有内容。在过去的几年里，深度学习已经被证明是一个非常强大的工具，因为它能够处理大量的数据。隐藏层的使用超越了传统技术，尤其是在模式识别方面。最受欢…

人工智能 2023年5月26日
0083
实体对齐（Entity Alignment）相关论文与数据集整理

实体对齐（Entity Alignment）、知识图谱融合论文方法总结整理 传统的实&amp…

人工智能 2023年6月1日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习之线性回归

文章目录

1、普通线性回归（Linear Regression）

; 2、岭回归（Ridge Regression）

3、套索回归（lasso回归）

0、导包 数据说明

1、线性回归

2、岭回归

3、Lasso回归

大家都在看

0、导包数据说明