偏最小二乘回归分析PLS

2023年6月16日上午9:16 • 人工智能 • 阅读 57

偏最小二乘回归是集主成分分析，典型相关分析和多元线性回归分析3种分析方法的优点于一身

MLR的缺点: 当自变量的数量大于样本量的时候，解不出θ \theta θ,回顾解析解
θ = ( X T X ) − 1 X T Y \theta = (X^TX)^{-1}X^TY θ=(X T X )−1 X T Y 设X n ∗ k X_{nk}X n ∗k ,当k > n k>n k >n时，( X T X ) k ∗ k (X^TX)_{kk}(X T X )k ∗k 的秩为n，不是满秩的，所以没有逆矩阵R a n k ( A B ) ≤ R a n k ( B ) Rank(AB)\leq Rank(B)R a n k (A B )≤R a n k (B )
PCA的缺点: PCA只考虑了自变量的方差，然后选取了方差最大的几个正交变量，可以用于解决共线性问题(计量),没有考虑自变量对因变量的贡献
PLS: 偏最小二乘回归提供一种多对多线性回归建模的方法，特别当两组变量的个数很多，且都存在多重相关性，而样本又比较少的时候。

考虑P P P个因变量y 1 , y 2 , ⋯ , y p y_1,y_2,\cdots,y_p y 1 ,y 2 ,⋯,y p 与m m m个自变量x 1 , x 2 , ⋯ , x m x_1,x_2,\cdots,x_m x 1 ,x 2 ,⋯,x m 的回归问题。

首先在自变量集中提出第一成分u 1 u_1 u 1 (u 1 u_1 u 1 是x 1 , … , x n x_1,\ldots,x_n x 1 ,…,x n 的线性组合,且尽可能多地提取原自变量集中的变异信息)；同时在因变量集中也提取第一成分v 1 v_1 v 1 ,并要求u 1 u_1 u 1 与v 1 v_1 v 1 相关程度达到最大。然后建立因变量y 1 , … , y p y_1,\ldots,y_p y 1 ,…,y p 与u 1 u_1 u 1 的回归，重复这个过程直到提取到足够的指定的成分。

计算步骤

先将X 与 Y X与Y X 与Y标准化
A = [ x 11 ⋯ x 1 m ⋮ ⋮ x n 1 ⋯ x n m ] B = [ y 11 ⋯ y 1 m ⋮ ⋮ y n 1 ⋯ y n m ] A = \begin{bmatrix} x_{11} & \cdots & x_{1m}\ \vdots & & \vdots \ x_{n1} & \cdots & x_{nm} \end{bmatrix} B = \begin{bmatrix} y_{11} & \cdots & y_{1m}\ \vdots & & \vdots \ y_{n1} & \cdots & y_{nm} \end{bmatrix}A =⎣⎢⎡x 1 1 ⋮x n 1 ⋯⋯x 1 m ⋮x n m ⎦⎥⎤B =⎣⎢⎡y 1 1 ⋮y n 1 ⋯⋯y 1 m ⋮y n m ⎦⎥⎤

为了回归分析的需要，要求

u 1 和 v 1 u_1和v_1 u 1 和v 1 各自尽可能多地提取所在变量组的变异信息
u 1 和 v 1 u_1和v_1 u 1 和v 1 的相关程度达到最大

计算ρ 1 与 γ 1 \rho_1与\gamma_1 ρ1 与γ1

由两组变量集的标准化观察数据矩阵X 和 Y X和Y X 和Y，可以计算第一对成分的得分向量，记为u 1 ^ 和 v 1 ^ \hat{u_1}和\hat{v_1}u 1 ^和v 1 ^
u 1 ^ = A ρ 1 v 1 ^ = B γ 1 \hat{u_1} = A \rho_1 \ \hat{v_1} = B \gamma_1 \u 1 ^=A ρ1 v 1 ^=B γ1

重复上面的步骤，得到r r r个成分
{ A = u 1 ^ σ 1 T + ⋯ + u r ^ σ r T + A r B = u 1 ^ τ 1 T + ⋯ + u r ^ τ r T + B r \begin{cases} A = \hat{u_1}\sigma_1^{T} + \cdots + \hat{u_r}\sigma_r^{T} + A_r \ B = \hat{u_1}\tau_1^{T} + \cdots + \hat{u_r}\tau_r^{T} + B_r \ \end{cases}{A =u 1 ^σ1 T +⋯+u r ^σr T +A r B =u 1 ^τ1 T +⋯+u r ^τr T +B r

将u 1 = ρ 1 T X u_1 = \rho_1^T X u 1 =ρ1 T X代入Y = u 1 ^ τ 1 T + ⋯ + u r ^ τ r T Y=\hat{u_1}\tau_1^{T} + \cdots + \hat{u_r}\tau_r^{T}Y =u 1 ^τ1 T +⋯+u r ^τr T ,即得P P P个因变量的偏最小二乘回归方程式
y j = c j 1 x 1 + … + c j m x m , j = 1 , 2 , … , p y_j = c_{j1}x_1 + \ldots + c_{jm}x_m, j= 1,2,\ldots,p y j =c j 1 x 1 +…+c j m x m ,j =1 ,2 ,…,p

应该提取多个个成分，可以使用交叉有效性检验

每次舍去第i i i个观察数据，对余下的n − 1 n-1 n −1个观测数据用偏最小二乘回归方法，并考虑抽取h ( h ≤ r ) h(h\leq r)h (h ≤r )个肠粉后拟合的回归式，然后把舍去的自变量组第j j j个观测数据代入所拟合的回归方程式，得到y j ( j = 1 , 2 , ⋯ , p ) y_j(j=1,2,\cdots,p)y j (j =1 ,2 ,⋯,p )在第i i i观测点上的预测值为b ( i ) j ^ ( h ) \hat{b_{(i)j}}(h)b (i )j ^(h )

对i = 1 , 2 , … , n i=1,2,\ldots,n i =1 ,2 ,…,n重复以上的验证，即得抽取h h h个成分时第j j j个因变量y j ( j = 1 , 2 , … , p ) y_j(j=1,2,\ldots,p)y j (j =1 ,2 ,…,p )的预测误差平方和为
P R E S S j ( h ) = ∑ i = 1 n ( b ( i ) j − b ^ ( i ) j ( h ) ) 2 , j = 1 , 2 , … , p PRESS_j(h) = \sum_{i=1}^n(b_{(i)j}-\hat{b}{(i)j}(h))^2,j=1,2,\ldots,p P R E S S j (h )=i =1 ∑n (b (i )j −b ^(i )j (h ))2 ,j =1 ,2 ,…,p
Y Y Y的预测误差平方和为
P R E S S ( h ) = ∑ i = 1 p P R E S S j ( h ) PRESS(h) = \sum{i=1}^pPRESS_j(h)P R E S S (h )=i =1 ∑p P R E S S j (h )

另外，再采用所有的样本点，拟合含h h h个成分的回归方程。这时，记第i i i个样本点的预测值为b ^ i j ( h ) \hat{b}{ij}(h)b ^i j (h ),则可以定义y j y_j y j 的误差平方和为
S S j ( h ) = ∑ i = 1 n ( b i j − b ^ i j ( h ) ) 2 SS_j(h) = \sum{i=1}^n(b_{ij}-\hat{b}{ij}(h))^2 S S j (h )=i =1 ∑n (b i j −b ^i j (h ))2
定义 h h h成分的误差平方和
S S ( h ) = ∑ j = 1 p S S j ( h ) SS(h) = \sum{j=1}^p SS_j(h)S S (h )=j =1 ∑p S S j (h )

当P R E S S ( h ) PRESS(h)P R E S S (h )达到最小值时，对应的h h h即为所求的成分l l l个数。通常，总有P R E S S ( h ) > S S ( h ) PRESS(h) > SS(h)P R E S S (h )>S S (h ),而S S ( h ) < S S ( h − 1 ) SS(h) < SS(h-1)S S (h )<S S (h −1 )。因此在提取成分时，总是希望P R E S S ( h ) S S ( h − 1 ) \frac{PRESS(h)}{SS(h-1)}S S (h −1 )P R E S S (h )越小于好，一般可以设定阈值为0.05，判定规则为,当
P R E S S ( h ) S S ( h − 1 ) ≤ ( 1 − 0.05 ) 2 \frac{PRESS(h)}{SS(h-1)} \leq (1-0.05)^2 S S (h −1 )P R E S S (h )≤(1 −0 .0 5 )2
时，新加成分对回归改善是有帮助的

因此，可以定义交叉有效性
Q h 2 = 1 − P R E S S ( h ) S S ( h − 1 ) Q_h^2 = 1 – \frac{PRESS(h)}{SS(h-1)}Q h 2 =1 −S S (h −1 )P R E S S (h )
在每一步计算结束前，计算交叉有效性，在第h h h步有Q h 2 ^ < 1 − 0.9 5 2 \hat{Q_h^2} < 1 – 0.95^2 Q h 2 ^<1 −0 .9 5 2，则模型到达精度，可以停止提取成分

from sklearn.cross_decomposition import PLSRegression
pls = PLSRegression(n_compoents=k)
pls.fit(X,Y)
y_pred = pls.predict(X_test)

Original: https://blog.csdn.net/weixin_52185313/article/details/124002018
Author: PD我是你的真爱粉
Title: 偏最小二乘回归分析PLS

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/622963/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

「深度学习一遍过」必修17：基于Pytorch细粒度分类实战

本专栏用于记录关于深度学习的笔记，不光方便自己复习与查阅，同时也希望能给您解决一些关于深度学习的相关问题，并提供一些微不足道的人工神经网络模型设计思路。专栏地址：「深度学习一遍过」…

人工智能 2023年7月2日
0074
老油条表示真干不过，部门新来的00后测试员已把我卷崩溃，想离职了…

在程序员职场上，什么样的人最让人反感呢? 是技术不好的人吗?并不是。技术不好的同事，我们可以帮他。是技术太强的人吗?也不是。技术很强的同事，可遇不可求，向他学习还来不及呢。真正让…

人工智能 2023年7月29日
0048
老板问我，1个月能不能搞定元宇宙成为最in的公司？？？

职场中有一种需求叫做老板的需求！真的很怕又有什么爆款产品出现，因为会接到老板亲自下的需求。今年元宇宙很火爆，大厂都纷纷入局！我们公司也出现了这样的一幕…&#82…

人工智能 2023年6月3日
0081
手势识别调研

文章目录前言一、手势识别简介二、二维手势识别 * 1. 经典算法模型 2.采集信息方案三、三维手势识别 * 1.经典算法模型 2.采集深度信息设备方案四、现有产品技术 …

人工智能 2023年7月14日
0074
视频目标检测入门介绍

视频目标检测前言一、视频目标检测是什么？二、视频目标检测方法分类前言由于工作原因，要对视频目标检测做一些调研，最后想以文章的方式做一个总结，如果有说的不好的地方也请指出。…

人工智能 2023年7月12日
0072
混检阳性概率的计算（贝叶斯定理的一个应用例）

目录 1. 混检阳性概率的计算 2. 混管阳性时你阳性的概率有多大？ 2.1 贝叶斯分析结果的解释混检阳性概率的计算目前核酸混检的基本做法是十混一，如果阳性人群分布完全随机，那…

人工智能 2023年7月31日
0057
python 使用pandas.DataFrame.merge合并dataframe结果为空问题解决

问题描述使用 python2的 pandas合并两个datafreme时，结果为空。实际上两个表格有相同的数据，但是结果并没有合并。官网：pandas.merge ; 使用代码 …

人工智能 2023年7月8日
00106
深度学习学习笔记-论文研读4-基于深度强化学习的多用户边缘计算任务卸载调度与资源分配算法

本人学识浅薄，如有理解不到位的地方还请大佬们指出，相互学习，共同进步概念引入强化学习 DQN算法边缘计算边缘计算，是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心…

人工智能 2023年7月28日
0080
Mac安装adb环境（内附问题解决方案）

1、安装Homebrew Homebrew是一款Mac OS平台下的软件包管理工具，拥有安装、卸载、更新、查看、搜索等很多实用的功能。简单的一条指令，就可以实现包管理，而不用你关心…

人工智能 2023年5月30日
00223
11.12 – 每日一题 – 408

每日一句：遇到困难时不要抱怨，既然改变不了过去，那么就努力改变未来。数据结构 1 用不带头结点的单链表存储队列时，其队头指针指向队头结点，其队尾指针指向队尾结点，则在进行删除操…

人工智能 2023年6月29日
0082
python实现层次分析法(AHP)

层次分析法(Analytic Hierarchy Process,AHP)这是一种定性和定量相结合的、系统的、层次化的分析方法。层次分析法根据问题的性质和要达到的总目标，将问题…

人工智能 2023年6月28日
0083
Neo4j官方认证保姆级指南

目录前言一、证书什么样？二、考试规则三、如何学习？ 1.官方小课堂 2.应试教育四、考试地址总结前言对于刚刚接触Neo4j图数据库的同学们，官方的认证是一个不错证明…

人工智能 2023年6月10日
0072
Python学习手册（第四版）——使用入门（自学用）

Python的优点 -可读性-可移植性-不是一个独立的工具，可以调用各种库，同时也可以被调用等等-使编程变得很有趣-面向对象-可混合 Python的理念随便找的一张图脚本语言…

人工智能 2023年6月4日
0075
TensorFlow GPU最完整的安装方法

自己这几天更换电脑，再加上前次旧电脑学习，安装了好几次TensorFlow，每次都遇到了一些问题，经常缺一些文件，在网上下载文件还很慢，走了不少弯路，特将完整的安装方法记录如下，以…

人工智能 2023年6月24日
0083
数据集 TPC-H、TPC-DS、IMDB的导入使用

一. TPC-H 数据集数据集下载 TPC-H数据集可采用gcc下载或者直接下载zip包，然后解压即可。具体使用方法可以查看 dbgen文件目录下的：README文件数据表…

人工智能 2023年7月17日
00129
大数据处理过程中知识汇总

背景：接到临时需求，要处理3000w的数据，分为3000个txt文件，而每个文件1万域名。问题：大量数据无法直接跑，太耗费时间，需首先清洗处理数据；思路：筛选出有ip的网站进一…

人工智能 2023年7月17日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

偏最小二乘回归分析PLS

计算步骤

大家都在看