递推最小二乘法(Recursive least square, RLS)详细推导

2023年6月15日上午4:45 • 人工智能 • 阅读 52

假设有数据( X , Y ) (X,Y)(X ,Y )，其中X ∈ R m × d X \in {\mathbb{R}^{m \times d}}X ∈R m ×d，Y ∈ R m × 1 Y \in {\mathbb{R}^{m \times 1}}Y ∈R m ×1，m m m为样本数，d d d为特征数，考虑最小二乘解
θ 0 = ( X T X ) − 1 X T Y = Σ 0 − 1 X T Y (1) \begin{aligned}{\theta_0} = {\left( {{X^{\rm{T}}}X} \right)^{ – 1}}{X^{\rm{T}}}Y = {\Sigma_0}^{-1}{X^{\rm{T}}}Y \tag{1}\end{aligned}θ0 =(X T X )−1 X T Y =Σ0 −1 X T Y (1 )
⇒ Σ 0 θ 0 = X T Y (2) \Rightarrow {\Sigma_0}{\theta_0} = {X^{\rm{T}}}Y \tag{2}⇒Σ0 θ0 =X T Y (2 )
当新数据( X 1 , Y 1 ) \left( {{X_1},{Y_1}} \right)(X 1 ,Y 1 )到来时，更新模型，得到新的回归系数
θ 1 = ( [ X X 1 ] T [ X X 1 ] ) − 1 [ X X 1 ] T [ Y Y 1 ] = Σ 1 − 1 [ X X 1 ] T [ Y Y 1 ] (3) \begin{aligned} {\theta_1} &= {\left( {{{\left[ {\begin{array}{cc} X\ {{X_1}} \end{array}} \right]}^{\rm{T}}}\left[ {\begin{array}{cc} X\ {{X_1}} \end{array}} \right]} \right)^{ – 1}}{\left[ {\begin{array}{cc} X\ {{X_1}} \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{cc} Y\ {{Y_1}} \end{array}} \right] \ &= {\Sigma 1}^{ – 1}{\left[ {\begin{array}{cc} X\ {{X_1}} \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{cc} Y\ {{Y_1}} \end{array}} \right]\tag{3} \end{aligned}θ1 =([X X 1 ]T [X X 1 ])−1 [X X 1 ]T [Y Y 1 ]=Σ1 −1 [X X 1 ]T [Y Y 1 ](3 )
其中
Σ 1 = [ X X 1 ] T [ X X 1 ] = X T X + X 1 T X 1 = Σ 0 + X 1 T X 1 (4) \begin{aligned} {\Sigma _1} &= {\left[ {\begin{array}{cc} X\ {{X_1}} \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{cc} X\ {{X_1}} \end{array}} \right] \ &= {X^{\rm{T}}}X + X_1^{\rm{T}}{X_1} \ &= {\Sigma _0} + X_1^{\rm{T}}{X_1} \end{aligned} \tag{4}Σ1 =[X X 1 ]T [X X 1 ]=X T X +X 1 T X 1 =Σ0 +X 1 T X 1 (4 )
⇒ Σ 0 = Σ 1 − X 1 T X 1 (5) \begin{aligned} \Rightarrow {\Sigma _0} = {\Sigma _1} – X_1^{\rm{T}}{X_1} \end{aligned} \tag{5}⇒Σ0 =Σ1 −X 1 T X 1 (5 )
根据公式(4)的结果，通过归纳可得
Σ k = Σ k − 1 + X k T X k (6) \begin{aligned} {\Sigma _k} = {\Sigma {k – 1}} + X_k^{\rm{T}}{X_k} \end{aligned} \tag{6}Σk =Σk −1 +X k T X k (6 )
[ X X 1 ] T [ Y Y 1 ] = X T Y + X 1 T Y 1 = Σ 0 θ 0 + X 1 T Y 1 / / 公式 ( 2 ) 结果替换得到 = ( Σ 1 − X 1 T X 1 ) θ 0 + X 1 T Y 1 / / 公式 ( 5 ) 结果替换得到 = Σ 1 θ 0 + X 1 T ( Y 1 − X 1 θ 0 ) (7) \begin{aligned} {\left[ {\begin{array}{cc} X\ {{X_1}} \end{array}} \right]^{\rm{T}}}\left[ {\begin{array}{cc} Y\ {{Y_1}} \end{array}} \right] &= {X^{\rm{T}}}Y + X_1^{\rm{T}}{Y_1}\ &= {\Sigma 0}{\theta_0} + X_1^{\rm{T}}{Y_1} \quad //公式(2)结果替换得到\ &= \left( {{\Sigma _1} – X_1^{\rm{T}}{X_1}} \right){\theta_0} + X_1^{\rm{T}}{Y_1} \quad //公式(5)结果替换得到\ &= {\Sigma _1}{\theta_0} + X_1^{\rm{T}}\left( {{Y_1} – {X_1}{\theta_0}} \right) \end{aligned} \tag{7}[X X 1 ]T [Y Y 1 ]=X T Y +X 1 T Y 1 =Σ0 θ0 +X 1 T Y 1 //公式(2 )结果替换得到=(Σ1 −X 1 T X 1 )θ0 +X 1 T Y 1 //公式(5 )结果替换得到=Σ1 θ0 +X 1 T (Y 1 −X 1 θ0 )(7 )
将公式(7)回带到公式(3)：
θ 1 = Σ 1 − 1 ( Σ 1 θ 0 + X 1 T ( Y 1 − X 1 θ 0 ) ) = θ 0 + Σ 1 − 1 X 1 T ( Y 1 − X 1 θ 0 ) (8) \begin{aligned} {\theta_1} &= {\Sigma _1}^{ – 1}\left( {{\Sigma _1}{\theta_0} + X_1^{\rm{T}}\left( {{Y_1} – {X_1}{\theta_0}} \right)} \right) \ &= {\theta_0} + {\Sigma _1}^{ – 1}X_1^{\rm{T}}\left( {{Y_1} – {X_1}{\theta_0}} \right) \end{aligned} \tag{8}θ1 =Σ1 −1 (Σ1 θ0 +X 1 T (Y 1 −X 1 θ0 ))=θ0 +Σ1 −1 X 1 T (Y 1 −X 1 θ0 )(8 )
根据公式(8)的结果，通过归纳可得
θ k = θ k − 1 + Σ k − 1 X k T ( Y k − X k θ k − 1 ) (9) \begin{aligned} {\theta_k} = {\theta{k – 1}} + {\Sigma k}^{ – 1}X_k^{\rm{T}}\left( {{Y_k} – {X_k}{\theta{k – 1}}} \right) \end{aligned} \tag{9}θk =θk −1 +Σk −1 X k T (Y k −X k θk −1 )(9 )

到这里，已经能够实现对最小二乘的递推，其过程可概括如下，我们称为算法1:

根据公式(5)更新Σ k = Σ k − 1 + X k T X k {\Sigma k} = {\Sigma {k – 1}} + X_k^{\rm{T}}{X_k}Σk =Σk −1 +X k T X k ；
根据公式(9)更新θ k = θ k − 1 + Σ k − 1 X k T ( Y k − X k θ k − 1 ) {\theta_k} = {\theta_{k – 1}} + {\Sigma k}^{ – 1}X_k^{\rm{T}}\left( {{Y_k} – {X_k}{\theta{k – 1}}} \right)θk =θk −1 +Σk −1 X k T (Y k −X k θk −1 )。

但以上过程存在两个问题：

对矩阵Σ k \Sigma_k Σk 的求逆计算复杂度比较高，我们能否在递推过程中避免对Σ k \Sigma_k Σk 的求逆计算，而直接更新它的逆矩阵；
矩阵Σ k \Sigma_k Σk 中的元素会随着数据量的增加不断增大，可能会发生数值溢出的问题。

针对以上问题，我们要对公式进一步改造，根据Sherman-Morrison-Woodbury公式：
( A + U V T ) − 1 = A − 1 − A − 1 U ( I + V T A − 1 U ) − 1 V T A − 1 {\left( {A + U{V^{\rm{T}}}} \right)^{ – 1}} = {A^{ – 1}} – {A^{ – 1}}U{\left( {I + {V^{\rm{T}}}{A^{ – 1}}U} \right)^{ – 1}}{V^{\rm{T}}}{A^{ – 1}}(A +U V T )−1 =A −1 −A −1 U (I +V T A −1 U )−1 V T A −1
公式(6)的逆可写成如下形式
Σ k − 1 = ( Σ k − 1 + X k T X k ) − 1 = Σ k − 1 − 1 − Σ k − 1 − 1 X k T ( I + X k Σ k − 1 − 1 X k T ) − 1 X k Σ k − 1 − 1 (10) \begin{aligned} {\Sigma k}^{ – 1} &= {\left( {{\Sigma {k – 1}} + X_k^{\rm{T}}{X_k}} \right)^{ – 1}} \ &= \Sigma {k – 1}^{ – 1} – \Sigma {k – 1}^{ – 1}X_k^{\rm{T}}{\left( {I + {X_k}\Sigma {k – 1}^{ – 1}X_k^{\rm{T}}} \right)^{ – 1}}{X_k}\Sigma {k – 1}^{ – 1} \end{aligned} \tag{10}Σk −1 =(Σk −1 +X k T X k )−1 =Σk −1 −1 −Σk −1 −1 X k T (I +X k Σk −1 −1 X k T )−1 X k Σk −1 −1 (1 0 )
令P k = ∑ k − 1 {P_k} = {\sum k}^{ – 1}P k =∑k −1，公式(10)变为：
P k = P k − 1 − P k − 1 X k T ( I + X k P k − 1 X k T ) − 1 X k P k − 1 (11) \begin{aligned} {P_k} = {P{k – 1}} – {P_{k – 1}}X_k^{\rm{T}}{\left( {I + {X_k}{P_{k – 1}}X_k^{\rm{T}}} \right)^{ – 1}}{X_k}{P_{k – 1}} \end{aligned} \tag{11}P k =P k −1 −P k −1 X k T (I +X k P k −1 X k T )−1 X k P k −1 (1 1 )
公式(9)变为：
θ k = θ k − 1 + P k X k T ( Y k − X k θ k − 1 ) (12) \begin{aligned} {\theta_k} = {\theta_{k – 1}} + {P_k}X_k^{\rm{T}}\left( {{Y_k} – {X_k}{\theta_{k – 1}}} \right) \end{aligned} \tag{12}θk =θk −1 +P k X k T (Y k −X k θk −1 )(1 2 )
注意到，公式(11)依然存在对I + X k P k − 1 X k T {I + {X_k}{P_{k – 1}}X_k^{\rm{T}}}I +X k P k −1 X k T 的求逆运算，这似乎依然没有解决上述问题1，我们避免了对Σ k \Sigma_k Σk 的求逆，但却又引入了一个新的逆。事实上，如果数据是逐个到达的，则X k X_k X k 为一个行向量(在本文中，一个样本我们用行向量表示，这主要是因为本文规定数据矩阵中每一行代表一个样本)，因此I + X k P k − 1 X k T {I + {X_k}{P_{k – 1}}X_k^{\rm{T}}}I +X k P k −1 X k T 最终得到结果为一个数值，我们无需矩阵求逆计算，只需要取它的倒数就好了，即
P k = P k − 1 − P k − 1 X k T X k P k − 1 1 + X k P k − 1 X k T (13) \begin{aligned} {P_k} = {P_{k – 1}} – \frac{{{P_{k – 1}}X_k^{\rm{T}}{X_k}{P_{k – 1}}}}{{1 + {X_k}{P_{k – 1}}X_k^{\rm{T}}}} \end{aligned} \tag{13}P k =P k −1 −1 +X k P k −1 X k T P k −1 X k T X k P k −1 (1 3 )
于是我们得到了新的递推算法如下,我们称为算法2：

根据公式(13)更新P k = P k − 1 − P k − 1 X k T X k P k − 1 1 + X k P k − 1 X k T ； {P_k} = {P_{k – 1}} – \frac{{{P_{k – 1}}X_k^{\rm{T}}{X_k}{P_{k – 1}}}}{{1 + {X_k}{P_{k – 1}}X_k^{\rm{T}}}}；P k =P k −1 −1 +X k P k −1 X k T P k −1 X k T X k P k −1 ；
根据公式(12)更新θ k = θ k − 1 + P k X k T ( Y k − X k θ k − 1 ) {\theta_k} = {\theta_{k – 1}} + {P_k}X_k^{\rm{T}}\left( {{Y_k} – {X_k}{\theta_{k – 1}}} \right)θk =θk −1 +P k X k T (Y k −X k θk −1 )。

一些书上的递推算法可能并非这样的形式，我们可以进一步对上述过程进行一些整理。在一些书中，K k = P k X k T {K_k} = {P_k}X_k^{\rm{T}}K k =P k X k T 也被称为增益，Y k − X k θ k − 1 {Y_k} – {X_k}{\theta_{k – 1}}Y k −X k θk −1 被称为新息，顾名思义，就是引入的新信息。
K k = P k X k T = ( P k − 1 − P k − 1 X k T ( I + X k P k − 1 X k T ) − 1 X k P k − 1 ) X k T / / 公式 ( 11 ) 结果替换得到 = P k − 1 X k T ( I − ( I + X k P k − 1 X k T ) − 1 X k P k − 1 X k T ) = P k − 1 X k T ( I + X k P k − 1 X k T ) − 1 ( ( I + X k P k − 1 X k T ) − X k P k − 1 X k T ) = P k − 1 X k T ( I + X k P k − 1 X k T ) − 1 (14) \begin{aligned} {K_k} &= {P_k}X_k^{\rm{T}}\ &= \left( {{P_{k – 1}} – {P_{k – 1}}X_k^{\rm{T}}{{\left( {I + {X_k}{P_{k – 1}}X_k^{\rm{T}}} \right)}^{ – 1}}{X_k}{P_{k – 1}}} \right)X_k^{\rm{T}} \quad //公式(11)结果替换得到\ &= {P_{k – 1}}X_k^{\rm{T}}\left( {I – {{\left( {I + {X_k}{P_{k – 1}}X_k^{\rm{T}}} \right)}^{ – 1}}{X_k}{P_{k – 1}}X_k^{\rm{T}}} \right)\ &= {P_{k – 1}}X_k^{\rm{T}}{\left( {I + {X_k}{P_{k – 1}}X_k^{\rm{T}}} \right)^{ – 1}}\left( {\left( {I + {X_k}{P_{k – 1}}X_k^{\rm{T}}} \right) – {X_k}{P_{k – 1}}X_k^{\rm{T}}} \right)\ &= {P_{k – 1}}X_k^{\rm{T}}{\left( {I + {X_k}{P_{k – 1}}X_k^{\rm{T}}} \right)^{ – 1}} \end{aligned} \tag{14}K k =P k X k T =(P k −1 −P k −1 X k T (I +X k P k −1 X k T )−1 X k P k −1 )X k T //公式(1 1 )结果替换得到=P k −1 X k T (I −(I +X k P k −1 X k T )−1 X k P k −1 X k T )=P k −1 X k T (I +X k P k −1 X k T )−1 ((I +X k P k −1 X k T )−X k P k −1 X k T )=P k −1 X k T (I +X k P k −1 X k T )−1 (1 4 )
将公式(14)的结果代入到公式(11)可得
P k = P k − 1 − K k X k P k − 1 = ( I − K k X k ) P k − 1 (15) \begin{aligned} {P_k} = {P_{k – 1}} – {K_k}{X_k}{P_{k – 1}} = \left( {I – {K_k}{X_k}} \right){P_{k – 1}} \end{aligned} \tag{15}P k =P k −1 −K k X k P k −1 =(I −K k X k )P k −1 (1 5 )
于是，算法2可进一步的写为如下形式，我们称为算法3：

根据公式(14)更新模型增益K k = P k − 1 X k T ( I + X k P k − 1 X k T ) − 1 {K_k} = {P_{k – 1}}X_k^{\rm{T}}{\left( {I + {X_k}{P_{k – 1}}X_k^{\rm{T}}} \right)^{ – 1}}K k =P k −1 X k T (I +X k P k −1 X k T )−1；
根据公式(15)更新P k = ( I − K k X k ) P k − 1 {P_k} = \left( {I – {K_k}{X_k}} \right){P_{k – 1}}P k =(I −K k X k )P k −1 ；
更新回归系数θ k = θ k − 1 + K k ( Y k − X k θ k − 1 ) {\theta_k} = {\theta_{k – 1}} + {K_k}\left( {{Y_k} – {X_k}{\theta_{k – 1}}} \right)θk =θk −1 +K k (Y k −X k θk −1 )

Original: https://blog.csdn.net/qq_39645262/article/details/125691638
Author: tianmingemmm
Title: 递推最小二乘法(Recursive least square, RLS)详细推导

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613711/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[实验二]BMP图像序列转YUV格式

目录一、格式介绍 1.1 BMP格式 1.2 YUV格式二、工程说明 2.1 使用说明 2.2 实验测试三、工程代码 3.1 bmp2yuv.h 3.2 bmp2yuv.cp…

人工智能 2023年6月21日
0062
【ResNet】Pytorch从零构建ResNet18

Pytorch从零构建ResNet 第一章从零构建ResNet18第二章从零构建ResNet50 文章目录 Pytorch从零构建ResNet 前言一、ResNet是什么？ …

人工智能 2023年7月24日
0066
java 操作elasticsearch详细总结

上一篇我们通过kibana的可视化界面，对es的索引以及文档的常用操作做了毕竟详细的总结，本篇将介绍如何使用java完成对es的操作，这也是实际开发中将要涉及到的。目前，开发中使…

人工智能 2023年7月29日
0049
相机标定-张正友棋盘格标定法

目录 1.针孔相机模型 2.相机成像过程 2.1 各个坐标系之间的转换 2.1.1 图像坐标系到像素坐标系 2.1.2 相机坐标系到图像坐标系 2.1.3世界坐标系到相机坐标系 2…

人工智能 2023年6月18日
00116
目标跟踪-按专题分类文章

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 1、Fast Online Object Tracking and Segmentation: A Unifyin…

人工智能 2023年7月1日
0092
python实现模拟FTP文件传输

前言一、FTP具体实现代码二、相关函数及其说明 1.建立连接函数 2.线程处理函数 3.文件下载函数 4.文件上传函数 5.哈希函数 6.文件目录函数三.原理概述 3.1 F…

人工智能 2023年7月16日
00102
人工智能笔记

第一章：绪论 1956年正式提出人工智能（artificial intelligence, AI）这个术语并把它作为一门新兴科学的名称。 20世纪三大科学技术成就：空间技术、原子能…

人工智能 2023年6月10日
0077
opencv 阈值处理(python)

阈值处理 * – + * 阈值处理 * – threshold函数 – + 二值化阈值处理（cv2.THRESH_BINARY） + 反二值化阈…

人工智能 2023年6月20日
0078
模型建立和估计中的问题及对策

目录实践中模型建立常出现的问题 1. 误设定 2. 多重共线性 3. 异方差性 4. 自相关实践中模型建立常出现的问题由于估计多元线性回归参数所使用的最小二乘法建立在一系列假…

人工智能 2023年6月18日
00128
聚类热图分类注释_complexHeatmap版本的对角线热图

写在前面这几天看到一直有人在重复这个图，之前看到过base plot的版本，看到过ggplot2的版本。这里就把之前使用complexheatmap绘制的版本也拿来和大家分享一下…

人工智能 2023年6月2日
0084
TEB算法

起始点：start，目标点：goal，由全局规划器指定 N个控制点：插入N个控制点(机器人的姿态[x、y、theta])，以这一系列姿态点代表该条路径。时间分辨率：每两个姿态点…

人工智能 2023年6月10日
0069
上汽大众首届「因你而生」ID. Day热力开启

近日，2022上汽大众举办了「因你而生」ID. Day车主共创年度活动，活动全程由ID.车主们深度参与设计及运营。自ID.产品上市以来，上汽大众在用户运营上取得长足进展，已拥有1…

人工智能 2023年6月27日
0067
“泰迪杯”超市Spark数据处理和数据分析项目实战Dataframe

数据和代码 2019 年”泰迪杯”数据分析职业技能大赛超市销售数据分析一、背景近年来，随着新零售业的快速发展，消费者购买商品时有了更多的对比和选择，导致超…

人工智能 2023年6月19日
00105
目标检测的Tricks | 【Trick13】使用kmeans与遗传算法聚类anchor

如有错误，恳请指出。这篇博客的代码来着博主：太阳花的小绿豆，具体的解释说明可以见参考资料，这里只贴上代码留作笔记使用。 ps：参考资料解释得非常的详细参考代码：plot_kme…

人工智能 2023年7月10日
0055
NotFoundError: No algorithm worked! when using Conv2D

NotFoundError: No algorithm worked! when using Conv2D 文章目录 * – + NotFoundError: No a…

人工智能 2023年5月26日
00124
目标检测 Chapter1 传统目标检测方法

文章目录目标检测问题定义 * 介绍目标检测和图像分类、图像分割的区别目标检测问题方法 * 传统目标检测深度学习目标检测传统 Vs 深度学习传统目标检测综述 * Viol…

人工智能 2023年6月26日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

递推最小二乘法(Recursive least square, RLS)详细推导

大家都在看