什么是局部加权回归

2023年12月31日上午9:20 • 人工智能 • 阅读 39

问题描述

局部加权回归（Locally Weighted Regression, LWR）是一种非参数回归算法，用于解决回归问题。该算法通过给予不同样本以不同的权重，来对回归模型进行局部逼近，从而更好地拟合数据。本文将详细介绍局部加权回归的原理、算法推导、计算步骤和提供一个复杂的Python代码示例。

算法原理

局部加权回归将样本的权重与样本之间的距离关联起来，使得距离较近的样本对模型的拟合贡献更大。算法基于以下原理进行拟合：

对于给定的测试样本$x$，利用核函数来给予附近样本点以不同的权重。常用的核函数有高斯核函数（Gaussian Kernel）和三角核函数（Triangular Kernel）等。
在$x$附近的样本上运用最小二乘法进行线性回归，得到局部估计系数。

公式推导

我们用$X$表示输入的特征变量矩阵，$Y$表示对应的目标变量，对于给定的测试样本$x$，我们希望建立具有以下形式的模型：

$$h_{\theta}(x) = \theta_0 + \theta_1 \cdot x$$

为了给附近的样本点赋予更高的权重，我们引入核函数$K$来计算样本权重。核函数的定义如下：

$$K\left(\frac{||x^{(i)} – x||}{\tau}\right) = \exp\left(-\frac{||x^{(i)} – x||^2}{2\tau^2}\right)$$

其中，$x^{(i)}$表示训练集中的样本点，$\tau$是控制样本权重的参数。

我们的目标是通过最小化加权误差函数来估计模型参数$\theta$。误差函数的定义如下：

$$J(\theta) = \sum_{i=1}^{m} w^{(i)}(Y^{(i)} – h_{\theta}(x^{(i)}))^2$$

其中，$m$是训练集样本数量，$w^{(i)} = K\left(\frac{||x^{(i)} – x||}{\tau}\right)$为样本$x^{(i)}$的权重。

根据最小二乘法的思想，我们通过求解最小化误差函数的参数$\theta$来获得模型的最佳拟合。最小化误差函数的步骤如下：

根据核函数计算样本的权重$w^{(i)}$。
构造对角矩阵$W$，将权重$w^{(i)}$赋值在对角线上。
利用最小二乘法求解得到$\theta = (X^T W X)^{-1}X^T W Y$。
根据$\theta$估计模型$h_{\theta}(x)$的值。

计算步骤

局部加权回归的计算步骤如下：

定义核函数$K$和参数$\tau$。
给定测试样本$x$，计算样本的权重$w^{(i)}$。
构建对角权重矩阵$W$。
通过最小二乘法求解得到参数$\theta$。
利用得到的$\theta$计算模型预测值$h_{\theta}(x)$。

Python代码示例

下面是一个使用局部加权回归算法对虚拟数据集进行拟合的Python代码示例：

import numpy as np
import matplotlib.pyplot as plt

def gaussian_kernel(x, xi, tau):
 return np.exp(-(x-xi)**2 / (2*tau**2))

def locally_weighted_regression(X, Y, x, tau):
 m = X.shape[0]
 W = np.zeros((m, m))
 theta = np.zeros((2, 1))

 for i in range(m):
 W[i, i] = gaussian_kernel(x, X[i], tau)

 x_matrix = np.column_stack([np.ones((m, 1)), X])
 theta = np.linalg.inv(x_matrix.T @ W @ x_matrix) @ x_matrix.T @ W @ Y

 return theta[0][0] + theta[1][0] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls x

# 生成虚拟数据集
np.random.seed(0)
X = np.linspace(0, 10, 100)
Y = np.sin(X) + np.random.normal(scale=0.1, size=X.shape)

# 预测新样本
x_test = 5
y_pred = locally_weighted_regression(X, Y, x_test, tau=1)

# 绘制拟合结果
plt.scatter(X, Y, label='data')
plt.plot(X, np.sin(X), color='red', linestyle='--', label='sin(x)')
plt.plot(x_test, y_pred, marker='o', color='green', label='prediction')
plt.legend()
plt.show()

在上述代码中，我们首先定义了高斯核函数gaussian_kernel，然后实现了locally_weighted_regression函数来进行局部加权回归的计算。最后，我们使用虚拟数据集生成了散点图，并利用局部加权回归进行拟合，并绘制了拟合结果。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/821916/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

RNA 19. SCI 文章中无监督聚类法（ConsensusClusterPlus）

点击关注，桓峰基因桓峰基因生物信息分析，SCI文章撰写及生物信息基础知识学习：R语言学习，perl基础编程，linux系统命令，Python遇见更好的你 83篇原创内容公众号…

人工智能 2023年7月17日
0063
深度学习环境安装所需软件介绍cuda+cudnn+driver+anaconda+keras+tensorFlow+Pycharm+Jupyer(下载地址+配图)

英伟达(NVIDIA)显卡驱动我们通常使用的计算机都配备了显卡，要么是集成显卡，要么是独立显卡。 [En] The computers we usually use are eq…

人工智能 2023年5月24日
0075
python读取查看npz/npy文件数据及数据完全显示方法

npz和npy文件都可以直接使用numpy读写。 import numpy as np ac = np.load(‘mydata.npz’) ac.files 要查看其中某一项的数…

人工智能 2023年7月6日
0093
KGCN、KGNN-LS ( KGCN-LS )、KGAT的简要介绍以及简单对比

emm…图片复制过来显示不了（因为我太懒了0.0），要看图的话可以去我的博客瞅瞅，嘿嘿嘿对了，有些英文短句假如翻译成中文，阅读的时候就太搞脑子了，所以我干脆就不翻译了 …

人工智能 2023年6月1日
0070
基于backtrader的唐奇安结合ADX策略实现(自动多参数调优和回测)

基于backtrader的唐奇安结合ADX策略实现(自动多参数调优和回测) from datetime import datetime,timedelta import backt…

人工智能 2023年7月8日
0091
【opencv x ffmpeg】一、Linux下安装与编译（Ubuntu18.04）

目录一、ffmpeg安装和编译二、opencv安装和编译 1、安装依赖 2、下载源代码 3、编译 4、环境配置 4.1 指定库路径 4.2 获取头文件路径三、配置成果一、f…

人工智能 2023年7月19日
0089
吴峰光杀进 Linux 内核

【编者按】吴峰光，Linux 内核守护者，学生时代被同学戏称为”老神仙”，两耳不闻窗外事，一心只搞 Linux。吴峰光的 Linux 内核之路，是天赋、兴趣…

人工智能 2023年6月19日
0086
【ECAPA_TDNN 下】代码和论文细节分析

ECAPA_TDNN代码和论文细节分析一、数据部分(dataloader.py) 二、网络结构(model.py) * 2.1 整体网络结构 2.2 SpecAugment算法 …

人工智能 2023年7月23日
0082
NLP的Token embedding和位置embedding

Token Enbedding，也是字符转向量的一种常用做法。 import tensorflow as tf model_name = "ted_hrlr_transl…

人工智能 2023年5月24日
0085
hⅰgh怎么读音发音英语_字母h的发音音标

英语(论坛)中有26个英文字母，其中5个元音字母和21个辅音字母。任何一个英语单词都可由26个字母组成。音素与国际音标表要搞清楚什么是音标，首先要搞清楚什么是音素。音素是最小的…

人工智能 2023年5月27日
00151
【OpenCV 例程200篇】217. 鼠标交互获取多边形区域（ROI）

OpenCV 例程200篇总目录【youcans 的 OpenCV 例程300篇】217. 鼠标交互获取多边形区域函数 cv.selectROI 可以通过鼠标在图像上选择感兴…

人工智能 2023年6月18日
0067
电机PID控制和闭环控制

电机PID控制和闭环控制 1 PID控制 1.1 位置式PID 理论公式： PID中，P用于提高响应速度，I用于减小静差、D用于抑制震荡。一般在进行PID参数整定时，首先设I和D的…

人工智能 2023年6月15日
0063
YOLOv5的head详解

YOLOv5的head详解在前两篇文章中我们对YOLO的backbone和neck进行了详尽的解读，如果有小伙伴没看这里贴一下传送门：YOLOv5的Backbone设计YOLOv…

人工智能 2023年6月17日
00124
假设检验——T-test, F-test, Z-test ,Chi squared test

T-test 用来比较两样本平均值之间是否具有显著性差异。T-test类型： one-sample t-test，用来比较单个样本平均值和一个给定的平均值（理论值）； indepe…

人工智能 2023年7月17日
0052
【GNN报告】北京大学张牧涵：谱图神经网络有多强大？

目录 1、简介 2、谱图神经网络有多强大？背景核心模块JacobiConv 实验结论 3、小结 4、参考 1、简介报告嘉宾：张牧涵（北京大学）报告题目：谱图神经网络有多强…

人工智能 2023年7月13日
0072
windows11编译OpenCV4.5.0 with CUDA（附注意事项）

windows11编译OpenCV4.5.0 with CUDA 从OpenCV4.2.0 版本开始允许使用 Nvidia GPU 来加速推理。本文介绍最近使用windows11系…

人工智能 2023年7月18日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31