用神经网络进行回归预测 weight_decay为异常值（大于1 的值）模型效果好的原因解析

2023年7月13日下午8:41 • 人工智能 • 阅读 48

weight_decay越大越好的原因

研究发生的问题特此记录

之前在用神经网络来做一个回归问题，回归的数值范围是0~1之间。然后进行网格搜参（搜索最好的weight_decay和学习率）的时候发现一个不合常理的现象，就是一般往往最好的 weight_decay 一般是很小的一个数值（0.001或者0.0001），但是我的 最优weight_decay反而很大，这就给我造成很大的困扰，还好经过一番探索，最终锁定了问题，下面我将一一道来

现象

发现weight_decay 取得一个比较大的值的时候模型效果最好

用神经网络进行回归预测 weight_decay为异常值（大于1 的值）模型效果好的原因解析

; 分析

这显然是不合理的 weight _decay 往往是小于1，一般取10^-3 这种数量级没道理这么大，而且最好的结果出现在这里显然是不合常理的

原因

首先 weight _decay本质上是一个L2正则化系数

可以理解为加上这个L2正则化，会限制模型的权重都会趋近于0（理解就是当w趋近与0时， w平方和会小，模型损失也会变小），而 weight_decay的大小就是公式中的λ，可以理解为 λ越大，优化器就越限制权重变得趋近与0

这里重点注意

由于我模型最后输出的是一个0~1的结果，而神经网络的最后一次输出是一个 权重之和，这就要求我们得到的权重必然是要 比较小的才能符合输出结果

也就是图中的w1 w2 w3 w4 要趋近于0，这样加权值才会比较小

; 实验分析

经过上面的原理分析，于是我做了下面两组实验

当weight_decay 设置为1时，模型的参数迭代如下

当weight_decay 设置为0.001时，模型的参数迭代如下

可以明显看出 weight_decay 越大，模型权重则会在训练地越小，这说明在我们模型中确实需要设置这么大的 weight_decay

但是我查看发现竟然需要是的权重变成10^-4 次方，是不是有点过于小了，我通过全连接层计算，理论上也就是只有1500个权重和，乘上10的-4次方的权重范围反而应该 小于0.15。而且其他这样做也没有出现这么大的weight_decay。

经过查找。我最终发现了原因，原因是在真实值输入的时候，为了使得loss更大一点，我将每个真实值都放大100倍，也就是说 输出的范围是0~100, 这就更加加重了 我模型需要学习到更趋近于0的权重，也可以和我前面分析出权重为什么过于小对于上来，问题解决！

总结

最终问题是解决了，将模型放缩100取消后，weight_decay也成为了一个正常值

教训是

别 瞎改改输出格式
从公式根源出发寻找问题
学会打印模型参数来查问题
神经网络不好做回归，使得权重很小
或许 多加几层由于层数的增加使得输出变小，可能会缓解这种问题

其实也是一种启发：神经网络做回归， 需要考虑权重问题，不能像做传统分类问题一样，因为传统分类会经过 sigmoid函数来进行概率变换，

就算很大或者很小的输出值，也会被合理的放缩到0~1之间，不用考虑 权重值过大或过小的问题

Original: https://blog.csdn.net/qq874455953/article/details/123503477
Author: B站：阿里武
Title: 用神经网络进行回归预测 weight_decay为异常值（大于1 的值）模型效果好的原因解析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690582/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

「论文笔记」Denoising User-aware Memory Network for Recommendation

动机：为了推断用户动态偏好的演变，更多的关注到基于序列的推荐系统最近的研究：注意到可以从显示和隐式反馈序列更好的理解用户偏好现有方法存在的问题：没有考虑在隐式反馈中包含的噪…

人工智能 2023年5月28日
0059
论文精读：Generative Adversarial Imitation Learning（生成对抗模仿学习）

生成对抗模仿学习论文分享（Generative Adversarial Imitation Learning） 1.背景介绍 1.1.论文背景这篇论文是2016年由斯坦福大学研究…

人工智能 2023年6月24日
0067
领域自适应论文（六十八）：Implicit Class-Conditioned Domain Alignment for Unsupervised Domain Adaptation论文原理

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月14日
0074
SVM的核函数详解

文章目录 1、核函数背景 * 核函数正式定义 2、高斯核函数 * 2.2 参数带宽σ \sigma σ的影响 2.3高斯核函数的实际意义 2、多项式核函数 4、参考资料 1、核函数…

人工智能 2023年6月15日
0097
【Pytorch神经网络理论篇】 22 自编码神经网络：概述+变分+条件变分自编码神经网络

同学你好！本文章于2021年末编写，获得广泛的好评！故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现…

人工智能 2023年7月14日
0098
目标检测 Chapter1 传统目标检测方法

文章目录目标检测问题定义 * 介绍目标检测和图像分类、图像分割的区别目标检测问题方法 * 传统目标检测深度学习目标检测传统 Vs 深度学习传统目标检测综述 * Viol…

人工智能 2023年6月26日
0088
【Python】9*9乘法口诀表（while、for两种循环）

14天阅读挑战赛目录 1.第一个是while循环。 2.代码不会局限于一种思路，第二种方法用到了用for循环。很高兴参加这个算法活动，算法是什么呢？算法，从字面意义上解释，就…

人工智能 2023年7月4日
0066
优化算法详解

文章目录 * – 1、机器学习要求解的数学模型 – 2、最优化算法 – + 2.1 分类 + 2.2 通用的优化框架 – 3 公式解…

人工智能 2023年6月16日
00264
Jupyter notebook 详细安装步骤

前言：在安装Jupyter notebook 之前，确认您已安装python编译器（点击进入python官网）一、开始安装 1、打开cmd命令窗口在键盘上点击 win+r 键…

人工智能 2023年7月3日
00125
MMCV学习——基础篇1（配置&注册机制）

博主最近在学习mmcv这个基础库，所以写一个博客记录一下。一来是作为学习笔记，方便日后查阅，二来是和大家分享交流一下我得学习心得。 mmcv是由OpenMMLab开源的一个计算机视…

人工智能 2023年5月26日
0087
Python基于pyzbar、opencv、pyqt5库，实现二维码识别 gui 应用程序开发

二维码组成结构基本介绍二维码识别背景介绍视觉的方法可以用来估计位置和姿态。最容易想到的是在目标上布置多个容易识别的特征，这样使用opencv相机标定和、相机畸变矫正、轮廓提取、…

人工智能 2023年7月18日
0079
第6章 Stata方差分析

目录 6.1单因素方差分析 6.2多因素方差分析 6.3协方差分析 6.4重复测量方差分析当遇到多个平均数间的差异显著性检验时，我们可以采用方差分析法。方差分析法就是将索要处理的…

人工智能 2023年7月16日
0066
全网唯一，不忽悠的ChatGPT

Datawhale干货作者：Ben，中山大学，Datawhale成员最近ChatGPT火出圈了，它和前阵子的Stable Diffusion（AIGC）一样成为社交媒体上人们津…

人工智能 2023年7月31日
0063
Unity3D敌人AI自动追击功能

我这次制作的是狼这个敌人：unity中有免费的资源，我选择的资源如下图所示，望读者下载方便动手以便更好地学习和理解： Wolf Animated | 3D Animals | Un…

人工智能 2023年7月31日
0046
Python数据分析的过程记录

Python数据分析的过程记录文章目录 * – Python数据分析的过程记录 – + 一、需求介绍 + 二、以第1、个为例进行数据分析 + * 1、获取…

人工智能 2023年7月15日
0098
用YOLOv5训练自己的目标检测数据集（以口罩检测为例）

运行YOLOv5首先需要安装深度学习环境，教程请看安装pytorch深度学习环境（GPU版）。 YOLOv5的代码在GitHub上是开源的GitHub – ultral…

人工智能 2023年6月17日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

用神经网络进行回归预测 weight_decay为异常值（大于1 的值）模型效果好的原因解析

现象

; 分析

原因

; 实验分析

总结

大家都在看