统计学习-01统计学习概念

2023年6月17日下午2:06 • 人工智能 • 阅读 67

chapter 2 统计学习

2.1基本概念

统计学习是关于估计 f ( ⋅ ) f(\cdot)f (⋅) 的一系列方法，其中f ( ⋅ ) f(\cdot)f (⋅)为一个定量的响应变量Y Y Y和p p p个不同的预测变量X = ( X 1 , X 2 , . . . , X p ) X=(X_1,X_2,…,X_p)X =(X 1 ,X 2 ,…,X p )之间的关系，一般形式如下： Y = f ( X ) + ϵ Y=f(X)+\epsilon Y =f (X )+ϵ 其中，ϵ \epsilon ϵ是随机误差项（error term），与X独立，且均值为0；误差项包含了一下因素：
真实的关系可能不是f ( ⋅ ) f(\cdot)f (⋅)，例如在简单线性回归估计中，实际关系可能并不是线性的；
可能是其他变量导致了Y Y Y的变化；
可能存在测量误差。
估计f ( ⋅ ) f(\cdot)f (⋅)的主要原因可分为 预测（prediction）和推断（inference），其中：
预测关注预测的结果，不关注模型的可解释性和变量之间的关系，可表示为： Y ^ = f ^ ( X ) \hat Y = \hat f(X)Y ^=f ^(X ) Y ^ \hat Y Y ^其精确性依赖于两个量:
- 一个是可约误差 (reducible error)时:可以通过提高f精度降低。
- 另一个是不可约误差 (irreducible error) 。不可约误差ϵ \epsilon ϵ是无法降低的，所以即使得到一个f f f的精确估计，预测仍然存在误差，预测的均方误差可表示为 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hcpwNZgq-1649058786244)(chapter2%20%E7%BB%9F%2022ff9/Untitled.png)]
推断目标不是为了预测Y，而是想明白X和Y之间的关系，可以描述为以下问题：
- 哪些预测变量与响应变量相关？
- 响应变量与每个预测因子之间的关系是什么？
- Y与每个预测变量的关系是否能用一个线性方程概括，还是需要更复杂的形式？
估计f ( ⋅ ) f(\cdot)f (⋅)的方法可分为 参数方法和 非参数方法：
参数方法（选定模型，估计参数eg：最小二乘回归） ✅缺点：选定的模型未必与真实f一致的。 ✅优点：可以将f ( ⋅ ) f(\cdot)f (⋅)假设为具体的参数形式可简化估计。参数方法指有一定的形式或形状的模型，如假设f ( ⋅ ) f(\cdot)f (⋅)是线性的，则具有如下形式：f ( X ) = β 0 + β 1 X 1 + β 2 X 2 + . . . + β p X p f(X)=\beta_0+\beta_1X_1+\beta_2X_2+…+\beta_pX_p f (X )=β0 +β1 X 1 +β2 X 2 +…+βp X p 在模型选完后则需要使用训练数据去拟合或训练模型，即估计参数β 0 , β 1 , . . . , β p \beta_0,\beta_1,…,\beta_p β0 ,β1 ,…,βp 。
非参数方法（不需对f形式事先做明确的假设） ✅缺点：无法将估计f ( ⋅ ) f(\cdot)f (⋅)的问题简化成对参数的估计，需要大量的数据。 ✅优点：是不限定函数f ( ⋅ ) f(\cdot)f (⋅)的具体形式，可在更大的范围选择更适宜f ( ⋅ ) f(\cdot)f (⋅)。然而有 最致命的缺陷即（远远超出参数方法所需要的）。
监督学习和 非监督学习的区别在于 前者有响应变量（标签），而后者无响应变量（标签）。
根据变量的 定量（连续）和定性（离散）类型，可将任务分为回归和分类问题，前者如对GDP、PM2.5的预测，后者如对动物、生病与否的识别。

2.2模型可解释性与柔性：

; 2.2.1 mse与flexibility：训练与测试

当统计学习方法的光滑度增加时，观测到训练均方误差单调递减，测试均方误差U形分布。这是统计学习的一个基本的特征，无论所处理的数据集怎样特殊，也无论曾经使用怎样的统计方法。当模型的光滑度增加时，训练均方误差将降低，但测试均方误差不一定会降低。当所建的模型产生一个较小的训练均方误差但却有一个较大的测试均方误差，就称该数据被 过拟合

2.4 方差-偏差权衡 :

欠拟合：模型不能适配训练样本，有一个很大的偏差。
过拟合：模型很好的适配训练样本，但在测试集上表现很糟，有一个很大的方差。

Mse、均方误差

; 偏差、方差与bagging、boosting的关系？

Bagging算法是对训练样本进行采样，产生出若干不同的子集，再从每个数据子集中训练出一个分类器，取这些分类器的平均，所以是降低模型的方差（variance）。Bagging算法和Random Forest这种并行算法都有这个效果。

Boosting则是迭代算法，每一次迭代都根据上一次迭代的预测结果对样本进行权重调整，所以随着迭代不断进行，误差会越来越小，所以模型的偏差（bias）会不断降低。

针对偏差和方差的思路

偏差： 实际上也可以称为避免欠拟合。 1、寻找更好的特征 – 具有代表性。 2、用更多的特征 – 增大输入向量的维度。（增加模型复杂度）
方差： 避免过拟合 1、增大数据集合 – 使用更多的数据，减少数据扰动所造成的影响 2、减少数据特征 – 减少数据维度，减少模型复杂度 3、正则化方法 4、交叉验证法

Original: https://blog.csdn.net/qq_42495889/article/details/123955037
Author: Orangechangjin
Title: 统计学习-01统计学习概念

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630339/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习-在pycharm里面使用anaconda环境

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月21日
0041
【地平线旭日X3派试用体验】基于MIPI Camera的目标检测 web 端展示，全流程（第三节）

今天终于将MIPI Camera在web端显示出来了，其实很简单的事情，但是因为一个网络的问题，自己研究了好几天，查遍了论坛所有帖子，最后还是在地平线专家们的指导下，发现问题所在。…

人工智能 2023年7月9日
0063
智能家居项目开发: 设计模式（工厂模式）+ 线程池 + Socket (持续更新中)

智能家居项目开发一、智能家居功能细节拆分 * 控制区：外设区：面向对象类和对象的概念结构体新玩法二、工厂模式 * 1. 工厂模式的概念 2. 工厂模式的实现 3. 工厂模…

人工智能 2023年5月27日
0058
空间地理加权回归stata_Stata：地理加权回归操作及应用教程

### 回答1：二元logistic回归是一种用于分析二分类问题的统计模型，它可以用来预测一个事件是否会发生。在 _Stata_中，可以使用logistic命令来进行二元logi…

人工智能 2023年6月18日
0074
【API解析】微软edge浏览器大声朗读功能（read aloud）调用步骤

【API解析】微软edge浏览器大声朗读功能（read aloud）调用步骤 1. 来源 github:MsEdgeTTS,edge-TTS-record 吾爱破解：微软语音助手免…

人工智能 2023年5月25日
0073
python中 .reshape 的用法：reshape(1,-1)

reshape(1,-1)转化成1行： reshape(2,-1)转换成两行： reshape(-1,1)转换成1列： reshape(-1,2)转化成两列 reshape(2,8…

人工智能 2023年6月15日
00245
关于yolov5的一些说明（txt文件、训练结果分析等）

一、yolo中txt文件的说明：二、yolo跑视频、图片文件的格式：三、yolov5训练结果不好的原因： 1. 欠拟合：在训练集上表现很差，测试集上表现也很差的现象可能是欠拟…

人工智能 2023年6月23日
0059
推荐系统笔记（十）：InfoNCE Loss 损失函数

背景对比学习损失函数有多种，其中比较常用的一种是InfoNCE loss。最近学习实现了SGL推荐系统算法，对InfoNCE Loss做一个总结。 InfoNCE Loss损失函…

人工智能 2023年7月25日
0065
可解释深度学习：从感受野到深度学习的三大基本任务：图像分类，语义分割，目标检测，让你真正理解深度学习

目录前言一、初识感受野 1.1猜一猜他是什么？ 1.2人眼视觉系统下的感受野 1.3深度神经网络中的感受野 1.3.1感受野的性质 1.3.2感受野的定义 1.3.3举一个例子…

人工智能 2023年5月26日
00117
使用 Python 实现的卷积神经网络初学者指南

目录卷积神经网络简介其组成部分输入层卷积层池化层全连接层 CNN 在数据集上的实际实现 CNN简介卷积神经网络是一种专为处理图像和视频而设计的深度学习算法。它以图像为…

人工智能 2023年7月13日
0043
目标分割学习

目标检测：更关注语义层面目标分割：关注像素级别的目标检测算法基本流程 DPM：会加额外的策略，传统算法的巅峰之作深度学习目标检测方法：One-stage(YOLO SSD)Tw…

人工智能 2023年7月12日
0035
代码会说话——pyttsx3简介

目录一、pyttsx3 概述二、pyttsx3的安装三、pyttsx3的运用四、全套代码一、pyttsx3 概述代码会说话：pyttsx3是Python中的文本到语音转…

人工智能 2023年5月27日
0071
数据分析–数据的分组和聚合

一、数据分组 1.GroupBy简介 GroupBy技术用于数据分组运算，类似于Excel的分类汇总（对于不同分类进行运算），其运算的核心模式为split-apply-combin…

人工智能 2023年7月7日
00109
opencv图片去畸变相关方法总结

opencv中共提供三种去畸变方法，分别为： cv2.undistort cv2.omnidir.undistortImage cv2.fisheye.undistortImage…

人工智能 2023年5月26日
0088
深度学习环境搭建之cuda、cudnn以及pytorch和torchvision的whl文件安装方法

一、前言假设已经装好了pycharm、anaconda，并且新建了一个conda虚拟环境（我的虚拟环境名为pytorch）。接下来需要安装新版的显卡驱动，安装cuda、cudnn…

人工智能 2023年7月12日
0090
【深度学习基础】学习率(learning rate)的理解与分类

文章目录 1. 训练与学习率的关系 2. 学习率的衰减策略 * （1）分段常数衰减（2）指数衰减（3）自然指数衰减（4）多项式衰减（5）余弦衰减（6）Lambda学习率 …

人工智能 2023年6月17日
0089

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30