机器学习期末复习

绪论AND模型评估与选择

数据集

数据集(Data Set):一组数据记录的集合,类似数据库的一个表(1范式)
每条记录是关于一个事件或对象的描述,称为一个” 示例“(instance)
或” 样 本“(sample).

反映事件或对象在某方面的表现或性质的事项,称为” 属性“(
attribute)或” 特征“(feature);属性上的取值,称为” 属性值“(
attribute value)。
属性张成的空间称为” 属性空间“(attribute space)、” 样本空间“(
sample space)或” 输入 空间“。由于空间中的每个点对应一个坐标

机器学习期末复习

; 分类,回归,聚类

分类,回归问题中的损失函数的选择

简单总结:分类用交叉熵损失函数,回归用MAE损失(L1)(平均绝对误差)、MSE损失(L2)(均方误差损失)、smooth L1损失(Smooth L1损失是L1与L2损失的结合)

分类:若我们欲预测的是离散值,例如”好瓜””坏瓜”,此类学习任务称为 “分类”(classification)。图像识别、指纹识别、声音识别等对只涉及两个类别的”二分 类”(binary classification)任务,通常称其中一个类为”正类”(positive class), 另一个类为”反类”(negativeclass);涉及多个类别时,则称为”多分 类”(multi-class classification)任务

回归:若欲预测的是连续值,例如西瓜成熟度0.95、0.37, 此类学习任务称为”回归”(regression)。销售量预测等

聚类:将训练集中的数据分成若干组称为聚类(clustering),每组称为一个”簇”(cluster)。如对西瓜做”聚类”,这些自动形成的簇可能对应一些潜在的概念划分,例如”浅色瓜””深色瓜”,甚至”本地瓜””外地瓜”

(1)逻辑回归和线性回归首先都是广义的线性回归。(2)经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数。(3)线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。或者说,线性回归模型无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。(4)线性回归一般用于回归问题,逻辑回归一般用于分类问题(可由二分类推广至多分类)

机器学习期末复习

特征提取:将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征。

特征选择:从特征集合中挑选一组最具统计意义的特征,达到降维。

两者的共同作用:

1 减少数据存储和输入数据带宽;

2 减少冗余;

3 低纬上分类性往往会提高;

4 能发现更有意义的潜在的变量,帮助对数据产生更深入的了解

主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。

因此需要找到一个合理的方法,在减少需要分析的指标的同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就属于这类降维的方法。
PCA的思想是将n维特征映射到k维上(k

y=wTx

偏差和方差

机器学习期末复习
机器学习期末复习
机器学习期末复习

机器学习期末复习
机器学习期末复习
机器学习期末复习

机器学习期末复习

; 模型选择方法

机器学习期末复习

留出法

机器学习期末复习
机器学习期末复习

; K 折交叉验证

机器学习期末复习
机器学习期末复习
机器学习期末复习

留一法

机器学习期末复习

; 分层 K 折交叉验证法

机器学习期末复习

自助法

机器学习期末复习
机器学习期末复习

; 机器学习(常用算法)

有监督学习
回归:线性回归、Logistic回归、岭回归、Lasso回归、SVM回归
分类:决策树、神经网络、SVM分类、贝叶斯分类、集成学习(Boosting、Bagging、
随机森林)
深度学习

无监督学习

聚类:kmeans、高斯混合聚类、密度聚类、层次聚类
降维:主成分分析
特征选择
稀疏表示
密度估计
半监督学习
迁移学习
强化学习

泛化

学得模型适用于新样本的能力,称为”泛化”(generalization)能力.具有强
泛化能力的模型能很好地适用于整个样本空间

“没有免费的午餐”定理

对于一个学习算法A,若它在某些问题上比学习
算法B好,则必然存在另一些问题,在那里B比A好. 这个结论对任何算法均成
立,哪怕把前一张ppt中的某个算法作为A,而将”随机胡猜”这样笨拙算法
作为B。所有算法的平均性能相同。算法的好坏与你要解决的问题有关。

归纳偏好

学习过程中对某种类型假设的偏好称作归纳偏好

“奥卡姆剃刀”

“奥卡姆剃刀”是一种常用的、自然科学研究中最基
本的原则,即”若有多个假设与观察一致,选最简单
的那个”

这三个样本集的作用分别是:

训练集(train set),用于训练有监督模型,拟合模型,调整参数,选择入模变量,以及对算法做出其他抉择;
测试集(test set),用于评估训练出的模型效果,但不会改变模型的参数及效果,一般验证模型是否过拟合或者欠拟合,决定是否重新训练模型或者选择其他的算法;
验证集(validation set),因为训练集和测试集均源自同一分布中,随着时间的流逝,近期样本的分布与训练模型的样本分布会有变化,需要校验训练好的模型在近期样本(验证集)是否有同样的效果,即模型的稳定性、鲁棒性、泛化误差。
验证集的作用是调整超参数
训练集:用于训练模型,找出最佳的。
验证集:用以确定模型超参数,选出最优模型。
测试集:仅用于对训练好的最优函数进行性能评估。
训练集、验证集和测试集分工明确,各施其职,切不可互相取而代之。特别是不能混淆验证集和测试集,下面用一个表整理下两者的区别:
参考
区别 验证集 测试集
作用 确定模型超参数 仅用于对训练好的最优函数进行性能评估
是否用于训练 否(在选出最优模型后,需要将验证集也放入训练集一起训练最优函数) 否
使用次数 多次使用,每次更新超参数后都要用验证集对模型性能进行验证 仅在最后使用一次

大多数机器学习算法具有超参数,超参数的值无法通过学习算法拟合出来(比
如正则化项的系数、控制模型容量的参数 )。为了寻找最优的超参数设置,可
以引入验证集。将训练数据分成两个不相交的子集:训练集用于学习模型,验
证集用于更新超参数。5.5 验证集
通常要求验证集足够大。如果验证集很小,那么模型的超参数可能就记住了一
个小验证集里的样本,模型将对验证集严重过拟合。
验证集通常会低估泛化误差。因此当超参数优化完成后,需要通过再在一份独
立的测试集上来估计泛化误差。5.6 测试集
测试集用于评估模型的泛化误差。理论上测试集越大,则模型的泛化误差评估
的越准确。
测试集中的样本一定不能是训练样本。如果将训练样本放入测试集中,则会低
估泛化误差。5.7 测试集 vs 验证集
测试集通常用于对模型的预测能力进行评估,它提供了模型预测能力的无偏估
计。如果你不需要对模型预测能力的无偏估计,则不需要测试集。
验证集用于超参数的选择,因为模型依赖于超参数,而超参数依赖于验证集。
因此验证集参与了模型的构建,这意味着模型已经考虑了验证集的信息。所以
我们需要一份单独的测试集来估计模型的泛化能力。

经验误差与过拟合

学习器在训练集上的误差称为”训练误差”(training error)或”经验误差”(empirical error),在新样本上的误差称为”泛化误差”
当学习器把训练样本学得”太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降.这种现象在机器学习中称为”过拟合”(overfitting).与”过拟合”相对的是”欠拟合”(underfitting),这是指对训练样本的一般性质尚未学好.

性能度量

回归任务最常用的性能度量是”均方误差”(mean squared error)

机器学习期末复习
混淆矩阵(Confusion Matrix)结构如图(两类)所示:
机器学习期末复习
• True Positive(TP):真正类。样本的真实
类别是正类,并且模型识别的结果也是正类。
• False Negative(FN):假负类。样本的真
实类别是正类,但是模型将其识别为负类。
• False Positive(FP):假正类。样本的真实
类别是负类,但是模型将其识别为正类。
• True Negative(TN):真负类。样本的真
实类别是负类,并且模型将其识别为负类。
分类指标
• Accuracy [ˈækjərəsi](精确率)
• 精确率是最常用的分类性能指标。可以用
来表示模型的精度,即模型识别正确的个
数/样本的总个数。
• 一般情况下,模型的精度越高,说明模型
的效果越好。
• Accuracy = (TP+TN)/(TP+FN+FP+TN
机器学习期末复习

• Precision [prɪˈsɪʒn](正确率或者准确率)
• 又称为查准率,表示在模型识别为正类的
样本中,真正为正类的样本所占的比例。
• 一般情况下,查准率越高,说明模型的效
果越好。
• Precision = TP/(TP+FP)

机器学习期末复习
矛盾指标:
查准率[正确率或者准确率]和查全率[召回率]
是一对矛盾的指标。
• 一般来说,查准率高时,查全率往往偏低;而
查全率高时,查准率往往偏低。
• Recall(召回率)
• 又称为查全率,召回率表现出在实际正样本中,分
类器能预测出多少。表示的是模型正确识别出为正
类的样本的数量占总的正类样本数量的比值。
• Recall(召回率) = Sensitivity(敏感指标,
True Positive Rate,TPR)= 查全率
• 一般情况下,Recall越高,说明有更多的正类样本
被模型预测正确,模型的效果越好。
• Recall = TP/(TP+FN)
机器学习期末复习

• Specificity(特异性)
• 特异性指标,表示的是模型识别为负类
的样本的数量,占总的负类样本数量的
比值。
• Specificity = 1 – FPR= TN/(TN+FP)

机器学习期末复习
负正类率(与 Sensitivity互补)
机器学习期末复习

• Sensitivity(灵敏度)

机器学习期末复习
ROC曲线:
ROC可以无视样本不平衡问题
机器学习期末复习

; 绘制ROC曲线

机器学习期末复习
机器学习期末复习

机器学习期末复习
机器学习期末复习
机器学习期末复习
机器学习期末复习

绘制PR曲线

机器学习期末复习
X轴为召回率Recall = TP/(TP+FN),Y轴为 正确率Precision = TP/(TP+FP)
绘图步骤参照ROC曲线绘图
机器学习期末复习
机器学习期末复习
机器学习期末复习

; 机器学习和深度学习解决实际项目一般流程

1、理解实际问题,抽象为机器学习能处理的数学问题;2、收集数据;
3、特征工程;4、模型训练、诊断、调优;5. 模型验证、误差分析;6、模型融
合、集成;7、项目部署与线上运行。

超参数搜索有三种常见的策略

– 手动搜索:手动选择超参数。
– 网格搜索:当超参数的数据相对较少时,这个方法很实用。
– 随机搜索:通常推荐这种方式。

线性模型

线性回归最小二乘公式

机器学习期末复习
机器学习期末复习
机器学习期末复习
只要记住W的公式即可,b的公式推导求平均

; 多分类

多分类( Multi-class Classification )问题是指分类的类别数 𝐷 大于 2 .多分
类一般需要多个线性判别函数,但设计这些判别函数有很多种方式.
假设一个多分类问题的类别为 {1,2,⋯,𝐷} ,常用的方式有以下三种:
( 1 )”一对其余”方式:把多分类问题转换为 𝐷 个”一对其余”的二分类问
题.这种方式共需要 𝐷 个判别函数,其中第 𝑑 个判别函数 𝑔 𝑑 是将类别 𝑑 的样本和
不属于类别 𝑑 的样本分开.
( 2 )”一对一”方式:把多分类问题转换为 𝐷(𝐷 − 1)/2 个”一对一”的二分
类问题.这种方式共需要 𝐷(𝐷 −1)/2 个判别函数,其中第 (𝑖,𝑗) 个判别函数是把类
别 𝑖 和类别 𝑗 的样本分开.
1 ≤ 𝑖 < 𝑗 ≤ 𝐷
( 3 )” argmax “方式:这是一种改进的”一对其余”方式,共需要 𝐷 个判
别函数

Logistic 回归

Logistic 回归( Logistic Regression , LR )是一种常用的处理二分类问题的
线性模型

机器学习期末复习

; Softmax 回归

Softmax 回归( Softmax Regression ),也称为多项( Multinomial )或多类
( Multi-Class )的 Logistic 回归,是 Logistic 回归在多分类问题上的推广.

支持向量机SVM 有监督学习

支持向量机( Support Vector Machine , SVM )是一个经典的二分类算法,
其找到的分割超平面具有更好的鲁棒性,因此广泛使用在很多任务上,并表现出
了很强优势

机器学习期末复习

; 信息熵,信息增益

机器学习期末复习
机器学习期末复习

剪枝处理

决策树是充分考虑了所有的数据点而生成的复杂树,它在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,造成决策树很庞大。决策树过于庞大,有可能出现过拟合的情况,决策树越复杂,过拟合的程度会越高。所以,为了避免过拟合,咱们需要对决策树进行剪枝。一般情况下,有两种剪枝策略,分别是 预剪枝后剪枝

前馈神经网络

神经元

机器学习期末复习
机器学习期末复习

激活函数在神经元中非常重要的.为了增强网络的表示能力和学习
能力,激活函数需要具备以下几点性质:
( 1 ) 连续并可导(允许少数点上不可导)的非线性函数.可导的激活函数
可以直接利用数值优化的方法来学习网络参数.
( 2 ) 激活函数及其导函数要尽可能的简单,有利于提高网络计算效率.
( 3 ) 激活函数的导函数的值域要在一个合适的区间内,不能太大也不能太
小,否则会影响训练的效率和稳定性.
下面介绍几种在神经网络中常用的激活函数.
Sigmoid 型函数
Sigmoid[ˈsɪgˌmɔɪd] 型函数是指一类 S 型曲线函数,为两端饱和函数.常用的 Sigmoid
型函数有 Logistic [lɒˈdʒɪstɪk]函数和 Tanh/tæntʃ/ 函数.

机器学习期末复习
机器学习期末复习
Tanh 函数可以看作放大并平移的 Logistic 函数,其值域是 (−1,1) .
机器学习期末复习
(函数缺点是是计算开销较大.因为这两个函数都是在中间( 0 附近)近似线性,两端饱和)
Hard-Logistic 函数和 Hard-Tanh 函数
机器学习期末复习
机器学习期末复习

机器学习期末复习
ReLU 函数
机器学习期末复习
机器学习期末复习

机器学习期末复习
带泄露的 ReLU
leaky [ˈliːki]有漏洞的; 有漏隙的; 渗漏的;

机器学习期末复习
机器学习期末复习
带参数的 ReLU
parametric [ˌpɛrəˈmɛtrɪk]参数的
机器学习期末复习
ELU 函数
机器学习期末复习
Softplus 函数
机器学习期末复习
机器学习期末复习

; 前馈网络

前馈网络中各个神经元按接收信息的先后分为不同的组.每一组可以看作
一个神经层.每一层中的神经元接收前一层神经元的输出,并输出到下一层神经
元.整个网络中的信息是朝一个方向传播,没有反向的信息传播,可以用一个有
向无环路图表示.

机器学习期末复习
机器学习期末复习
机器学习期末复习
机器学习期末复习
机器学习期末复习

记忆网络

记忆网络,也称为反馈网络,网络中的神经元不但可以接收其他神经元的信
息,也可以接收自己的历史信息.和前馈网络相比,记忆网络中的神经元具有记
忆功能,在不同的时刻具有不同的状态.记忆神经网络中的信息传播可以是单向
或双向传递,因此可用一个有向循环图或无向图来表示.

机器学习期末复习

; 卷积神经网络

定义

机器学习期末复习

; 问题

( 1 ) 参数太多
( 2 ) 局部不变性特征:自然图像中的物体都具有局部不变性特征,比如尺
度缩放、平移、旋转等操作不影响其语义信息.而全连接前馈网络很难提取这些
局部不变性特征,一般需要进行数据增强来提高性能.

三个特征

三个结构上的特性:局部连接、权重共享以及汇聚
局部连接:每个神经元仅与输入神经元的一块区域连接,这块局部区域称作感受野(receptive field)。在图像卷积操作中,即神经元在空间维度(spatial dimension,即上图示例H和W所在的平面)是局部连接,但在深度上是全部连接。对于二维图像本身而言,也是局部像素关联较强。这种局部连接保证了学习后的过滤器能够对于局部的输入特征有最强的响应。局部连接的思想,也是受启发于生物学里面的视觉系统结构,视觉皮层的神经元就是局部接受信息的。

权重共享:计算同一个深度切片的神经元时采用的滤波器是共享的。例如图4中计算o[:,:,0]的每个每个神经元的滤波器均相同,都为W0,这样可以很大程度上减少参数。共享权重在一定程度上讲是有意义的,例如图片的底层边缘特征与特征在图中的具体位置无关。但是在一些场景中是无意的,比如输入的图片是人脸,眼睛和头发位于不同的位置,希望在不同的位置学到不同的特征 (参考斯坦福大学公开课)。请注意权重只是对于同一深度切片的神经元是共享的,在卷积层,通常采用多组卷积核提取不同特征,即对应不同深度切片的特征,不同深度切片的神经元权重是不共享。另外,偏重对同一深度切片的所有神经元都是共享的。

汇聚
汇聚层( Pooling Layer )也叫子采样层( Subsampling Layer ),其作用是进
行特征选择,降低特征数量,从而减少参数数量.汇聚( Pooling )是指对每个区域进行下采样( Down Sampling )得到一个值,作为这个区域的概括.

机器学习期末复习

; 卷积运算和运算后特征图大小计算

机器学习期末复习
(如果题目没有明确说明会填充的话,在除不尽的情况下,向下取整,即在这种情况下会丢掉边界的一些数据)

卷积参数计算

以下题和下图为例

机器学习期末复习

机器学习期末复习
(在此规范一下叫法,如上图所示,卷积的集合称为卷积层,接下来分开的 3 _3_3的叫卷积单元,再下来的3*3的叫卷积核(当然任意维度的可以叫卷积核))
1,输入有多少层,一个卷积核就要有多少层,如图所示输入为三层,每个卷积核就要有三层
2,输出的特征层有多少层就要多少个卷积单元,就要多少偏执,例如题目中输出P层,那么就要P给卷积单元和P个偏置
因此上题的答案是:
机器学习期末复习

; 自编码器

机器学习期末复习
机器学习期末复习
机器学习期末复习
机器学习期末复习
机器学习期末复习
机器学习期末复习
机器学习期末复习

循环神经网络

需求和定义

机器学习期末复习

机器学习期末复习

; 延时神经网络

机器学习期末复习

有外部输入的非线性自回归模型

机器学习期末复习

; 循环神经网络(RNN)

机器学习期末复习

机器学习期末复习
机器学习期末复习
机器学习期末复习
机器学习期末复习
机器学习期末复习
机器学习期末复习
在此注意一个刻板映像,W对应于S的权重,而不是输入X的权重,U才是对应于输入的权重
机器学习期末复习

梯度消失与爆炸的解决方法(解决长期依赖问题)

机器学习期末复习

; 长短期记忆神经网络(LSTM)

机器学习期末复习
机器学习期末复习
机器学习期末复习

细胞状态C相当于t时刻重新训练的网络,用前一刻的输出ht-1和当前的输入x作为训练数据,ht即是该时刻的输出,也是下一刻的历史输入

机器学习期末复习

机器学习期末复习
机器学习期末复习
此处的sigmoid函数应该指的是tanh函数
机器学习期末复习
机器学习期末复习

机器学习期末复习
机器学习期末复习

门控循环单元(GRU)

机器学习期末复习
机器学习期末复习
机器学习期末复习

Original: https://blog.csdn.net/qq_45798276/article/details/122299212
Author: 灿 烂 千 阳
Title: 机器学习期末复习

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/550528/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球