机器学习西瓜书期末复习(2022HENU)

2023年5月31日上午8:49 • 人工智能 • 阅读 92

期末复习之机器学习

选择题 10 * 2
填空题 10 * 1
判断题 10 * 2
简答题 4 * 5
计算题 2 * 15

文章目录

期末复习之机器学习
第一章绪论
第二章模型评估与选择
*
习题
第三章线性模型
*
习题
第四章决策树
*
习题
第五章神经网络
*
习题
第六章支持向量机
*
习题
第七章贝叶斯分类器
*
习题
第八章集成学习
*
习题
第九章聚类（无监督学习）
*
习题

第一章绪论

机器学习的定义机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。
经验在计算机系统中通常以数据的形式存在。
机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法，即学习算法
根据训练数据是否拥有标记信息，将学习任务分为 监督学习和 无监督学习。
监督学习 ：分类和回归

线性回归、对数几率回归、决策树、支持向量机、贝叶斯分类器、神经网络

无监督学习：聚类

聚类算法：原型聚类：（k均值，学习向量量化，高斯混合聚类）；密度聚类（DBSVAN）;层次聚类（AGNES）。降维。话题分析。图分析。

机器学习的目标是使学得的模型能很好地适用于”新样本”。
学得模型适用于新样本的能力，称为” 泛化能力“
机器学习三要素：模型、策略、算法

第二章模型评估与选择

训练误差：训练集上的误差
泛化误差：新样本上的误差
训练误差越小越好？不是，训练误差越来越小会导致模型过拟合，则模型不具备很好的泛化能力。
泛化误差越小越好？是的，预测的越准确越好，即泛化误差越小越好。
过拟合：学习到的模型太符合训练集的特征
欠拟合：学习到的模型没有把应该考虑进去的属性考虑进去。

减小过拟合的方法：
减少特征的数量，数据正则化

如果一个模型加入正则项，这个模型的拟合程度不一定增加。取决于正则化参数。 参数过大会导致欠拟合，过小会导致过拟合。
评估模型的方法：
交叉验证法：将数据集D划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集，余下的子集作为测试集，一共进行k次，最终返回这k个测试结果的均值。
留出法：划分两个互斥子集，一个训练集，一个测试集。
自助法：有放回采样。

错误率：分类错误的样本数占总样本数的比例
精度 = 1 – 错误率
查准率、查全率

P-R曲线中，
（1）若一个学习器的曲线被另一个学习器的曲线完全包住，则后者大于前者。
（2）面积越大，性能越好
（3）平衡点（查全率=查准率）越高越好

ROC曲线中 横坐标为 假正例率，纵坐标为真正例率

偏差与方差（都小才好） 偏差：度量了学习算法的期望预测与真实结果的偏离程度，刻画了算法本身的拟合程度。
方差：度量了同样大小的训练集的变动所导致的学习性能的变化，刻画了数据扰动带来的影响。

; 习题

1、以二分类任务为例，假定数据集D包含1000个样本，将其划分为训练集S和测试集T，其中S包含800个样本， T包含200个样本，用S进行训练后，如果模型在T上有50个样本分类错误，那么模型的正确率为 75%。

2、PR（Precision-Recall）曲线的横轴和纵轴分别是 查全率和 查准率。
3、ROC曲线的横轴和纵轴分别是 假正例率和 真正例率。

6、有多种因素可能导致过拟合，其中最常见的情况是由于_ 学习能力过于强大，以至于把训练样本所包含的不太一般的特性都学到了，而欠拟合则通常是由于 学习能力低下而造成的。

7、查准率和查全率是分类任务中常用的性能度量指标，请写出其公式并对这两种指标进行分析。

第三章线性模型

向量形式
均方误差是回归任务最常用的性能度量
优化求解方法：最小二乘法、梯度下降法
基于均方误差最小化来进行求解的方法称为最小二乘法
梯度下降法：求解无约束函数的迭代算法
学习率α对梯度下降的影响 α如果太小，梯度下降算法则会下降的很慢
α如果太大，梯度下降算法则不会收敛，发散或震荡。
对数几率回归：解决分类问题对数几率函数是” Sigmoid函数”
掌握模型 输出的含义：y=P(y=1|x)，给定一个样本x，输出y=1的可能性。
多分类学习基本思路：” 拆解法“：把多分类任务拆解成若干个二分类任务
一对多：n个类别，每次将一个类的样例作为正例，所有其他类作为反例来训练 n个分类器。
一对一：n个类别，每次取出两个来训练模型，训练分类器的个数为 n(n-1)/2

; 习题

1、在梯度下降过程中，学习率控制着算法每一轮迭代中的更新步长，如果学习率设置的太大容易振荡，设置太小则 收敛速度太慢。

2、均方误差有非常好的几何意义，它对应了常用的欧氏距离。基于均方误差最小化来进行模型求解的方法称为__ 最小二乘法_。

3、如果使用数据集的全部特征，学习模型在训练集上达到100%的准确率，但在测试集上仅能达到70%左右，这说明存在 过拟合问题。

4、训练对数几率回归分类模型，如果在模型中引入正则项，正则化参数会对模型的性能有很大的影响，如果设置的过大则不能缓解过拟合问题，如果设置的过小_ 容易导致过拟合问题。

5、在预测任务中，给定样本集D={(x_1,y_1 ),(x_2,y_2 ),…,(x_m,y_m )}，其中y_i是样本x_i的真实标记。要评估学习器f的性能，就要把学习器预测结果f(x)与真实标记y进行比较。回归任务最常用的性能度量是均方误差，对应的公式为

6. 请分析一对一和一对多策略的特点。

第四章决策树

决策树叶节点对应于决策结果，内部节点表示一个特征或属性。
划分选择学习过程:通过对训练样本的分析来确认划分属性
预测过程：将测试示例从根结点开始，沿着划分属性所构成的判定测试序列下行，直到叶节点。 信息熵是度量样本集合 纯度最常用的一种指标。
信息熵越小，样本集合的纯度越高。

信息增益最大的作为最优划分属性，信息增益准则对可取值数目 较多的属性有所偏好
信息增益率最小的作为最优划分属性，增益率对可取值数目较少的属性有所偏好。

CART决策树使用 基尼指数来选择划分属性生成 二叉树。
3. 剪枝处理：两种基本策略预剪枝和后剪枝

预剪枝：提前终止某些分支的生长

就是说在决策树的生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶节点。

后剪枝：生成一颗完全树，再”回头”剪枝，时间开销大

先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

连续属性离散化，：大于某个数值作为一类，小于某个数值作为另外一类，常用 二分法

; 习题

1、决策树是一类常见的机器学习方法，是基于树结构进行决策的。一般的，一棵决策树包含两类结点：内部节点和叶结点，其中内部节点表示表示一个特征或属性，叶结点表示 决策结果。

2、在决策树学习中，一般情况下，属性a的信息增益越大，则意味着使用属性a来进行划分获得的_ 纯度提升越大。

3、信息增益准则对_ 可取值数目较多 的属性有所偏好，增益率准则对_ 可取值数目较少 的属性有所偏好。

4、在决策树学习中，C4.5决策树算法中采用_ 二分法_对连续属性进行离散化处理。

5、常用的决策树学习算法有ID3、C4.5和CART，介绍它们采用的特征选择准则是什么？
ID3采用信息增益准则；C4.5采用增益率准则；CART采用基尼指数准则。

6、 ID3怎样基于信息增益划分属性
从根结点开始，计算每一个属性的信息增益，选择信息增益最大的属性作为最优划分属性，然后对子结点递归调用上述过程，生成决策树。

7、请简述并分析两种剪枝策略。（见上面知识点总结）
9、根据表4.1中的西瓜数据集，计算属性”纹理”的信息增益。

第五章神经网络

神经元模型：神经元接收到来自n个其他神经元传递过来的输入信号，这些输入信号通过 带权重的连接进行传递，神经元接收到的总输入值将与 神经元的阈值进行比较，然后通过 “激活函数”处理以产生神经元的输出。
感知机与多层网络感知机由两层神经元组成，输入层和输出层，输入层接受外界信号，输出层输出结果。 只有一层功能神经元，学习能力有限。感知机能容易地实现与或非，不能实现异或运算。
要解决非线性可分问题，要考虑使用多层神经网络。
一般为三层，第一层：输入层；第二层：隐藏层；第三层：输出层。
隐藏层和输出层都是拥有激活函数的功能神经元。
逆向误差传播算法BP BP是一个 迭代学习算法，BP算法基于 梯度下降的策略。 BP算法学习能力较强，容易产生过拟合，解决过拟合的方法：
早停：将数据集分成训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若 训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阈值。
提高正则化参数：在误差目标函数中增加一个用于描述网络复杂度的部分。

5.BP算法的过程（简答?）

在（0.1）范围内随机初始化网格中所有连接权和阈值，到输出层产生结果，
计算输出层神经元误差，传到隐藏层，
计算隐藏层神经元误差，然后更新连接权和阈值，
重复此过程直至达到停止条件，输出连接权和阈值确定的多层前馈神经网络。

; 习题

4. M-P神经元模型中，神经元接收来自其他神经元传递过来的输入信号，这些输入信号通过 带权重的连接进行传递，神经元接收到的总输入值与 神经元的阈值进行比较，然后通过 激活函数处理以产生神经元的输出。

5.误差逆传播算法（BP算法）基于 梯度下降策略，以目标的负梯度方向对参数进行调整。

6.假定一个单隐层的前馈神经网络，拥有m个输入神经元,n个输出神经元、q个隐层神经元，那么该神经网络中需要确定的连接权重参数有多少个？
M _q+n_q+n+q

第六章支持向量机

支持向量机原理
在样本空间中，划分超平面可通过如下线性方程来描述：
核函数用于 线性不可分的问题，将样本从原始空间映射到更高维的特征空间，使得样本在这个特征空间内可分。常用核函数：
软间隔和硬间隔的区别： 硬间隔要求所有样本都要满足约束条件；
软间隔：允许支持向量机在一些样本上出错。
正则化： L0范数：是指向量中非零的元素个数
L1范数：是指向量中各元素绝对值之和
L2范数：是指向量各元素的平方和然后求平方根（非零分量个数尽量 稠密）
都能缓解过拟合问题。

; 习题

对于软间隔支持向量机，每个样本都有一个对应的 松弛变量，用以表征 该样本不满足原约束的程度。
在软间隔SVM的优化目标函数中，参数C表示_ C是调节间隔与准确率的因子，C值越大，越不愿放弃那些离群点；c值越小，越不重视那些离群点。
在SVM训练好之后，可以不考虑 非支持向量的样本点，仍然可以对新样本进行分类。
在决定分离超平面时，只有 支持向量起作用。如果移动这些实例点将改变所求的解；但是在间隔边界以外移动其他实例点，甚至去掉这些点，则解是不会改变的。
对于求解线性分类问题，线性分类支持向量机是一种非常有效的方法。如果分类问题是非线性的，可以 将样本从原始空间映射到一个更高维的特征空间中，使得样本在这个特征空间内线性可分，利用核函数可以隐式地定义特征空间。

第七章贝叶斯分类器

生成式模型，判别式模型有哪些？
生成式模型：贝叶斯分类器。
判别式模型：决策树、BP神经网络、支持向量机。
朴素贝叶斯分类器采用了” 属性条件独立性假设“
贝叶斯决策论考虑如何基于这些 概率和 误判损失来选择最优的类别标记。
贝叶斯判定准则：为最小化总体风险，只需在每个样本上选择那个能使条件风险R（c|x）最小的类别标记。
后验概率

P（x|c)就转化为如何基于训练集数据D来估计P（C）和P（x|c)
P（C）通过各样本出现频率估计。
EM算法 EM算法提供一种近似计算含有隐变量概率模型的极大似然估计方法。
求解：如果最后函数是收敛的，则不能保证收敛得到全局极大值，能够收敛到局部大值。
计算题：

（本答案仅供参考，如有问题，欢迎指正！）

; 习题

1、朴素贝叶斯分类器采用了_ 属性条件独立性__假设。

2、贝叶斯分类器属于 生成式模型，支持向量机属于判别式模型。

3、半朴素贝叶斯分类器的基本想法是适当考虑_ 一部分属性间的相互依赖信息_，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。

4、EM算法提供一种近似计算_ 含有隐变量概率模型的极大似然估计的方法。

5、EM算法时常用的估计参数隐变量的方法，是一种迭代式的方法，能收敛到 局部最优解。

6、在朴素贝叶斯分类器的训练过程中，为了避免其他属性携带的信息被训练集中未出现的属性值抹”抹去”，在估计概率值时通常要进行”平滑”，常用 拉普拉斯修正。

第八章集成学习

集成学习的结果通过投票法产生，即少数服从多数
个体学习器应” 好而不同“，即个体学习器要有一定的” 准确性“，即学习器不能太坏，并且要有” 多样性“。
目前集成学习主要分为两大类：一类是以 boosting、 Adaboost等算法为代表的， 个体学习器间存在强依赖关系，必须串行生成的 序列化 方法，它试图不断增强单个学习器的学习能力。
一类是以 bagging、“随机森林”（Random Forest）等算法为代表的， 个体学习器之间不存在强依赖关系、可同时生成的 并行化 方法。
Boosting的工作机制（简答可能）（1）先从初始训练集训练出一个基学习器；
（2）根据基学习器的表现对训练样本分布进行调整，使得先前基学习器分错的训练样本在后续得到更多关注，然后再基于调整后的样本分布来训练下一个基学习器；
（3）重复（2），直到基学习器数目达到指定值T，最终将这T个基学习器进行加权组合。
从偏差-方差分解的角度看，Boosting 主要关注降低 偏差

Boosting族最著名的算法是AdaBoost
标准Adaboost只适用于二分类问题

Bagging（重）（1） Bagging的基本流程：（简答？填空？）
通过自助采样法采样出T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行组合。
（2）Bagging采用 自助采样法 包外估计
（3）从偏差-方差分解的角度看， Bagging主要关注降低 方差
（4） Bagging对分类任务采用：简单投票法
Bagging对回归任务采用：简单平均法
随机森林（RF）是Bagging的一个扩展变体 RF在 以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了 随机属性选择。 随机森林多样性体现在：采样随机性；属性选择随机性。
多样性增强的4种方法：数据样本扰动 —自助采样法
输入属性扰动 —随机子空间算法
输出表示扰动
算法参数扰动
假设基分类器错误率相互独立，则错误率最终会趋于0
结合策略：平均法：（回归任务）
简单平均法：适用于 性能差不多的
加权平均法：适用于 性能相差较大的
投票法：（分类任务）

习题

1、根据个体学习器的生成方式，目前的集成学习方法大致可以分为哪两类？
个体学习器间存在强依赖关系、必须串行生成的序列化方法，代表是Boosting
个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表是Bagging和”随机森林”。

2、简述随机森林算法，分析其提高基学习器的多样性的策略；
Bagging + 决策树 = 随机森林
随机森林是指利用多棵决策树对样本进行训练并预测的一种算法，是一个包含多个决策树的算法，其输出的类别是由个别决策树输出的类别的众数来决定的。随机森林主要是应用于回归和分类这两种场景，又侧重于分类。
Bagging中基学习器的多样性仅通过样本扰动（对初始训练集采样）而来，而随机森林中基学习器的多样性不仅来自样本扰动，还来自属性扰动，这就导致最终集成的学习器的泛化性能由于个体学习器之间差异度的增加而进一步提升。
3、简述Boosting算法与Bagging算法，并分析其区别；

4、简述集成学习中的多样性增强策略；
1）样本扰动
2）输入扰动
3）输出扰动
4）算法参数扰动

第九章聚类（无监督学习）

聚类目标：将数据集中的样本划分为若干个通常不相交的子集。
簇内相似度高，簇间相似度低。
计算欧氏距离

给两个样本，有两个属性，要会计算欧式距离。
原型聚类：k均值算法，学习向量量化，高斯混合聚类算法 原型是指样本空间中具有代表性的点。 k均值算法流程：（也可能是个简答?不，在考试中它以计算题第一小问的形式出现了）
选定簇的个数k
初始化每个簇的均值向量
（更新）簇划分，计算每个簇的均值向量
直到当前均值向量均未更新。给一个案例，如课本p203,要会计算
密度聚类（DBSCAN算法）
层次聚类数据集的划分可采用” 自底向上”的聚合策略，也可以采用” 自顶向下”的分拆策略。
AGNES是一种采用 自底向上聚合策略的层次聚类算法。

; 习题

1.简述K均值算法；（见知识点总结）

2、给定表9.1西瓜集4.0中的前10个样本，利用K均值算法划分为3个簇，写出具体的聚类过程。（假定取前3个样本作为初始均值向量）

3.常用的原型聚类算法有哪些？
k均值算法、学习向量量化、高斯混合聚类

4.层次聚类算法的数据集划分策略有哪些？
“自底向上”的聚合策略，
“自顶向下”的分拆策略。

简答预测：（不确定不确定）
第九章 k均值计算流程
第八章 Boosting工作机制，bagging基本流程
第五章 BP算法过程
第四章预剪枝和后剪枝
第二章简述k折交叉验证法

本次总结仅供参考，欢迎大家指正!

Original: https://blog.csdn.net/qq_46561559/article/details/122192611
Author: 半儿~
Title: 机器学习西瓜书期末复习(2022HENU)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550138/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

每日一练Day04：寻找单身狗

寻找单身狗一、一个单身狗二、两个单身狗寻找单身狗实际上是力扣上的《只出现一次的数字》具体描述如下：一、一个单身狗本题的特点是：非空数组、其余数字出现两次、寻找只出现一次…

人工智能 2023年6月28日
0075
TensorFlow实战之softmax多分类

文章目录前言一、Keras的mnist数据集二、建立sequential顺序model * 2.绘图结果和测试结果三、网络容量和优化总结前言 Keras是TensorF…

人工智能 2023年7月1日
0096
Apache hadoop yarn 上运行基于 Tensorflow 框架的机器学习

内容目录 * – 1 数据准备 – 2 环境准备 – 3 创建项目 – 4 提交和运行 – 5 总结 – 参…

人工智能 2023年5月25日
0089
单细胞测序在免疫治疗研究中的应用

肿瘤细胞的突变速率非常快，是一种高度异质的组织。确定肿瘤组织中是否存在或存在哪些细胞亚群（或者叫克隆）具备转移能力，哪些克隆对化疗药物是敏感的，这些信息对于临床工作都非常有帮助。不…

人工智能 2023年6月1日
00106
亚马逊商城评论数据分析与可视化（KNN预测评分，绘制云图）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月15日
0098
librosa | 系统实战（一 ~ 四）

librosa是python中用于音乐与语音分析的库，主要用于提取音频文件的特征。官方文档文章目录一、安装 * – 方法一方法二方法三二、音频预处理（l…

人工智能 2023年5月23日
00121
【综述】A Comprehensive Survey on Graph NeuralNetworks（1）

目录前言专业名词笔记 * INTRODUCTION 引言 BACKGROUND & DEFINITION 背景与定义 – Network embeddin…

人工智能 2023年7月16日
0079
如何理解python中的cmp_to_key()函数

在functools包里的函数，将老式的比较函数（ cmp function）转化为关键字函数（ key function）。与接受key function的工具一同使用（如 s…

人工智能 2023年6月4日
0097
数据分析之pandas库

pandas库里面有一维数组Series类型和二维的DataFrame类型，pandas库是我们常用的库之一。 pd.Series(data, index) 传入列表创建Serie…

人工智能 2023年7月7日
0079
PyTorch搭建双向LSTM实现时间序列预测（负荷预测）

目录 I. 前言 II. 原理 * Inputs Outputs batch_first 输出提取 III. 训练和预测 IV. 源码及数据 I. 前言前面几篇文章中介绍的都是单…

人工智能 2023年7月21日
00110
2022-车道线检测综述

未经许可，请勿转载！课程论文，快速水一下👋 车道线检测综述摘要车道线检测是一种环境感知应用，其目的是通过车载相机或激光雷达来检测车道线。近年来，随着计算机视觉的应用发展和落地…

人工智能 2023年5月26日
0095
【nn.Parameter】Pytorch特征融合自适应权重设置（可学习权重使用）

2021年11月17日11:32:14今天我们来完成Pytorch自适应可学习权重系数，在进行特征融合时，给不同特征图分配可学习的权重！原文：基于自适应特征融合与转换的小样本图像…

人工智能 2023年7月20日
0097
kaggle竞赛-树叶图片分类项目

数据集：176种树叶，27152张图片，其中训练集18353张，测试集8799张。准备工作环境：Windows11+Pytorch 1.12.0+Jupyter noteboo…

人工智能 2023年7月1日
00122
分子数据的获取、解析与结构绘制（RDKit）

在化学信息学中，分子数据的获取与解析是最基础的部分。对于已知的化合物，我们可以从各种数据库中获取；对于未知的化合物，我们也可以构造该分子。在RDKit中，无论是从数据库中获取的分子…

人工智能 2023年7月15日
0063
【HTML粉色跳动爱心】效果展示+源代码

目录 * – 一、源代码 – + 1.1 index.html + 1.2 style.css + 1.3 js文件 – 二、效果展示一、源代…

人工智能 2023年7月30日
0062
YOLO目标检测

发展历程： YOLOV1 (CVPR2016)->YOLOV2/YOLO9000 (CVPR2017)->YOLOV3 (2018)->YOLOV4 (2020)…

人工智能 2023年7月28日
00107

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习西瓜书期末复习(2022HENU)

文章目录

; 习题

; 习题

; 习题

; 习题

; 习题

; 习题

习题

; 习题

大家都在看