目录
- 写在前面的话
- 问题
* - 简答题
- 计算题
- 选择题
- 答案
* - 简答题答案
–- K-means 算法的步骤?如何确定 K 的值?
- 什么是模式识别?模式识别有什么意义?
- 模式识别预处理内容?
- 最大似然估计?贝叶斯估计?最大似然估计与贝叶斯估计的差别?
- 简述 SVM 的基本思想?SVM?
- 神经网络初始化神经网络训练时是否可以把所有的参数初始化为 0?为什么?
- Sigmoid 优缺点?
- K 近邻(KNN)?
- 2010年后使得深度神经网络得到快速应用的技术突破有哪些?
- 隐马尔可夫主要解决哪几个问题?
- 什么叫特征提取?什么是特征选择?广义上的特征提取器如何表达?
- 分类决策?分类决策的基本方法如何?
- 最小风险贝叶斯决策步骤如何?
- 广义上的模式定义?什么是模式识别?模式识别有什么意义?
- 模式数据类型?
- 类内类间距离?
- 二值分类如何实现多类分类?
- 贝叶斯决策方法?
- 简述如何采用仅能处理二值分类问题的算法,如Logistic回归,SVM等来处理多分类。
- PCA是什么?主要做什么?
- 计算题
– - 选择题
–
写在前面的话
整理大量考试资料,通过汇总,分类,理解,才有这篇博客,制作不易~
祝愿大家过过过!考得比我高!
; 问题
看看下面这些问题你能否答出来?
简答题
- K-means 算法的步骤?如何确定 K 的值?
- 什么是模式识别?模式识别有什么意义?
- 模式识别预处理内容?
- 最大似然估计?贝叶斯估计?最大似然估计与贝叶斯估计的差别?
- 简述 SVM 的基本思想?SVM?
- 神经网络初始化神经网络训练时是否可以把所有的参数初始化为 0?为什么?
- Sigmoid 优缺点?
- K 近邻(KNN)?
- 2010年后使得深度神经网络得到快速应用的技术突破有哪些?
- 隐马尔可夫主要解决哪几个问题?
-
什么叫特征提取?广义上的特征提取器如何表达?
-
分类决策?分类决策的基本方法如何?
-
最小风险贝叶斯决策步骤如何?
-
广义上的模式定义?什么是模式识别?模式识别有什么意义?
- 模式数据类型?
- 类内类间距离?
- 二值分类如何实现多类分类?
- 贝叶斯决策方法?
- 简述如何采用仅能处理二值分类问题的算法,如Logistic回归,SVM等来处理多分类。
- PCA是什么?主要做什么?
计算题
- 3层神经网络,会决策边界,写出每层之间的隐层的函数的输入和输出。(神经网络的推导过程,卷积神经网络)
- PCA算法实现。
; 选择题
- Logistic回归(占3题):召回率、精度等
- 监督与非监督学习是什么( logistic 回归 有三道)
- 过拟合 欠拟合
答案
简答题答案
K-means 算法的步骤?如何确定 K 的值?
无监督聚类方法
基本步骤:
(1)从数据中 选择 k 个对象作为初始聚类中心;
(2)将样本集按照 最小距离原则分配到最邻近聚类;
(3)使用每个聚类的 样本均值更新聚类中心;
(4)重复步骤(2)、(3),直到 聚类中心不再发生变化;
(5)输出最终的聚类中心和 k 个簇划分;
K 如何确定:
K-means中K值的选取
首先采用 手肘法或者轮廓系数法决定结果 簇的数目,并找到一个 初始聚类,然后用 迭代重定位来改进该聚类。
; 什么是模式识别?模式识别有什么意义?
答案一:
定义:是 通过计算机用数学技术方法来研究模式的自动处理和判读。是对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的) 信息进行处理和分析,以 对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。
意义:人们为了掌握客观事物,按事物相似的程度组成类别。模式识别的作用和目的就在于 面对某一具体事物时将其正确地归入某一类别。
模式识别预处理内容?
预处理是 以去除噪声、加强有用的信息为目的, 并对输入测量仪器或其他因素所造成的 退化现象进行复原的过程。
预处理一般有两种情况:
一是 使数据的质量更好,比如用一些数字信号处理的方法 去除信号中的噪声, 或者对一幅模糊的图像进行图像增强等, 确保有利于后期的模式识别工作;
另一种预处理是 样本集的预处理, 比如样本集中 异常值的剔除、类别的合并或分裂等。这一工作一般可以根据领域的专门知识进行, 也可以采用模式识别中的一些技术, 比如在进行后续工作之前先对样本集进行一次 聚类分析。
最大似然估计?贝叶斯估计?最大似然估计与贝叶斯估计的差别?
最大似然估计:最大似然估计是一种重要而普遍的求估计量的方法。最大似然法 明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然法是一类完全基于统计的系统发生树重建方法的代表。
基于对似然函数 L(θ)形式(一般为连乘式且各因式>0)的考虑,求θ的最大似然估计的一般步骤如下:
(1)写出 似然函数
(2)对似然函数 两边取对数有
(3) 求导数并令之为 0:
此方程为对数似然方程。解对数似然方程所得,即为未知参数的最大似然估计值。
贝叶斯估计:待估计参数θ是随机的,和一般随机变量没有本质区别,因此只能根据观测样本估计参数θ的分布。
贝叶斯估计利用了贝叶斯公式,给出贝叶斯公式的数学描述:
下面给出贝叶斯估计的数学描述:
其中, π(θ)为参数θ的先验分布,表示对参数θ的主观认识,是非样本信息, π(θ|x)为参数θ的后验分布。因此,贝叶斯估计可以看作是,在 假定θ服从π(θ)的 先验分布前提下,根据样本信息去校正先验分布,得到后验分布π(θ|x)。由于后验分布是一个条件分布,通常我们取后验分布的期望作为参数的估计值。
区别:
第一,最大似然方法预测时使用 θ的点估计,贝叶斯方法使用 θ的全分布。即最大似然求出 最可能的θ值,而贝叶斯则是 求解θ的分布。
第二,贝叶斯推断还 引入了先验,通过先验和似然来求解后验分布,而最大似然直接使用 似然函数,通过最大化其来求解。
; 简述 SVM 的基本思想?SVM?
支持向量机(support vector machines)是一种 二分类模型,它的目的是 寻找一个超平面来对样本进行 分类,分类的原理是 间隔最大化,最终转化为一个 凸二次规划问题来求解,由简至繁的模型包括:
当训练样本 线性可分时,通过 硬间隔最大化,学习一个 线性可分支持向量机;
当训练样本 近似线性可分时,通过 软间隔最大化,学习一个 线性可分的支持向量机;
当训练样本 线性不可分时,通过 核函数和软间隔最大化,学习一个 非线性支持向量机;
神经网络初始化神经网络训练时是否可以把所有的参数初始化为 0?为什么?
为什么神经网络参数不能全部初始化为全0?
不能,因为如果神经网络计算出来的 输出值都一个样,那么反向传播算法计算出来的 梯度值一样,并且 参数更新值也一样。无论训练多少次,无论我们隐藏层神经元有多少个,由于 权重的对称性,我们的隐层的神经单元输出始终不变, 出现隐藏神经元的对称性。我们 希望不同神经元能够有不同的输出,这样的神经网络才有意义。
Sigmoid 优缺点?
面试题:简单说下sigmoid激活函数
激活函数sigmoid 、tanh、Relu、Leaky Relu 优缺点对比(最全)
优点:
(1) 便于求导的平滑函数;
(2)能 压缩数据,保证数据幅度不会有问题;
(3) 适合用于前向传播。
缺点:
(1)容易出现 梯度消失的现象:当激活函数接近饱和区时,变化太缓慢,导数接近 0,根据反向传递的数学依据是微积分求导的链式法则,当前导数需要之前各层导数的乘积, 几个比较小的数相乘,导数结果很接近 0,从而无法完成深层网络的训练。
(2)Sigmoid 的输出 不是 0 均值的:这会导致后层的神经元的输入是非 0 均值的信号,这会对梯度产生影响。以 f=sigmoid(wx+b)为例, 假设输入均为正数(或负数),那么对 w 的导数总是正数(或负数),这样在反向传播过程中 要么都往正方向更新,要么都往负方向更新,导致有一种捆绑效果,使得收敛缓慢。
(3) 幂运算相对 耗时。
K 近邻(KNN)?
答案一:
有监督分类学习算法
k-近邻:一个样本 X,要给它分类,即求出它的 y,其算法流程如下:
(1)为 K 选择一个值, K 应该是一个奇数;
(2)找到 X 的 K 个最近邻居;
(3)统计这 K 个数据点所属的分类与分类数量,若这 K 个数据点中,分类为 C 的数据点的数量最多,则将 X 分类为 C。
注:对于回归,X 的值将是 K 个邻居的均值。
答案二:
k-近邻(kNN,k-Nearest Neighbors)算法是一种 基于实例的分类方法。该方法就是找出与未知样本x 距离最近的k个训练样本,看这k个样本中 多数属于哪一类, 就把x归为那一类。k-近邻方法是一种懒惰学习方法, 它存放样本,直到需要分类时才进行分类,如果样本集比较 复杂,可能会导致很大的 计算开销,因此 无法应用到实时性很强的场合。
2010年后使得深度神经网络得到快速应用的技术突破有哪些?
技术突破:
(1)GPU
(2)ReLUs
(3)通过最小化重建误差进行预训练
(4)Dropout 正则化
(5)通过变形现有的样本以生成更多的训练样本
应用:
2015 年, 被谷歌收购的 DeepMind 团队研发了一种”通用人工智能”算法, 它可以像人类一样,通过观察计算机游戏的屏幕进行自我学习,利用同一套网络 架构和超参数,从零开始学习每一款游戏,并最终打通了 300 多款雅达利游戏, 在某些游戏上的表现甚至超越了人类。
2016 年, 谷歌的机器翻译技术取得重大突破,采用了先进的深度循环神经 网络和注意力机制的机器翻译在多种语言上已经基本接近人类的水平。
2016 年 3 月, DeepMind 团队又在博弈领域取得了重大突破。 AlphaGo 以 4∶1 的大比分战胜人类围棋冠军,让计算机围棋这一领域的发展提前了至少十 年。
2017 年 10 月, DeepMind 团队创造的 AlphaGo 升级版 AlphaGo Zero 再一 次取得了重大突破,它可以完全从零开始学习下围棋,而无须借鉴任何人类的下 棋经验。仅经过大约 3 天的训练,AlphaGo Zero 就达到了战胜李世石的棋力水 平;而到了 21 天以后,世界上已经没有任何人类或程序可以在围棋上战胜它了。 AlphaGo 的成功不仅标志着以深度学习技术为支撑的新一代人工智能技术的大 获全胜,更暗示着人工智能的全新时代已经到来。
隐马尔可夫主要解决哪几个问题?
如何用简单易懂的例子解释隐马尔可夫模型?
隐马尔可夫模型的三个基本问题(读书笔记)
; 什么叫特征提取?什么是特征选择?广义上的特征提取器如何表达?
特征提取:
原始特征的数量可能很大,或者说样本是处于一个高维空间中,通过映射(或变换)的方法可以用低维空间来表示样本。此过程叫特征提取。
特征选择:
从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,此过程称特征选择。两种方法:(1)”自下而上”:特征数从0逐步增加。(2)”自上而下”:特征数从D开始逐步减少。
综合答案:
为了有效地实现分类识别, 就要对原始数据进行变换, 得到最能反映分类本质的特征。这就是特征提取和选择的过程。一般我们把原始数据组成的空间叫测量空间, 把分类识别赖以进行的空间叫特征空间, 通过变换, 可把在维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式。
原始特征的数量可能很大, 或者说样本是处于一个高维空间中, 通过映射( 或变换) 的方法可以用低维空间来表示样本, 这个过程叫特征提取。映射后的特征叫二次特征, 它们是原始特征的某种组合( 通常是线性组合) 。
所谓特征提取在广义上就是指一种变换。若Y 是测量空间, X 是特征空间, 则变换A: Y→X 就叫做特征提取器。通过变换把原始特征变换为较少的新特征, 这就是特征提取。
分类决策?分类决策的基本方法如何?
分类决策:
在特征空间中用统计方法把被识别对象归为某一类。
分类决策方法:
模版匹配法(templete matching)/统计方法(statistical pattern recognition)
神经网络方法(neural network)/结构方法(句法方法)(structural pattern recognition )
基本方法:
单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。
综合答案:
分类决策就是在特征空间中用统计方法把被识别对象归为某一类别。
基本做法是在样本训练集基础上确定某个判决规则, 使按这种判决规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小。
最小风险贝叶斯决策步骤如何?
(1)进行预后验分析,决定是否值得搜集补充资料以及从补充资料可能得到的结果和如何决定最优对策。
(2)搜集补充资料,取得条件概率,包括历史概率和逻辑概率,对历史概率要加以检验,辨明其是否适合计算后验概率。
(3)用概率的乘法定理计算联合概率,用概率的加法定理计算边际概率,用贝叶斯定理计算后验概率。
(4)用后验概率进行决策分析。
; 广义上的模式定义?什么是模式识别?模式识别有什么意义?
(1) 存在于时间和空间中可观察的事物,如果我们可以区别它们是否相同或是相似,都可以称之为模式。
模式数据类型?
(1)二维图像 如文字,指纹,地图,照片等。
(2)一维波形 如脑电图,心电图,机械振动波形等。
(3)物理参量和逻辑值 前者如在疾病诊断中病人的体温及各种化验数据等:后者如对某参量正常与否的判断对症状有无的描述,如疼与不疼,可用逻辑即0和1表示。
类内类间距离?
; 二值分类如何实现多类分类?
可采用SVM多类分类。SVM多类分类方法的实现根据其指导思想大致有两种:
(1)将多类问题分解为一系列SVM可直接求解的两类问题,基于这一系列SVM求解结果得出最终判别结果。
(2)通过对前面所述支持向量分类机中的原始最优化问题的适当改变,使得它能同时计算出所有多类分类决策函数,从而”一次性”地实现多类分类。
目前,构造SVM多类分类器的方法主要有两类:
一对多法(one-versus-rest,简称OVR SVMs)。训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,这样k个类别的样本就构造出了k个SVM。
a.分类时将未知样本分类为具有最大分类函数值的那类。
b.一对一法(one-versus-one,简称OVO SVMs或者pairwise)。其做法是在任意两类样本之间设计一个SVM,因此k个类别的样本就需要设计k(k-1)/2个SVM。当对一个未知样本进行分类时,最后得票最多的类别即为该未知样本的类别。
贝叶斯决策方法?
; 简述如何采用仅能处理二值分类问题的算法,如Logistic回归,SVM等来处理多分类。
SVM处理多分类:可以通过组合多个二分类器来实现多分类器的构造
one-versus-rest:训练时一次把某个类别的样本归为一类,其他剩余的样本归为另一类,
这样k个类别的样本就构造出了k个SVM,分类时将未知样本分类为具有最大分类函数值的那类。
假如我有四类要划分(也就是4个Label),他们是A、B、C、D,于是我再抽取训练集
的时候,分别抽取:
(1)A所对应的向量作为正集,B、C、D所对应的向量作为负集;
(2)B所对应的向量作为正集,A、C、D所对应的向量作为负集;
(3)C所对应的向量最为正集,A、B、D所对应的向量作为负集;
(4)D所对应的向量作为正集,A、B、C所对应的向量作为负集;
使用这四个训练集分别进行训练,然后得到四个训练结果文件,在测试的时候,把对应
的测试向量分别利用这四个训练结果文件进行测试,最后每个测试都有一个结果f1(x),f2(x),f2(x),f4(x),于是最终的结果便是这四个值中最大的一个作为分类结果。
但是这种方法的缺陷在于:因为训练集是1:M,这种情况下存在biased,因而不是很
实用个,可以在抽取数据集的时候,从完整的负集中再抽取三分之一作为训练负集。
one-versus-one:其做法是在任意两类样本之间设计一个SVM,因此k个类别的样本就
需要设计k(k-1)/2个SVM。当读一个未知样本进行分类时,最后得票最多的类别即为该未知样本的类别,Libsvm中的多类分类就是根据这个方法实现的。
假设有A、B、C、D四类,在训练的时候选择A,B;A,C;A,D;B,C;B,D;C,D所对应的
向量最为训练集,然后得到六个训练结果,在测试的时候,把对应的向量分别对六个结果进行测试,然后才去投票形式,最后得到一组结果。投票过程如下:
A=B=C=D=0;
(A,B)-classifier,如果是A win,则A=A+1;otherwise,B=B+1;
(A,C)-classifier,如果是A win,则A=A+1;otherwise,C=C+1;
……
(C,D)-classifier,如果是C win,则C=C+1;otherwise,D=D+1;
The decision is the Max(A,B,C,D)
使用这种方法时,当类别很多时,model的个数是n*(n-1)/2,其代价会随之增大
PCA是什么?主要做什么?
主成分分析(PCA)是多元统计分析中用来分析数据的一种方法,它是用一种较少数量的特征对样本进行描述以达到降低特征空间维数的方法。
主成分分析(PCA)的原理就是将一个高维向量x,通过一个特殊的特征向量矩阵U,投影到一个低维的向量空间中,表征为一个低维向量y,并且仅仅损失了一些次要信息。也就是说,通过低维表征的向量和特征向量矩阵,可以基本重构出所对应的原始高维向量。
降维的目的:
1.减少预测变量的个数
2.确保这些变量是相互独立的
3.提供一个框架来解释结果
计算题
决策边界计算问题
机器学习之正则化(Regularization)
机器学习系列(1)_逻辑回归初步
; 神经网络推导
3层神经网络,会决策边界,写出每层之间的隐层的函数的输入和输出。(神经网络的推导过程,卷积神经网络)
TENSORFLOW基础(四)–**函数(SIGMOID、TANH);损失函数(二次代价函数、交叉熵代价函数、对数释然代价函数)
二次代价函数和交叉熵代价函数
详解神经网络的前向传播和反向传播(从头推导)
线性回归中代价函数除以2m
; PCA 算法实例
PCA的思想是将n维特征映射到k维上(k
Original: https://blog.csdn.net/qq_41691212/article/details/121849250
Author: 粥粥粥少女的拧发条鸟
Title: 模式识别期末复习【湘潭大学】
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/794712/
转载文章受原作者版权保护。转载请注明原作者出处!