一次学科作业:LDA,朴素贝叶斯,支持向量机适用数据集特点、支持向量回归和一般回归方法的区别

1.敘述三种分类学习方法:LDA,朴素贝叶斯,支持向量机的原理和算法,三种分类方法各适合什么样的数据集?

先说结论: LDA适合于样本固定,参数未知但不固定,是个随机变量,服从一定的分布的数据集。

朴素贝叶斯的应用主要集中在文本分类(变量类型多,且更独立),具有较高的成功率。因此被广泛应用于垃圾邮件过滤(识别垃圾邮件)和情感分析(在社交媒体平台分辨积极情绪和消极情绪的用户)。

SVM 适合处理具备高维特征的数据集。

A1 : 线性判别分析(LDA)属于机器学习中的监督式学习方法,英文全称Linear Discriminant Analysis,简称LDA。这一方法应用广泛,尝尝被用来做特征提取、数据降维和任务分类,在人脸识别、人脸检测等领域发挥了重要的作用。

线性判别分析的核心思想是寻找到最佳的投影方法,将高维的样本投影到特征空间(feature space),使得不同类别间的数据”距离”最大,而同一类别内的数据”距离”最小。

LDA 算法流程:

输入:数据集D={(x1,y1),(x2,y2),…,((xm,ym))}D={(x1,y1),(x2,y2),…,((xm,ym))},其中任意样本xixi为n维向量,yi∈{C1,C2,…,Ck}yi∈{C1,C2,…,Ck},降维到的维度d。

输出:降维后的样本集D′

1)计算类内散度矩阵SwSw

2)计算类间散度矩阵SbSb

3)计算矩阵S −1wSbSw −1Sb

4 )计算S −1wSbSw −1Sb 的最大的d个特征值和对应的d个特征向量(w1,w2,…wd)(w1,w2,…wd),得到投影矩阵

5)对样本集中的每一个样本特征xixi,转化为新的样本zi=WTxizi=WTxi

6)得到输出样本集D′={(z1,y1),(z2,y2),…,((zm,ym))}

适合于样本固定,参数未知但不固定,是个随机变量,服从一定的分布的数据集。

A2: 朴素贝叶斯理论源于随机变量的独立性:就文本分类而言,从朴素贝叶斯的角度来看,句子中的两两词之间的关系是相互独立的,即一个对象的特征向量中每个维度都是相互独立的。这是朴素贝叶斯理论的思想基础。其流程如下

-第一阶段,训练数据生成训练样本集:TF-IDF。

-第二阶段,对每个类别计算P(yi)。

-第三阶段,对每个特征属性计算所有类别下的条件概率p(ai|yi)。

-第四阶段,对每个类别计算p(x|yi)p(yi)。

-第五阶段,以p(x|yi)p(yi)的最大项作为x的所属类别。

相比较其他算法,朴素贝叶斯的应用主要集中在文本分类(变量类型多,且更独立),具有较高的成功率。因此被广泛应用于垃圾邮件过滤(识别垃圾邮件)和情感分析(在社交媒体平台分辨积极情绪和消极情绪的用户)。

A3 :

支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。

SVM 学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如下图所示,即为分离超平面,对于线性可分的数据集来说,这样的超平面有无穷多个(即感知机),但是几何间隔最大的分离超平面却是唯一的。

适合处理具备高维特征的数据集。

2.论述支持向量回归SⅤR与一般回归方法的区别

支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。

直观地说,正如所有回归量一样,它试图通过最小化核函数来拟合数据线。 但是,关于SVR的有趣部分是您可以部署非线性内核。 在这种情况下,您最终会进行非线性回归,即拟合曲线而不是线。 此过程基于内核技巧和解决方案/模型在双重而非原始中的表示。 也就是说,模型表示为训练点的组合,而不是特征和一些权重的函数。 同时基本算法保持不变:非线性过程中唯一真正的变化是核函数,它从简单的内积变为非线性函数。

因此SVR也允许非线性拟合问题,而LinearRegression()仅用于直线的简单线性回归(在两种情况下可能包含任意数量的特征)。

Original: https://blog.csdn.net/weixin_44296768/article/details/121629081
Author: 葡萄氣泡糖
Title: 一次学科作业:LDA,朴素贝叶斯,支持向量机适用数据集特点、支持向量回归和一般回归方法的区别

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/630155/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球