本篇文章是根据视频( link.)所作的学习笔记,旨在对机器学习的相关知识更好的理解和巩固。本人基础较弱,推导中看不懂的公式可能会细究,如果有理解不当之处也欢迎指出。
线性分类概述
·数据介绍
线性分类可以理解在线性回归的基础上利用激活函数或者降维操作对数据进行分类。线性可理解为对二维数据,能用一条直线将正、负样本分开;对三维数据,线性可分意味着能用一个平面将正、负样本分开;对n维数据,线性可分意味着能用n-1维超平面将正、负样本分开。线性分类包括硬分类和软分类(以二分类为例):
1)硬分类
,常见的硬分类模型有 感知机和 Fisher线性判别。
2)软分类
,常见的软分类模型有 概率判别模型(逻辑回归)和 概率生成模型(高斯判别分析和朴素贝叶斯)。
本篇主要介绍两种常见的硬分类模型——感知机 和 Fisher判别,软分类见下篇。
线性分类之感知机
感知机算法由Rosenblatt在1957年提出,是一类简单的线性判别算法。如下图所示,黑色和红色分别为两类,S1,S2,S3为不同参数下的分界函数。
感知机思想——错误驱动学习,逐步使分类错误的样本数量减少至0。
感知机模型:
目标函数:
其中M为分类错误的样本数量,负号是因为在分错的时候才有,分对的时候看sign()函数,同正得正,负负得正。
求解目标函数中的参数时,采用随机梯度下降法(SGD):
其中感知机学习算法是收敛的,定理此处不予证明。按照公式结果依次迭代,直到把训练样本中的数据全部分类正确,即L(w,b)=0。
引申——当数据线性不可分的时候,允许一点错误出现的感知机做法叫做pocket算法,感兴趣者自行了解。
线性分类之Fisher线性判别
Fisher线性判别可以理解为将不好分类的数据投影到其他的方向,从而达到容易区分的目的。
其中,投影方向为
,在该上面的投影值为,(投影值为设二分类分别为C1,C2类,对应于
,则有:Lisher分类的基本思想——希望投影到
方向上的数据达到, 类内距离小,类间距离大。并以此来设置目标函数:
说明——是类C1投影值的均值,S1类C1投影值的方差;是类C1数据自身的均值,是类C1数据自身的方差。C2类同样如此。
随机向量自身的均值和方差公式(以类C1的投影Z1为例):
下面对目标函数进行化简:
同理,
,分子分母上的向量不能随意化简约去,有方向
至此,我们就得到了fisher判别中的目标函数,下一步分析如何来确定投影方向
:令
,叫做类间方差;,叫做类内方差。
此时
基于” 类内距离小,类间距离大“,可得:
两边同时乘以,得
分析:, 与都为实数,不影响方向
其中, 也是一个实数,不影响方向
推完啦同志们!提前给自己下班!新年快乐~
参考: https://blog.csdn.net/jian_qiao/article/details/85346664
https://blog.csdn.net/qq_18870127/article/details/79097735
Original: https://blog.csdn.net/gigglehuahua/article/details/122754338
Author: GiggleMiao
Title: 机器学习-白板推导学习笔记-4线性分类1
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/664465/
转载文章受原作者版权保护。转载请注明原作者出处!