李宏毅机器学习笔记第4周_案例讲解分类问题

文章目录

一、分类的概念

找到一个Function,输入是一个x,然后输出是它的类别。

李宏毅机器学习笔记第4周_案例讲解分类问题

; 二、分类的应用领域

1.Credit Scoring(信用贷款判定)

找到一个Function,输入是用户的收入,存款,职业,年龄,过去是否有欠债记录等,输出就是是否贷款给用户。

2.Medical Diagnosis(医疗诊断)

找到一个Function,输入是患者的当前症状,年龄,性别,过去就诊情况,输出就是患者得的哪一种病。

3.Handwritten character recognition(手写输入识别)

找到一个Function,输入是用户手写的字,输出是识别出显示的字。

三、Example Application

1)问题是找到一个Function,输入是一只随机的宝可梦,输出是这只宝可梦属于哪一种类型。例如,输入是皮卡丘,输出就是雷属性。输入是杰尼龟,输出就是水属性。输入是妙蛙草,输出就是草属性。现在暂定宝可梦类型有18种,如下图所示。

李宏毅机器学习笔记第4周_案例讲解分类问题
2)现在的问题是怎样把一只宝可梦作为输入,所以我们需要考虑到输入的数值化。宝可梦有很多属性,这些属性都可以用数字表示。例如综合能力,生命值,攻击力,防御力,特殊攻击力,特殊防御力,速度。

3)宝可梦在战斗中存在属性相克的情况,因此问题在于对对方给出没有出现过的宝可梦时,我们需要使用Function预测出宝可梦的种类,并且选择出最有利属性的宝可梦去战斗。

李宏毅机器学习笔记第4周_案例讲解分类问题

; 四、How to do Classification

1)Training data for Classification
Training:Class 1的含义是目标值为1,Class 2的含义是目标值为-1。
Testing:接近1的是Class 1,接近-1的是Class 2。

2)绿色的线是b+w1x1+w2x2=0,划分出来蓝色点都为1,属于Class 1,红色的点都为-1,属于Class 2。

李宏毅机器学习笔记第4周_案例讲解分类问题
3)在regression中,倾向于Class 1中的值越接近1越好,但是在图中出现一些蓝色的点远大于1,因此得到的结果是紫色的线会更好,会消除掉错误,让右下角的值没有那么大。
李宏毅机器学习笔记第4周_案例讲解分类问题

五、Ideal Alternatives

李宏毅机器学习笔记第4周_案例讲解分类问题
1)从盒子1中抽球的概率为2/3,从盒子1中抽中蓝色球的概率为4/5,从盒子1中抽中绿色球的概率为1/5,从盒子2中抽球的概率为1/3,从盒子2中抽中蓝色球的概率为2/5,从盒子2中抽中绿色球的概率为3/5。求从盒子1抽出蓝色球的概率。
李宏毅机器学习笔记第4周_案例讲解分类问题
2)可以把盒子问题换成分类问题,将球看作一只宝可梦,求这只宝可梦属于Class 1的概率P(x|C1)。需要把下图中红框中的数值找到,即可求出P(x|C1)。Generative Model : P(x)= P(x|C1) P(C1)+ P(x|C2) P(C2)。
李宏毅机器学习笔记第4周_案例讲解分类问题
3)因为水系宝可梦和普通性宝可梦数量多,因此先计算水系宝可梦P(C1)和普通系宝可梦P(C2)。Training选择ID值

; 六、Gaussian Distribution

1)Gaussian Distribution有均值μ和协方差矩阵Σ决定,输入为一只宝可梦的属性,输出为取样到宝可梦的概率。

李宏毅机器学习笔记第4周_案例讲解分类问题
2)从这些样本中计算出均值μ和协方差矩阵Σ。
李宏毅机器学习笔记第4周_案例讲解分类问题
3)最后,计算得到如下图所示公式。
李宏毅机器学习笔记第4周_案例讲解分类问题
4)Maximum Likelihood
这79个样本可以从不同均值μ和协方差矩阵Σ中取样,但是从下图中可以看出圆形高斯分布取样出来的样本的likehood比椭圆的高斯分布大,因此我们应该计算不同高斯分布对79个样本的likehood,然后取最大值,就可以找到Maximum Likelihood。
李宏毅机器学习笔记第4周_案例讲解分类问题
下图是Maximum Likelihood的数学表示及解法,求最小值需要找到极值点的位置,也即是函数求导后导数为0的点。
李宏毅机器学习笔记第4周_案例讲解分类问题
5)计算结果。
李宏毅机器学习笔记第4周_案例讲解分类问题

七、Now we can do classification

1)通过上述操作得到参数后,将参数代入公式。

李宏毅机器学习笔记第4周_案例讲解分类问题
2)下图中坐标轴为防御力和特殊防御力,图中的点代表x属于C1的概率,蓝色点代表水系宝可梦概率大,而红色代表普通系宝可梦概率大。最后得出结论,准确率为47%。这里只考虑了两个属性,现在我们考虑7个属性,准确率可以提升到54%。
李宏毅机器学习笔记第4周_案例讲解分类问题

; 八、Modifying Model

1)两个不同的Class使用相同的协方差矩阵Σ,可以减少Model的参数。

李宏毅机器学习笔记第4周_案例讲解分类问题
2)重新设置参数,计算出三个参数最大的Maximum Likehood。
李宏毅机器学习笔记第4周_案例讲解分类问题
3)边界变成线性的了,考虑7个参数后,准确率提升到了73%。
李宏毅机器学习笔记第4周_案例讲解分类问题

九、Three Steps

Maximum Likehood的步骤只有3步,只需把Model代入这3个步骤中即可。

李宏毅机器学习笔记第4周_案例讲解分类问题

; 十、手推公式

李宏毅机器学习笔记第4周_案例讲解分类问题

总结

在generative model中,我们需要找出N1,N2,μ1,μ2,Σ,但是我们最后通过数学公式换算变成了线性方程,因此我们可以直接去找参数w,b。

Original: https://blog.csdn.net/peaunt1/article/details/124652641
Author: MoxiMoses
Title: 李宏毅机器学习笔记第4周_案例讲解分类问题

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/666560/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球