2020李宏毅机器学习笔记——4.classification(分类）

2023年7月3日上午1:23 • 人工智能 • 阅读 66

一、classification分类

1.介绍分类

分类（classification），即找一个函数判断输入数据所属的类别，可以是二类别问题（是/不是），也可以是多类别问题（在多个类别中判断输入数据具体属于哪一个类别）。
同回归问题（regression）相比，分类问题的输出不再是连续值，而是离散值，用来指定其属于哪个类别。
分类问题在现实中应用非常广泛，比如医疗诊断，手写数字识别,人脸识别，语音识别等。

; 2.Example Application

输入数值化：
对于宝可梦的分类问题来说，我们需要解决的第一个问题就是，怎么把某一只宝可梦当做function的input？

比如用一组数字表示它有多强(total strong)、它的生命值(HP)、它的攻击力(Attack)、它的防御力(Defense)、它的特殊攻击力(Special Attack)、它的特殊攻击的防御力(Special defend)、它的速度(Speed)。

2. 那我们又该如何去classifiction分类呢？

我们能不能把分类问题当成回归问题去解决?

首先以binary classification（二元分类）为例，我们在Training时让输入为class 1的输出为1，输入为class 2的输出为-1；那么在testing的时候，regression output是一个数值，它大于0接近1则说明它是class 1，它小于0接近-1则说明它是class 2。

这样做会出现的问题：

1.就比如此时，右侧class1中右下角的这些点，如果仍然采用绿色那条线所代表的函数进行预测，这些新加入进来的点的误差将特别的大，为了缓解由此带来的误差，绿色的线将往右下角偏移，以此减少误差。

2.Regression的output是连续性质的数值，而classification要求的output是离散性质的点，我们很难找到一个Regression的function使大部分样本点的output都集中在某几个离散的点附近因此，Regression定义model好坏的定义方式对classification来说是不适用的。

总结：regression会惩罚太正确的样本，得到不好的function。

; 3. Ideal Alternatives

首先引入离散函数g(x)：
g(x)>0，output= class 1. else,output=class 2
同时重新定义了Loss function：

这个LOSS的意思，即是这个model在所有的training data上predict预测错误的次数，也就是说分类错误的次数越少，这个function表现得就越好。

又因为这个loss function没有办法微分，是无法用gradient descent的方法去解的。
当然有Perceptron、SVM这些方法可以用，但这里先用另外一个solution来解决这个问题。

4.Solution：Generative model （生成概率模型)

生成概率模型其实是先假设数据的概率分布（正态、伯努利、泊松），然后用概率公式去计算x所属于的类型p(C1∣x)。

上述为引用贝叶斯公式；

实验设举例子：

P（C1）和P（C2）这两个概率，被称为Prior，计算这两个值还是比较简单的。在Training data里面，有79只水系宝可梦，61只一般系宝可梦，那么P（C1）= 79 / （79 + 61）= 0.56，P（C2）= 61/ （79 + 61）= 0.44，

现在的问题是，怎么得到P（x|C1）和P（x|C2）的值呢?

怎么得到P（x|C1）和P（x|C2）的值呢？假设我们的x是一只新来的海龟，它显然是水系的，但是在我们79只水系的宝可梦training data里面根本就没有海龟，所以挑一只海龟出来的可能性根本就是0啊！所以该怎么办呢？
其实每一只宝可梦都是用一组特征值组成的向量来表示的，在这个 vector里一共有七种不同的feature，为了方便可视化，这里先只考虑 Defense和SP Defence这两种feature

下图只是采样了79个点之后得到的分布，但是从 高斯分布里采样出海龟这个点的几率并不是0，那从这79个已有的点，怎么找到那个 Gaussian distribution函数呢？

; Gaussian Distribution （正态分布/高斯分布）

首先介绍一下高斯函数，这里表示 均值μ，表示 协方差 Σ，两者 都是矩阵matrix,输入vector x,得到输出的是一个sample 出x 的概率密度；

下图中可以看出，同样的 Σ，不同的μ，概率分布最高点的地方是不一样的。

如果是同样的μ，不同的 Σ，概率分布最高点的地方是一样的，但是分布的密集程度是不一样的。

那接下来的问题就是怎么去找出这个Gaussian 函数，只需要我们去估测出这个Gaussian的均值μ和协方差 Σ
估测均值μ和协方差的方法就是 极大似然估计法(Maximum Likelihood)
2020李宏毅机器学习笔记——4.classification(分类）

实际上任意一组μ和对应Σ的高斯函数(μ表示该Gaussian的中心点，Σ表示该Gaussian的分散程度)都有可能sample出跟当前分布一致的样本点，

如上图中的两个红色圆圈所代表的高斯函数，但肯定存在着发生概率最大的哪一个Gaussian函数，而这个函数就是我们要找的。

如下图所示：

现在就有了P（C1），P（x|C1），P（C2），P（x|C2）这四个值，可以开始真的分类了
Now we can do classification

那最后实验举例结果如何呢？
2020李宏毅机器学习笔记——4.classification(分类）

training训练集上得出：红色区域>0.5 水系概率比较大，但是在testing测试集上，效果表现准确率不高，结果是不大好的！
Modifying Model

首先呢，其实之前使用的model是不常见的，你是不会经常看到给每一个Gaussian都有自己的mean和covariance，比如我们的class 1用的是mean1和covariance1，class 2用的是mean2和covariance2；

解决方法常用：不同的class共用同一个模型covariance matrix（协方差矩阵）
由于covariance matrix（协方差矩阵）中的变量与输入输入样本数量的平方呈正比，故covariance matrix中的变量在样本数量较多时快速增长，造成overfitting，故使用同一组covariance matrix（协方差矩阵），以减少parameters。

将μ1和μ2，以及共同的Σ，一起去合成一个极大似然函数，此时可以发现，得到的μ1和μ2还是各自的均值，而则是原先两个Σ1和Σ2的加权值。
结果分类结果变好了，同时boundary（分界线）变为线性的；如下图：
2020李宏毅机器学习笔记——4.classification(分类）

从图中可见：如果我们考虑所有的feature，并共用covariance（协方差矩阵）的话，原来的54%的正确率就会变成73%，显然是有分对东西的，但是为什么会做到这样子，我们是很难分析的，因为这是在高维空间中发生的事情，我们很难知道boundary到底是怎么切的，但这就是machine learning它fancy的地方，人显然是没有办法知道怎么做，但是machine可以帮我们做出来。

Three Steps of classification

总结——分类问题的三步骤：
1.定义模型集合
样本x属于类别1的概率：

2.定义损失函数（LOSS）来评价模型好坏：
假设高斯分布，利用已有的数据，求得μ \mu μ，Σ \Sigma Σ。最大化评价参数好坏的指标，即极大似然估计L ( μ , Σ ) L(\mu,\Sigma)L (μ,Σ);
3.找到最好的模型：

实际上，（有公式如下）最佳参数就是每个类别中，所有样本点的均值和协方差。比如，类别1的最佳均值与协方差：

注1：均值μ是每个类别单独求出的。
注2：协方差Σ \Sigma Σ先每个类别单独求出，然后共享的协方差为所有协方差的加权平均值。

数学警告

Original: https://blog.csdn.net/weixin_44790306/article/details/116049596
Author: HSR CatcousCherishes
Title: 2020李宏毅机器学习笔记——4.classification(分类）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666591/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

传出神经系统分为哪两类,传出神经的分类与功能

传出神经系统的分类是什么（一）按解学分类:1.自主神经系统（植物神经）:包括交感神经和副交感神经。它们自中枢神经系统发出后，都要经过神经节中的突触更换神经元，然后才到达所支配的器…

人工智能 2023年7月1日
0059
linux系统下使用cmake编译so文件

本文章将介绍Linux系统下，如何使用cmake将C++语言编译成so文件，主要介绍如何安装cmake和编译，并使用python调用，细节如下：一. Linux安装cmake方…

人工智能 2023年6月4日
0078
【机器学习】：Xgboost使用optuna进行调试参数

代码如下： def objective(trial,data=data,target=target): train_x, test_x, train_y, test_y = tra…

人工智能 2023年6月6日
0078
分类问题——逻辑回归与XGBoost

逻辑回归初学逻辑回归的时候就只是简单地认为sigmoid函数可以把线性函数映射到(0，1)的区间上，因此选用了sigmoid模型作为逻辑回归的模型函数。其实是学的太简单了，直到…

人工智能 2023年7月3日
0057
C++之Hello World

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月30日
0058
【AI视野·今日Sound 声学论文速览第一期】Thu, 14 Apr 2022

AI视野·今日CS.Sound 声学论文速览Thu, 14 Apr 2022Totally 11 papers👉上期速览✈更多精彩请移步主页 ; Interesting: 📚***…

人工智能 2023年5月27日
0070
图算法如何应用于推荐系统中的个性化推荐

问题介绍个性化推荐是一种常见的推荐系统，在大规模用户和项目数据集中寻找潜在的用户兴趣和项目关联性。图算法被广泛应用于个性化推荐系统中，它可以通过分析用户和项目之间的关系构建推荐算…

人工智能 2024年1月6日
0066
死磕JAVA10余年，呕心整理出了核心知识点已经做成PDF，无私奉献

前言：想在面试、工作中脱颖而出？想在最短的时间内快速掌握 Java 的核心基础知识点？想要成为一位优秀的 Java 工程师？本篇文章能助你一臂之力！目前正值招聘求职旺季，很多同…

人工智能 2023年7月31日
0032
[附源码]java毕业设计成都团结石材城商家协作系统

项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclis…

人工智能 2023年6月27日
0055
高清数字电视视频处理器画质增强技术简介

高清信号发展趋势随着普通显像管电视利润的继续下滑和以平板电视为主的高清数字电视需求量的迅猛增长，整个电视产业都将重心逐渐移到了高清数字电视上。无论是以液晶电视生产为主的夏普还是以…

人工智能 2023年6月20日
0069
用 Python 轻松玩转并行编程 Taichi 加速

不妨想象你正在编写基于粒子的流体算法。要开始并不难，你不费工夫就在网上找到可供参考的 C++/CUDA 作品（或者意外发现这就出自实验室伙伴之手）。 cmake .. &…

人工智能 2023年7月30日
0058
论文导读 | 自然语言处理增强的数据库调参

前言 Give me a user manual, and I’m happy for hours. — Lennon Parham When all el…

人工智能 2023年5月28日
0077
解决kaldi训练报错 CUDA error: ‘out of memory‘，gpu不够用（亲测有效）

kaldi训练mobvoihotwords报错： ERROR (nnet3-chain-train[5.5]:AllocateNewRegion():cu-allocator.cc…

人工智能 2023年5月25日
00120
OpenCV人脸识别，训练模型为cv2.face.LBPHFaceRecognizer_create()

OpenCV内部自带有三种人脸检测方式：LBPH人脸识和其他两种方法（Eigen人脸识别，FisherFace人脸识别）本次主要说明第一种方式LBPH检测。 1.素材创建图（1….

人工智能 2023年6月18日
0057
Pandas 模块 – 读写(1)-csv/txt等文档-read_csv/to_csv

目录 1. 读写 csv 或者 txt 文件 1.1 .read_csv（）语法 1.2 .read_csv（）范例 1.2.1 唯一不可缺少的参数 filepath_or_buf…

人工智能 2023年7月17日
0049
r语言面板数据回归_R语言之回归分析

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月18日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30