机器学习学习笔记（三）之分类器

2023年7月1日上午2:13 • 人工智能 • 阅读 72

分类器：

输入数据，识别是什么类，可以拓展为更广泛的用途。

将特征数据化，作为判断的依据。

和regression有相似的地方，但也有很大区别，把最好不把classification当作regression做

对于有多个分组的如class 1，2，3，直接用1，2.，3代表分组会产生不存在的其他关系，如3和2比3和1要接近，这不是我们想要看到的结果，可以用矩阵向量来表示，后文。

分类器的模型：

因为loss函数不可微分，那么gradient decent的方法就不可用，采用其他方法。

可以用概率来估计以找到最好的function，利用贝叶斯公式求出概率（generative model）

其中C1，C2是先验概率，就是每个整个class的比例，然后根据条件概率求出每个类中找到目标的概率。

其中P（x|C1），可以将data的分布看作高斯分布，二项分布等等分布，利用概率密度函数或者根据频率，以求出概率大小。

Maximum Likelihood：用于寻找概率密度函数之中的参数μ和Σ的最佳值，即L(μ,Σ).

使Sample所有点的几率乘积最大，使数据最准确。

求出最好的参数后就可以根据参数求出每个数据的概率，就可以作classification

但是分类的精度不高，除了采用更多的feature之外（Σ和μ的维数就等于多少个feature），还可以将class1和2中的Σ1，Σ2的二者值经过加权（根据class1，2数目的比例加权）后的到一个Σ，然后class1，2共用一个Σ，可以提高精度，也更常用。L(μ,Σ)也回相应变成L(μ1,μ2，Σ)=……

这样处理后的boundary会变成一条直线

步骤：

倘若每个feature之间确信没有任何关系，可以利用朴素贝叶斯公式的到更简单的模型

如一直宝可梦是不是神兽，回答是yes & No，就是用二次分布

名字中的朴素体现在所有属性变量是独立的：

P ( A 1 ⋯ A m ∣ C i ) = P ( A 1 ∣ C i ) ⋯ P ( A m ∣ C i )

当属性为离散值时，概率可直接根据频率求得；
当属性为连续值时，可由其服从的概率分布求得 ；

朴素贝叶斯伯努利分类器：https://blog.csdn.net/D802366y/article/details/108366499 ;

将概率式子和Sigmoid function（https://zhuanlan.zhihu.com/p/24990626）联系起来：

Original: https://blog.csdn.net/qq_46006468/article/details/118905851
Author: 甘霖那
Title: 机器学习学习笔记（三）之分类器

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662504/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas查询选取数据

一，Pandas查询数据的几种方法二，Pandas使用df.loc查询数据的方法 df[] #获取c1，c2两列df[[‘c1′,’c2&#8…

人工智能 2023年7月6日
0077
基于BP神经网络的车牌识别系统的设计

一、基本原理概述基于BP神经网络的的汽车牌照识别系统的处理过程分为预处理、边缘提取、车牌定位、字符分割、字符识别五大模块。具体涉及以下几个过程： ① 原始车牌图像：由数码相机或其…

人工智能 2023年6月18日
0068
windows下编译opencv 3.4.0

为了方便后期的调试，自己动手编译opencv3.4.0，这样有需要的时候还可以自己修改修改源代码。通常来说，编译32位比较简单，直接用cmake生成编译的工程就行了，但64位就比…

人工智能 2023年7月20日
0089
YOLO V5 测试图像时 img_size 的设置问题

最近项目用到了 yolo v5。初始图像是 1440×1080 大小的，在训练时显示 “cuda out of memory”，故保持原始长宽比，将图像缩小…

人工智能 2023年6月16日
0092
3060显卡下CUDA+CUDNN+Paddle安装的血泪史

3060显卡下CUDA+CUDNN+Paddle安装的血泪史 项目相关&#x80CC…

人工智能 2023年5月26日
0094
岭回归，LASSO回归与弹性网

这两种回归主要针对特征之间存在多重共线性或者特征数多于样本量的情况。话句话说就是特征向量组成的矩阵不是一个满秩矩阵（特征数大于对应矩阵的秩）岭回归岭回归的代价函数是经过L2正则…

人工智能 2023年6月17日
0078
数据科学与大数据技术

大数据科学家学习路线数据科学与大数据技术我个人理解，就是两个方向一、分析：大数据分析师走向大数据科学家二、开发：大数据开发工程师走向大数据专家大数据岗位方向 ; Hadoop大…

人工智能 2023年7月17日
0074
举例理解transformer中的位置编码

文章目录 * – 1. transformer结构图 – 2. 位置编码的作用 – 3. 位置编码的计算 1. transformer结构图 …

人工智能 2023年7月28日
0057
【机器学习】逻辑回归案例二：鸢尾花数据分类，决策边界绘制逐步代码讲解

逻辑回归案例二：鸢尾花数据分类，决策边界绘制逐步代码讲解 1 数据加载 2 数据EDA 3 模型创建及应用 * 3.1 数据切分 3.2 创建模型与分类 3.3 决策边界绘制 &#…

人工智能 2023年7月1日
0072
图像处理入门一

图形处理入门一 * – + 1.图像处理的基本知识 + 2.OpenCV入门详解本文学习书籍为华为云的《从零到壹•Python图像处理及识别》，写博客的目的是为了记录…

人工智能 2023年6月19日
0083
致初学者的深度学习入门系列（三）—— 深度学习目标检测篇（上）

目标定位在softmax层中不仅仅只输出分类信息，还可以输出目标的外接矩形框的角点和长宽，这样就可以转化为一个逻辑回归的问题。只要在训练集上对相应信息进行标注，以及定义合适的…

人工智能 2023年7月10日
0073
分类问题为什么用交叉熵损失不用 MSE 损失

本文说明以下问题 MSE 损失主要适用与回归问题，因为优化 MSE 等价于对高斯分布模型做极大似然估计，而简单回归中做服从高斯分布的假设是比较合理的交叉熵损失主要适用于多分类问题…

人工智能 2023年7月1日
00113
语音识别技术

语音识别技术，也被称为自动语音识别（Automatic Speech Recognition ，ASR ）。语音识别技术就是以语音为研究对象，让机器通过自动识别和理解过程把语音…

人工智能 2023年5月25日
0087
自动曝光算法原理介绍

自动曝光算法原理与实现介绍相机的自动曝光(AE)算法实际上是通过自动调整曝光时间，使得获取到的图像达到一个合理的灰度范围，比如140 ± 20 140\pm 20 1 4 0 ±…

人工智能 2023年5月26日
0070
自己准备数据用pytorch框架进行猫狗分类

学了将近一个月深度学习，一直在用MNIST，cifar10做练习。老师建议我自己找数据来训练，这样可以发现许多问题。果不其然，简单记录一下整个过程和感悟。一、准备数据转化时发现…

人工智能 2023年7月3日
0060
NLP-分类模型：短文本分类概述【FastText、TextCNN、TextRNN、TextRCNN、DPCNN】

随着信息技术的发展，最稀缺的资源不再是信息本身，而是对信息的处理能力。且绝大多数信息表现为文本形式，如何在如此大量且复杂的文本信息中如何获取最有效的信息是信息处理的一大目标。文本分…

人工智能 2023年6月30日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习学习笔记（三）之分类器

大家都在看