分类问题——逻辑回归与XGBoost

2023年7月3日上午12:08 • 人工智能 • 阅读 70

逻辑回归

初学逻辑回归的时候就只是简单地认为sigmoid函数可以把线性函数映射到(0，1)的区间上，因此选用了sigmoid模型作为逻辑回归的模型函数。

其实是学的太简单了，直到面试的时候被问到这个问题，才想到需要来把坑填一下。

*事实上可以把线性函数映射到(0，1)上的函数有无穷多个，而逻辑回归使用sigmoid函数并不是随便选的，而是通过理论推导得到的。

这里挂上我觉得解释得最清楚的文章：https://www.cnblogs.com/wallacup/p/6024855.html?utm_source=itdadao&utm_medium=referral

下面是我个人的理解和总结：

这里以二项逻辑回归为例子，即分类只有两种(y)，记为0和1。

在这个分类问题上，我们知道y的先验分布实际上是一个伯努利分布(有可能y=1且概率为p，或者有可能y=0且概率为1-p)。即：

推导得到：

这符合指数分布族的标准形式：

其中，η是分布的 自然参数（natural parameter）或 典范参数（canonical parameter），T(y)叫做 充分统计量（sufficient statistic）。

通常情况下T(y)=y；a(η)是 对数分配函数（log partition function），而a、b与T一般都是给定的， 随着η的变化，会得到不同的分布。

引进广义线性模型（GLM）的概念：

广义线性模型：

应用到上面的逻辑回归中：

(1) 由上述内容已知:

(2)

(3)

其中，w就是广义线性模型中的线性模型系数θ

由此，

得到逻辑回归模型：

推导出分类问题——逻辑回归的模型之后，如何评估这个模型

我们就得想想怎么基于样本，得到最理想的模型。一般的流程是我们需要找到一个评估模型的指标，再设法优化这个指标，来得到最好的模型参数。

在回归问题中，我们通常使用 损失函数来评估，不断 缩小残差方。

在分类问题中，对于逻辑回归，可以使用 最大似然函数来评估。

最大似然函数的意思，就是最大程度上的相似。长这个样子：

其中，

指的是我们想要拟合的这个模型，当输入xi的时候，输出的Y=1的概率。

相应地，

，

其实就是这个逻辑回归的模型。

指数上的yi则指的是样本的y。

举个栗子：如果你有一组训练样本(xi，yi)，得到了一个训练模型

。

如果训练模型告诉你，

。

情况1(这组样本预测正确)：你的yi此时正是1，那么

情况2(这组样本预测错误)：你的yi此时正是0，那么

可以看到当累乘，乘以0.1的时候，即模型和样本不fit的时候，相比于预测正确，乘上0.9，会使得似然函数变得更小。

因此我们的目的就是极大化最大似然函数

有了评估指标后，怎么求似然函数的极大值：

取对数！

得到对数似然函数：

其中，

得到了只有一个未知数w的函数，于是可以用梯度下降或者拟牛顿法来求得最优解。

Original: https://blog.csdn.net/weixin_48457572/article/details/116594651
Author: 一枚达达
Title: 分类问题——逻辑回归与XGBoost

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666482/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenCV简单应用（四、waitKey和waitKeyEx）

1.waitKey是OpenCV中很常用的一个函数，原型为：waitKey(delay)delay为延时时间，也可以看做间隔时间，单位为毫秒，0表示永远等待。其返回值为ASCII键…

人工智能 2023年7月19日
0042
非极大值抑制(Non-Maximum Suppression):NMS简介（附详解代码）

非极大值抑制(Non-Maximum Suppression):NMS简介非极大值抑制即是NMS算法，在边缘检测、人脸检测、目标检测等广泛应用，同时在不同应用中，具体实现也有其不…

人工智能 2023年7月10日
0069
利用yolov7训练自己的数据集； yolov7的安装与使用； yolov7源码解读

免责声明:1\此方法仅提供参考2\搬了其他博主的操作方法,以贴上路径.3* 场景一:Anconda环境基本操作场景二:yolov7的使用场景三:yolov7训练自己的数据集场…

人工智能 2023年5月31日
00108
基于知识图谱的智能问答项目

文章目录 1 项目简介 * 1.1项目概述 1.2项目使用环境及工具 1.3项目部署 2 代码目录结构及原理 * 2.1核心代码目录结构 2.2知识图谱问答代码分析 –…

人工智能 2023年6月1日
00109
openCV——图像金字塔

图像金字塔理论基础通常情况下，图像金字塔的底部是待处理的高分辨率图像（原始图像），而顶部则为其低分辨率的近似图像。向金字塔的顶部移动时，图像的尺寸和分辨率都不断地降低。通常情况…

人工智能 2023年6月18日
00100
【知识图谱】Louvain、LPA等5类经典社区发现算法 Python 实战

一、社区发现概述根据图论，加权网络表示为𝐺=(𝑉,𝐸,𝑊)，未加权网络表示为𝐺=(𝑉,𝐸)，其中𝑉和𝐸表示节点和边的集合，𝑊分别表示𝐸相应的权重，以连接的强度或容量为单位。在未加…

人工智能 2023年6月1日
0077
yolov7训练BDD100k自动驾驶环境感知2D框检测模型

文章目录数据集的选取 bdd100k数据集介绍、下载标签格式转换 * BDD转COCO COCO转YOLO 参考链接数据集的选取自动驾驶相关的数据集有很多，这里需要的是做目…

人工智能 2023年7月27日
0070
【成功 debug】Assertion idx_dim ＞= 0 && idx_dim ＜ index_size && “index out of bounds“

在 gpu 上跑 torch 代码的时候遇到了如题所示的问题，原因大概率是某行代码 id 溢出，但是如何定位出 bug 的代码呢？尝试设置： CUDA_LAUNCH_BLOCKI…

人工智能 2023年7月21日
0048
Python拼接字符串的几种方式

""" 1. 使用加号"+"连接字符串用加号"+"连接两个字符串，连接后这两个字符串将连接成一个字符串。但需…

人工智能 2023年7月4日
0076
10.十大经典算法

（包括各自优缺点 / 适用数据场景）本文主要分析皆来自其他资料，借用较为权威的总结来对我已经学习的这些经典算法做一个极为精简的概述（根据自身经验有一定修改），另外同时附上机器学习…

人工智能 2023年7月18日
0084
人工智能–遗传算法求解TSP问题

文章目录前言一、遗传算法的概念 * – 遗传算法（Genetic Algorithm, GA）：二、解决的问题对象三、程序步骤 * 1.针对TSP问题，确定编…

人工智能 2023年6月12日
0064
常见分类模型：决策树、随机森林、GBDT、XGB

涉及到的指标：信息熵：其中是一件事情发生的概率，发生的概率越大信息量越小，对于2个独立事件，发生概率是，二者的信息量是，因为具有可加性的性质，因此一般用来衡量某件事的信息量，…

人工智能 2023年6月19日
00106
pytorch：多标签分类的损失函数和准确率计算

1 损失函数我们先用sklearn生成一个多标签分类数据集。 from sklearn.datasets import make_multilabel_classificatio…

人工智能 2023年7月22日
0058
OpenPCDet docker镜像分享

文章目录 1. 文件说明 2. 使用 * 2.1 解压代码文件 2.2 加载镜像文件 2.3 运行容器 – 2.3.1 docker在本机运行，在本机显示图形界面 2….

人工智能 2023年7月12日
0095
【个人笔记 – 目录】OpenCV4 C++ 快速入门 30讲

个人资料，仅供学习使用修改时间——2022年2月10日 09:51:53学习课程：OpenCV4 C++ 快速入门视频30讲视频老师：贾志刚笔者对每一节课都做了详细的笔记，在包含…

人工智能 2023年5月28日
0081
自然语言处理（NLP）

自然语言处理（NLP）主要研究人与计算机之间，使用自然语言进行有效通信的各种理论和方法。自然语言处理的主要技术范畴 1、语义文本相似度分析语义文本相似度分析是对两个文本的意义…

人工智能 2023年5月27日
00111

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

分类问题——逻辑回归与XGBoost

大家都在看