Logistic回归算法是一种用于分类任务的线性模型，它假设不同类别的数据可以用一个或多个线性决策边界来分割

2024年1月6日上午3:09 • 人工智能 • 阅读 57

介绍

Logistic回归算法是一种用于分类任务的线性模型，它假设不同类别的数据可以用一个或多个线性决策边界来分割这个问题。Logistic回归算法常用于二分类问题，它将数据输入到一个Sigmoid函数中，将线性模型的输出转换为概率值。根据概率值进行分类判断。

算法原理

Logistic回归通过使用一种称为逻辑函数（Logistic函数）的函数类型来建模二分类问题。逻辑函数是一个S型函数，将输入映射到0到1之间的连续的概率，表示样本属于正类的概率。

对于二分类问题，我们将样本的特征向量表示为x，标签或类别表示为y。Logistic回归模型通过在输入特征上应用线性模型，并将结果通过逻辑函数得到概率值来定义。

Logistic回归模型的输出可以用以下公式表示：
$$
h(x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + … + \beta_n x_n)}}
$$

其中，h(x)表示预测值，β表示模型的权重参数，x表示特征向量。

公式推导

对于Logistic回归，我们希望获得一个条件概率模型：

$$
P(y=1|x; \theta) = h_{\theta}(x) = g(\theta^T x)
$$

其中，h是一个将输入x转换为[0,1]区间内输出的函数，通常使用Sigmoid函数。这里的θ是一个参数向量，它包含了模型的权重。

为了最大化给定训练集下观测的似然，通常使用最大似然估计来估计θ。定义似然函数：

$$
L(\theta) = \prod_{i=1}^{m} h_{\theta}(x^{(i)})^{y^{(i)}} (1 – h_{\theta}(x^{(i)}))^{(1 – y^{(i)})}
$$

我们的目标是最大化似然函数。通常，我们最大化的是似然函数的对数：

$$
l(\theta) = \log(L(\theta)) = \sum_{i=1}^{m} y^{(i)}\log(h_{\theta}(x^{(i)})) + (1 – y^{(i)})\log(1 – h_{\theta}(x^{(i)}))
$$

我们的目标是最大化对数似然函数。为了实现这一点，通常使用梯度上升算法来最大化对数似然函数。

计算步骤

初始化权重向量θ为零向量，以及学习率α和迭代次数。
在每次迭代中，计算h(x)和误差项：
计算预测值h(x)：$$ h_{\theta}(x) = \frac{1}{1 + e^{(- \theta^T x)}} $$
计算误差项：$$ error = h_{\theta}(x) – y $$
更新权重向量θ：
$$ \theta = \theta – \frac{\alpha}{m} X^T \cdot error $$
重复第2步和第3步，直到达到设定的迭代次数。

复杂Python代码示例

下面是一个使用Logistic回归算法解决二分类问题的Python代码示例：

import numpy as np
import matplotlib.pyplot as plt

# 生成虚拟数据集
np.random.seed(0)
num_samples = 100

# 类别0的数据
X0 = np.random.multivariate_normal(mean=[2, 2], cov=[[1, 0], [0, 1]], size=num_samples)
y0 = np.zeros(num_samples)

# 类别1的数据
X1 = np.random.multivariate_normal(mean=[-2, -2], cov=[[1, 0], [0, 1]], size=num_samples)
y1 = np.ones(num_samples)

# 合并数据集
X = np.concatenate((X0, X1))
y = np.concatenate((y0, y1))

# 添加偏置项
X = np.hstack((np.ones((X.shape[0], 1)), X))

# 定义Sigmoid函数
def sigmoid(z):
 return 1 / (1 + np.exp(-z))

# 初始化权重向量
theta = np.zeros(X.shape[1])

# 设置学习率和迭代次数
learning_rate = 0.1
iterations = 1000

# 使用梯度上升算法更新权重向量
for _ in range(iterations):
 # 计算预测值
 h = sigmoid(np.dot(X, theta))

 # 计算误差项
 error = h - y

 # 更新权重向量
 gradient = np.dot(X.T, error) / X.shape[0]
 theta -= learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls gradient

# 计算分类边界线
x_boundary = np.linspace(-6, 6, 100)
y_boundary = -(theta[0] + theta[1] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls x_boundary) / theta[2]

# 绘制分类边界线和数据点
plt.figure(figsize=(10, 6))
plt.scatter(X0[:, 1], X0[:, 2], c='r', marker='o', label='Class 0')
plt.scatter(X1[:, 1], X1[:, 2], c='b', marker='o', label='Class 1')
plt.plot(x_boundary, y_boundary, 'g-', label='Decision Boundary')
plt.xlabel('x1')
plt.ylabel('x2')
plt.title('Logistic Regression')
plt.legend()
plt.show()

代码细节解释

首先，我们生成了一个虚拟数据集，其中包括两个类别的数据，每个类别100个样本。
然后，我们添加了一个偏置项到特征矩阵X中，以便计算中不需要额外的偏置参数。
接下来，我们定义了一个Sigmoid函数，用于将模型的输出转换为概率值。
初始化权重向量theta为零向量，设置学习率和迭代次数。
在每次迭代中，我们计算预测值h(x)和误差项error，然后使用梯度上升算法更新权重向量theta。
最后，我们计算分类边界线并绘制数据点和分类边界线的图形。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/824173/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

下一代数据架构Data Fabric到底是什么？

本文有2.6W+字，阅读预计需要较长的时间，如果正在约会，建议之后再看。数字化转型和升级已经是非常确定的发展趋势，十四五规划以及2035年远景目标纲要中针对数字化做了专篇论述…

人工智能 2023年6月1日
0090
BERT+使用transformers库加载自己数据集做BERT预训练（普通方式+TrainerAPI）

; 一、简单介绍Word Embedding 在NLP任务中，我们需要对文本进行编码，使之成为计算机可以读懂的语言。在编码时，我们期望句子之间保持词语间的相似性。word embe…

人工智能 2023年5月27日
00105
随机森林模型及案例（Python）

1 集成模型简介 1.1 Bagging算法简介 1.2 Boosting算法简介 2 随机森林模型基本原理 3 使用sklearn实现随机森林模型 4 案例：股票涨跌预测模型 4…

人工智能 2023年7月4日
0065
Python 中Dataframe初步理解，探讨参数Data，切片函数loc和iloc含义和应用，适合初学者

Dataframe是pandas的模块最具代表的数据结果，其作用之强大溢于言表，下面我们分几个最常用的说一下. Dataframe中的切片loc，iloc； import pand…

人工智能 2023年7月7日
0050
学习笔记4-卷积操作（附相关代码）、channels含义（ in_channels、卷积channels、out_channels ）

** torch.nn模块包含torch已经准备好的卷积层、归一化层、池化层、激活函数层、全连接层。 4.1卷积层 4.1.1卷积核使用操作：二维卷积运算过程示意图如下图所示：相信…

人工智能 2023年7月13日
0083
python连接janusgraph

访问Janusgraph的方式有多种，python也是其中之一。利用Janusgraph的python连接，能够将Januagraph的图计算嵌入到其他python项目中，比如快速…

人工智能 2023年6月1日
0088
.mat转.tif 用于arcgis裁剪遥感图像

在用arcgis矢量裁剪分类结果图（栅格数据）之前，分类结果中numpy数组先保存为.mat格式，这样就可以在matlab中load该mat文件，由于mat文件是struct ,…

人工智能 2023年6月20日
0087
Python K-means聚类分析实现，疾病诊断聚类分析，短文本聚类分析，疾病数据聚类分析

一、聚类分析概念物以类聚，人以群分，即聚类。聚类分析，就是物以类聚的过程，是机器识别文本特点进行分类的过程。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包…

人工智能 2023年5月31日
0088
【附源码】Python计算机毕业设计汽车租赁管理

项目运行环境配置：Pychram社区版+ python3.7.7 + Mysql5.7 + HBuilderX+list pip+Navicat11+Django+nodejs。 …

人工智能 2023年6月27日
0075
神经网络加上注意力机制，精度不升反降？

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0062
【知识图谱系列】基于Randomly Perturb的图谱预训练模型GraphCL

作者：CHEONG公众号：AI机器学习与知识图谱研究方向：自然语言处理与知识图谱本文介绍基于Randomly Perturb互信息最大化的图谱预训练模型GraphCL（NIPS …

人工智能 2023年6月1日
0094
pandas计算含缺失值中列平均值_详解Python数据分析–Pandas知识点

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘重复值的处理利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余…

人工智能 2023年7月6日
0055
qt文本转语音tts的使用方法，QTextToSpeech

这个功能已经被qt封装好了，在不同的操作系上封装了不同的方法。在win7上，qt调用的是微软讲述者(microsoft speech)，这个功能在原版win中是自带的，在ghos…

人工智能 2023年5月27日
00101
DEEP ACTIVE LEARNING FROM MULTISPECTRAL DATA THROUGHCROSS-MODALITY PREDICTION INCONSISTENCY 论文阅读

（1）基本信息这篇文章是基于半监督的模式来做跨模态行人检测的，引入了主动学习的方法，意在使用少量标注信息达到和全监督跨模态数据集一样的效果；左图表示的是两种模态检测结果一样的情…

人工智能 2023年7月14日
0067
PL-Marker(ACL 2022)——信息抽取(NER+RE)新SOTA，论文浅析与代码浏览

文章目录前言：相关工作介绍论文思路整体框架 * 1. NER阶段 2. RE阶段 Train * 1.1 ACEDatasetNER 1.2 for _ in train_i…

人工智能 2023年5月30日
0075
javaweb eclipse项目环境问题

javaweb 项目环境问题一、jar包 * 1.1 jar包下载路径 1.2 导入jar包的方法二、eclipse环境 * 2.1 eclipse字体大小设置/编码设置 2….

人工智能 2023年6月29日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31