机器学习之逻辑回归（对率回归）

2023年6月17日下午5:39 • 人工智能 • 阅读 58

线性回归模型帮助我们用最简单的线性方程实现了对数据的拟合，即实现了对连续值的预测。那怎么预测离散值（分类）呢？
在数学意义上，就是找到一个单调可微函数将分类任务的标记与线性回归模型的预测值相关联。
形似S的Sigmoid函数可以实现将连续的预测值转换为离散的预测值。对于二分类任务，当线性预测值大于零，则输出离散值为正例；当线性预测值小于零, 则输出离散值为反例。
下图中的两个函数都可完成数值转换，红色代表单位阶跃函数，黑线代表对数几率函数。

横轴z是线性回归的预测值，纵轴y是二分类任务的输出标记。

; 1模型假设

对数几率函数（logistic function）是一种”Sigmoid”函数。可以把样本数据经过线性预测模型求得的值带入对数几率（逻辑）函数的x，根据函数值确定两个分类。对应的模型一般称为逻辑回归（logistic regression），也称对数几率回归（logit regression），简称”对率回归”。
l n y 1 − y = w T x + b ln\frac{y}{1-y}=w^Tx+b l n 1 −y y =w T x +b
注意：名称有”回归”字样，但属于 分类学习模型。
我们将通过”极大似然法”（maximum likelihood method）来估计w和b。对率回归模型最大化”对数似然”（log-likelihood），
l ( w , b ) = ∑ i = 1 m l n p ( y i ∣ x i ; w , b ) l(w,b)=\sum_{i=1}^{m}ln\: p(y_i | x_i;w,b)l (w ,b )=i =1 ∑m l n p (y i ∣x i ;w ,b )
即令每个样本属于其真实标记的概率越大越好。

2评价与优化

分类任务性能度量：错误率、精度、查准率、查全率和F1等。
对数几率函数是任意阶可导的凸函数，根据凸优化理论，经典的数值优化算法如梯度下降法、牛顿法等都可求得最优解。梯度下降法参见前文。
牛顿法（Newton’s method），它是一种在实数域和复数域上近似求解方程的方法，使用函数f(x)的泰勒级数的前面几项来寻找方程f(x)=0的根。
牛顿法优化：假设任务是优化一个目标函数f，求函数f的极大极小问题，可以转化为求解函数f的导数f’=0的问题，这样求可以把优化问题看成方程求解问题（f’=0）。
一般认为牛顿法可以利用到曲线本身的信息，比梯度下降法更容易收敛（迭代更少次数），如下图是一个最小化目标方程的例子，红色曲线是利用牛顿法迭代求解，绿色曲线是利用梯度下降法求解。

; 3Sklearn代码实现

在Sklearn库中逻辑回归模型使用 LogisticRegression 类，其求解器（solver）可使用的优化算法，包括liblinear， newton-cg， lbfgs， sag 和 saga。

liblinear应用了坐标下降算法（Coordinate Descent, CD），并基于 scikit-learn 内附的高性能 C++ 库 LIBLINEAR library 实现。
newton-cg：是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
lbfgs（Limited-memory BFGS）属于准牛顿法，参数solver的默认值。
sag（Stochastic Average Gradient descent）基于平均随机梯度下降算法。在大数据集上的表现更快，大数据集指样本量大且特征数多。
saga 求解器是 sag 的一类变体。

示例：鸢尾花数据集分类任务

import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
import sklearn.linear_model as sl
import sklearn.metrics as sm

iris = datasets.load_iris()

x = iris.data[:, :2]
y = iris.target

x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=37, test_size=0.2)

model = sl.LogisticRegression(solver='newton-cg', C=200)
model.fit(x_train, y_train)
pred_y = model.predict(x_test)
acc = model.score(x_train, y_train)
print('score', acc)

print('精度：', sm.accuracy_score(y_test, pred_y))
print('查准率：', sm.precision_score(y_test, pred_y, average='macro'))
print('召回率：', sm.recall_score(y_test, pred_y, average='macro'))
print('f1得分：', sm.f1_score(y_test, pred_y, average='macro'))
print('report', sm.classification_report(y_test, pred_y))

plt.title('Iris Classification')
plt.xlabel('x', fontsize=14)
plt.ylabel('y', fontsize=14)
plt.tick_params(labelsize=10)
plt.scatter(x_test[:, 0], x_test[:, 1], c=pred_y, cmap='brg', s=80)
plt.show()

运行结果，如下图：

Original: https://blog.csdn.net/weixin_44153121/article/details/113826290
Author: yangtom249
Title: 机器学习之逻辑回归（对率回归）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631184/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一文速学-时间序列分析算法之指数平滑法详解+Python代码实现

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月28日
0059
新版Python所有方向的学习路线图，自学少走弯路秘籍

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月14日
0094
【知识图谱论文】MINERVA:使用强化学习对知识库中的路径进行推理

Article 文献题目：Go for a Walk and Arrive at the Answer: Reasoning Over Paths in Knowledge Bas…

人工智能 2023年6月1日
0079
YOLOv7-Pose尝鲜，基于YOLOv7的关键点模型测评

【前言】本文首发于GiantPandaCV，未经许可请勿转载！目前人体姿态估计总体分为Top-down和Bottom-up两种，与目标检测不同，无论是基于热力图或是基于检测器处理…

人工智能 2023年6月24日
0069
秋招面试题系列- – -Java工程师（十一）

前言：七月末八月初的时候，秋招正式打响，公司会放出大量的全职和实习岗位。为了帮助秋招的小伙伴们，学长这里整理了一系列的秋招面试题给大家，所以小伙伴们不用太过焦虑，相信你们一定能超常…

人工智能 2023年6月21日
0078
软件智能：aaas系统中AI众生的“世”和“界” 之10 小结-5个图表的汇总

通过这一段的归纳，一共产生了5张表或图。本篇将它们汇在一起，给出各自的大致分工和它们的相互关系及彼此之间的制约，同时将其中涉及到的部分来源做一个简单的介绍和说明，以便为下一步的继续…

人工智能 2023年6月5日
0072
华南技术栈CNN+Bilstm+Attention

我的目标适用于文本分类，这里有一个技术栈完全一样但是目标不一样的应该可以参考现在的情况 2022年7月6日21:16:04已解决换成了CPU 因为电脑太破旧了。cuda跟不上…

人工智能 2023年5月28日
0082
python while循环详解

1.while循环的基础语法 i = 0 while i < 100: print("小美，我喜欢你") i += 1 while的条件需得到布尔类型，T…

人工智能 2023年7月4日
0078
回归模型的score得分为负_python机器学习：线性模型

尽管K近邻算法很容易理解，但由于预测速度慢且缺乏对多特征数据集的处理能力，所以实践中用的比较少。下面我们来介绍一种能够规避这种缺陷的模型：线性模型。线性模型：线性模型是在实践中广…

人工智能 2023年6月18日
0074
基因功能分析——哈佛大学

文章目录描述学习目标一、安装 * 数据集读取数据文件加载R包二、基因组注释 * 数据库 – 通用数据库注释用数据库基因组构建访问数据库的工具 Anno…

人工智能 2023年7月16日
0076
分类与回归（如何把分类问题转化为回归问题解决）

一、分类与回归的区我们都知道，有监督学习算法都在做一样事情，那就是预测。但是显然，针对不同的事件，我们有不同的预测的目标。其中，预测目标的形式（变量）有离散和连续两种类型。我们…

人工智能 2023年7月1日
0063
HDU 2612 – Find a way（两遍广搜）

Pass a year learning in Hangzhou, yifenfei arrival hometown Ningbo at finally. Leave Ningb…

人工智能 2023年6月30日
0038
〖Python 数据库开发实战 – MongoDB篇①〗- MongoDB数据库简介

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月3日
0070
backtrader量化回测，基础篇，附MACD交易回测代码

backtrader由德国工程师开发，拥有股票的回测，检测交易策略，支持期货实时交易，对于股票交易还在完善，我尝试了pylagotrade,vn.py，发现backtrader功能…

人工智能 2023年6月19日
0088
OpenCV4.x图像处理实例-图像/帧平均模拟长时间曝光

; 通过图像/帧平均模拟长时间曝光长时间曝光摄影是指相机快门在较长时间内保持打开状态的技术。生成的图像捕捉到摄像机前移动物体的轨迹，同时显示出锐利的静止元素。这种技术也称为慢…

人工智能 2023年6月22日
0071
kaldi nnet模型的decode流程解析

文章目录前言 1、特征提取 * 1-1 filter bank特征计算 1-2 cmvn处理 1-3 拼帧 2、nnet-forward 3、解码生成词图(lattice) 前言…

人工智能 2023年5月25日
0057

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习之逻辑回归（对率回归）

; 1模型假设

2评价与优化

; 3Sklearn代码实现

大家都在看