机器学习7-逻辑斯蒂回归实现西瓜数据集2.0的二分类

2023年6月16日上午12:47 • 人工智能 • 阅读 73

文章目录

1 什么是逻辑回归
1.1 Sigmoid函数介绍
2 逻辑回归公式推导
*
2.1 损失函数推导
3 逻辑回归迭代公式
*
3.1 函数特性
3.2 求导过程
4 逻辑回归实现西瓜数据集2.0的分类

我们在实现西瓜数据集2.0分类之前先讲讲逻辑回归的原理。

1 什么是逻辑回归

逻辑回归不是一个回归的算法，逻辑回归是一个分类的算法，好比卡巴斯基不是司机，红烧狮子头没有狮子头一样。那为什么逻辑回归不叫逻辑分类？因为逻辑回归算法是基于多元线性回归的算法。而正因为此，逻辑回归这个分类算法是线性的分类器。

逻辑回归算法（LogisticRegression）是分类算法，我们将它作为 分类算法使用。有时候可能因为这个算法的名字中出现了”回归”使你感到困惑，但逻辑回归算法实际上是一种分类算法，它适用于标签 y 取值离散的情况，如：1 0 0 1。

逻辑回归中对应一条非常重要的曲线S型曲线，对应的函数是Sigmoid函数：

f ( x ) = 1 1 + e − x f(x) = \frac{1}{1 + e^{-x}}f (x )=1 +e −x 1

它有一个非常棒的特性，其导数可以用其自身表示：

f ′ ( x ) = e − x ( 1 + e − x ) 2 = f ( x ) ∗ 1 + e − x − 1 1 + e − x = f ( x ) ∗ ( 1 − f ( x ) ) f'(x) = \frac{e^{-x}}{(1 + e^{-x})^2} =f(x) * \frac{1 + e^{-x} – 1}{1 + e^{-x}} = f(x) * (1 – f(x))f ′(x )=(1 +e −x )2 e −x =f (x )∗1 +e −x 1 +e −x −1 =f (x )∗(1 −f (x ))

import numpy as np
import matplotlib.pyplot as plt
def sigmoid(x):
    return 1/(1 + np.exp(-x))
x = np.linspace(-5,5,100)
y = sigmoid(x)
plt.plot(x,y,color = 'green')

1.1 Sigmoid函数介绍

逻辑回归就是在多元线性回归基础上把结果缩放到 0 ~ 1 之间。 h θ ( x ) h_{\theta}(x)h θ(x ) 越接近 1 越是正例，h θ ( x ) h_{\theta}(x)h θ(x ) 越接近 0 越是负例，根据中间 0.5 将数据分为二类。其中h θ ( x ) h_{\theta}(x)h θ(x ) 就是概率函数~

h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x h_{\theta}(x) = g(\theta^Tx) = \frac{1}{1 + e^{-\theta^Tx}}h θ(x )=g (θT x )=1 +e −θT x 1

我们知道分类器的本质就是要找到分界，所以当我们把 0.5 作为分类边界时，我们要找的就是y ^ = h θ ( x ) = 1 1 + e − θ T x = 0.5 \hat{y} = h_{\theta}(x) = \frac{1}{1 + e^{-\theta^Tx}} = 0.5 y ^=h θ(x )=1 +e −θT x 1 =0.5 ，即 z = θ T x = 0 z = \theta^Tx = 0 z =θT x =0 时，θ \theta θ 的解~

求解过程如下：

什么事情，都要做到知其然，知其所以然，我们知道二分类有个特点就是正例的概率 + 负例的概率 = 1。一个非常简单的试验是只有两种可能结果的试验，比如正面或反面，成功或失败，有缺陷或没有缺陷，病人康复或未康复等等。为方便起见，记这两个可能的结果为 0 和 1，下面的定义就是建立在这类试验基础之上的。如果随机变量 x 只取 0 和 1 两个值，并且相应的概率为：

P r ( x = 1 ) = p ; P r ( x = 0 ) = 1 − p ; 0 < p < 1 Pr(x = 1) = p; Pr(x = 0) = 1-p; 0 < p < 1 P r (x =1 )=p ;P r (x =0 )=1 −p ;0 <p <1

则称随机变量 x 服从参数为 p 的 Bernoulli伯努利分布( 0-1分布)，则 x 的概率函数可写：

f ( x ∣ p ) = { p x ( 1 − p ) 1 − x , x = 1 、 0 0 , x ≠ 1 、 0 f(x | p) = \begin{cases}p^x(1 – p)^{1-x}, &x = 1、0\0,& x \neq 1、0\end{cases}f (x ∣p )={p x (1 −p )1 −x ,0 ,x =1 、0 x =1 、0

逻辑回归二分类任务会把正例的 label 设置为 1，负例的 label 设置为 0，对于上面公式就是 x = 0、1。

; 2 逻辑回归公式推导

2.1 损失函数推导

这里我们依然会用到最大似然估计思想，根据若干已知的 X,y(训练集) 找到一组 θ \theta θ 使得 X 作为已知条件下 y 发生的概率最大。

关于什么是最大似然估计可以参考我这篇文章哦：机器学习4-线性回归算法推导

P ( y ∣ x ; θ ) = { h θ ( x ) , y = 1 1 − h θ ( x ) , y = 0 P(y|x;\theta) = \begin{cases}h_{\theta}(x), &y = 1\1-h_{\theta}(x),& y = 0\end{cases}P (y ∣x ;θ)={h θ(x ),1 −h θ(x ),y =1 y =0

整合到一起（二分类就两种情况：1、0）得到逻辑回归表达式：

P ( y ∣ x ; θ ) = ( h θ ( x ) ) y ( 1 − h θ ( x ) ) 1 − y P(y|x;\theta) = (h_{\theta}(x))^{y}(1 – h_{\theta}(x))^{1-y}P (y ∣x ;θ)=(h θ(x ))y (1 −h θ(x ))1 −y

我们假设训练样本相互独立，那么似然函数表达式为:

L ( θ ) = ∏ i = 1 n P ( y ( i ) ∣ x ( i ) ; θ ) L(\theta) = \prod\limits_{i = 1}^nP(y^{(i)}|x^{(i)};\theta)L (θ)=i =1 ∏n P (y (i )∣x (i );θ)

L ( θ ) = ∏ i = 1 n ( h θ ( x ( i ) ) ) y ( i ) ( 1 − h θ ( x ( i ) ) ) 1 − y ( i ) L(\theta) = \prod\limits_{i=1}^n(h_{\theta}(x^{(i)}))^{y^{(i)}}(1 – h_{\theta}(x^{(i)}))^{1-y^{(i)}}L (θ)=i =1 ∏n (h θ(x (i )))y (i )(1 −h θ(x (i )))1 −y (i )

对数转换，自然底数为底

l ( θ ) = ln ⁡ L ( θ ) = ln ⁡ ( ∏ i = 1 n ( h θ ( x ( i ) ) ) y ( i ) ( 1 − h θ ( x ( i ) ) ) 1 − y ( i ) ) l(\theta) = \ln{L(\theta)} =\ln( \prod\limits_{i=1}^n(h_{\theta}(x^{(i)}))^{y^{(i)}}(1 – h_{\theta}(x^{(i)}))^{1-y^{(i)}})l (θ)=ln L (θ)=ln (i =1 ∏n (h θ(x (i )))y (i )(1 −h θ(x (i )))1 −y (i ))

化简，累乘变累加：

l ( θ ) = ln ⁡ L ( θ ) = ∑ i = 1 n ( y ( i ) ln ⁡ ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) ln ⁡ ( 1 − h θ ( x ( i ) ) ) ) l(\theta) = \ln{L(\theta)} = \sum\limits_{i = 1}^n(y^{(i)}\ln(h_{\theta}(x^{(i)})) + (1-y^{(i)})\ln(1-h_{\theta}(x^{(i)})))l (θ)=ln L (θ)=i =1 ∑n (y (i )ln (h θ(x (i )))+(1 −y (i ))ln (1 −h θ(x (i ))))

总结，得到了逻辑回归的表达式，下一步跟线性回归类似，构建似然函数，然后最大似然估计，最终推导出 θ \theta θ 的迭代更新表达式。只不过这里用的不是梯度下降，而是梯度上升，因为这里是最大化似然函数。通常我们一提到损失函数，往往是求最小，这样我们就可以用 梯度下降来求解。最终损失函数就是上面公式加负号的形式:

J ( θ ) = − l ( θ ) = − ∑ i = 1 n [ y ( i ) ln ⁡ ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) ln ⁡ ( 1 − h θ ( x ( i ) ) ) ] J(\theta) = -l(\theta) = -\sum\limits_{i = 1}^n[y^{(i)}\ln(h_{\theta}(x^{(i)})) + (1-y^{(i)})\ln(1-h_{\theta}(x^{(i)}))]J (θ)=−l (θ)=−i =1 ∑n [y (i )ln (h θ(x (i )))+(1 −y (i ))ln (1 −h θ(x (i )))]

3 逻辑回归迭代公式

3.1 函数特性

逻辑回归参数更新规则：
θ j t + 1 = θ j t − α ∂ ∂ θ j J ( θ ) \theta_j^{t + 1} = \theta_j^t – \alpha\frac{\partial}{\partial_{\theta_j}}J(\theta)θj t +1 =θj t −α∂θj ∂J (θ)

α \alpha α 表示学习率

逻辑回归函数：

h θ ( x ) = g ( θ T x ) = g ( z ) = 1 1 + e − z h_{\theta}(x) = g(\theta^Tx) = g(z) = \frac{1}{1 + e^{-z}}h θ(x )=g (θT x )=g (z )=1 +e −z 1

z = θ T x z = \theta^Tx z =θT x

逻辑回归函数求导时有一个特性，这个特性将在下面的推导中用到，这个特性为：

g ′ ( z ) = ∂ ∂ z 1 1 + e − z = e − z ( 1 + e − z ) 2 = 1 ( 1 + e − z ) 2 ⋅ e − z = 1 1 + e − z ⋅ ( 1 − 1 1 + e − z ) = g ( z ) ⋅ ( 1 − g ( z ) ) \begin{aligned} g'(z) &= \frac{\partial}{\partial z}\frac{1}{1 + e^{-z}} \\&= \frac{e^{-z}}{(1 + e^{-z})^2}\\& = \frac{1}{(1 + e^{-z})^2}\cdot e^{-z}\\&=\frac{1}{1 + e^{-z}} \cdot (1 – \frac{1}{1 + e^{-z}})\\&=g(z)\cdot (1 – g(z))\end{aligned}g ′(z )=∂z ∂1 +e −z 1 =(1 +e −z )2 e −z =(1 +e −z )2 1 ⋅e −z =1 +e −z 1 ⋅(1 −1 +e −z 1 )=g (z )⋅(1 −g (z ))

回到逻辑回归损失函数求导：

J ( θ ) = − ∑ i = 1 n ( y ( i ) ln ⁡ ( h θ ( x i ) ) + ( 1 − y ( i ) ) ln ⁡ ( 1 − h θ ( x ( i ) ) ) ) J(\theta) = -\sum\limits_{i = 1}^n(y^{(i)}\ln(h_{\theta}(x^{i})) + (1-y^{(i)})\ln(1-h_{\theta}(x^{(i)})))J (θ)=−i =1 ∑n (y (i )ln (h θ(x i ))+(1 −y (i ))ln (1 −h θ(x (i ))))

3.2 求导过程

∂ ∂ θ j J ( θ ) = − ∑ i = 1 n ( y ( i ) 1 h θ ( x ( i ) ) ∂ ∂ θ j h θ ( x i ) + ( 1 − y ( i ) ) 1 1 − h θ ( x ( i ) ) ∂ ∂ θ j ( 1 − h θ ( x ( i ) ) ) ) = − ∑ i = 1 n ( y ( i ) 1 h θ ( x ( i ) ) ∂ ∂ θ j h θ ( x ( i ) ) − ( 1 − y ( i ) ) 1 1 − h θ ( x ( i ) ) ∂ ∂ θ j h θ ( x ( i ) ) ) = − ∑ i = 1 n ( y ( i ) 1 h θ ( x ( i ) ) − ( 1 − y ( i ) ) 1 1 − h θ ( x ( i ) ) ) ∂ ∂ θ j h θ ( x ( i ) ) = − ∑ i = 1 n ( y ( i ) 1 h θ ( x ( i ) ) − ( 1 − y ( i ) ) 1 1 − h θ ( x ( i ) ) ) h θ ( x ( i ) ) ( 1 − h θ ( x ( i ) ) ) ∂ ∂ θ j θ T x = − ∑ i = 1 n ( y ( i ) ( 1 − h θ ( x ( i ) ) ) − ( 1 − y ( i ) ) h θ ( x ( i ) ) ) ∂ ∂ θ j θ T x = − ∑ i = 1 n ( y ( i ) − h θ ( x ( i ) ) ) ∂ ∂ θ j θ T x = ∑ i = 1 n ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \begin{aligned} \frac{\partial}{\partial{\theta_j}}J(\theta) &= -\sum\limits_{i = 1}^n(y^{(i)}\frac{1}{h_{\theta}(x^{(i)})}\frac{\partial}{\partial_{\theta_j}}h_{\theta}(x^{i}) + (1-y^{(i)})\frac{1}{1-h_{\theta}(x^{(i)})}\frac{\partial}{\partial_{\theta_j}}(1-h_{\theta}(x^{(i)}))) \\&=-\sum\limits_{i = 1}^n(y^{(i)}\frac{1}{h_{\theta}(x^{(i)})}\frac{\partial}{\partial_{\theta_j}}h_{\theta}(x^{(i)}) – (1-y^{(i)})\frac{1}{1-h_{\theta}(x^{(i)})}\frac{\partial}{\partial_{\theta_j}}h_{\theta}(x^{(i)}))\\&=-\sum\limits_{i = 1}^n(y^{(i)}\frac{1}{h_{\theta}(x^{(i)})} – (1-y^{(i)})\frac{1}{1-h_{\theta}(x^{(i)})})\frac{\partial}{\partial_{\theta_j}}h_{\theta}(x^{(i)})\\&=-\sum\limits_{i = 1}^n(y^{(i)}\frac{1}{h_{\theta}(x^{(i)})} – (1-y^{(i)})\frac{1}{1-h_{\theta}(x^{(i)})})h_{\theta}(x^{(i)})(1-h_{\theta}(x^{(i)}))\frac{\partial}{\partial_{\theta_j}}\theta^Tx\\&=-\sum\limits_{i = 1}^n(y^{(i)}(1-h_{\theta}(x^{(i)})) – (1-y^{(i)})h_{\theta}(x^{(i)}))\frac{\partial}{\partial_{\theta_j}}\theta^Tx\\&=-\sum\limits_{i = 1}^n(y^{(i)} – h_{\theta}(x^{(i)}))\frac{\partial}{\partial_{\theta_j}}\theta^Tx\\&=\sum\limits_{i = 1}^n(h_{\theta}(x^{(i)}) -y^{(i)})x_j^{(i)}\end{aligned}∂θj ∂J (θ)=−i =1 ∑n (y (i )h θ(x (i ))1 ∂θj ∂h θ(x i )+(1 −y (i ))1 −h θ(x (i ))1 ∂θj ∂(1 −h θ(x (i ))))=−i =1 ∑n (y (i )h θ(x (i ))1 ∂θj ∂h θ(x (i ))−(1 −y (i ))1 −h θ(x (i ))1 ∂θj ∂h θ(x (i )))=−i =1 ∑n (y (i )h θ(x (i ))1 −(1 −y (i ))1 −h θ(x (i ))1 )∂θj ∂h θ(x (i ))=−i =1 ∑n (y (i )h θ(x (i ))1 −(1 −y (i ))1 −h θ(x (i ))1 )h θ(x (i ))(1 −h θ(x (i )))∂θj ∂θT x =−i =1 ∑n (y (i )(1 −h θ(x (i )))−(1 −y (i ))h θ(x (i )))∂θj ∂θT x =−i =1 ∑n (y (i )−h θ(x (i )))∂θj ∂θT x =i =1 ∑n (h θ(x (i ))−y (i ))x j (i )

求导最终的公式：

∂ ∂ θ j J ( θ ) = ∑ i = 1 n ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \frac{\partial}{\partial{\theta_j}}J(\theta) = \sum\limits_{i = 1}^n(h_{\theta}(x^{(i)}) -y^{(i)})x_j^{(i)}∂θj ∂J (θ)=i =1 ∑n (h θ(x (i ))−y (i ))x j (i )

逻辑回归参数迭代更新公式：

θ j t + 1 = θ j t − α ⋅ ∑ i = 1 n ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \theta_j^{t+1} = \theta_j^t – \alpha \cdot \sum\limits_{i=1}^{n}(h_{\theta}(x^{(i)}) -y^{(i)})x_j^{(i)}θj t +1 =θj t −α⋅i =1 ∑n (h θ(x (i ))−y (i ))x j (i )

4 逻辑回归实现西瓜数据集2.0的分类

我们将双线上部划为训练集，双线下部划为验证集。

'''
属性[x]
色泽：乌黑0, 青绿1, 浅白2
根蒂：蜷缩0, 稍蜷1, 硬挺2
敲声：浊响0, 沉闷1, 清脆2
纹理：清晰0, 稍糊1, 模糊2
脐部：凹陷0, 稍凹1, 平坦2
触感：硬滑0, 软粘1

预测结果[y]
好瓜1，坏瓜0
'''

import numpy as np
from sklearn.linear_model import LogisticRegression

X_train = np.array([[1, 0, 0, 0, 0, 0], [0, 0, 1, 0, 0, 0], [0, 0, 0, 0, 0, 0],
                    [1, 1, 0, 0, 1, 1], [0, 1, 0, 1, 1, 1], [1, 2, 2, 0, 2, 1],
                    [2, 1, 1, 1, 0, 0],  [0, 1, 0, 0, 1, 1],[2, 0, 0, 2, 2, 0],
                    [1, 0, 1, 1, 1, 0]])
y_train = np.array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

X_test = np.array([[1, 0, 1, 0, 0, 0],[2, 0, 0, 0, 0, 0],[0, 1, 0, 0, 1, 0],
                  [0, 1, 1, 1, 1, 0],[2, 2, 2, 2, 2, 0],[2, 0, 0, 2, 2, 1],
                  [1, 1, 0, 1, 0, 0]])
y_test = np.array([1, 1, 1, 0, 0, 0, 0])

model = LogisticRegression()
model.fit(X_train,y_train)

y_pred = model.predict(X_test)

print('预测结果是：',y_pred)
print('真实结果是：',y_test)

proba_ = model.predict_proba(X_test)
print('预测概率是：\n',proba_)

从结果来看。预测结果概率还是很大的，这个前提是训练数据要具有科学合理性和足够多！

Original: https://blog.csdn.net/weixin_56197703/article/details/124180080
Author: Aaron-ywl
Title: 机器学习7-逻辑斯蒂回归实现西瓜数据集2.0的二分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618578/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ROS点云的Pointpillars实时目标检测

目录写在前面测试环境主要安装代码获取实验效果写在前面之前为了做机器人实验，搞了图像语义分割的ros实现，没想到实验室项目又有点云目标检测的ros实现。测试环境 Ub…

人工智能 2023年6月16日
0088
2021年下半年系统集成项目管理工程师综合知识真题及答案解析

2021年下半年系统集成项目管理工程师综合知识真题及答案解析 1、2020年4月，中共中央国务院颁发《关于构建更加完善的要素市场场化配置体质的意见》首次将（）作为一种新型的生产要素…

人工智能 2023年7月16日
0064
基于改进麻雀算法优化变分模态分解（IAMSSA—VMD）的信号分解方法

0、前言前期博文提出了融合Cat混沌映射+精英反向策略+tent扰动+柯西变异的改进麻雀优化算法（IAMSSA），本期博文将IAMSSA应用于VMD模态数K与惩罚因子（也称平衡…

人工智能 2023年6月16日
0067
conda创建源报错HTTPError: 404 Client Error:

问题分析原来的镜像源不能使用。解决方法记事本打开路径C:\Users\Administrator下的.condarc文件，修改设置后如图 Original: https://…

人工智能 2023年6月4日
0082
Python案例实操3-电影数据分析

Python案例实操3-电影数据分析一、读取数据二、数据处理 * 1.索引重命名 2.合并数据集 3.选取子集 4.缺失值处理 5.数据格式转换三、数据分析及可视化 * 1….

人工智能 2023年7月18日
0059
matplotlib.pyplot 柱形图添加条形颜色及宽度、设置标题文字颜色及大小

matplotlib.pyplot 柱形图添加条形颜色及宽度、设置标题文字颜色及大小 1. 第一个柱形图 2. 垂直柱形图添加中文标题 3. 水平柱形图添加中文标题 4. 设置条形…

人工智能 2023年6月15日
0074
pytorch入门学习第五课图片分类代码实现

import torchimport torch.nn as nnimport torch.nn.functional as Fimport torch.optim as opti…

人工智能 2023年7月2日
0042
看到chatgpt这么火，我也做了个微信聊天机器人

这两天ChatGPT火得很，各种报道ChatGPT可以聊天、可以写代码、甚至还写出了毁灭人类计划书！真是看的我心痒痒啊，但是因为某些原因国内没法试用，加上这两天想讨女朋友开心，所…

人工智能 2023年7月31日
0049
java毕业设计花店管理系统（附源码、数据库）

项目运行环境配置： Jdk1.8 + Tomcat8.5 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclis…

人工智能 2023年6月28日
0061
超详细！手把手带你轻松用 MMSegmentation 跑语义分割数据集

在带你轻松掌握 MMSegmentation 整体构建流程一文中，我们带大家认识了 MMSegmentation 的整体框架，分享了 MMSegmentation 中已经复现的主流…

人工智能 2023年6月16日
00167
加载VGG模型进行图像分类

1、ImageNet数据集与VGG-16模型 ImageNet数据集是斯坦福大学从互联网上收集大量图片后，并对其进行分类整理而成的图像数据集合。在ILSVRC（ImageNet L…

人工智能 2023年7月3日
0076
自动驾驶之多传感器融合实践（1）——激光雷达点云数据处理

Lidar Obstacle Detection一、最终效果代码地址：Github: https://github.com/williamhyin/SFND_Lidar_Obsta…

人工智能 2023年7月28日
0057
Kaggle注册方法

** 参考Kaggle网站注册方法，亲测有用 ** 一、简介对于机器学习的人群来说，肯定知道Kaggle网站。它是一个数据分析和机器学习竞赛平台：企业和研究者在上面发布数据，数据科…

人工智能 2023年6月16日
00140
机器学习（二）— KNN（K-Nearest Neighbors）

KNN K-Nearest Neighbors 简单类比（Simple Analogy） KNN：通过你周围的人来判断你是哪一类人 Tell me about your frien…

人工智能 2023年7月2日
0086
深度学习（2）回归问题

深度学习（2）回归问题一. 问题提出与解析 * 1. Machine Learning 2. Continuous Prediction 3. Linear Equation 4…

人工智能 2023年6月18日
0082
（Note）优化器Adam的学习率设置

记录一下知乎看到的问题：Adam的学习率设置常用的神经网络优化器Adam的自适应学习率并不是真正意义上的自适应。从统计的角度看，Adam的自适应原理也是根据统计对梯度进行修正，…

人工智能 2023年6月16日
0073

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习7-逻辑斯蒂回归实现西瓜数据集2.0的二分类

文章目录

2.1 损失函数推导

3.1 函数特性

3.2 求导过程

大家都在看