【机器学习实战 4】、基于最优化线性回归的分类算法：logistic回归

2023年7月2日上午11:24 • 人工智能 • 阅读 60

分类算法：logistic回归

一、线性模型之回归
*
1、线性模型
二、线性模型之分类
*
1、logistic回归
2、极大似然估计再理解
3、极大似然估计参数
4、实战

一、线性模型之回归

1、线性模型

线性模型一般形式为

由d个属性构成的实例x=（x1,x2,…,xd），xi表示x在第i个属性上的取值
线性模型试图学的一个通过属性的线性组合来进行预测的函数，一般形式为：

一般用向量形式写成：

w，b学得之后，模型就得以确定

很多功能更为强大得 非线性模型可在线性模型得基础上通过引入 层级结构或高位映射而得。

w，b是如何进行学习得到的呢

当x为一维数据时，如下图示，假设学习得到的模型就是图中得蓝线，学习得训练数据就是那些黄色的点，对每个黄色的点，模型会给出对应的预测值 f（xi），预测的点在线上

学习的过程就是更好的用模型（蓝线）去拟合这些黄色的点。

线性回归模型试图学习，使得

如何度量学习的好坏呢，在这里使用基于欧氏距离的均方误差最小化来进行学习，也称为” 最小二乘法“。

用D={（x1,y1), (x2,y2), …, (xm,ym)}l来表示黄色的点，计算每个预测值与黄色点的距离的平方，再累加求和，公式如下

均方误差：

均方误差最小化的过程，称为模型的最小二乘”参数估计”，可对均方误差E(w,b)对w，b求偏导可得

当x为多维数据时，称为” 多元线性回归”

那如果f（xi）逼近的 yi 在空间中是非线性的呢，如何用输入映射非线性的输出呢。
例如对于yi 实际上yi的图像是 yi = e（wxi +b）

处理方法：可以对yi取对数，那么 ln（yi） = w xi + b ，以另w xi + b 逼近 yi的衍生物。

更一般的考虑单调可微函数 g（·）令

这样，就可以逼近非线性的值，成为” 广义线性模型“，其中函数g（·）称为”联系函数”，显然上面举例是 g（·）= ln（·）时的特例。

现在通过线性回归模型既可以逼近线性的值又可以逼近非线性的值

; 二、线性模型之分类

上面一节讨论了如何使用线性模型进行回归模型，但是要做的事分类任务该怎么办？答案就蕴含在上节最后提到的广义线性模型：只需要找 一个单调可微函数来将分类任务的真实标记y与线性回归模型的预测值联系起来。 –《机器学习》周志华

1、logistic回归

考虑二分类任务，yi = {0，1} , 而线性回归模型产生的预测值 z = w xi + b 是实值
于是考虑将实值 z 转换为 0/1 值.最理想的是 “单位跃阶函数 “
单位跃阶函数

0 ， z < 0
y = 0.5 , z = 0
1 ， z > 0

但是已经提到，要求g（·）是单调可微的，显然单位阶跃函数是离散的

寻找一个替代函数，有逻辑斯蒂函数/对数几率函数（logistic function），是一种”Sigmoid函数”

图中左右，为同一个函数，即逻辑斯蒂函数。

可以看出实质上，是预测结果 z 去逼近真实标记的对数几率，因此，对应的模型称为” 逻辑斯蒂/对数几率回归（logistic regression）“

对数几率就是 ln [ y /（1-y）]

现在模型构建好了，就可以用极大似然法来估计w，b（如果这句话看的懂可以跳过浅色线之间的内容。）

; 2、极大似然估计再理解

现在模型构建好了，那如何获得w，b呢

那完蛋啦了呀，那没办法了呀，我们手里只有训练数据，那只能用训练数据了

那训练数据有啥用呢，我们在干嘛呢，在研究这个训练数据能表示出什么知识（再通过模型把知识表示出来）。

哦，我看看，300个训练样本是1，700个训练样本是0，那请问这种情况发生的概率是多少?

哦，那很简单 P（300个是1，700 个是0） = P(1) 的300次方 + P（0)的 700次方

取个对数就是 lnP（300个是1，700 个是0）= 300个 lnP(1)相加 + 700个lnP（0)相加

那是不是就是P（1）和P（0）不知道， P（0）又=1-P（1），那就是P（1）不知道。

假如我这时候告诉你 P（1)可能是0.3 0.5 0.7，请问你选哪一个？那必然选择0.3

这是什么原理呢，这就是极大似然原理，事物所展现的状态就是所有状态中发生概率最大的状态。

三个中，选P（1）= 0.3，使得（300个是1，700 个是0）这个状态发生概率最大

那没有假如咋把这个 P（1）求出来呢，这不是很简单嘛，函数求导，分析单调性，找到最大值点

求导之后发现，P（1）= 0.3，取最大值。确实和极大似然原理想印证。

所以极大似然估计到底是啥呢，用我的土话说，就是，收集到了所有样本的类别情况（比如300个是1，700 个是0这一情况），当我们模型的参数可以表示所有样本的类别情况时，用这个情况发生概率最大的条件，找到使这个概率最大的参数，反过来说，当参数取得某值使得概率最大时，那么这个取值是所求得值。

刚才是用P（1）来表示了发生概率最大的情况得概率，那么只要用w，b将这个概率表达出来，就可以求得w，b。

3、极大似然估计参数

于是（第一个）似然函数（即最大化概率的表达式），即

为便于讨论，令

则

于是似然函数，又等于

此处第二个似然函数是不等于第一个似然函数的。
具体情况为将p（yi | xi；wi，b）中的红框项和篮框项先取倒数，得到新的p（yi | xi；wi，b），再将新的p（yi | xi；wi，b）代入第一个似然函数，容易理解此时是最小化第二个似然函数

下面就要一步一步的逼近似然函数的最小值，来找到β。

第二个似然函数是高阶可导连续凸函数，根据凸优化理论，经典的数值优化算法如梯度下降法、牛顿法等都可求得其最优解

下面就要一步一步的逼近似然函数的最小值，来找到β。

Logistic回归优点：
1、无需事先假设数据分布
2、可得到”类别”得近似概率分布（概率值还可以用于后续应用）
3、可直接应用现有数值优化算法（如牛顿法）求取最优解，具有快速、高效得特点。

; 4、实战

一般过程
1、收集数据
2、准备数据
3、分析数据
4、训练算法，找到最佳得参数
5、测试算法，
6、使用算法
实验出了很大的问题，我已经不想写了，以后再写吧

data = pd.read_csv("heart.csv")
data = np.array(data)

labels = data[:,13]

data = np.mat(data)

def sigmoid(inx):
    return 1.0/(1+np.exp(-inx))

def stocGradAscent1(dataMatIn, classLabels):
                                            #梯度上升法
    dataMatrix=np.mat(dataMatIn)
    labelMat=np.mat(classLabels).transpose()
    m,n=np.shape(dataMatrix)
    alpha=0.001    #步长
    maxCycles=500  #迭代次数
    weights=np.ones((n,1))  #初始回归系数
    for k in range(maxCycles):
        h=sigmoid(dataMatrix*weights)
        error=(labelMat-h)
        weights=weights+alpha*dataMatrix.transpose()*error
    return weights  #返回回归系数

def classify2(data,weights):

    m,n = np.shape(data)
    z_all = []
    error = 0
    for j in range(m):
        z = sigmoid(np.sum(data[j]*weights))
        if z >0.5:
            z=1
        else:
            z=0
        if z != labels[j]:
            error =error+1

        z_all.append(z)
    errorate = error/float(m)
    print(errorate)
    return z_all,errorate

weights2 = stocGradAscent1(data,labels)
m2,c = classify2(data,weights2)

错误率有39.60%，基本上都分类成1。

Original: https://blog.csdn.net/Lixiaoyyyu/article/details/121579030
Author: Lixiaoyyyu
Title: 【机器学习实战 4】、基于最优化线性回归的分类算法：logistic回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665332/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Eclipse 实现 Java 编辑器【二】（实现功能）

Eclipse 实现 Java 编辑器【二】（实现功能） 1. 实验介绍 * 1. 实验内容 2. 实验知识点 3. 完整代码 2. 项目文件结构 3. 实验步骤 * 1. act…

人工智能 2023年6月28日
0046
KNN算法通过手肘法选取最优参数K(鸢尾花的数据)

文章目录 * – + * 实验目的：熟悉手肘法和KNN聚类 * 实验内容：针对iris数据集（相关信息详见https://archive.ics.uci.edu/ml/…

人工智能 2023年5月31日
0066
图像聚类算法

目录一、分类与聚类 * 1、分类 2、聚类 – 聚类样本间的属性聚类的常见算法二、K-Means聚类 * 1、定义、优点 2、k-means聚类算法的分析流程：…

人工智能 2023年7月27日
0061
文献阅读：医学图像配准的深度学习方法综述

本文介绍了医学图像配准在疾病诊断、手术引导和疾病治疗跟踪等方面具有重要应用价值。将深入介绍基于深度学习的医学图像配准现状和现存的配准方法技术，包括监督变换估计、无监督变换估计和使用…

人工智能 2023年6月20日
0083
商业智能和分析软件市场现状及发展趋势分析-

辰宇信息咨询市场调研公司最近发布-《2021-2027全球与中国商业智能和分析软件市场现状及未来发展趋势》内容摘要本文研究全球及中国市场商业智能和分析软件现状及未来发展趋势，…

人工智能 2023年6月11日
0086
【机器学习】吴恩达作业3.0，python实现逻辑回归手写多分类问题

3.0 多元逻辑回归案例：手写多分类问题使用逻辑回归和神经网络来识别手写数字(从0到9)。逻辑回归，并将其应用于one-vs-all分类。数据：数据以.mat格式储存，mat格…

人工智能 2023年6月30日
0076
机器学习：分类模型性能评估(1)：混淆矩阵及其可视化

目录 1. 概要 2. 二分类情况下的混淆矩阵 3. 多分类情况下的混淆矩阵 4. 混淆矩阵的图视化 4.1 sklearn. confusion_matrix() and plo…

人工智能 2023年7月2日
0077
Python时间序列分析与实战

Python时间序列分析与实战时间序列分析 * ARIMA 自回归模型（AR）自回归模型的限制移动平均模型（MA）自回归移动平均模型（ARMA） ARIMA(p，d，q)模…

人工智能 2023年7月17日
0045
《大数据之路：阿里巴巴大数据实践》-第4篇数据应用篇 -第16章数据应用

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0040
利用Python进行数据分析：数据聚合与分组运算（基于DataFrame）

利用Python进行数据分析：数据聚合与分组运算在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的groupby功能，对数据集进…

人工智能 2023年6月11日
0093
第3章【综合练习题】根据某系的实验教学计划，完成以下分析：读取DataScience.xlsx文件数据，创建为DataFrame数据对象。根据银行储户的基本信息，完成以下分析。从文件中读取信息

1.根据某系的实验教学计划，完成以下分析： 1）读取DataScience.xlsx文件数据，创建为DataFrame数据对象； #1） import pandas as pd d…

人工智能 2023年7月15日
0066
R语言实战应用精讲50篇（二）-多重线性回归系列之稳健回归

前言线性回归的参数估计主要采用的是最小二乘法（又称最小平方法），该法是将使观测值与模型预测值之差的平方达到最小的值作为参数估计值。如果数据存在异常点或者异方差，最小二乘法估计会存…

人工智能 2023年6月18日
0092
多个dataframe的列合并与行合并

根据时间索引合并列将多个数据表，以时间为索引，并选取需要分析的列进行合并。在本文中，拿到的数据是同一时期的不同设备的特征数据，需要提取对应的列进行时间合并，在合并过程中存在以下问…

人工智能 2023年7月6日
0050
【论文笔记】A data value metric for quantifying information content and utility

摘要数据驱动的创新是由最近的科学进步、快速的技术进步、制造成本的大幅降低以及对有效决策支持系统的重大需求推动的。这导致人们努力收集大量异构和多源数据，然而，并非所有数据都具有相同…

人工智能 2023年7月17日
0062
微信语音技术原理_微信语音电话是如何实现的？

贴出我之前的答案，一个原则。 [En] Post my previous answer, a principle. 微信电话本上线了！对运营商的冲击有多大？这个问题先放一放。作为一…

人工智能 2023年5月27日
0074
层次分析法、网络层次分析法、模煳层次分析法、双基点法

一、层次分析法层次分析法AHP，就是将指标分层次，根据问题的性质和要达到的总目标，把复杂问题分解成一系列的指标，并按照 逻辑关系分为不…

人工智能 2023年7月15日
0052

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30