多分类逻辑回归 MNLogit python

2023年7月1日上午7:04 • 人工智能 • 阅读 73

多分类逻辑回归MNLogit

引言
实例及python实现
*
–
+

引言

相比二分类Logistics回归的广泛应用与大量例子帖子，多分类Logistics回归的python实现的帖子则数量有限，特此记录一下。

本文介绍了多分类Logistics回归的统计方面的应用，更加关注于统计分析中的模型显著性、变量显著性、变量系数等问题，使用的是python的 statsmodels库中的 MNLogit函数。若更加注重预测的准确性，或构造更加良好的预测模型，建议尝试使用sklearn库中的相关函数。

实例及python实现

数据集

[&#x6570;&#x636E;&#x96C6;&#x94FE;&#x63A5;]
(https://download.csdn.net/download/weixin_45272208/86402859)

数据集基本情况如下：共5个特征变量（gre(考试成绩)，gpa(平均成绩点)，gender(性别)，prestige(学校威望)），1个分类变量admit(是否录取)。其中admit有3种取值：2表示录取，1表示待考虑，0表示不录取。gender（性别）0代表女性，1代表男性。prestige(学校威望)取值共1、2、3、4，4种情况，值越大，表示学校声望越差。（zhihu上的数据集做了点小改动）

import numpy as np
import pandas as pd
import os

import warnings
warnings.filterwarnings('ignore')
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

os.chdir(r'D:\Work\data')
data = pd.read_csv('graduate.csv')

查看数据情况

data.info()
data.head()
data['admit'].value_counts()

0、1、2三类分别有39、234、127个人

Logistics回归

X = data.drop(['admit'], axis=1, inplace=False)
X['intercept'] = 1.0
Y = data['admit']

from statsmodels.discrete.discrete_model import MNLogit
model_LR = MNLogit(Y,X,missing='drop').fit()
model_LR.summary()
model_LR.params

输出结果

Optimization terminated successfully.意味着迭代成功，若超过迭代次数失败，则可尝试在fit()中添加 maxiter = n ，n为最大迭代次数，从而迭代多次获得结果。

还可以用summary2()查看模型结果。

LLR p-value即为模型的p值，可以看出模型显著。P>|z|为参数的p值，参数部分显著。

参数系数

; 模型评价

Precision、Recall、f1_score

from sklearn.metrics import accuracy_score, roc_auc_score, roc_curve, precision_score, recall_score, f1_score, auc
from sklearn.preprocessing import label_binarize
from itertools import cycle

nb_classes = 3

y_pred = model_LR.predict()
y_pred_max = [np.argmax(y) for y in y_pred]
y_true = Y

y_pred_b = label_binarize(y_pred_max, classes=[i for i in range(nb_classes)])
y_true_b = label_binarize(y_true, classes=[i for i in range(nb_classes)])

precision = precision_score(y_true_b, y_pred_b, average='micro')
recall = recall_score(y_true_b, y_pred_b, average='micro')
f1_score = f1_score(y_true_b, y_pred_b, average='micro')

print("Precision_score:",precision)
print("Recall_score:",recall)
print("F1_score:",f1_score)

因为是多分类，这里我用是micro方法求得整个模型的平均的Precision、Recall和fi_score。在多分类中，这三个值是相同的。

ROC曲线及AUC

import matplotlib.pyplot as plt

Y_valid = y_true_b
Y_pred = model_LR.predict()

fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(nb_classes):
    fpr[i], tpr[i], _ = roc_curve(Y_valid[:, i], Y_pred[:, i])
    roc_auc[i] = auc(fpr[i], tpr[i])

fpr["micro"], tpr["micro"], _ = roc_curve(Y_valid.ravel(), Y_pred.ravel())
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])

lw = 2
plt.figure()
plt.plot(fpr["micro"], tpr["micro"],
  label='micro-average ROC curve (area = {0:0.2f})'
  ''.format(roc_auc["micro"]),
  color='deeppink', linestyle=':', linewidth=4)

colors = cycle(['aqua', 'darkorange', 'cornflowerblue'])
for i, color in zip(range(nb_classes), colors):
    plt.plot(fpr[i], tpr[i], color=color, lw=lw,
    label='ROC curve of class {0} (area = {1:0.2f})'
    ''.format(i, roc_auc[i]))

plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('FPR')
plt.ylabel('TPR')
plt.title('ROC曲线')
plt.legend(loc="lower right")

plt.show()

虚线为平均的ROC曲线，其余三条分别为0、1、2三类各自的ROC曲线。

混淆矩阵

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['font.family']='sans-serif'
plt.rcParams['axes.unicode_minus'] = False

classes = ['不录取','待考虑','录取']

confusion_matrix = model_LR.pred_table()

plt.figure(figsize=(6, 4), dpi=90)

plt.imshow(confusion_matrix, interpolation='nearest', cmap=plt.cm.Oranges)
plt.title('混淆矩阵')
plt.colorbar()

tick_marks = np.arange(3)
plt.xticks(tick_marks, classes)
plt.yticks(tick_marks, classes, rotation=90,verticalalignment='center')

for x in range(len(confusion_matrix)):
    for y in range(len(confusion_matrix)):
        plt.annotate(confusion_matrix[y,x], xy = (x,y), horizontalalignment = 'center', verticalalignment = 'center')

plt.ylabel('Ground Truth')
plt.xlabel('Prediction')
plt.tight_layout()

（此例子的结果准确性确实比较差，主要是记录分享代码和流程，准确性还请忽略）

筛选协变量

根据AIC准则，使用前进后退法对协变量进行筛选，得到最优模型。（zhihu大佬的代码，亲测可用，我修改成了MNLogit，多加了几个输出结果）


def stepwise_select_MNLogit(data,label,cols_all,method='forward'):
    '''
    args:
        data：数据源，df
        label：标签，str
        cols_all：逐步回归的全部字段
        methrod：方法，forward:向前，backward:向后，both:双向
    return:
        select_col：最终保留的字段列表，list
        summary：模型参数
        AIC：aic
    '''
    import statsmodels.api as sm

    if method == 'forward':
        add_col = []
        AIC_None_value = np.inf
        while cols_all:

            AIC = {}
            for col in cols_all:
                print(col)
                X_col = add_col.copy()
                X_col.append(col)
                X = sm.add_constant(data[X_col])
                y = data[label]
                LR = sm.MNLogit(y, X).fit()
                AIC[col] = LR.aic
            AIC_min_value = min(AIC.values())
            AIC_min_key = min(AIC,key=AIC.get)

            if AIC_min_value < AIC_None_value:
                cols_all.remove(AIC_min_key)
                add_col.append(AIC_min_key)
                AIC_None_value = AIC_min_value
            else:
                break
        select_col = add_col

    elif method == 'backward':
        p = True

        X_col = cols_all.copy()
        X = sm.add_constant(data[X_col])
        y = data[label]
        LR = sm.MNLogit(y, X).fit()
        AIC_None_value = LR.aic
        while p:

            AIC = {}
            for col in cols_all:
                print(col)
                X_col = [i for i in cols_all if i!=col]
                X = sm.add_constant(data[X_col])
                LR = sm.MNLogit(y, X).fit()
                AIC[col] = LR.aic
            AIC_min_value = min(AIC.values())
            AIC_min_key = min(AIC, key=AIC.get)

            if AIC_min_value < AIC_None_value:
                cols_all.remove(AIC_min_key)
                AIC_None_value = AIC_min_value
                p = True
            else:
                break
        select_col = cols_all

    elif method == 'both':
        p = True
        add_col = []

        X_col = cols_all.copy()
        X = sm.add_constant(data[X_col])
        y = data[label]
        LR = sm.MNLogit(y, X).fit()
        AIC_None_value = LR.aic
        while p:

            AIC={}
            for col in cols_all:
                print(col)
                X_col = [i for i in cols_all if i!=col]
                X = sm.add_constant(data[X_col])
                LR = sm.MNLogit(y, X).fit()
                AIC[col] = LR.aic
            AIC_min_value = min(AIC.values())
            AIC_min_key = min(AIC, key=AIC.get)
            if len(add_col) == 0:
                if AIC_min_value < AIC_None_value:
                    cols_all.remove(AIC_min_key)
                    add_col.append(AIC_min_key)
                    AIC_None_value = AIC_min_value
                    p = True
                else:
                    break
            else:

                for col in add_col:
                    print(col)
                    X_col = cols_all.copy()
                    X_col.append(col)
                    X = sm.add_constant(data[X_col])
                    LR = sm.MNLogit(y, X).fit()
                    AIC[col] = LR.aic
                AIC_min_value = min(AIC.values())
                AIC_min_key = min(AIC, key=AIC.get)
                if AIC_min_value < AIC_None_value:

                    if AIC_min_key in add_col:
                        cols_all.append(AIC_min_key)
                        add_col = list(set(add_col)-set(AIC_min_key))
                        p = True
                    else:
                        cols_all.remove(AIC_min_key)
                        add_col.append(AIC_min_key)
                        p = True
                    AIC_None_value = AIC_min_value
                else:
                    break
        select_col = cols_all

    X = sm.add_constant(data[select_col])
    LR = sm.MNLogit(y, X).fit()
    summary = LR.summary()
    summary2 = LR.summary2()
    AIC = LR.aic
    return select_col,summary,summary2,AIC,LR

逐步回归

cols_all = X.drop(['intercept'],axis=1,inplace=False).columns
cols_all = list(cols_all)
cols ,summary ,summary2 ,AIC, model = stepwise_select_MNLogit(data,'admit',cols_all,method='both')

查看结果

summary2()

可以看到，age变量被剔除。（很合理，这列年龄是我自己使用随机数添加的，就是为了使用一下逐步回归法hhh）

部分代码实在不记得或找不到是从哪里偷师来的了，漏加引用实属抱歉。

Original: https://blog.csdn.net/weixin_45272208/article/details/126386412
Author: CRLBJ
Title: 多分类逻辑回归 MNLogit python

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662916/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Windows+vs2022+cmake+opencv455

（1）Github源码：https://github.com/opencv/opencv 选择4.5.5版本。（2）下载后得到两个压缩包，解压二、CMake下载官网下载：ht…

人工智能 2023年6月25日
0094
14天学习训练营之初识Pygame

目录学习知识点 PyGame 之第一个 PyGame 程序导入模块初始化 1.screen 2. 游戏业务学习笔记当 init () 的时候，它在干什么？ init …

人工智能 2023年7月29日
0063
2022你不容错过的软件测试项目实战（web+app+h5+小程序）免费版

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月30日
0069
[报错]RuntimeError: expected scalar type Double but found Float(torch)

RuntimeError: expected scalar type Double but found Float 在使用torch训练模型的时候，发现该问题。根据提示，是双精度和…

人工智能 2023年7月6日
00100
机器学习：Kmeans聚类算法总结及GPU配置加速demo

机器学习：Kmeans聚类算法总结及GPU配置加速demo * – Kmeans算法介绍 – 版本1：利用sklearn的kmeans算法，CPU上跑 &#…

人工智能 2023年5月31日
00128
数据挖掘建模过程

1.目标定义明确本次的挖掘目标是什么，针对餐饮行业目标可定义为:1)实现动态菜品智能推荐 2）对餐饮客户进行细分 3）综合考虑节假日、气候等影响因素，对菜品销量进行预测 4）基于餐…

人工智能 2023年7月17日
0061
【 C++ 】智能指针

1、内存泄漏什么是内存泄漏，内存泄漏的危害内存泄漏分类如何检测内存泄漏（了解）如何避免内存泄漏 2、为什么需要智能指针智能指针的使用及原理 RAII（智能指针指导思想） …

人工智能 2023年6月26日
0088
从手写数字识别入门深度学习丨MNIST数据集详解

就像无数人从敲下”Hello World”开始代码之旅一样，许多研究员从”MNIST数据集”开启了人工智能的探索之路。 MNIST数…

人工智能 2023年7月25日
0084
【论文笔记】文本版的Mixup数据增强算法：SSMix

论文标题：SSMix: Saliency-Based Span Mixup for Text Classification论文链接：https://arxiv.org/pdf/21…

人工智能 2023年5月31日
0096
使用MindSpore训练及保存模型

MindSpore提供了回调Callback机制，可以在训练过程中执行自定义逻辑，这里以使用框架提供的ModelCheckpoint为例。 ModelCheckpoint可以保存网…

人工智能 2023年5月26日
0092
基于目标检测的无人机航拍场景下小目标检测实践

无人机变得越来越普及，很多场景中由于客观原因的限制大量采用了无人机，无人机预警、无人机抓怕、无人机劝导等等，无人机逐渐成为复杂场景中不可替代的重要觉得，无人机航拍数据与遥感图像数据…

人工智能 2023年6月25日
0097
YOLOv4训练自定义数据集

目录 * – + 一. darknet + 1.环境配置 + 2.权重下载 + 3.数据集处理 + 4.修改配置文件 + * 4.1 修改data/voc.names …

人工智能 2023年7月9日
0051
音频特征提取

食物声音识别的特征提取当你得到一些音频数据时，如何处理？让我们来看看如何使用一些功能来描述音频数据。 [En] When you get some audio data, how…

人工智能 2023年5月25日
0085
17.200种鸟类图片分类

这个是一个多分类问题，我们先看一下这个数据集首先我们有一个文件夹叫birds_train 这个文件夹中有200个子文件夹，每一个文件夹中都是一种鸟类的照片我们打开一个文件夹其…

人工智能 2023年7月1日
0061
Python基础|输入、数据类型、变量、格式化输出点

一、输入和输出输入的语法输入–input 输入的结果输出之后一定是一个字符串 num = input(‘请输入一个数字：’) print(num, ty…

人工智能 2023年6月27日
0073
【注意力机制集锦】Channel Attention通道注意力网络结构、源码解读系列一

Channel Attention网络结构、源码解读系列一 SE-Net、SK-Net与CBAM 1 SENet 原文链接：SENet原文源码链接：SENet源码 Squeeze-…

人工智能 2023年7月26日
00102

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31