广州大学机器学习与数据挖掘实验二

2023年7月18日上午3:28 • 人工智能 • 阅读 58

实验二逻辑回归与朴素贝叶斯分类

一、实验目的
本实验课程是计算机、人工智能、软件工程等专业学生的一门专业课程，通过实验，帮助学生更好地掌握数据挖掘与机器学习相关概念、技术、原理、应用等；通过实验提高学生编写实验报告、总结实验结果的能力；使学生对机器学习模型、算法等有比较深入的认识。要掌握的知识点如下：

掌握机器学习中涉及的相关概念、模型、算法；
熟悉机器学习模型训练、验证、测试的流程；
熟悉常用的数据预处理方法；
掌握逻辑回归、贝叶斯分类的表示、求解及编程。

二、基本要求

实验前，复习《数据挖掘与机器学习》课程中的有关内容。
准备好实验数据，编程完成实验内容，收集实验结果。
独立完成实验报告。

三、实验软件
推荐使用Python编程语言（允许使用numpy库，需实现详细实验步骤，不允许直接调用scikit-learn中回归、分类等高层API）。

四、实验内容：
基于Adult数据集，完成关于收入是否大于50K的逻辑回归分类、朴素贝叶斯模型训练、测试与评估。
1 准备数据集并认识数据
下载Adult数据集
http://archive.ics.uci.edu/ml/datasets/Adult
了解数据集各个维度特征及预测值的含义

2 探索数据并预处理数据
观察数据集各个维度特征及预测值的数值类型与分布
预处理各维度特征，参考：https://blog.csdn.net/SanyHo/article/details/105304292

3 训练模型
编程实现训练数据集上逻辑回归模型的梯度下降参数求解、朴素贝叶斯参数统计

4 测试和评估模型
在测试数据集上计算所训练模型的准确率、AUC等指标

五、学生实验报告

与以下算法原理解释中的X所代表的矩阵行列有不同，所以在编码时不会完全根据原理中的式子进行编码，而是都会做些相应的更改，但最后实验结果不会受到影响。

（1）简要介绍逻辑回归分类的原理
逻辑回归的本质就是线性回归的一种。名称虽然是逻辑回归，但却是解决二分类问题的一种最常用方法之一。

①Sigmoid函数，也称为逻辑函数（Logistic function）：

其函数曲线如下图所示：

可以发现 Logistic 函数是单调递增函数，并且在z=0的时候取值为0.5，并且logi(⋅)函数的取值范围为( 0 , 1 )

②逻辑回归的假设函数形式：

其中x是我们输入的特征向量，θ是我们所求的参数向量。

③逻辑函数所做的假设是：

上式的意思是给定x和θ的条件下y = 1和y = 0的概率。

④代价函数：

求l(θ)的最大值，即为求代价函数J（θ）的最小值

⑤基于上述代价函数对参数向量θ进行更新：

即为：

对于模型的训练而言：实质上来说就是利用训练集数据求解出对应模型的特定θ向量。从而得到一个针对于训练集数据的特征逻辑回归模型。

（2）简要介绍朴素贝叶斯分类的原理
朴素贝叶斯算法是一种生成学习算法（generative learning algorithms），所谓生成学习算法是指对p(x|y)与p(y)同时建模，对不同类别的数据集分别建模，看新输入的数据更符合哪类模型，该数据便属于哪一类。

如何根据给出数据判断数据属于哪一类，原理如下：
①设

为一个待分类箱，而每个a为x的一个特征属性

②有类别集合

③计算

④如果

则

如何计算第③步中的各个条件概率，我们可以：
1、找到一个已知分类的待分类项集合，这个集合叫做训练样本集。
2、统计得到在各类别下各个特征属性的条件概率估计,即先验概率。
3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

（3）程序清单（包含详细求解步骤）
逻辑回归分类：
①要引进的库

②导入数据集（分为训练集和测试集），观察数据特点

因为是从txt文件中读取的数据，所以将每一列特征的名字加上。

train_set.info()

print(test_set)

有6个特征是int64类型，9个特征是object类型，发现测试集上有出现值为?的缺失。

③预处理各维度特征
1’处理缺失值（将含有缺失值的数据扔掉）

2’因为fnlgwt列表示为数据的编号，对分类的结果不太有关联，所以删除

3’将object类型的列进行标签编码，转为int类型

④将训练集和测试集分别整理成拟合函数中的X_train矩阵，y_train矩阵和X_test矩阵,y_test矩阵

输出为：

⑤进行逻辑回归参数求解

⑥计算准确率

输出的准确率为：

朴素贝叶斯分类
①引入库，导入数据集，做法与逻辑回归的相同

②数据初步处理

与逻辑回归的数据处理相比多了删除EduNum的操作

③对连续值进行处理
1’将age属性划分为4个区间 0-25 25-50 50-75 75-100

2’将caption-gain属性划分为=0, >0两类

3’将captional-loss属性划分为>0 =0两类

4’将hours-per-week属性划分为

5’将Country属性划分为USA not USA两类

⑤将object类型的特征列都进行标签编码

⑥根据income属性值将训练集分为两类，一类为income

⑦计算income的两个类别的先验概率P（c）

⑧定义能计算某个类型数据集中各特征列中每个出现的值及其次数的函数（返回counting table）

⑨定义能计算条件概率P(x|c)的函数（进行了拉普拉斯平滑处理）

⑩计算P（c|x）

⑪计算测试集上的准确率

（4）展示实验结果
逻辑回归算法输出的测试集上准确率为：

朴素贝叶斯算法输出的测试集上的准确率为：

（5）讨论实验结果，分析各个特征与目标预测类别的正负相关性
①从两个算法最后的准确率来看，逻辑回归算法在测试集上训练模型的准确率比朴素贝叶斯的要稍好些。

②逻辑回归算法和朴素贝叶斯算法对比：
1’逻辑回归在训练时，不管特征之间有没有相关性，它都能找到最优的参数。而在朴素贝叶斯中，我们直接给定特征相互独立的严格设定。
2’小数据上面朴素贝叶斯分类器可以取得更好的效果，随着数据的增多、特征维度的增大，逻辑回归的效果更好
3’朴素贝叶斯没有优化参数这一步，通过训练数据可以直接得到一个counting table。

③在训练集上分析一下各特征与目标预测类别income的相关系数

输出结果如下：

可以发现education-num与income类别的相关系数最大，其次较大的是age和hours-per-week。在现实生活中，学历，年龄以及每周工作的时长确实极大地影响了工资高低。

（6）源代码
逻辑回归

import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder

train_set=pd.read_csv('oldData/adult.data',header=None,names=['age','workclass','fnlwgt','education',
                                                              'education-num','marital-status',
                                                              'occupation','relationship','race',
                                                              'sex','capital-gain','capital-loss',
                                                              'hours-per-week','native-country','income'])
train_set.info()
test_set=pd.read_csv('oldData/adult.test',header=None,names=['age','workclass','fnlwgt','education',
                                                             'education-num','marital-status',
                                                             'occupation','relationship','race',
                                                             'sex','capital-gain','capital-loss',
                                                             'hours-per-week','native-country','income'])
test_set.info()
print(test_set)

for i in train_set.columns:
    test_set=test_set[test_set[i]!=' ?']
    train_set=train_set[train_set[i]!=' ?']

print(test_set)

train_set.drop('fnlwgt',axis=1,inplace=True)
test_set.drop('fnlwgt',axis=1,inplace=True)

s=(train_set.dtypes=='object')
object_cols=list(s[s].index)
label_encoder=LabelEncoder()
for col in object_cols:
    train_set[col]=label_encoder.fit_transform(train_set[col])
    test_set[col] = label_encoder.fit_transform(test_set[col])

temp=train_set.copy()
corr=temp.corr()
score=corr['income'].sort_values()
print(score)

cols=train_set.shape[1]
X_train,y_train=train_set.iloc[:,:cols-1].values,np.matrix(train_set['income'].values)
X_test,y_test=test_set.iloc[:,:cols-1].values,np.matrix(test_set['income'].values)

m=X_train.shape[0]

n=X_test.shape[0]

X_train=np.c_[np.ones(m),X_train]
X_test=np.c_[np.ones(n),X_test]

y_train=y_train.T
y_test=y_test.T

print(X_train.shape)
print(y_train.shape)

alpha=0.01
theta=(np.matrix([0,0,0,0,0,0,0,0,0,0,0,0,0,0])).T
iter=1000

print(theta.shape)

def sigmoid(z):
    return 1/(1+np.exp(-z))

def gradient_boost(theta, alpha):
    for i in range(iter):
        theta=theta+(alpha/m)*(X_train.T@(y_train-sigmoid(X_train@theta)))

    return theta

theta=gradient_boost(theta,alpha)
print(theta)

a=sigmoid(X_test@theta)
correct_num=0
for i in range(n):
    if a[i]<0.5:
        a[i]=0
    else:
        a[i]=1
    if a[i]==y_test[i]:
        correct_num+=1
rate=correct_num/n
print(rate)

朴素贝叶斯（其中拉普拉斯的处理有问题）

import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder

train_set=pd.read_csv('oldData/adult.data',header=None,names=['age','workclass','fnlwgt','education',
                                                              'education-num','marital-status',
                                                              'occupation','relationship','race',
                                                              'sex','capital-gain','capital-loss',
                                                              'hours-per-week','native-country','income'])
train_set.info()

test_set=pd.read_csv('oldData/adult.test',header=None,names=['age','workclass','fnlwgt','education',
                                                             'education-num','marital-status',
                                                             'occupation','relationship','race',
                                                             'sex','capital-gain','capital-loss',
                                                             'hours-per-week','native-country','income'])
test_set.info()

for i in train_set.columns:
    test_set=test_set[test_set[i]!=' ?']

train_set.drop('fnlwgt',axis=1,inplace=True)
test_set.drop('fnlwgt',axis=1,inplace=True)

train_set.drop(['education-num'],axis=1,inplace=True)
test_set.drop(['education-num'],axis=1,inplace=True)

m=train_set.shape[0]
n=test_set.shape[0]

age=np.copy(train_set['age'])
age_test=np.copy(test_set['age'])

def transform1(age,size):
     for i in range(size):
         if age[i]>=0 and age[i]<25:
             age[i]=0
         elif age[i]>=25 and age[i]<50:
             age[i]=1
         elif age[i]>=50 and age[i]<75:
             age[i]=2
         elif age[i]>=75:
             age[i]=3
     return age

age=transform1(age,m)
age_test=transform1(age_test,n)
train_set['age']=age
test_set['age']=age_test

gain=np.copy(train_set['capital-gain'])
gain_test=np.copy(test_set['capital-gain'])

def transform2(gain,size):
     for i in range(size):
         if gain[i]==0:
             gain[i]=0
         elif gain[i]>0:
             gain[i]=1
     return gain

gain=transform2(gain,m)
gain_test=transform1(gain_test,n)
train_set['capital-gain']=gain
test_set['capital-gain']=gain_test

loss=np.copy(train_set['capital-loss'])
loss_test=np.copy(test_set['capital-loss'])

loss=transform2(loss,m)
loss_test=transform1(loss_test,n)
train_set['capital-loss']=loss
test_set['capital-loss']=loss_test

hours=np.copy(train_set['hours-per-week'])
hours_test=np.copy(test_set['hours-per-week'])

def transform3(hours,size):
    for i in range(size):
        if hours[i] < 40:
            hours[i] = 0
        elif hours[i] == 40:
            hours[i] = 1
        elif hours[i] >40:
            hours[i]=2
    return hours
hours=transform3(hours,m)
hours_test=transform3(hours_test,n)

train_set['hours-per-week']=hours
test_set['hours-per-week']=hours_test

cty=np.copy(train_set['native-country'])
cty_test=np.copy(test_set['native-country'])

def transform4(cty,size):
    for i in range(size):
        if cty[i] ==" United-States":
            cty[i] = 0
        elif cty[i] != " United-States":
            cty[i] = 1
    return cty
cty=transform4(cty,m)
cty_test=transform4(cty_test,n)

train_set['native-country']=cty
test_set['native-country']=cty_test

print(train_set.info())
print(train_set)

s=(train_set.dtypes=='object')
object_cols=list(s[s].index)
label_encoder=LabelEncoder()
for col in object_cols:
    train_set[col]=label_encoder.fit_transform(train_set[col])
    test_set[col] = label_encoder.fit_transform(test_set[col])

type_num=train_set.max()

class_1=[]
class_2=[]
for i in range(m):
    if(train_set['income'][i]==0):
        class_1.append(train_set.iloc[i].values)
    elif(train_set['income'][i]==1):
        class_2.append(train_set.iloc[i].values)

class_1=np.array(class_1)
class_2=np.array(class_2)

xianyan_1=len(class_1)/m
xianyan_2=len(class_2)/m

type_num=train_set.max()

def count(class_ty):

    counts_list=[]

    queshi_list=[]

    for i in range(class_ty.shape[1]-1):
        queshi=0
        counts=pd.value_counts(class_ty[:,i])

        for j in range(type_num[i]+1):
            if j not in counts:
                counts[j]=1
                queshi+=1
        counts_list.append(counts)
        queshi_list.append(queshi)
    return counts_list,queshi_list

def p_x_c(class_ty,counts_list,queshi_list,linedata):
    p_list = []
    for i in range(class_ty.shape[1]-1):
        if(linedata[i] not in counts_list[i]):
            counts_list[i][linedata[i]]=1
            queshi_list[i]+=1
        p1 = counts_list[i][linedata[i]]/(len(class_ty)+queshi_list[i])
        p_list.append(p1)
    return p_list

test_set=np.array(test_set)
train_set=np.array(train_set)

counts_list1,queshi_list1=count(class_1)
counts_list2,queshi_list2=count(class_2)

y_test_list1=[]
y_test_list2=[]

y_pred=[]

for i in range(len(test_set)):
    p_list1=p_x_c(class_1,counts_list1,queshi_list1,test_set[i])
    p_list2=p_x_c(class_2,counts_list2,queshi_list2,test_set[i])

    y1 = xianyan_1
    y2=xianyan_2
    for j in range(train_set.shape[1]-1):
        y1=y1*p_list1[j]
        y2=y2*p_list2[j]

    y_test_list1.append(y1)
    y_test_list2.append(y2)

for i in range(len(test_set)):
    if(y_test_list1[i]>y_test_list2[i]):
        y_pred.append(0)
    else:
        y_pred.append(1)

correct_num=0
for i in range(len(test_set)):
    if(y_pred[i]==test_set[i,-1]):
        correct_num=correct_num+1

rate=correct_num/len(test_set)
print(rate)

Original: https://blog.csdn.net/faith312/article/details/122547921
Author: faith312
Title: 广州大学机器学习与数据挖掘实验二

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700041/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python+大数据day7 数仓

数仓概念：目的：面向分析，支持分析数据仓库（英语：Data Warehouse，简称数仓、 DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的…

人工智能 2023年7月17日
0071
AISHELL Speaker Verification Challenge 2019

赛事简介智能语音市场处于大幅增长前期，逐渐成熟的语音技术使得智能语音的商业化落地成为可能。随着智能音箱以及智能语音交互的设备不断落地，声纹识别的技术成为人体物理特征验证的一项重要…

人工智能 2023年5月25日
0083
[附源码]Python计算机毕业设计Django海南与东北的美食文化差异及做法的研究展示平台

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0073
电商的狂欢与混战，跨越速运的实力与愿景

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月28日
0085
基于TensorFlow的卷积神经网络的岩石图像分类识别（简易实践案例）

人工智能 2023年5月26日
0075
django+drf_haystack+elasticsearch+ik+高亮显示

0.前提准备环境 1. 准备好django2.2 2. 创建一个app 3.elasticsearch7.5启动 4.可视化工具(实在没有,也没啥) models.py from…

人工智能 2023年7月4日
0084
pandas中drop用法_pandas中drop()函数用法

函数定义：DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False) 删除单个行 imp…

人工智能 2023年7月8日
0063
C++ 堆、大顶堆、小顶堆、堆排序

目录一、什么是堆？ * 1.1 大顶堆 1.2 小顶堆 1.3 自定义greater 1.4 堆索引的特点 1.5 堆操作 – 添加元素删除最大元素检查序列是否是…

人工智能 2023年6月27日
0096
英文文献检索(一) web of science使用

英文文献检索——web of science(WOS) 一、简介 SCIEI美国科学引文索引工程索引 web of science = SCI + SSCI + AHCI想要搜SC…

人工智能 2023年6月24日
00239
Tableau可视化–简单绘制雷达图

雷达图，也叫蜘蛛图、星图、网络图，是用于多维度分析的理想选择，例如运动员的综合水平的对比，各种商品参数的比较等等。雷达图在数据分析中是一种常用的图表，tableau上制作雷达图实…

人工智能 2023年7月17日
0090
深度强化学习-强化学习基础-SARSA算法（四）

本片主要介绍SARSA算法，蒙特卡洛算法，以及自举的概念。内容比较细，比较基础，大家可以认真看。有不懂的地方可以先看之前的文章。目录 SARSA： SARSA算法和Q学习的对比：…

人工智能 2023年5月26日
0073
nn.linear()函数

import torch import torch.nn as nn import torch.nn.functional as F class LinearFC(nn.Modul…

人工智能 2023年7月13日
0081
NLP工具集：【doccano】——标注平台doccano使用手册

一. 简介 doccano 是一个开源的文本标注平台。它为文本分类、序列标记和序列到序列任务提供标注功能。因此，您可以为情感分析、命名实体识别、文本摘要、机器翻译等任务创建标注数据…

人工智能 2023年6月24日
00106
Web前端大作业、基于HTML+CSS+JavaScript响应式个人相册博客网站

🎉精彩专栏推荐👇🏻👇🏻👇🏻✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战案例…

人工智能 2023年6月27日
0088
不同图像的噪声，选用什么滤波器去噪，图像处理的噪声和处理方法

不同图像的噪声，选用什么滤波器去噪，图像处理的噪声和处理方法 提示：据&#x8BF4…

人工智能 2023年6月17日
0085
目标检测后处理中检测框不稳定的处理方式

前言经历了场景需求调研，方案技术路线。下面开始时间算法开发： ; 一、目标检测框不稳定类型 1.目标检测框的宽高比不稳定2.目标检测框的中心坐标稳定3.目标检测框连续若干帧检测不…

人工智能 2023年7月9日
00106

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

广州大学机器学习与数据挖掘实验二

实验二 逻辑回归与朴素贝叶斯分类

大家都在看

实验二逻辑回归与朴素贝叶斯分类