Python 垃圾邮件的逻辑回归分类

2023年7月1日下午12:00 • 人工智能 • 阅读 81

加载垃圾邮件数据集spambase.csv(数据集基本信息：样本数: 4601,特征数量: 57, 类别：
1 为垃圾邮件，0 为非垃圾邮件)，阅读并理解数据。

按以下要求处理数据集
（1）分离出仅含特征列的部分作为 X 和仅含目标列的部分作为 Y。
（2）将数据集拆分成训练集和测试集（70%和 30%）。
建立逻辑回归模型
分别用 LogisticRegression 建模。
结果比对
（1）输出测试集前 5 个样本的预测结果。
（2）计算模型在测试集上的分类准确率（=正确分类样本数/测试集总样本数）
（3）从测试集中找出模型不能正确预测的样本。
（4）对参数 penalty 分别取’l1′, ‘l2’, ‘elasticnet’, ‘none’，对比它们在测试集上的预测性
能（计算 score）。

拆分特征值和目标数据前面已经可知，预测和模型得分结果也是直接使用模型的方法，下面主要是要测试准确率和找出不能正确预测的样本，以及不同的惩罚下的模型得分，主要运用到Numpy模块和列表list的函数，代码如下：

y_train_pred = model.predict(x_train)

train_accu = np.equal(y_train,y_train_pred)
print(y_train.shape,y_train_pred.shape)

accuracy = list(train_accu).count(True)/len(list(y_train))
print("准确率为"+"%f"%float(accuracy*100)+"%")

test_accu = list(np.equal(y_pred,y_test))
i = 0
len_test = len(test_accu)
False_index = []
[False_index.append(i) for i in range(0,len_test) if test_accu[i]==False]
print(x_test[False_index])

model2 = LogisticRegression(multi_class='ovr',penalty='l1',max_iter=10000,solver='saga').fit(x_train, y_train)
print("penalty='l1'"+'的得分：', model2.score(x_test, y_test))

model2 = LogisticRegression(multi_class='ovr',penalty='l2',max_iter=10000).fit(x_train, y_train)
print("penalty='l2'"+'的得分：', model2.score(x_test, y_test))

model4 = LogisticRegression(multi_class='ovr',penalty='elasticnet',max_iter=10000,solver='saga',l1_ratio=0).fit(x_train, y_train)

print("penalty='elasticnet'"+'的得分：', model4.score(x_test, y_test))

model5 = LogisticRegression(multi_class='ovr',penalty='none',max_iter=10000,solver='lbfgs').fit(x_train, y_train)
print("penalty='none'"+'的得分：', model5.score(x_test, y_test))

Original: https://blog.csdn.net/missionnn/article/details/121575688
Author: 可乐土豆泥
Title: Python 垃圾邮件的逻辑回归分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663315/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【微服务】Nacos Discovery–服务治理

Nacos Discovery–服务治理前言服务治理 * 常见的注册中心 – Zookeeper Eureka Consul Nacos Nacos 入…

人工智能 2023年6月26日
0075
基于视频/摄像头的简单行为动作识别模型的训练步骤

基于视频序列对于各种动作的检测方法即对视频中不同行为动作做分类识别神经网络使用的是这两个月开源的实时动作序列强分类神经网络：Real Time Sensenet 它是对视频中的动…

人工智能 2023年5月26日
0074
windows 下使用docker搭建ROS

参考1步骤参考参考windows下安装docker参考这里首先拉取docker官方提供的ros的镜像，在cmd+R中哈拉取镜像： docker pull osrf/ros:me…

人工智能 2023年6月10日
00106
保姆级官方yolov7的训练自己的数据集以及项目部署

yolov7 训练自己的数据集并部署第一步数据集准备第二步 train.py载入自己的数据集并训练第三步将训练好的pt文件做成接口调用 * 第一步数据集准备第二步 t…

人工智能 2023年7月4日
0067
2022年使用国内手机号注册google账号的方法

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月4日
0087
python 使用pandas.DataFrame.merge合并dataframe结果为空问题解决

问题描述使用 python2的 pandas合并两个datafreme时，结果为空。实际上两个表格有相同的数据，但是结果并没有合并。官网：pandas.merge ; 使用代码 …

人工智能 2023年7月8日
00112
机器学习——朴素贝叶斯分类

一贝叶斯原理 1.1贝叶斯原理产生背景：贝叶斯原理是英国数学家托马斯·贝叶斯提出的，他写的一篇关于归纳推理的论文直接影响了接下来两个多世纪的统计学，是科学史上著名的论文之一。贝…

人工智能 2023年6月16日
0049
前端vue中箭头函数省略return的写法之详细讲解

1.什么括号都不用的情况 (a,b)=>{return a+b}//简化(a,b)=>a+b 2.使用()的情况下 let arr=[]arr.map(item=&gt…

人工智能 2023年6月27日
0076
Python学习记录(8)——series、dataframe基本操作

重新索引可以按照指定的索引顺序排列数据，如果没有该索引则显示为NaN obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=[‘d’, ‘b’,…

人工智能 2023年7月16日
0061
RuntimeError: Trying to backward through the graph a second time (or directly access saved variable

用pytorch的时候发生了这个错误，写下来避免以后再次入坑。感谢这次坑让我对预训练模型的使用有了更清楚的认识。 RuntimeError: Trying to backward …

人工智能 2023年6月23日
0072
ChatGPT教程之 04 使用 ChatGPT 解决 Leetcode 难题？

虽然 ChatGPT 令人印象深刻，但它似乎无法轻松给出复杂问题的正确答案。我尝试使用 ChatGPT 解决前 10 个 Leetcode 难题（标记在热门面试问题下）以验证相同的…

人工智能 2023年7月31日
0061
深度学习100例-循环神经网络（LSTM）实现股票预测 | 第10天

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月16日
0084
Tensorflow2——模型保存与加载以及训练数据保存和断点续训

通过阅读这篇博客，你可以了解如何在Tensorflow训练过程中保存准确率和loss,以及如何在tensorflow中保存与加载模型，如何再重新接着上一轮的训练过程继续训练。最近…

人工智能 2023年5月23日
00106
一文详解PnP算法原理

PnP(Perspective-n-Point)问题的几何结构如图1所示，给定3D点的坐标、对应2D点坐标以及内参矩阵，求解相机的位姿。数学语言描述如下：图1.PnP几何结构 …

人工智能 2023年6月16日
00118
Learning算法中的聚类是指什么

问题描述：聚类算法在机器学习中的作用是什么？详细介绍：聚类是一种无监督学习的方法，用于对数据集进行分组，使得同组的数据对象之间具有较高的相似性，而不同组之间的数据对象具有较低的…

人工智能 2024年1月1日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python 垃圾邮件的逻辑回归分类

大家都在看