数据挖掘模型学习

2023年8月25日下午2:54 • Python • 阅读 55

import pandas as pd
from keras.models import Sequential
from keras.layers.core import Dense, Activation

参数初始化

inputfile = ‘bankloan.xls’
data = pd.read_excel(inputfile) # 导入数据

x = data.iloc[:,:8].values
y = data.iloc[:,8].values

建立模型

model = Sequential() # 建立模型
model.add(Dense(input_dim = 8, units = 8))
model.add(Activation(‘relu’)) # 用relu函数作为激活函数，能够大幅提供准确度
model.add(Dense(input_dim = 8, units = 1))
model.add(Activation(‘sigmoid’)) # 由于是0-1输出，用sigmoid函数作为激活函数

model.compile(loss = ‘mean_squared_error’, optimizer = ‘adam’)

编译模型。由于我们做的是二元分类，所以我们指定损失函数为binary_crossentropy，以及模式为binary

另外常见的损失函数还有mean_squared_error、categorical_crossentropy等，请阅读帮助文件。

求解方法我们指定用adam，还有sgd、rmsprop等可选

model.fit(x, y, epochs = 1000, batch_size = 10) # 训练模型，学习一千次

yp = model.predict_classes(x).reshape(len(y)) # 分类预测

import numpy as np
predict_x=model.predict(x)
classes_x=np.argmax(predict_x,axis=1)
yp = classes_x.reshape(len(y))

score = model.evaluate(x, y, batch_size=128) #分类预测精确度
print(score)

from cm_plot import * # 导入自行编写的混淆矩阵可视化函数
cm_plot(y,yp).show() # 显示混淆矩阵可视化结果

def cm_plot(y, yp):

from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y, yp)

import matplotlib.pyplot as plt
plt.matshow(cm, cmap=plt.cm.Greens)
plt.colorbar()

for x in range(len(cm)):
for y in range(len(cm)):
plt.annotate(cm[x,y], xy=(x, y), horizontalalignment=’center’, verticalalignment=’center’)

plt.ylabel(‘True label’)
plt.xlabel(‘Predicted label’)
return plt

import pandas as pd

; 参数初始化

filename = ‘bankloan.xls’
data_tr = pd.read_excel(filename)

print(data_tr) # 导入数据

训练数据

读取数据

x_tr = data_tr.iloc[:,:8].astype(int)
y_tr = data_tr.iloc[:,8].astype(int)
from sklearn.tree import DecisionTreeClassifier as DTC
dtc = DTC(criterion=’entropy’) # 建立决策树模型，基于信息熵
dtc.fit(x_tr, y_tr) # 训练模型

导入相关函数，可视化决策树。

导出的结果是一个dot文件，需要安装Graphviz才能将它转换为pdf或png等格式。

from sklearn.tree import export_graphviz
x = pd.DataFrame(x_tr)

string1 = ”’
edge [fontname=”NSimSun”];
node [ fontname=”NSimSun” size=”15,15″];
{
”’
string2 = ‘}’

with open(“dt1.dot”, ‘w’) as f:
export_graphviz(dtc, feature_names = x.columns, out_file = f)
f.close()

from IPython.display import Image
from sklearn import tree
import pydotplus

dot_data = tree.export_graphviz(dtc, out_file=None, #regr_1 是对应分类器
feature_names=data_tr.columns[:8], #对应特征的名字
class_names=data_tr.columns[8], #对应类别的名字
filled=True, rounded=True,
special_characters=True)

手动修改树结构的字体类型，以免出来的图片出现中文乱码

dot_data = dot_data.replace(‘helvetica’, ‘MicrosoftYaHei’)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_png(‘p.png’) #保存图像
Image(graph.create_png())

显示决策树图片

import matplotlib.pyplot as plt
img = plt.imread(‘p.png’)
fig = plt.figure(‘show picture’)
plt.imshow(img)

Original: https://blog.csdn.net/weixin_46089872/article/details/123784509
Author: weixin_46089872
Title: 数据挖掘模型学习

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/759424/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

linux系统下docker中部署python+jenkins+gitlab+pytest+allure实现自动化测试问题汇总

问题1 gitlab占用cpu内容过高修改配置文件，有挂载就在容器内部修改，没有的话就修改宿主机中的文件编辑配置文件(养成习惯，修改前先备份) cd /etc/gitlab c…

Python 2023年9月12日
0060
在Windows系统中安装matplotlib

在Windows系统中安装matplotlib 前提 python Pycharm 目的：安装matplotlib，使用它来制作开始我们需要的图表步骤1：下载matplotlib…

Python 2023年9月4日
00119
【Python基础】4-文件处理

不同字符编码间的转换 GBK编码的字符如何转成utf-8存储？上节课我们讲过，windows系统的默认编码是GBK, 如果你把⼀段在windows系统上⽤gbk编码的字符发送到m…

Python 2023年8月15日
0049
【数据采集】scrapy 爬取当当招商网 & selenium 获取东方财经网数据

🎉粉丝福利送书：《 Java多线程与大数据处理实战》 🎉点赞 👍 收藏 ⭐留言 📝 即可参与抽奖送书 🎉下周二(11月17日)晚上20：00将会在【点赞区和评论区】抽一位粉丝送这本…

Python 2023年10月2日
0051
python使用xpath提取数据_Scrapy / Python / XPath – 如何从数据中提取数据？

我是Scrapy的新手,我刚刚开始研究XPath. 我正在尝试从div中的html列表项中提取标题和链接.下面的代码是我以为我会去做的,(选择ul div,通过id,然后循环遍历列…

Python 2023年10月5日
0071
Ubuntu下conda环境激活失败

情况说明在使用conda创建好的环境时，出现了下面这个问题：CommandNotFoundError: Your shell has not been properly conf…

Python 2023年9月9日
0062
pygame教程2

上期说了一些，但当你学完这些后，你就可以轻松编写一个游戏！ pygame.display.set_caption() 很多游戏都有窗口的名字，pygame默认窗口是pygame w…

Python 2023年9月20日
0055
python中的scrapy爬虫_Python用Scrapy爬虫入门案例

安装Anaconda详细介绍下载下载完整包如果日常工作或学习并不必要使用1,000多个库，那么可以考虑安装Miniconda(图形界面下载及命令行安装请戳)，这里不过多介绍M…

Python 2023年10月5日
0046
Python 函数进阶-高阶函数

高阶函数是可以将函数作为参数传递的函数。换句话说，如果函数的参数是函数，则该函数是高阶函数。 [En] A higher-order function is a function …

Python 2023年5月24日
0056
【python】词云图制作

词云图制作 python 练了一段时间的词云图，就来和大家讲讲词云图制作的详细过程。效果图 ; 工具准备 1、python3 2、安装第三方库wordcloud 3、安装nump…

Python 2023年8月1日
0060
numpy库

前言 numpy库是一种高性能的数据创立和处理包，它常常用于一些数据的处理上，现在来总结一下（这是期末人的倔强）。一般我们把numpy建立的数组可以叫做矩阵，它是不同于列表的。目…

Python 2023年8月24日
0056
pygame游戏进行声音添加的方法

这篇文章主要介绍pygame游戏进行声音添加的方法，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！ Pygame的mixer 模块可以依据命令播放一个或多个声…

Python 2023年9月19日
0035
运行的第一个Django

2022-09-24 创建了一个Django项目后，进行测试，输入指令： python manage.py runserver 出现了如下问题：我还想着，Django模块通过安装…

Python 2023年10月31日
0036
python动态爬虫ajax翻页_关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案…

Python爬虫总结总的来说，Python爬虫所做的事情分为两个部分，1：将网页的内容全部抓取下来，2：对抓取到的内容和进行解析，得到我们需要的信息。目前公认比较好用的爬虫框架…

Python 2023年10月3日
0067
pytest+Allure+Gitee+jenkins接口自动化实现持续集成

记录下自己工作中的接口自动化框架实现持续集成的过程: 1.接口测试框架：Pytest2.使用Gitee作为本次记录（工作当中用的是GitLab）3.报告使用Allure4.持续集成…

Python 2023年9月10日
0050
FastAPI（40）- 大型应用程序的项目拆分

背景假设要搭建一个测试平台，那么整个项目的 API 数量肯定很多个，他们不可能放在同一个文件中 FastAPI 提供了一个方便的工具来构建应用程序，同时保持所有的灵活性项目架构…

Python 2023年8月11日
00112

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31