机器学习-分类聚类预测系统

2023年5月31日上午7:35 • 人工智能 • 阅读 96

这是机器学习课程的一个课设,具体的课设要求如下:

1.熟悉机器学习的完整流程，包括：问题建模，获取数据，特征工程，模型训练，模型调优，线上运行；或者分为三大块：数据准备与预处理，模型选择与训练，模型验证与参数调优。
2.绘制机器学习算法分类归纳思维导图，按照有监督学习、无监督学习、半监督学习和强化学习进行绘制，对学过的算法进行归纳总结。
3.自行选择学习任务，按照机器学习流程，分别设计分类、预测、聚类系统，每个系统务必选择不同的算法进行训练，采用多种方法进行模型验证与参数调优，选择适合的多个指标对模型进行评估，采用可视化方法对结果进行分析。
（1）分类算法：
k-近邻算法、贝叶斯分类器、决策树分类、BP神经网络、AdaBoost、GBDT、随机森林、逻辑回归等
（2）预测：贝叶斯网络、马尔科夫模型、线性回归、XGBoost、岭回归、多项式回归、决策树回归、深度神经网络预测
（3）聚类：K-means、层次聚类BIRCH、密度聚类DBSCAN算法、高斯混合聚类GMM、密度聚类的OPTICS算法、基于网格的聚类（STING、CLIQUE）、Mean Shift聚类算法
其中：蓝色标注的算法要求必须在问题中使用，红色标注的为选用（至少选一种，多选加分），黑色的可不用，如用则有加分
4.要求
（1）所选用算法可直接调用Python中的相关库函数实现，但要对其源码进行分析，厘清算法结构及各部分功能。也可自行编写相关算法，并与库函数进行对比实验
（2）数据集的选择要分为小数据集、中等规模数据集、大规模数据集，数据集类型应有结构化、半结构化以及非结构化数据集。
（3）同一类算法中要实现各个算法在不同数据集、不同指标的比较
（4）算法设计中要有较详细的注释说明，对每个模块给出详细解释、功能注释等

首先需要下载相关的python库:sklearn库 (这是最主要的库,里面包含了机器学习所涉及的很多算法)、matplotlib库(主要是用来画图,实现可视化)、numpy库、pandas库等等

1.测试集、训练集的划分:

from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np

def readData(FileName,usecols1,usecols2):
    #读取数据
    data=pd.read_excel(FileName,usecols=usecols1)#特征数据
    kinds=pd.read_excel(FileName,usecols=usecols2) #类别数据
    #数据类型处理
    data=np.array(data)
    kinds=np.array(kinds)
    k=[ ]
    for i in kinds:
        k.extend(i)
    kinds=np.array(k)
    return data,kinds

data,kinds=readData("iris.xlsx",[1,2,3,4],[6])#这里的鸢尾花数据是以excel表存储的,也可以直接调用sklearn库里的数据集
train_x,test_x,train_y, test_y = train_test_split(data,kinds, test_size=0.3)#划分训练集和测试集

2.分类算法:

首先构建分类算法模型,之后用训练集去训练模型,然后用测试集去测试训练好的模型的性能,以k-近邻算法为例:

from sklearn import  neighbors

#构建KNN模型
n_neighborts=15
weights="distance"
knn_clf =neighbors.KNeighborsClassifier(n_neighborts , weights=weights)

#训练模型
knn_clf.fit(train_x,train_y)

#测试模型
knn_pred=knn_clf.predict(test_x)
#print(knn_pre)

评估模型
print("模型精度：{:.2f}".format(np.mean(knn_pred==test_y)))
print("模型精度：{:.2f}".format(knn_clf.score(test_x,test_y)))

当然还可以使用其他的分类算法:

from sklearn.ensemble import AdaBoostClassifier, RandomForestClassifier, GradientBoostingClassifier  #AdaBoost算法,随机森林,GBDT算法
from sklearn.linear_model import LogisticRegression #逻辑回归算法
from sklearn.naive_bayes import GaussianNB #贝叶斯分类器
from sklearn import tree #决策树

#不同分类模型的创建
gnb_clf=GaussianNB()
dt_clf=tree.DecisionTreeClassifier( )
adbt_clf=AdaBoostClassifier(tree.DecisionTreeClassifier(max_depth=2,\
      min_samples_split=20,min_samples_leaf=5),\
      algorithm="SAMME", n_estimators=10, learning_rate=0.8)
gbdt_clf=GradientBoostingClassifier(random_state=2020)
rfc_clf=RandomForestClassifier(n_estimators=10,n_jobs=2)
lr_clf=LogisticRegression(penalty='l2',solver='newton-cg',multi_class='multinomial')

上述模型的评估方法比较单一,可以使用以下评估指标:

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

#预测结果一律用y_pred表示
print(round(accuracy_score(test_y, y_pred), 3))#精确率
print(round(precision_score(test_y, y_pred, average="macro"), 3))#召回率
print(round(recall_score(test_y, y_pred, average="micro"), 3))#准确率
print(round(f1_score(test_y, y_pred, average="weighted"), 3))#F1值

最后可以对结果进行可视化

import matplotlib.pyplot as plt
from sklearn import metrics

confusion=[ ]
confusion=metrics.confusion_matrix(test_y,knn_pred)#混淆矩阵

#显示预测结果
def show_pred(st,y_pred):#st表示所用算法,y_pred表示预测结果
    fig=plt.figure()
    plt.title(st)
    plt.scatter(test_x[:, 0], test_x[:, 1], c=y_pred)
    fig.tight_layout()
    plt.savefig("image/"+st+".png", dpi=55)#存储图像文件

#ROC曲线
def ROC_auc(st,y_pred):
    fpr, tpr, thresholds = roc_curve(test_y, y_pred, pos_label=2)#计算真正类率和假正类率
    roc_auc = metrics.auc(fpr,tpr)
    fig=plt.figure()
    plt.plot( fpr,tpr, 'b',label='AUC = %0.2f'% roc_auc)
    plt.plot([0, 1], [0, 1], 'k--')
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.05])
    plt.xlabel('FPR')
    plt.ylabel('TPR')
    plt.title(st+'--ROC')
    plt.legend(loc="lower right")
    fig.tight_layout()
    plt.savefig("roc_auc/"+st+".png", dpi=55)

#混淆矩阵可视化
def plot_confusion_matrix(confusion,st):#confusion表示混淆矩阵
    fig=plt.figure()
    plt.title(st)
    plt.imshow(confusion, cmap=plt.cm.Blues)
    plt.xlabel('Estimate')
    plt.ylabel('True value')
    fig.tight_layout()
    plt.savefig("mat/"+st+".png", dpi=55)

show_pred("KNN",knn_pred)
plot_confusion_matrix(metrics,"KNN")
ROC_auc("KNN",knn_pred)

在以上代码中，可视化的结果都被保存在了文件夹里，如果想要直接显示直接使用plt.show()就可以了，以下就是对上述结果可视化结果的截图

ROC曲线

预测结果可视化

混淆矩阵

3.聚类算法：

各种聚类算法代码：

from sklearn.cluster import KMeans, Birch, DBSCAN, OPTICS, MeanShift
from sklearn.mixture import GaussianMixture
from sklearn import metrics
from sklearn.metrics import accuracy_score
from sklearn.metrics import homogeneity_completeness_v_measure

#K-means聚类
kmeans_clt=KMeans(n_clusters=self.k,random_state=1)
kmeans_pred=kmeans_clt.fit_predict(data)

#层次聚类BIRCH
bir_clt = Birch(n_clusters=k)#k表示聚类次数
bir_pred = bir_clt.fit_predict(data)

密度聚类DBSCAN算法
dbs_clt =DBSCAN( eps=0.6,min_samples=2).fit(data)
dbs_pred = dbs_clt.fit_predict(data)

高斯混合聚类
gmm_clf = GaussianMixture(n_components=self.k,n_init=3)
gmm_pred = gmm_clf.fit_predict(data)

密度聚类的OPTICS算法
opt_clf = OPTICS()
opt_pred = opt_clf.fit_predict(data)

Mean Shift聚类算法
ms_clf= MeanShift(bandwidth=0.6, bin_seeding=True)
ms_clf.fit(data)
ms_pred = ms_clf.fit_predict(data)

模型评估参数：

import numpy as np
from sklearn import metrics
from sklearn.metrics import accuracy_score

计算纯度
def purity_score(y_true, y_pred):
    y_voted_labels = np.zeros(y_true.shape)
    labels = np.unique(y_true)
    ordered_labels = np.arange(labels.shape[0])
    for k in range(labels.shape[0]):
        y_true[y_true == labels[k]] = ordered_labels[k]
    labels = np.unique(y_true)
    bins = np.concatenate((labels, [np.max(labels) + 1]), axis=0)
    for cluster in np.unique(y_pred):
        hist, _ = np.histogram(y_true[y_pred == cluster], bins=bins)
        winner = np.argmax(hist)
        y_voted_labels[y_pred == cluster] = winner
    return accuracy_score(y_true, y_voted_labels)

hcv = homogeneity_completeness_v_measure(self.kinds, y_pred)

round(metrics.silhouette_score(kinds,y_perd))#轮廓系数
round(purity_score(kinds, y_pred), 3)
round(metrics.adjusted_rand_score(kinds, y_pred), 3) #调整兰德系数
round(sklearn.metrics.f1_score(kinds, y_pred, average='micro'), 3) #f-score
round(metrics.mutual_info_score(kinds, y_pred), 3) #互信息
round(hcv[0], 3) #同质性
round(hcv[1], 3) #完整性
round(hcv[2], 3) #调和平均

结果可视化代码：

 #聚类结果展示
    def show_pred(data st, y_pred):
        plt.title(st)
        plt.scatter(data[:, 0], data[:, 1], c=y_pred)
        plt.savefig("image/"+st+".png", dpi=55)

4.预测算法：

各种预测算法代码：

import xgboost
import sklearn.pipeline as pl
import sklearn.preprocessing as sp
import sklearn.linear_model as lm
from hmmlearn.hmm import GaussianHMM
from sklearn import linear_model
from sklearn.preprocessing import StandardScaler
from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression,BayesianRidge
from sklearn.tree import DecisionTreeRegressor

贝叶斯网络
byes_fct = MultinomialNB()
byes_fct.fit(train_x, train_y)
byes_pred = byes_fct.predict(test_x)

马尔科夫模型
mar_fct= GaussianHMM(n_components=k,tol=0.01, covariance_type='diag', n_iter=1000)
#k表示类别数目
mar_fct.fit(train_x)
mar_pred = mar_fct.predict(test_x)

多项式回归
数据标准化
ss = StandardScaler()
train_x = ss.fit_transform(train_x) # 训练并转换
test_x = ss.transform(test_x)

poly_fct = PolynomialFeatures(degree=k)
quead_x=poly_fct.fit_transform(train_x)
test_x=poly_fct.fit_transform(test_x)
lr = LinearRegression()
lr.fit(quead_x,train_y)
poly_pred =lr.predict(test_x)

决策树回归
dt_fct = DecisionTreeRegressor(max_depth=5)
dt_fct.fit(train_x, train_y)
dt_pred = dt_fct.predict(test_x)

线性回归
数据标准化
ss = StandardScaler()
train_x = ss.fit_transform(train_x) # 训练并转换
test_x = ss.transform(test_x)

lr_fct = LinearRegression()
lr_fct.fit(train_x, train_y)
lr_pred = lr_fct.predict(test_x)

岭回归
ridge_fct = linear_model.RidgeCV()
ridge_fct.fit(train_x, train_y)
ridge_pred = ridge_fct.predict(test_x)

XGBoost
bst_fct = xgboost.XGBClassifier(early_stopping_rounds=50,max_depth=10)
bst_fct.fit(train_x, train_y)
bst_pred = bst_fct.predict(test_x)

模型评估参数：

import numpy as np
import pandas as pd
from sklearn import metrics

贝叶斯，线性
def mape(y_true, y_pred):
    return np.mean(np.abs((y_pred - y_true) / y_true)) * 100

def smape(y_true, y_pred):
    return 2.0 * np.mean(np.abs(y_pred - y_true) / (np.abs(y_pred) + np.abs(y_true))) * 100

round(metrics.mean_squared_error(test_y, y_pred), 3)
round(np.sqrt(metrics.mean_squared_error(test_y, y_pred)), 3)
round(metrics.mean_absolute_error(test_y, y_pred), 3)
round(mape(test_y, y_pred), 3)
round(smape(test_y, y_pred), 3)

结果可视化代码：

import numpy as np
import pandas as pd

def show_pred(k,test_x,test_y,st,y_pred):
    fig=plt.figure()
    plt.title(st)
    plt.plot(test_x[:,0], test_y, 'ro', label='test data')
    plt.plot(test_x[:,0], y_pred, 'bo', label='predict data')
    #plt.ylim(0, k+1)
    plt.legend()
    fig.tight_layout()
    plt.savefig("image/"+st+".png", dpi=55)

def proportion(test_y,st,y_pred): #比例展示
    fig=plt.figure()
    plt.title(st)
    tp=0
    fn=0
    for i in range(len(test_y)):
        if(int(y_pred[i]+0.5)==test_y[i]  ):
            tp+=1
        else:
            fn+=1
    fn=fn/len(y_pred)
    tp=tp/len(y_pred)
    x=["test data = predict data","test data!= predict data"]
    y=[tp,fn]
    plt.bar(x,y,color="steelblue",alpha=0.5)
    plt.plot(x,y,"r",marker="*",ms=10,label='a')
    plt.ylabel('Rate')
    fig.tight_layout()
    plt.savefig("mat/"+st+".png", dpi=55)

有了这些主要的代码之后就可以多使用几个数据集，自己设计界面，做成一个数据分析的系统

以上就是我自己做的系统截图，具体代码可以参考以下内容：

https://download.csdn.net/download/clown0004/85636871?spm=1001.2014.3001.5501

Original: https://blog.csdn.net/clown0004/article/details/125354575
Author: clown0004
Title: 机器学习-分类聚类预测系统

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549792/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图神经网络

目录 1. 图基础 2. 图构建 2.1 找到图结构 2.2 图类型和范围 2.3 设计损失函数 2.4 使用计算块来建立模型 3 计算模块的实例化 3.1 传播模块-卷积算子 3…

人工智能 2023年7月13日
0083
Python表白代码：“ 星光月夜烟花皆归你，我也归你”（满天烟花盛开、附番外玫瑰）

导语 “慢品人间烟火色闲观人间岁月长” 🌙 遇见我以后，我们的故事就开始了，愿你历经山河，仍觉得人间值得🌙。星光月夜烟花皆归你，我也归你。关于烟花🎇…

人工智能 2023年7月30日
0082
Anaconda 环境变量的配置

Anaconda 环境变量的配置前言此文记录了我在进行 Anaconda 环境变量配置的做法，希望可以对有需要的朋友们有所帮助或者启发一、什么是环境变量环境变量一般是指操…

人工智能 2023年7月4日
0096
ImageNet1K的下载与使用

0、前言 2、val集 * 2.1 下载 2.2 处理 0、前言 ImageNet不用多说，它包含了非常多的图片，总共有2w多个分类，但是显然太多。所以一般更常用的是ImageNe…

人工智能 2023年6月16日
0078
DataFrame(11)：数据转换——map()函数的使用

1、map()函数 1）map()函数作用将序列中的每一个元素，输入函数，最后将映射后的每个值返回合并，得到一个迭代器。 2）map()函数原理图原理解释：上图有一个列表，元素…

人工智能 2023年7月8日
00106
Python数据分析报告

业务背景：B2B业务已收会员和服务费作为收益主要来源，目前会员类型分成钻石会员、金牌会员，销售合同一般会包含会员服务、增值服务、广告服务等等，销售过程可能会受到销售策略的影响，做一…

人工智能 2023年7月15日
0044
《李宏毅2022机器学习》HW1 记录

文章目录任务描述一、特征选择（Feature selection）二、调整网络结构和优化器 * 1. 增加神经元和隐藏层 2. L2正则化及调参任务描述现已成功跑完sam…

人工智能 2023年6月26日
0088
pytorch对网络层的增，删，改, 修改预训练模型结构

#下载模型参数 model.load_state…

人工智能 2023年7月21日
0053
【语音识别】Kalid安装过程详解

Kaldi安装过程详解 1. Kaldi介绍 2. 环境准备 3. 安装Kaldi 4. 脚本分析 ; 1. Kaldi介绍 Kaldi 是由 C++ 编写的语音识别工具，其目的在…

人工智能 2023年5月27日
00126
使用 Web Speech API 在浏览器中朗读文本

Web Speech API有两个功能：语音合成（语音阅读）和语音识别（语音到文本的转换）。SpeechSynthesis API允许您在浏览器中选择语音并大声朗读任何文本。无论…

人工智能 2023年5月27日
00110
知识图谱——描述逻辑（Description Logic）（应试版介绍）

描述逻辑 DL 主要描述本体的概念和属性，对于本体知识库的构建提供便捷的表达形式。举例：概念Concepts：一个领域的子集例：学生，已婚者： {x|student(x)}…

人工智能 2023年6月1日
0075
AI&BlockChain：“知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理和区块链技术的乘客智能报警系统》案例的界面简介、功能介绍分享之总篇

AI&BlockChain：”知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理和区块链技术的乘客智能报警系统》…

人工智能 2023年7月28日
0065
计算机视觉 – 图像增强应用实践 (基础篇）C++ OpenCV

环境配置我之前是跟着B站的一个UP主弄的：VS2019-Opencv4.5.2安装教程（win11上安装跟win10系统安装没有任何区别）_哔哩哔哩_bilibili （但是不知道…

人工智能 2023年5月26日
00100
机器学习——sklearn实现决策树（隐形眼镜预测和鸢尾花分类）

一、准备数据集二、环境的准备三、DecisionTreeClassifier构建决策树的部分参数说明四、利用决策树实现隐形眼镜类型的预测读取数据集 from sklearn…

人工智能 2023年7月2日
0076
浅谈图像处理与深度学习

目录一、传统的图像处理图1 图2 图3 图4 二、深度学习与图像处理图5 三、深度学习是一个”盲盒” 图6 图7 图8 图9 四、深度学习不是一个&#…

人工智能 2023年5月26日
0090
【读书笔记】极简西方哲学史（一）

古希腊早期的哲学在探讨世界的本原，有自然哲学、形而上学两种主流 Original: https://www.cnblogs.com/mhlan/p/16113779.htmlAut…

人工智能 2023年6月4日
0061

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习-分类聚类预测系统

大家都在看