白葡萄酒/红葡萄酒质量分析与预测（PCA+MLPClassifier）100%

2023年7月27日上午8:34 • 人工智能 • 阅读 48

白葡萄酒质量数据集

数据来自于：https://scikit-learn.org/stable/modules/preprocessing.html

导包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns  #Seaborn是python中的一个可视化库，是对matplotlib进行二次封装而成
sns.set_style('darkgrid')
import warnings
warnings.filterwarnings('ignore')

加载数据

预处理

df = pd.read_csv('white.csv',sep=';')
df.to_csv('white1.csv')
df = pd.read_csv('white1.csv',index_col=0)
df2 = pd.read_csv('white1.csv',index_col=0)
df1 = pd.read_csv('white1.csv')
df.head()
yy = df['quality']

查看数据的一些基本信息

数据类型 DataFrame
有4898条数据（4898行），索引为0-4897
该数据帧有12列
: 索引号
column: 每列数据的列名
Non-Null count: 每列数据的数据个数，缺失值NaN不作计算。可以看出下面面所有数据都没有缺失值。
Dtype: 数据的类型。
dtypes: float64(11), int64(1)：数据类型的统计
memory usage: 459.3 KB：该数据帧占用的运行内存（RAM）

df.info()

count：数量统计，此列共有多少有效值
unipue：不同的值有多少个
std：标准差
min：最小值
25%：四分之一分位数
50%：二分之一分位数
75%：四分之三分位数
max：最大值
mean：均值

df.describe()

; 数据分析

绘制计数图

sns.countplot(df['quality'])
print(df['quality'].value_counts())

i=1
plt.figure(figsize=(15,20))
for col in df.columns:
    plt.subplot(6,2,i)
    sns.distplot(df[col])
    i+=1

i=1
plt.figure(figsize=(15,20))
for col in df.columns:
    plt.subplot(6,2,i)
    sns.barplot(x=df['quality'], y= df[col])
    i+=1

整体过采样

说到最重要的部分，我们现在将进行欠采样和过采样。

通过这张图片了解过采样和欠采样究竟是什么

简单来说：

过采样中，最简单实现是从少数类复制随机记录，这可能会导致过度重合。
欠采样中，最简单的方法是从多数类中删除随机记录，这可能会导致信息丢失。

df_3 = df2[df2.quality==3]
df_4 = df2[df2.quality==4]
df_5 = df2[df2.quality==5]
df_6 = df2[df2.quality==6]
df_7 = df2[df2.quality==7]
df_8 = df2[df2.quality==8]
df_9 = df2[df2.quality==9]

#我们之前已经确定，除了质量6之外，所有其他的都是少数！

过采样少数类以生成平衡数据：
from sklearn.utils import resample

df_3_upsampled = resample(df_3, replace=True, n_samples=2000, random_state=12)
df_4_upsampled = resample(df_4, replace=True, n_samples=2000, random_state=12)
df_5_upsampled = resample(df_5, replace=True, n_samples=2000, random_state=12)
df_7_upsampled = resample(df_7, replace=True, n_samples=2000, random_state=12)
df_8_upsampled = resample(df_8, replace=True, n_samples=2000, random_state=12)
df_9_upsampled = resample(df_9, replace=True, n_samples=2000, random_state=12)

减少多数的行以生成余额数据：
df_6_downsampled = df2[df2.quality==6].sample(n=2000).reset_index(drop=True)

将下采样多数类与上采样少数类相结合
Balanced_df = pd.concat([df_3_upsampled, df_4_upsampled, df_7_upsampled,
                         df_8_upsampled, df_9_upsampled,df_5_upsampled, df_6_downsampled]).reset_index(drop=True)

显示新类别计数
Balanced_df.quality.value_counts()

我们可以看到，我们所有质量类别的数量都是相等的！

plt.figure(figsize=(10,6))
sns.countplot(x='quality', data=Balanced_df, order=[3, 4, 5, 6, 7, 8, 9])

我们可以看到，我们所有质量类别的数量都是相等的！

from sklearn.model_selection import train_test_split
xxx = Balanced_df
yyy = Balanced_df.quality

XXX_train, XXX_test, YYY_train,YYY_test= train_test_split(xxx,yyy, test_size=0.3)

整体过采样PCA处理

from sklearn.preprocessing import StandardScaler
scalar = StandardScaler()
df_scaled1 = pd.DataFrame(scalar.fit_transform(Balanced_df), columns=Balanced_df.columns)
df_scaled1.head()

from sklearn.decomposition import PCA
pca1 = PCA(n_components=11)

df_pca1 = pd.DataFrame(pca1.fit_transform(Balanced_df))
xx1 = df_pca1
xx1

from sklearn.model_selection import train_test_split
yyy = Balanced_df.quality

XXX_train, XXX_test, YYY_train,YYY_test= train_test_split(xx1,yyy, test_size=0.3)
print(len(XXX_train))
print(len(XXX_test))

PCA全数据过采样与欠采样模型选择

training_scores= []
testing_scores=[]

for key, value in models.items():
    value.fit(XXX_train, YYY_train)
    train_score= value.score(XXX_train,  YYY_train)
    test_score= value.score(XXX_test, YYY_test)
    training_scores.append(train_score)
    testing_scores.append(test_score)

    print(f"{key}\n")
    print(f"Training 准确率为: {train_score}" )
    print(f"Testing 准确率为: {test_score} \n")

交叉验证

from sklearn.model_selection import cross_val_score
cv_scores= []

for key, value in models.items():
    cvs=cross_val_score(value, xx1,yyy, cv=5)#交叉验证生成器或可迭代的次数

    cv_scores.append(cvs.mean())
    print(f"{key}\n")
    print(f"CV 准确率为: {cvs.mean()} \n" )

from sklearn.metrics import  classification_report,precision_score

rfc=MLPClassifier()
rfc.fit(XXX_train,YYY_train)
y_pred= rfc.predict(XXX_test)
print(classification_report(YYY_test,y_pred))
print("accuracy score:", accuracy_score(YYY_test,y_pred)*100)
print('损失值是：', rfc.loss_)
print('层数是：', rfc.n_layers_)
print('输出的类标签是：', rfc.classes_)
print('迭代次数是：', rfc.n_iter_)
print('激活函数的名称是：', rfc.out_activation_)
print('输出的个数是：', rfc.n_outputs_)

sns.countplot(YYY_test)

pass:正常来说，还要对模型进行模型调参，博主这里已经跑到了100%就没有对模型进行调参。

项目代码文件与PPT介绍也都放在资源库中

https://download.csdn.net/download/qq_52201194/85813596?spm=1001.2014.3001.5503

Original: https://blog.csdn.net/qq_52201194/article/details/125505954
Author: 爱学习的小莲
Title: 白葡萄酒/红葡萄酒质量分析与预测（PCA+MLPClassifier）100%

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/718091/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python 深拷贝和浅拷贝详解

浅拷贝，指的是重新分配一块内存，创建一个新的对象，但里面的元素是原对象中各个子对象的引用。深拷贝，是指重新分配一块内存，创建一个新的对象，并且将原对象中的元素，以递归的方…

人工智能 2023年7月5日
0056
Python数据可视化大屏最全教程（全）

阅读本文大约需要3分钟主要内容：数据分析。适用人群：Python初学者，数据分析师，或有志从事数据分析工作的人员。准备软件：Anaconda（Spyder：代码编译）、Nav…

人工智能 2023年7月15日
0061
安装CPU版本的pytorch

题外话：有些同学的笔记本电脑可能没有显卡或者显卡不太好，建议安装CPU版本的pytorch。这类同学如果实在需要使用GPU加速训练过程，建议使用在线GPU。打开Anaconda P…

人工智能 2023年6月16日
0093
关于DFT补零的一点理解

文章目录一、什么是DFT的频率分辨率二、在时域补零的意义三、关于补零的总结一、什么是DFT的频率分辨率 N N N点FFT的分辨率是f s N \frac {fs}{N}N…

人工智能 2023年6月17日
00123
【论文笔记】ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for VL Tasks

单流模型的缺点 First, initial clustering may result in discretization error and lose important vi…

人工智能 2023年5月28日
0061
tensorflow2实现resnet50并用来分类猫狗

一、首先实现resnet50 具体可以参考这篇文章 import warnings warnings.filterwarnings("ignore") impo…

人工智能 2023年7月1日
0088
数字图像处理(冈萨雷斯版)期末总复习

第一章绪论什么叫图像？什么叫数字图像？什么叫像素？图像是指景物在某种介质上再现的视觉信息。图像是具有特定信息的某种集合体，本质上图像可以认为是数据的集合。一幅图像可以定义为…

人工智能 2023年6月18日
0061
Informer pytorch 代码解读（1）Encoder

目录 0.对整体的架构进行分析整个架构和Transformer是差不多的，但是Encoder层有堆叠，对Encoder进行分析发现，他整个部分的结构大体分为（1）白色的部分，稀…

人工智能 2023年6月15日
0066
数据集划分，Oxford Flower102花卉分类数据集，分为训练集、测试集、验证集

数据集划分，Oxford Flower102花卉分类数据集，分为训练集、测试集 Oxford Flower102数据集链接：https://www.robots.ox.ac.uk/…

人工智能 2023年6月19日
00105
现如今市场竞争激烈，语音交友陪玩APP源码如何适配用户？

互联网+是两化融合的升级版，将互联网作为当前信息化发展的核心特征，提取出来，并与工业、商业、金融业、服务业等全面融合。这其中关键就是创新，只有创新才能让这个+真正有价值、有意义。 …

人工智能 2023年5月25日
0069
卷积神经网络实践-猫狗分类

写在前面本文主要参考的是飞桨上的一个模型https://aistudio.baidu.com/aistudio/projectdetail/78960?channelType=0&…

人工智能 2023年6月30日
0071
HUAWEI Sound Joy首发体验，独具一格的华为音质究竟如何呢？

记得小编当时入手华为的第一款音箱，是HUAWEI Sound，说实话帝瓦雷六单元四喇叭在当时确实让小编惊艳不己，音质方面也不容置疑。后期当华为又推出旗舰型HUAWEI Sound …

人工智能 2023年5月23日
0064
Visual C++ 2010 Express和EasyX的使用介绍

Visual C++ 2010 Express和EasyX初学者入门本文将介绍Visual C++ 2010 Express创建Win32控制台（Console）程序、创建WIN…

人工智能 2023年6月29日
00114
R语言采用优化方法拟合曲线并计算AIC,BIC,LRT

文章目录前言一、R代码实现 * 1.导入库 2.随机生成原始数据 3.RMSD 4.梯度下降 5.最大似然估计 6.做出优化后图像 7.求AIC,BIC 8.求LRT 二、运行…

人工智能 2023年6月16日
0039
OpenCV-Python实战（21）——OpenCV人脸检测项目在Web端的部署

OpenCV-Python实战（21）——OpenCV人脸检测项目在Web端的部署 * – 0. 前言 – 1. OpenCV 人脸检测项目在 Web 端的…

人工智能 2023年6月18日
0047
看懂Azure DevOps燃尽图（Burndown Chart）

1. 概述燃尽图是一种由于展示特定时间段内剩余工作的趋势图，为用户评估工作进展是否健康提供依据；燃尽图是一张二维趋势图，横轴表示时间，纵轴表示剩余工作量；在软件开发过程中，特别是…

人工智能 2023年6月11日
0073

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

白葡萄酒/红葡萄酒质量分析与预测（PCA+MLPClassifier）100%

: 索引号

项目代码文件与PPT介绍也都放在资源库中

大家都在看