数据挖掘 | 实验二数据的可视化

2023年8月31日下午2:40 • Python • 阅读 37

文章目录

一、目的与要求
二、实验设备与环境、数据
三、实验内容
*
（1）数据获取
（2）数据的清理
（3）可视化技术
–
四、实验小结

一、目的与要求

熟练运用数据清洗及相关预处理方法；
掌握常用可视化技术的适用场合及相关方法；
了解 matplotlib库的基本功能；
掌握 matplotlib库中常用可视化方法调用接口。

二、实验设备与环境、数据

PC 机、PC 机 + Python3.7 环境（pycharm、anaconda 或其它都可以）
可视化库: Matplotlib库等
提供鸢尾花数据集 iris150条记录（150*5）包括一个类标号属性。

三、实验内容

１）可视化必要性及工具
数据可视化是数据科学工作的一项主要任务，在分析早期阶段，通常会进行探索性数据分析（EDA）以获取对数据的理解和洞察，尤其对于大型高维的数据集，数据可视化有助于使数据分布及关系更清晰易懂；在项目结束时，以清晰、简洁和引人注目的方式展示最终结果使人更容易理解。
本实验采用 Python 的 Matplotlib、Seaborn 等库实现一些快速而简单的可视化功能，Matplotlib 是个比较流行的 Python 库，可以方便实现数据的可视化，它与 Numpy、pandas 及其提供的数据结构紧密集成。Seaborn 是基于
matplotlib 的 Python 可视化库。提供了多种对 matplotlib 绘制的图形的美化
功能。
在可视化过程中，要了解各种可视化技术的特点及接口，根据实际数据集及任务需求来正确选择相应可视化手段，并且正确设置接口数据和参数。

具体要求

（1）数据获取

从本地读取 iris 数据集，将列名命名为： 'sepal length', 'sepal width ', 'petal length','petal width', 'species'

import pandas as pd

iris_data = pd.read_csv("iris.csv", header=None, names=['sepal length', 'sepal width',
                                                        'petal length', 'petal width', 'species'])

iris = pd.DataFrame(iris_data)
print(iris)

（2）数据的清理

a) 查看数据行列情况，判断是否有空行，如果有则删除；
b) 查看空值情况

import pandas as pd
iris_data=pd.read_csv("iris.csv",header=None,names=['sepal length','sepal width',
                    'petal length','petal width','species'])

iris=pd.DataFrame(iris_data)
print("数据集的行数为：",iris.shape[0])
print("数据集的列数为：",iris.shape[1])

print("存在空行数目：",iris.isnull().T.any().sum())

iris.dropna(axis=0,how="all",inplace=True)

print("删除空行后存在空行数目：",iris.isnull().T.any().sum ())
print("每列空值的数目：\n",iris.isnull().sum())

（3）可视化技术

（注意：以下图中请标记： title、legend以及各坐标标签。）

a) 直方图展示各个维度的值分布情况；（20个分箱）

import pandas as pd
import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams['font.sans-serif']=['SimHei']
iris_data = pd.read_csv("iris.csv", header=None, names=['sepal length', 'sepal width',
                                                        'petal length', 'petal width', 'species'])
iris = pd.DataFrame(iris_data)
plt.suptitle("鸢尾花各维分布直方图")

plt.subplot(221)

plt.hist(iris_data['sepal length'], bins=20, edgecolor='black', alpha=0.7)

plt.xlabel("取值")

plt.ylabel("计数")

plt.title("花萼长度的分布直方图")

plt.subplot(222)
plt.hist(iris_data['sepal width'], bins=20, edgecolor='black', alpha=0.7)

plt.xlabel("取值")

plt.ylabel("计数")

plt.title("花萼宽度的分布直方图")

plt.subplot(223)
plt.hist(iris_data['petal length'], bins=20, edgecolor='black', alpha=0.7)

plt.xlabel("取值")

plt.ylabel("计数")

plt.title("花瓣长度的分布直方图")

plt.subplot(224)
plt.hist(iris_data['petal width'], bins=20, edgecolor='black', alpha=0.7)

plt.xlabel("取值")

plt.ylabel("计数")

plt.title("花瓣宽度的分布直方图")

plt.subplots_adjust(hspace=0.5)
plt.show()

b) 箱式图展示三类鸢尾花的petal_length属性值的分布情况；

import pandas as pd
import matplotlib.pyplot as plt
from pylab import mpl
import seaborn as sns
mpl.rcParams['font.sans-serif']=['SimHei']
iris_data = pd.read_csv("iris.csv", header=None, names=['sepal length', 'sepal width',
                                                        'petal length', 'petal width', 'species'])
iris = pd.DataFrame(iris_data)
plt.suptitle("三类鸢尾花的petal_length属性值的分布情况")
sns.boxplot(x="species",y="petal length",data=iris)

plt.title("箱型图")
plt.show()

c) 在一个图中展示三种鸢尾花的petal_width属性的10个百分位折线图

import pandas as pd
import matplotlib.pyplot as plt
from pylab import mpl
import numpy as np
mpl.rcParams['font.sans-serif']=['SimHei']
iris_data = pd.read_csv("iris.csv", header=None, names=['sepal length', 'sepal width',
                                                        'petal length', 'petal width', 'species'])
iris = pd.DataFrame(iris_data)

q=np.linspace(10,100,num=10)

sepal_length1=np.array(iris[iris['species']==1]['petal width'])

plt.plot(q,np.percentile(sepal_length1,q),color='blue',linewidth=2.0)

sepal_length2=np.array(iris[iris['species']==2]['petal width'])
plt.plot(q,np.percentile(sepal_length2,q),color='red',linewidth=2.0)

sepal_length3=np.array(iris[iris['species']==3]['petal width'])
plt.plot(q,np.percentile(sepal_length3,q),color='green',linewidth=2.0)
plt.title("三种鸢尾花的petal_width属性的10个百分位折线图")
plt.legend([sepal_length1,sepal_length2,sepal_length3],labels=['山鸢尾花','杂色鸢尾花','佛及利亚鸢尾花'])
plt.show()

d) 在一个图中展示花萼长与宽的散点图

import pandas as pd
import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams['font.sans-serif']=['SimHei']
iris_data = pd.read_csv("iris.csv", header=None, names=['sepal length', 'sepal width',
                                                        'petal length', 'petal width', 'species'])
iris = pd.DataFrame(iris_data)
plt.scatter(iris[iris['species']==1]['sepal length'],iris[iris['species']==1]['sepal width'])

plt.scatter(iris[iris['species']==2]['sepal length'],iris[iris['species']==2]['sepal width'])
plt.scatter(iris[iris['species']==3]['sepal length'],iris[iris['species']==3]['sepal width'])
plt.title('花萼长与宽的散点图', fontsize=24)
plt.xlabel('sepal length', fontsize=14)
plt.ylabel('sepal width', fontsize=14)
plt.show()

e) （选做）将杂色鸢尾花和维吉利亚鸢尾花的花瓣长度分别进行等宽离散化为5个区间，分别统计两种花的花瓣长度的离散值相同的数量在本类花的占比，并分别用饼状图展示离散化的区间占比。

待补充···

四、实验小结

通过本次实验我复习了数据集成、数据清洗、及数据变换等数据处理的相关操作，认识到了新的matplotlib函数库并加以使用。
matplotlib是一个优秀的画图工具库，可以实现很多功能，值得深度研究和探索。
学会使用matplotlib库的基本功能，如用matplotlib画折线图、散点图、直方图、箱型图等等。
matplotlib中的的函数较多，需要多多练习和写代码来实现，才能更好的运用。
本次实验中用了经典的iris数据集，同时用数据可视化的方法去展示iris数据集中的内容，数据可视化的作用是可以通过直观的图表来表示三种鸢尾花的各项属性值的变化，更有利于对比。
自己的知识还存在很多漏洞和缺口，课下需要多加努力学习。

Original: https://blog.csdn.net/weixin_46264660/article/details/124303833
Author: 寒夜点孤灯
Title: 数据挖掘 | 实验二数据的可视化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/764629/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python怎样循环等待输入_如何暂停for循环并等待用户输入matplotlib

对不起，我的题目不太容易通读。在这是我的问题。在我正在尝试拍摄一个图片文件并循环遍历每个像素。在我想在每个像素上显示像素文件图像的matplotlib图形(完成) 一旦图形显…

Python 2023年9月7日
0054
import 导入模块或包

文件就是一个模块,文件夹就是一个包文件夹中可以有很多文件，相当于包中有很多模块。 [En] There can be many files in the folder, which…

Python 2023年5月24日
0089
python openpyxl三行代码将列表数据依次加入excel单元格并生成图表

OpenPyXL OpenPyXl 几乎可以实现所有的 Excel 功能，而且接口清晰，文档丰富，学习成本相对较低。用 pip 安装 pip install openpyxl 使…

Python 2023年8月28日
0043
普通函数、参数、匿名函数、高阶函数、递归函数、闭包、装饰器

定义函数 def fn(): print("这是函数内部") 调用 fn() fn() 区分 fn: 这是真正意义上的函数本身 fn(): 这是调用函数函数参…

Python 2023年6月9日
0038
【毕业设计】大数据上海租房数据爬取与分析可视化 -python 数据分析可视化

1 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求…

Python 2023年8月3日
0055
Pytorch安装，这一篇就够了，绝不踩坑

在pytorch安装时踩到了不少坑，看了好多博客，最后整合了一份不会踩坑的安装教程，主要是参考各个博主的内容，从零开始安装pytorch，分享给大家！因为这篇文章是整合各个链接，…

Python 2023年9月16日
0061
[C++] 非递归实现前中后序遍历二叉树

前置技能需求描述 binarytree.h 具体实现 binarytree.cpp main.cpp 网上代码一搜一大片，大同小异咯。书上的函数实现代码甚至更胜一筹，而且抄一遍就…

Python 2023年6月6日
0061
Python编程从入门到实践(第2版) 练习14-4

要求在游戏《外星人入侵》中设置不同的难度等级，并增加让玩家选择起始难度等级的功能。我认为练习的要求可以拆解为以下几点： 1，设置几个不同的难度等级可供玩家选择。 2，玩家只能在游…

Python 2023年9月23日
0035
Python库函数 Matplotlib安装及详解

Matplotlib 是一个Python 的2D 绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。通过Matplotlib ，开发者可以仅需要几行代码，便可以…

Python 2023年8月30日
0051
深入解读[面向对象五大设计原则]

最近在看许世伟的架构课, 面向对象五大设计原则(SOLID)，扣理论找出处。早期我跟着大家人云亦云，回过头来，抠字眼找出处，五大设计原则真的很有功力。注意区分设计原则和设计…

Python 2023年10月20日
0038
基于内容、用户算法推荐

推荐算法： 1.获取数据集 2.根据数据集，做数据分析，分析一定规律（相似度） 3.人为定义阈值k，根据分析结果，做筛选 4.筛选正相关匹配的内容 5.筛选出推荐内容进行排…

Python 2023年8月22日
0040
pytest+yaml基础练习

python有个框架叫unittest，我们曾经学过它的数据驱ddt，通过数据驱动来实现多用例测试，文章链接：Python+unittest+ddt+excel实现多用例自动化测试…

Python 2023年9月10日
0026
Scrapy爬取小实战——以新浪股市为例

好的，我可以为您提供爬_虫教程，以下是使用 _Scrapy_框架 _爬取_豆瓣电影TOP250的步骤： 1. 创建 _Scrapy_项目首先需要使用 _Scrapy_命令行工…

Python 2023年10月2日
0058
Node.js | Express+MongoDB 实现简易用户管理系统（一）（项目搭建 | RESTful API架构 | 前后端交互）

### 回答1：在搭建_前后 _端_分离平台时，可以使用多种框架。具体选择哪种框架取决于你的需求和技能水平。如果你希望快速 _搭建_一个前后 _端_分离平台，你可以考虑使用以…

Python 2023年11月7日
0041
【python爬虫案例】爬取微博任意搜索关键词的结果，以“唐山打人”为例

一、爬取目标二、展示爬取结果三、讲解代码四、同步视频 4.1 演示视频 4.2 讲解视频五、附：完整源码一、爬取目标大家好，我是马哥。今天分享一期python爬虫案例…

Python 2023年5月23日
00141
初识设计模式 – 代理模式

举个简单的例说明代理模式就是：假如现在需要买一辆二手车，可以自己去找车源、做质量检测等一系列车辆过户的流程，但是这实在太浪费时间和精力了，其实可以通过找中介的方式，同样会找车源、做…

Python 2023年10月20日
0030

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据挖掘 | 实验二 数据的可视化