数据可视化（二）pandas和seaborn作图

2023年7月7日上午4:53 • 人工智能 • 阅读 93

pandas

pandas.DataFrame.plot(kind,x,y,title,figsize,grid)

可以通过Series或DataFrame对象调用，本质是对pyplot.plot()的一个包装器

kind默认为line折线图，gird默认为False不显示网格

例一

df = pd.read_csv(r'/.../600000.csv')
df['date'] = pd.to_datetime(df['date']) # 转换为时间序列
df.set_index('date',inplace=True) # 直接将'date'作为索引
df['close'].plot(figsize = (16,6)) #绘制指定列和索引的折线图

plot有返回值，可将其赋给一个对象

ax = df['close'].plot(figsize = (16,6)) # 将返回值赋给ax对象
ax.set_title('SH600000') # 通过对象调用pandas的方法
fig = ax.get_figure() # 将图片赋给figure对象

例二

DataFrame直接调用plot
df = pd.DataFrame(np.random.randn(1000,4),
                  index=pd.date_range('1/1/2000',periods=1000), # 生成随机时间，开始时间为1/1/2000
                  columns=list('ABCD'))
df = df.cumsum() # 每一列累加，并覆盖原值
df.plot(figsize = (16,5)) #默认indx作为x

例三

DataFrame调用plot
df = pd.DataFrame(np.random.randn(1000,4),
                  columns=list('ABCD'))
df['A'] = df['A'].cumsum() # 累加
df['F'] = pd.Series(list(range(len(df)))) # 索引
df.plot(x='F',y='A') # xy只用指定列名即可

条形图

DataFrame.plot(kind=’bar’)或DataFrame.plot.bar()

Series

Series
df = pd.DataFrame(np.random.randn(1000,4),
                  columns=list('ABCD'))
df = df.cumsum()
df.iloc[5].plot(kind='bar') # 取出第五行的数据Series，列名作为x轴

DataFrame

DataFrame
df = pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d'])
df.plot.bar(figsize=(12,5))

堆积条形图

堆积条形图
df = pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d'])
df.plot.bar(figsize=(12,5),stacked=True)

柱形图

柱形图
df = pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d'])
df.plot.barh(stacked=True)

直方图

展示单个变量的分布情况

DataFrame.plot(kind=’hist’)或DataFrame.plot.hist()

Series

df = pd.DataFrame({'a':np.random.randn(1000) + 1,
                  'b':np.random.randn(1000),
                  'c':np.random.randn(1000) - 1},
                  columns=['a','b','c'])
df['a'].plot.hist(alpha=0.6)

DataFrame

DataFrame
df = pd.DataFrame({'a':np.random.randn(1000) + 1,
                  'b':np.random.randn(1000),
                  'c':np.random.randn(1000) - 1},
                  columns=['a','b','c'])
df.plot.hist(alpha=0.6) # 默认在同一个图中展示多个变量，但一般不会这样用

df = pd.DataFrame({'a':np.random.randn(1000) + 1,
                  'b':np.random.randn(1000),
                  'c':np.random.randn(1000) - 1},
                  columns=['a','b','c'])
df.hist(alpha=0.6) # 通过DataFrame直接调用hist()

饼图

DataFrame.plot(kind=’pie’)或DataFrame.plot.pie()

Series

Series
series = pd.Series(3*np.random.rand(4), # 注意饼图所有变量取值应该为正
                  index=['a','b','c','d'],
                  name='series')
series.plot.pie(figsize=(6,6))

DataFrame

DataFrame
df = pd.DataFrame(3*np.random.rand(4,2),
                  index=['a','b','c','d'],
                  columns=['col_1','col_2'])
df.plot.pie(subplots=True,figsize=(12,8)) # 以子图的方式呈现多个字段的特征

散点图

两个变量

df = pd.DataFrame(np.random.randn(50,4),
                  columns=['a','b','c','d'])
ax = df.plot.scatter(x='a',y='b',color='DarkBlue',label='Group 1')
df.plot.scatter(x='c',y='d',color='g',label='Group 2',ax=ax) # 直接将坐标系赋给想要画的对象

三个变量

三维：颜色深浅
df = pd.DataFrame(np.random.randn(50,4),
                  columns=['a','b','c','d'])
df.plot.scatter(x='c',y='d',c='c',s=50,marker='+') # 将c列作为颜色 s=50是第四维：大小

Seaborn

seaborn样式

darkgrid, dark, whitegrid, white, ticks

通过set_style()函数选择样式

df_gdp = pd.read_csv(r'/.../gdp_data.csv')

sns.set_style('darkgrid') # 全局的影响

plt.plot(df_gdp['year'],df_gdp['gdp'])

通过set()方法

可以同时设置主题、调色板等多个参数

sns.set(style='whitegrid',palette='muted') # 先设置后作图
plt.plot(np.c_[np.zeros(8),np.arange(8)].T)

单变量分布图

displot()

tips = pd.read_csv(r'/.../tips.csv')
sns.displot(tips['total_bill'],kde=True) # kde密度曲线

tips

kdeplot()

sns.kdeplot(tips['total_bill']) # 只绘制密度曲线

多变量分布图

一般使用散点图来描述两个变量的相关关系

jointplot()

不仅显示两个变量的相关情况，也显示单个变量的分布情况

传入的数据类型为DataFrame

sns.jointplot(x='tip',y='total_bill',data=tips) # data需要是DataFrame类型的,xy分别为DataFrame的列名，data是数据来源

sns.jointplot(x='tip',y='total_bill',data=tips,kind='kde') # 改为密度图

pairplot()

绘制整个数据集两两对应的多变量分布图

自己对应自己时绘制单变量分布图（直方图）
不适用于数据量过大的情况

sns.pairplot(data=tips)

分类散点图

stripplot()

sns.set(style='white')
sns.stripplot(x='day',y='total_bill',data = tips) # 度量变量在每个分类上的取值
sns.despine() # 去除坐标轴

swarmplot()

sns.swarmplot(x='day',y='total_bill',data = tips) # 打散，可以看清楚每一个数据点

回归图

regplot()

回归线

阴影部分是95%的置信区间 ci=None去掉阴影部分

sns.regplot(x='total_bill',y='tip',data = tips)

lmplot()

三维用颜色表示
再加一个分类变量，绘制不同的子图

sns.lmplot(x='total_bill',y='tip',data = tips,hue='smoker',col='time') # smoker是分类变量

箱线图

ttn = pd.read_csv(r'/.../titanic.csv')  # 读取文件
sns.boxplot(ttn['pclass'],ttn['age'])

titanic.csv

Original: https://blog.csdn.net/weixin_56631477/article/details/123699751
Author: Kentos(acoustic ver.)
Title: 数据可视化（二）pandas和seaborn作图

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675515/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas-数据结构-Series（二）：Series的索引【下标索引、标签索引、切片索引、布尔型索引】

位置下标，类似序列 import numpy as np import pandas as pd s = pd.Series(np.random.rand(5)) print(‘s…

人工智能 2023年7月7日
0073
大数据毕业设计题目50例

1、”放管服”环境下科技政务大数据平台研究 2、大数据对会计的挑战及其应对策略试析 3、新疆畜牧业进入大数据时代 4、大数据时代高校教学实效问题与路径选择 …

人工智能 2023年7月25日
0081
2021中国大学MOOC 机器学习(温州大学) 最新中国大学MOOC满分章节测试答案

引言引言课后测试1、问题:哪一个是机器学习的合理定义？选项：A:机器学习从标记的数据中学习B:机器学习能使计算机能够在没有明确编程的情况下学习C:机器学习是计算机编程的科学D:…

人工智能 2023年6月30日
0072
基于pytorch语音识别_说话人分割聚类错误率从15.8%到2.2%的蜕变：基于序列传导的语音识别和说话人分割聚类模型联合…

在interspeech2019会议上，一篇名为《Joint Speech Recognition and Speaker Diarization via Sequence Tra…

人工智能 2023年5月27日
00105
Python中的切片(详细篇)学起来喔

Python中的切片知识. 在Python中，切片(slice)是对序列型对象(如list, string, tuple)的一种高级索引方法。普通索引只取出序列中一个下标对…

人工智能 2023年7月3日
0090
yolov7 网络架构深度解析

在美团yolov6刚出来不到一个月，yolov4的官方人马yolov7带着论文和代码高调现身，迅速霸屏，膜拜下速度和精度：四个字”多快好省”， yolov7…

人工智能 2023年6月26日
0093
知识图谱中基于学习注意力机制嵌入的关系预测论文解读

目录一.模型提出的原因二.文章大体思路三.模型贡献四.详细工作流程 1.图注意力机制(GATs)相关知识 2.本文工作流程公式解读 ①输入输出的定义 ②实体的Embeddi…

人工智能 2023年6月1日
0076
二维码识别与定位-方法2-利用opencv扩展库aruco

二维码识别作为一种快捷准确的技术已经应用与生活中的购物支付、物体识别及工业AGV导航等领域，典型的二维码识别开源库有arcuo,alvar以及OpenCV中的二维码检测API如QR…

人工智能 2023年7月19日
0065
OpenCV-白平衡(完美反射算法)

作者：翟天保Steven版权声明：著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处实现原理白平衡的意义在于，对在特定光源下拍摄时出现的偏色现象，通过加强对应的…

人工智能 2023年7月19日
0056
网络结构的设计是AI算法中常见的细节问题之一。网络结构包括层数、神经元数等，需要根据问题的复杂性进行合适的设计

问题：如何设计网络结构? 网络结构的设计是AI算法中的一个重要细节问题。网络结构指的是神经网络的层数、每层的神经元数量等。设计合适的网络结构对于解决问题的复杂性具有关键作用。下面将…

人工智能 2024年1月6日
0062
子空间聚类的常见评估指标及pytorch实现

子空间聚类的常见评估指标：ACC, SRE 和 CONN 引言 Evaluation Metrics * 聚类准确度（Clustering accuracy, ACC）子空间保持…

人工智能 2023年5月31日
0072
matlab封闭曲线拟合 (针对一些列离散点)

很久之前给大家介绍了如何用matlab进行图像轮廓坐标提取 (直通车：)，当时就立了个flag要给大家做一期有关如何用matlab进行封闭曲线拟合的博文，拖了这么，它终于与大家见面…

人工智能 2023年6月15日
00124
Bert+BiLSTM+CRF实体抽取

文章目录一、环境二、预训练词向量三、模型 * – 1、BiLSTM + – 不使用预训练字向量 – 使用预训练字向量 2、CRF 3、Bi…

人工智能 2023年7月4日
0099
多个一维列表（数组）存入csv文件或excel文件

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档一维列表（数组）和二维列表（数组）存入csv/excel/txt文件的方法，其实大同小异。只需要稍微修改一下就可以…

人工智能 2023年7月7日
0051
李宏毅机器学习课程作业-HW1

整篇文章是笔者自我一点点学习和理解其所给指导代码的记录学习。在读取文件的时候使用了pandas.read_csv()函数，其中enconding的参数时”big5&#…

人工智能 2023年7月6日
0070
02 pandas入门

目录 1. pandas数据结构介绍 1.1 Series 1.2 DataFrame 1.3 索引对象 2. 基本功能 2.1 重建索引 2.2 轴向上删除条目 2.3 索引、选…

人工智能 2023年7月8日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据可视化（二）pandas和seaborn作图

pandas.DataFrame.plot(kind,x,y,title,figsize,grid)

例一

例二

例三

条形图

Series

DataFrame

堆积条形图

柱形图

直方图

Series

DataFrame

饼图

Series

DataFrame

散点图

两个变量

三个变量

seaborn样式

通过set_style()函数选择样式

通过set()方法

单变量分布图

displot()

kdeplot()

多变量分布图

jointplot()

pairplot()

分类散点图

stripplot()

swarmplot()

回归图

regplot()

lmplot()

箱线图

大家都在看