python可视化动态图表: 关于pyecharts的sankey桑基图绘制

2023年6月3日上午10:47 • Python • 阅读 79

最近因工作原因，需要处理一些数据，顺便学习一下动态图表的绘制。本质是使具有源头的流动信息能够准确找到其上下级关系和流向。

数据来源是csv文件导入成为dataframe之后,列为其车辆的各部件供应商公司名称或其自身的属性。

导入后经过处理期望是看到整个工业的供应链和市场份额.

结果的部分截图:

数据来源:

核心是将以上数据处理成接口需要的两个数据，一个是所有节点的名称。另一个是节点之间互相链接的值，见下图

NODE: 所有桑基图的节点集合

link: 每一个数据流的起始，结束，与值。

核心统计原理是：

先确定从左到右的统计大纲：在本次案例中为:

接下来就是找大纲序列中当前大类中对应下一级的小类的数目,例: 案例第一步即找最高车速段中最高车速能力在

统计代码:

link 数据架构
link=[]
for i in range(len(title)):
    temp0=list(class_item)
    for j in list(class_item[temp0[i]]):
        try:
            for k in list(class_item[temp0[i+1]]):
                df1=df[df[temp0[i]]==j]
                df2=df1[df1[temp0[i+1]]==k]
                temp_value=len(df2)
                if temp_value!=0:
                    link.append({'source':j,
                                 'target':k,
                                 'value':temp_value})
                    del df1
                    del df2
        except:
            continue

总代码:

数据架构 总领数据架构-品牌-车辆用途-
import matplotlib.pyplot as plt
from pyecharts import Pie,Bar,Page,Bar3D,Overlap,Line,Boxplot,Surface3D,Sankey,EffectScatter
import pandas as pd
import numpy as np
df=pd.read_excel(r'C:\Users\wenzhe.tian\Desktop\数据分析\北理新能源数据v2\02_20190301\2EV_v2.xlsx','Sheet1')
df_ori=df.copy()
#数据处理部分 添加项目，替换重复 格式统一 去掉空格 等
df=df[df.技术类型.str.contains('EV',regex=False)]
df=df.reset_index()
df=df.drop('index',axis=1)

#数据格式处理
df['车型分类']=df['车型分类'].fillna('nan')
df=df[~df['车型分类'].isin(['nan'])] # 江淮ES8供应商数据大量缺失,故排除 也可drop
df['电动汽车续驶里程（工况法，km）']=df['电动汽车续驶里程（工况法，km）'].fillna(0)
df['车辆品牌']=df['车辆品牌'].map(str).replace('传祺（Trumpchi）牌','传祺(Trumpchi)牌')
df['通用名称'][df['电动汽车续驶里程（工况法，km）']==0]='ES8'
df['电动汽车续驶里程（工况法，km）'][df['电动汽车续驶里程（工况法，km）']==0]=355
df['电动汽车续驶里程（工况法，km）'][df['电动汽车续驶里程（工况法，km）']=='155(对应整备质量750kg),165(对应整备质量700kg)']=165
df['电动汽车续驶里程（工况法，km）'][df['电动汽车续驶里程（工况法，km）']==170203203]=255
df['电动汽车续驶里程（工况法，km）']=df['电动汽车续驶里程（工况法，km）'].fillna(0)
df['最高车速']=df['最高车速'].astype(int)
df['电动汽车续驶里程（工况法，km）']=df['电动汽车续驶里程（工况法，km）'].astype(int)
df['最高车速段']=df['最高车速'].astype(str)
df['续驶里程段']=df['电动汽车续驶里程（工况法，km）'].astype(str)

#df['电池能量密度']=df['电池容量']*df['储能装置总成标称电压（V）']/df['储能装置总成质量（kg）']

df['整备质量（kg)'][(df['整备质量（kg)'].isnull()) | (df["整备质量（kg)"].apply(lambda x: str(x).isspace()))]=2390
去掉前后空格
title=list(df)
df['储能装置单体质量（kg）']=df['储能装置单体质量（kg）'].astype(str)
for i in title:
    try:
        df[i]=df[i].map(str.strip)
    except:
        continue

#重复值处理
df=df.replace('比亚迪汽车工业有限公司,比亚迪汽车工业有限公司', '比亚迪汽车工业有限公司')
df=df.replace('比亚迪汽车工业有限公司/比亚迪汽车工业有限公司', '比亚迪汽车工业有限公司')
df=df.replace('山东德洋电子科技有限公司,山东德洋电子科技有限公司', '山东德洋电子科技有限公司')
df=df.replace('深圳市大地和电气股份有限公司(软件)/深圳市大地和电气股份有限公司(硬件)', '大地和电气')
df['最高车速段'][(df['最高车速']''
df['最高车速段'][((df['最高车速']'最高车速']>180))]='180-200km/h'
df['最高车速段'][(df['最高车速']>200)]='>200km/h'

df['续驶里程段'][(df['电动汽车续驶里程（工况法，km）']''
df['续驶里程段'][((df['电动汽车续驶里程（工况法，km）']'电动汽车续驶里程（工况法，km）']>60))]='60-80km'
df['续驶里程段'][(df['电动汽车续驶里程（工况法，km）']>80)]='>80km'
title=['最高车速段','续驶里程段','车辆用途','企业名称','车型分类','车辆品牌',
       '电机生产商','电动汽车整车控制器生产企业','电动汽车车载充电机生产企业','储能装置总成生产企业','车载能源管理系统生产企业']

#无效值处理
for i in title:
    df[i]=df[i].astype(str)
    df[i]=df[i].map(lambda x: x.replace('有限公司','').replace('股份','').replace('公司','').replace('分','').replace(' Company','').replace(' company','').replace('牌','品牌').replace('北京新能源汽车','北汽新能源'))
    df[i]=df[i].map(lambda x: x.replace('浙江','').replace('山东','').replace('广州汽车集团乘用车','广汽').replace('杭州','').replace('江西','').replace('合肥',''))
    df[i]=df[i].map(lambda x: x.replace('深圳市','').replace('永康市','').replace('珠海','').replace('郑州','').replace('软件:','').replace('硬件:','').replace('北京:','').replace('长沙市','').replace('金华市',''))
    df[i]=df[i].map(lambda x: x.replace('nan','北汽新能源').replace('（','(').replace('）',')').replace('()','').replace('/深圳市大地和电气','').replace('开发企业','').replace('生产企业','').replace('福建省汽车工业集团云度新能源汽车','云度新能源'))
    df[i]=df[i].map(lambda x: x.replace('电机1:华域汽车电动系统/电机2:华域汽车电动系统','华域汽车电动系统').replace('前:蔚然(南京)动力科技/后:蔚然(南京)动力科技','蔚然(南京)动力科技'))
    if i =='最高车速段':
        str_item='最高车速'
    elif i =='续驶里程段':
        str_item='续航里程'
    elif i =='电机生产商':
        str_item='MOT'
    elif i =='电动汽车整车控制器生产企业':
        str_item='MC'
    elif i =='电动汽车车载充电机生产企业':
        str_item='OBC'
    elif i =='储能装置总成生产企业':
        str_item='BAT'
    elif i =='车载能源管理系统生产企业':
        str_item='BMS'
    else:
        str_item=''

    df[i]=df[i].map(lambda x: str_item+x)

class_item={}
for i in title:
    class_item[i]=df[i].drop_duplicates()

node=[]
for i in title:
    for j in list(class_item[i]):
        node.append({'name':j})
link 数据架构
link=[]
for i in range(len(title)):
    temp0=list(class_item)
    for j in list(class_item[temp0[i]]):
        try:
            for k in list(class_item[temp0[i+1]]):
                df1=df[df[temp0[i]]==j]
                df2=df1[df1[temp0[i+1]]==k]
                temp_value=len(df2)
                if temp_value!=0:
                    link.append({'source':j,
                                 'target':k,
                                 'value':temp_value})
                    del df1
                    del df2
        except:
            continue

sankey = Sankey("EV供应商链统计",width=6000, height=700)
sankey.use_theme('roma') #roma wonderland
sankey.add(
    "EV供应商统计",
    node,
    link,
    line_opacity=0.2,
    line_curve=0.3,
    line_color='source',
    sankey_node_gap=13,
    is_label_show=True,
    label_pos="right",
    is_legend_show =False,
    label_text_size=11
)
sankey.render('EV供应商统计_All.html')
del sankey

sankey = Sankey("EV供应商链统计",width=6000, height=1500)
sankey.use_theme('roma') #roma wonderland
sankey.add(
    "EV供应商统计",
    node,
    link,
    line_opacity=0.2,
    line_curve=0.3,
   line_color='source',
    sankey_node_gap=13,
    is_label_show=True,
    label_pos="right",
    is_legend_show =False,
    label_text_size=12
)
sankey.render('EV供应商统计_All_v2.html')

View Code

(之前是用plotly，后来发现pyecharts接口稍微简单些，其实都差不多，但plotyly可以一些特殊地图绘制比pyecharts来的精细，所以看绘图需求吧)

附上链接:https://plot.ly/python/ https://pyecharts.org/#/zh-cn/intro 用于查阅需要绘制的图的种类

Original: https://www.cnblogs.com/techs-wenzhe/p/10931691.html
Author: 冻雨冷雾
Title: python可视化动态图表: 关于pyecharts的sankey桑基图绘制

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/564540/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

零基础学 Python 之前，你该了解这些。

大家好，我是 Rocky0429。很久之前，我写了《零基础入门学习Python》系列，放在了我的原创电子书《Python修炼之道》。爆肝整理 400 页《Python 修炼之…

Python 2023年9月23日
0045
FastAPI 学习之路（三十八）Static Files

如果使用前后台不分离的开发方式，那么模板文件中使用的静态文件，比如css/js等文件的目录需要在后台进行配置，以便模板渲染是能正确读到这些静态文件。那么我们应该如何处理呢。首先安…

Python 2023年5月25日
0056
爬虫入门_9：增量式爬虫

代码实现启动redis服务和打开redis终端启动redis：双击红框，启动服务打开redis客户端：注意要修改编码格式为’UTF-8’，不然中文显示…

Python 2023年10月1日
0035
一文理解Cookie、Session

一文理解Cookie、Session 1、什么是会话用户打开浏览器，点击多个超链接，访问服务器的多个web资源，然后关闭浏览器，整个过程就称为一个会话； HTTP 是无状态，有会…

Python 2023年10月17日
0031
python 基础

df-list=df 列要相等 series-list=series 长度要相等 array-list=array 长度要相等 df-df=df 长度可以不相等 series-se…

Python 2023年8月19日
0058
anaconda虚拟环境中安装akshare并配置在jupyter中使用配置好的conda虚拟环境

安装 conda create -n ak_test python=3.8.5 conda activate ak_test pip install akshare -i http…

Python 2023年9月9日
0035
【多目标跟踪与计数】（三）DeepSORT实战车辆和行人跟踪计数

一、DeepSort介绍论文地址： https://arxiv.org/pdf/1703.07402.pdf 参考文章： DeepSort讲解代码地址： https://git…

Python 2023年10月1日
0032
时间序列信号处理（五）——小波变换python实现

简介：小波变换(wavelet transform，WT)相比短时傅里叶变换来说，由固定窗口大小变成了自适应的窗口大小去进行信号处理，能够提供一个随频率改变的”时间-…

Python 2023年8月1日
0053
利用Scrapy进行数据爬取

目录爬虫框架Scrapy简介 Scrapy爬取步骤 Step1：安装Scrapy Step2：新建项目 Step3：创建爬虫文件 Step4：编写爬虫代码 Step5：运行爬虫项…

Python 2023年10月2日
0039
【python数据分析】：数据预处理之数据标准化

数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于…

Python 2023年8月17日
0041
python学生管理系统(pyqt5 含界面)

学生管理系统项目流程项目模块账号登陆人脸识别增添学生信息删除学生信息改动学生信息查询学生信息项目主体框架 app.py为主代码，负责用于界面打开展示。 img文件夹…

Python 2023年11月5日
0041
matplotlib 的使用技巧（局部放大图、坐标轴设置、边框设置、横纵比设置）

文章目录前言使用步骤提示：功能可相互独立，不必按此目录顺序执行 * 1.引入库 – 1.1 绘制初始图像 2.局部放大图（调整坐标轴显示范围、翻转坐标轴、隐藏坐标…

Python 2023年8月30日
0050
QSAN: A Quantum-probability based Signed Attention Network for Explainable False Information Detection-CIKM20

一、摘要在社交媒体上的虚假信息检测具有挑战性，因为它通常需要烦冗的证据收集，但又缺乏可用的比较信息。从用户评论中挖掘出的线索作为群体智慧，可能对这项任务有相当大的好处。然而，考…

Python 2023年10月28日
0040
SMPL模型

SMPL的python版本在官方网站有两个，分别是SMPL_python_v.1.0.0，SMPL_python_v.1.1.0。区别是：SMPL_python_v.1.0.0不完…

Python 2023年8月28日
0063
5个非常有意思的python代码，谁运行谁知道

Python 能做很多无聊，但有意思的事情，例如接下来的一些案例。 Python 整蛊程序以下程序，不要发送代码，否则无法达到恶作剧的目的。 [En] The following…

Python 2023年5月24日
00107
Python不能做游戏？游戏实战之—–《ink spill》（附游戏完整源码）

嗨喽～小伙伴们，大家早上好，中午好，晚上好呀，通过前两章对Pygame的学习，我们了解了它的基本使用，附上链接： Python不能做游戏？一小时做出一个游戏！ Python不能做…

Python 2023年9月21日
0058

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python可视化动态图表: 关于pyecharts的sankey桑基图绘制

大家都在看