读懂GSnet（一）：pandas读取pkl格式的多维数组，可视化理解时空数据

2023年7月18日上午2:27 • 人工智能 • 阅读 97

GSNet数据解读

原始数据
*
1. all_data.pkl
2. risk_mask.pkl
3. risk_adj.pkl
4. road_adj.pkl
5. poi_adj.pkl
6. grid_node_map.pkl
数据理解
*
维度
格式
如何读取四维数组？
*
读空间分布
读时间分布
读其它分布
结语

之前很少用过多维数组，不知道怎么读取。今天阅读论文《Learning Spatial-Temporal Correlation from Geographical and Semantic Aspects for Traffic Accident Risk Forecasting（AAAI 2021）》时，文章提供的原始数据是4维的，正好研究一下。

原始数据

代码和原始数据：https://github.com/Echohhhhhh/GSNet

cd到nyc文件夹，可以看到数据的Readme文件。我做了部分修改和说明后，摘录如下：
可以发现，原始数据由one-hot的0/1数据、和数值类型的温度、风险数据组合而成

1. `all_data.pkl`

2013.1~2013.12，one time interval is 1h
shape(T, D, W, H),D=48
T is the time line
D is the feature vector, descripted as follows:

0:risk(numeric,sum)
1~24:time_period，(one-hot)
25~31:day_of_week，(one-hot)
32:holiday，(one-hot)

33~39:POI (numeric)

40:temperature (numeric)
41:Clear,(one-hot)
42:Cloudy，(one-hot)
43:Rain，(one-hot)
44:Snow，(one-hot)
45:Mist，(one-hot)

46:inflow(numeric)
47:outflow(numeric)

W*H denotes the spatial grids.

基于原始数据，作者还抽取了以下五种预处理后的数据。

2. `risk_mask.pkl`

shape(W,H)
top risk region mask
z

3. `risk_adj.pkl`

risk similarity graph adjacency matrix
shape (N,N)

4. `road_adj.pkl`

road similarity graph adjacency matrix
shape(N,N)

5. `poi_adj.pkl`

poi similarity graph adjacency matrix
shape(N,N)

6. `grid_node_map.pkl`

map graph data to grid data
shape (W*H,N)

df = pd.read_pickle("./grid_node_map.pkl")
d2 = pd.DataFrame(df).astype(int)
d3 = np.array(d2)

shape = d3.shape
for i in range(shape[0]):
    for j in range(shape[1]):
        if d3[i][j] == 1:
            print(i,j)

print(shape)

数据理解

维度

T T T:时间轴（8760）
D D D: 特征数量（48），具体说明参见上文（ all_data.pkl）的解释
W , H W,H W ,H: 网格的横纵坐标（20*20）

格式

pkl文件是python里面保存文件的一种格式，如果直接打开会显示一堆序列化的东西（二进制文件）。
常用于保存神经网络训练的模型或者各种需要存储的数据。一般而言，通过pandas可以读取为numpy数组。

如何读取四维数组？

四维数组不好直观在Excel等软件中展示。一个很显然的想法是进行 数据降维，固定某1-3个维度，展示其它维度的数据分布。

读空间分布

求每个网格在所有时间内的Accident次数总和分布，用热力图展示

import pandas as pd
import numpy as np
import seaborn as sb
df = pd.read_pickle("./all_data.pkl")

d_accident = df[:,0,:,:]
print(d_accident.shape)

d2 = sum(d_accident)
print(d2.shape)
d2 = pd.DataFrame(d2).astype(float)
print(d2.shape)

结果：可以发现，在某一地区，事故比较集中。

读时间分布

求每个时段在所有空间内的Accident次数总和分布，用折线图展示


d_3 = np.sum(d_accident,axis = 1)
print(d_3.shape)
d_4 = np.sum(d_3,axis = 1)
print(d_4.shape)

d4 = pd.DataFrame(d_4).astype(float)
import matplotlib.pyplot as plt
x = np.linspace(0,len(d4),len(d4))
plt.plot(x, d4.values)
plt.show()

结果： 可以发现事故在时间上具有一定的周期性，整体而言比较平稳。

读其它分布

可以考虑直接通过数组索引的方式，如 df[:,0,:,:]读取（0是事故的index）

结语

Data understanding是做任何数据科学项目的第一步；通过合适的数据可视化方法，可以直观的展现数据的趋势。

Original: https://blog.csdn.net/qq_41145832/article/details/120721276
Author: 朗泰乐
Title: 读懂GSnet（一）：pandas读取pkl格式的多维数组，可视化理解时空数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/699950/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

合成孔径雷达成像算法与实现(信号处理基础知识点)

最近由于学业上需要，重新学习了《合成孔径雷达成像算法与实现》一书，其中第二章是信号处理基础，在此记录下学习过程。一、信号处理基本概念 1.卷积与相关卷积：相关: 卷积从几何解…

人工智能 2023年6月20日
0098
【目标检测-原理讲解导航】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月12日
0091
MySQL-索引

一、介绍索引是数据库对象之一，用于提高字段检索效率，使用者只需要对哪个表中哪些字段建立索引即可，其余什么都不做，数据库会自行处理。索引提供指向存储在表的指定列中的数据值的指针，…

人工智能 2023年7月30日
0097
数仓建模，什么是宽表？如何设计？好处与不足

宽表的设计其实宽表是数仓里面非常重要的一块，宽表主要出现在dwd 层和报表层，当然有的人说dws 层也有宽表，从字面意义上讲就是字段比较多的数据库表，通常情况下是将很多相关的数…

人工智能 2023年6月19日
0092
利用CNN实现图像和数值数据融合

利用CNN实现图像（MRI）和数值数据融合一、背景在很多实际任务当中，模型构建数据类型多样，有数值型、图像、音频等各式各样的数据，如果单纯利用某种类型的数据构建分类或回归模型，…

人工智能 2023年7月13日
0067
初识GBDT回归流程

一、写在前面自己对于GBDT的过程不是很了解，所以找了些资料学习了一下。这篇文章会以一个小例子，简单介绍一下用 GBDT做回&…

人工智能 2023年6月18日
00106
OpenCV学习笔记（一）Opencv4.5.5 VS2019永久开发环境配置

OpenCV 入门指南一、介绍 OpenCV（Open Source Computer Vision Library）开放源代码计算机视觉库，主要算法涉及图像处理、计算机视觉和…

人工智能 2023年6月20日
00106
计算机视觉项目实战-目标检测与识别

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉深度学…

人工智能 2023年7月25日
0085
多分类决策树 r语言_R语言 | 多分类建模+ROC曲线绘制

大家好，我是菜鸟君。之前提到过R语言分类模型构建，以及R语言绘制ROC曲线的方法。然后在后台收到小伙伴的留言：我才意识到，确实是我之前考虑的不周到，只考虑到视频时长的原因，所以拆…

人工智能 2023年7月3日
0096
GoogleColab无敌详细使用教程

目录什么是Google Colab 谷歌云盘（Google Driver）一、使用Colab进行训练 1.数据集的上传 2、预训练权重的上传 3.深度学习网络的上传二、打开C…

人工智能 2023年7月24日
00149
pytorch 12 支持任意维度数据的梯度平衡机制GHM Loss的实现（支持ignore_index、class_weight，支持反向传播训练，支持多分类）

梯度平衡机制GHM(Gradient Harmonized Mechanism) Loss是Focal loss的升级版，源自论文Gradient Harmonized Singl…

人工智能 2023年7月1日
0062
GEE：DTW（Dynamic Time Warping）动态时间规整，Sentinel-2 时间序列分类

时间动态规整算法（Dynamic Time Warping，DTW）是一种常用到的时间序列分析方法，常用于时间序列分类、模式发现。卫星影像时间序列分类的动态时间规整介绍：http…

人工智能 2023年7月3日
00112
3 评价类算法：熵权法笔记（附Python代码）

一、原理 1.引例从下图可以看到，越可能发生的事情信息量越少。而我们使用概率来衡量事情发生的可能性。 ; 2.定义熵权法是一种可以用于多对象、多指标的综合评价方法，其评价结果…

人工智能 2023年6月16日
0090
信号方面概念解释（笔记04）

1、信号：信息的承载方式，数学上表示为一个或多个变量的函数（自变量通常为时间t，也可以是高度、深度等）。连续时间信号：信号函数的定义域是连续的，常用想x(t)来表示，即x是连续…

人工智能 2023年5月27日
00101
【YOLO3D】:端到端3D点云输入的实时检测

YOLO3D:端到端3D点云输入的实时检测前言算法分析 * 模型输入网络结构回归损失 – 3D box 回归偏航角回归边界框损失函数数据集处理 &#821…

人工智能 2023年5月28日
0082
语音特征信号分类—BP神经网络—MATLAB实现

语音特征信号识别是语音识别研究领域中的一个重要方面，一般采用模式匹配的原理解决。语音识别的运算过程为: 首先,待识别语音转化为电信号后输入识别系统,经过预处理后用数学方法提取语音…

人工智能 2023年5月23日
00112

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

读懂GSnet（一）：pandas读取pkl格式的多维数组，可视化理解时空数据

GSNet数据解读

1. all_data.pkl

2. risk_mask.pkl

3. risk_adj.pkl

4. road_adj.pkl

5. poi_adj.pkl

6. grid_node_map.pkl

维度

格式