pandas之数据结构介绍

2023年7月8日上午4:55 • 人工智能 • 阅读 69

Python中的pandas库是数据分析中经常用的一个库，打开、转换csv、xlsx、txt文件、数据清洗、查找数据、简单的作图等等。

pandas中的所有操作是基于两种数据结构：DataFrame和Series，本文就先主要介绍这两种数据结构，后续再介绍基于它们的操作。

2.1 创建Series

Series是⼀种类似于⼀维数组的对象，它由⼀组数据（各种NumPy数据类型）以及⼀组与之相关的数据标签（即索引）组成。

import pandas as pd
obj = pd.Series([4, 7, -5, 3])
obj

输出：

0    4
1    7
2   -5
3    3
dtype: int64

Series的字符串表现形式为：索引在左边，值在右边。由于我们没有为数据指定索引，于是会 ⾃动创建⼀个0到N-1（N为数据的⻓度）的整数型索引。

我们可以通过Series的 values和 index属性获取其数组表示形式和索引对象。

查看索引：

obj.index

输出： RangeIndex(start=0, stop=4, step=1)

查看值：

obj.values

输出： array([ 4, 7, -5, 3])

在创建Series的时候，加上参数 index并赋值我们想要设置的索引即可。

obj = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj

输出：此时的输出就带上了我们设置的索引：[‘d’, ‘b’, ‘a’, ‘c’]，而不是默认的[0, 1, 2, 3]

d    4
b    7
a   -5
c    3
dtype: int64

如果数据被存放在字典里，那么我们可以直接将其创建为Series对象，索引就是字典的键。

data = {'a': 20, 'b': 30, 'd': 50}
obj = pd.Series(data)
obj

输出：

a    20
b    30
d    50
dtype: int64

DataFrame是pandas用的最多的数据结构，它和Series不同，Series只有一列，而DataFrame可以有多列。DataFrame的结构形式和sql比较像，每一列可以看作是一个字段，一个特征（机器学习），而每一行则是所有列的取值。

3.1 创建DataFrame

创建DataFrame的方法有很多，本文只介绍常用的几种。


data = np.random.randn(3, 5)
df = pd.DataFrame(data)
df

输出：


        0           1           2            3          4
0   0.614040    0.202512    -2.668371   0.645818    -1.167729
1   0.086797    2.109643    0.130015    -0.865688   0.034858
2   1.956728    1.868124    0.085561    -1.188619   0.323035

DataFrame既有⾏索引也有列索引，它可以被看做由Series组成的字典（共⽤同⼀个索引），因此和Series一样，当我们没有设置索引时，DataFram的行索引和列索引都是0， 1， ……，N-1

同样，我们可以通过DataFrame的values属性查看它的值，index属性查看它的行索引，columns属性查看它的列索引（列名）：

查看值：

df.values

输出：

array([[ 0.61403982,  0.20251155, -2.66837106,  0.64581832, -1.16772939],
       [ 0.08679744,  2.10964251,  0.13001494, -0.86568831,  0.03485802],
       [ 1.9567277 ,  1.86812424,  0.08556118, -1.18861883,  0.32303491]])

查看行索引：

df.index

输出： RangeIndex(start=0, stop=3, step=1)

查看列索引（列名）：

df.columns

输出： RangeIndex(start=0, stop=5, step=1)

由于DataFrame既有行索引index，又有列索引（列名）columns，因此创建时可根据需要创建其中一个或都创建。

data = np.random.randn(3, 5)
df = pd.DataFrame(data, index=['a', 'b', 'c'], columns=['aa', 'bb', 'cc', 'dd', 'ee'])
df

输出：

        aa          bb          cc          dd          ee
a   -0.284388   -0.238337   0.115592    -0.722185   -0.798702
b   -1.875249   0.248238    -0.140116   0.775234    -0.873626
c   0.343352    1.166614    0.757785    0.304297    0.520813

和创建Series类似，也可以利用字典创建DataFrame，此时字典的键会变为列名。

data = {'name': ['apolo', 'adm', 'bolon', 'cathy'],
        'age': [18, 29, 32, 28],
        'sex': ['male', 'female', 'male', 'male']}
df = pd.DataFrame(data)
df

输出：

    name    age  sex
0   apolo   18  male
1   adm     29  female
2   bolon   32  male
3   cathy   28  male

Original: https://blog.csdn.net/TSzero/article/details/115302612
Author: 诡秘愚者
Title: pandas之数据结构介绍

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677799/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python视频操作——python实现读取和保存视频

python读取和保存视频内容来自博客+博客~ 读取视频用cv2库的好处是返回的就是arrary，不用转换，但这种方法是从头读到尾利用cv2库读取视频，代码实现如下： imp…

人工智能 2023年5月26日
0083
文献阅读笔记–深度学习图像修复方法综述

1、基本信息：深度学习图像修复方法综述强振平，何丽波，陈旭，徐丹2018-10中国图像图形学报2、核心内容：（1）基于深度学习的图像修复理论及其发展现状的综述，所使用的方法是对基于…

人工智能 2023年6月22日
0071
pytorch快速上手（10）—–netron查看神经网络结构图

部分参考自：https://zhuanlan.zhihu.com/p/431445882 文章目录 netron介绍 * 1. pytorch导出onnx格式模型文件 2. net…

人工智能 2023年7月23日
0070
R语言批量把dataframe多个分类变量因子化处理、批量把多个分类变量转换为因子变量

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月20日
0074
突破数据分析瓶颈，寻因生物单细胞测序数据分析迈入云时代

世上没有两片完全相同的树叶，人体内的每两个细胞也是截然不同的。长久以来，基因检测技术主要是在组织层面对样本进行解析，获得的是成千上万个细胞的平均值，但这会让很多信息是被隐匿，对疾病…

人工智能 2023年6月11日
0080
Pytorch中nn.Module中的self.register_buffer解释

self.register_buffer作用解释今天遇到了这样一种用法，self.register_buffer(‘name’,Tensor)，该方法的作…

人工智能 2023年7月20日
0065
Day04-GET和POST请求

一：小程序中网络请求的限制（只能请求HTTPS接口，接口的域名添加到信任列表中）二.配置request合法域名我的操作： 1> 2> 在微信小程序里面：三：发起G…

人工智能 2023年6月27日
0073
A Toolkit for Generating Code Knowledge Graphs生成代码知识图谱的工具

事实证明，知识图谱在多种支持语义搜索和自然语言理解的应用程序方面非常有用。本文提出GraphGen4Code，一种工具集构建代码的知识图谱，支持程序搜索，代码理解，bug检测和代码…

人工智能 2023年6月1日
00142
【机器学习】用特征量重要度(feature importance)解释模型靠谱么？怎么才能算出更靠谱的重要度？

【机器学习】用特征量重要度(feature importance)解释模型靠谱么？怎么才能算出更靠谱的重要度？我们用机器学习解决商业问题的时候，不仅需要训练一个高精度高泛化性的模…

人工智能 2023年6月15日
00105
pandas学习笔记（九）

一.时序的创建 1.四类时间变量名称描述元素类型创建方式① Date times（时间点/时刻）描述特定日期或时间点Timestampto_datetime或date_range…

人工智能 2023年7月8日
0055
FusionGAN：一种生成式红外与可见光图像融合对抗网络

FusionGAN：一种生成式红外与可见光图像融合对抗网络 FusionGAN：一种生成式红外与可见光图像融合对抗网络 * – 简要介绍损失函数网络架构训练细节 …

人工智能 2023年6月17日
00105
Pytorch搭建CNN进行图像分类

PyTorch是一个开源的Python机器学习库，2017年1月，由Facebook人工智能研究院（FAIR）基于Torch推出。最近抽出时间来亲身实践一下用PyTorch搭建一个…

人工智能 2023年7月21日
0099
R语言caret包构建机器学习回归模型（regression model）、使用DALEX包进行模型解释分析、特征重要度、偏依赖分析等

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0067
基于云平台的智能语音交互式灌溉系统

摘要：为实现小型农业灌溉系统的信息化和自动化，设计了一款基于云平台的智能语音交互式灌溉系统。通过空气温、湿度以及土壤湿度、环境光敏传感器获取作物相关信息，并通过Arduino和Es…

人工智能 2023年5月23日
00117
Java代码利用朴素贝叶斯分类算法实现信息分类

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naïve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该…

人工智能 2023年7月1日
0071
什么是自然语言处理(NLP)？

什么是自然语言处理(NLP)？你有没有和聊天机器人互动过？或者你是否向虚拟助手，例如Siri、Alexa或你车上的车载娱乐系统发出过某些请求？你使用过在线翻译吗？相信我们绝大多数…

人工智能 2023年5月25日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas之数据结构介绍

2.1 创建Series

3.1 创建DataFrame

大家都在看