Pandas

2023年7月16日下午12:04 • 人工智能 • 阅读 67

学习资料

Pandas名字衍生自术语”Panel Data”面板数据和”Data Analysis”数据分析两个名词的组合。在经济学中， Panel Data是一个关于多维数据集的术语。Pandas最初应用于金融量化交易领域。

Pandas出现前Python在数据分析任务主要承担着数据采集和数据预处理的工作，对数据分析支持十分有限。Pandas的出现使Python做数据分析的能力得到大幅提升，它主要实现了数据分析的五个重要环节：加载数据、整理数据、操作数据、构建数据模型、分析数据。

Pandas是一个强大的分析结构化数据的工具集，基于NumPy库(提供高性能的矩阵运算)开发而来，可与科学计算库配合使用。在概念上更接近Excel和SQL。

数据结构

构建和处理多维数组是一项繁琐的任务，Pandas解决了这一问题。它在NumPy的 ndarray组数基础上构建出两种不同的数据结构，分别是一维数据结构 Series和二维数据结构 DataFrame。

数据结构维数描述Series一维序列，带标签(索引)的一维数组，索引不限于整数，可以是字符串。DataFrame二维数据帧，一个表格型的数据结构，含有一组有序的列，每列可以是不同的值类型。既有行标签，也有列标签。

import pandas as pd
print(pd.__version__)

Series

Series结构也称为序列，是一种类似于一维数组的结构，由一组数据值 value和一组标签组成，标签与数据值之间是一一对应的关系。

Series是一维数据结构，维数不可改变。
Series数据结构能够存储各种数据类型
Series使用 name和 index属性来描述数据值

pandas.Series(data, index, dtype, copy)

参数必填描述dataN输入的数据，可以是列表、常量、

数组等。indexN索引值，必须唯一。若无则默认为

。dtypeN数据类型，若无则会自动推导得出。copyN是否对

进行拷贝，默认为

例如：创建空序列对象

import pandas as pd
s = pd.Series()
print(s) # Series([], dtype: float64)

pandas包一般使用别名 pd来代替

ndarray是NumPy中的数组类型，当 Series()中 data为 ndarray时，传递的索引必须具有与数组相同的长度。若没有给 index参数传参，默认索引值将使用 range(n)生成。索引默认从0开始分配，范围从0到 len(data)-1，这种设置方式又称为”隐式索引”。

import numpy as np
import pandas as pd
s = pd.Series(np.array(['a', 'b', 'c']))
print(s)

0    a
1    b
2    c
dtype: object

将 dict字典作为输入数据时，若没有传入索引则会按照字典的键来构造索引，若传递了索引则需将索引标签与字典中的值一一对应。

import numpy as np
import pandas as pd
s = pd.Series({'x':1, 'y':2, 'z':3})
print(s)

x    1
y    2
z    3
dtype: int64

为 index索引参数传递索引时

import numpy as np
import pandas as pd

data = {'x':10., 'y':20., 'z':30.}
index = ['z', 'x', 'a']
s = pd.Series(data, index)
print(s)

z    30.0
x    10.0
a     NaN
dtype: float64

当传递的索引值无法找到与之对应的值时会使用 NaN非数字来表示。

若输入数据为标量值则必须提供索引
标量值会按照索引的数据进行赋值并与其一一对应

import numpy as np
import pandas as pd

data = 100
index = [0, 1, 2]
s = pd.Series(data, index)
print(s)

0    100
1    100
2    100
dtype: int64

访问序列对象中元素分为两种方式：一种是位置索引访问，一种是索引标签访问。

此方式与 ndarray和 list相同，使用元素自身下标。数组索引计数从0开始，表示第一个元素存储在第0个索引位置上，以此类推。

例如：通过位置或标签下标访问元素

import numpy as np
import pandas as pd

data = [10, 20, 30, 40, 50]
index = ['a', 'b', 'c', 'd', 'e']
s = pd.Series(data, index)
print(s)
print(s[0]) # &#x4F4D;&#x7F6E;&#x4E0B;&#x6807;
print(s['a']) # &#x6807;&#x7B7E;&#x4E0B;&#x6807;

a    10
b    20
c    30
d    40
e    50
dtype: int64
10
10

import numpy as np
import pandas as pd

data = [10, 20, 30, 40, 50]
index = ['a', 'b', 'c', 'd', 'e']
s = pd.Series(data, index)
print(s[-3:])

c    30
d    40
e    50
dtype: int64

序列类似固定大小的字典，将 index中的索引标签当作 key，把序列中的元素值作为 value，通过 index索引标签来访问或修改元素。

例如：使用索引标签访问多个元素值

使用 index中不包含的标签时会出发异常

import numpy as np
import pandas as pd

data = [10, 20, 30, 40, 50]
index = ['a', 'b', 'c', 'd', 'e']
s = pd.Series(data, index)

idx = ['a', 'c', 'e']
print(s[idx])

a    10
c    30
e    50
dtype: int64

序列属性描述index获取

对象用以描述索引的取值范围axes以列表的形式返回所有行索引标签values以

的形式返回序列对象dtype获取序列对象的数据类型empty获取一个空的序列对象ndim获取输入数据的维度size获取输入数据的元素数量

例如：创建序列并获取属性

import numpy as np
import pandas as pd

data = np.random.randn(5)
s = pd.Series(data)
print(s)

print(s.index) # RangeIndex(start=0, stop=5, step=1)
print(s.axes) # [RangeIndex(start=0, stop=5, step=1)]
print(s.values) # [0.24913463 0.62854834 0.28542668 0.73411569 1.14845944]
print(s.dtype) # float64
print(s.empty) # False
print(s.ndim) # 1
print(s.size) # 5

方法描述head()获取前n行数据，默认显示前5行。tail()获取后n行数据，默认显示后5行。isnull()检测序列是否存在缺失值，存在则为

。notnull()检测序列是否存在缺失值，不存在则为

缺失值表示值不存在、丢失、缺少。

例如：查看序列中部分数据

import numpy as np
import pandas as pd

data = np.random.randn(5)
s = pd.Series(data)

print(s.head(3))

0   -0.317722
1   -1.051894
2    0.718421
dtype: float64

print(s.isnull())
0    False
1    False
2    False
3    False
4    False
dtype: bool

DataFrame

import pandas as pd

df = pd.DataFrame({
    "index": [0, 1, 2, 3],
    "name":["&#x5C0F;&#x660E;", "&#x5C0F;&#x534E;", "&#x5C0F;&#x4EAE;", "&#x5C0F;&#x7EA2;"],
    "age":[28, 29, 30, 26],
    "gender":["&#x7537;", "&#x5973;", "&#x7537;", "&#x5973;"],
    "rating":[3.4, 4.6, 3.5, 2.9]
})
print(df)

index name  age gender  rating
0      0   &#x5C0F;&#x660E;   28      &#x7537;     3.4
1      1   &#x5C0F;&#x534E;   29      &#x5973;     4.6
2      2   &#x5C0F;&#x4EAE;   30      &#x7537;     3.5
3      3   &#x5C0F;&#x7EA2;   26      &#x5973;     2.9

异构数据表中，数据以行和列的形式来表示，每一列表示一个属性，每一行表示一个条目的信息。

每列标签描述数据的类型

ColumnTypenameStringageintegergenderStringratingFloat

DataFrame中行可被看作由Serials组成的字典，只是为行中每个数据增加了一个列标签。DataFrame其实是从Series基础上演化而来。数据分析中DataFrame应用非常广泛，因为描述数据更加清晰直观。

import pandas as pd

df = pd.DataFrame({
    "Regd.No": [1000, 1001, 1002, 1003, 1004],
    "Name":["Steve", "Mathew", "Jose", "Patty", "Vin"],
    "Marks%":[86.29, 91.63, 72.90, 69.23, 88.30]
})
print(df)

Regd.No    Name  Marks%
0     1000   Steve   86.29
1     1001  Mathew   91.63
2     1002    Jose   72.90
3     1003   Patty   69.23
4     1004     Vin   88.30

DataFrame结构类似Excel表格，同Series一样DataFrame自带行标签索引，默认为隐式索引，从0开始递增。行标签与DataFrame中的数据项一一对应。

Original: https://blog.csdn.net/JunChow520/article/details/121970047
Author: JunChow520
Title: Pandas

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/696376/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

On the Integration of Self-Attention and Convolution

论文链接：https://arxiv.org/pdf/2111.14556.pdf本文首先证明了k×k的传统卷积可以分解为k 2 k^2 k 2个单独的1×1卷积。然后，将self…

人工智能 2023年5月28日
00100
一种使用Python自实现KMeans++聚类算法的写法

失踪人口回归文章目录前言一、关于KMeans聚类以及KMeans++的原理？二、核心内容 * 1、数据集介绍 2、核心代码 3、完整项目结语前言最近学的内容主要是Py…

人工智能 2023年6月2日
0097
【C++】CMakeList.txt在命令行的使用

前提：在官网下载好了cmake工具，并且配置好了环境变量。在项目的顶层目录中，建立一个CMakeLists.txt文件。以某个真实项目为例，内容如下： cmake_minimum…

人工智能 2023年7月18日
0049
【全志R329-NPU助力】Maix-Speech为嵌入式环境设计的离线语音库

Maix-Speech是专为嵌入式环境设计的离线语音库，设计目标包括：ASR/TTS/CHAT 作者的设计初衷是完成一个低至Cortex-A7 1.0GHz 单核下可以实时运行的A…

人工智能 2023年5月25日
0087
tensor中数据类型的相互转换

Pytorch中的Tensor常用的类型转换函数 tensor数据类型转换例如： a = tensor(282, device=’cuda:0′) b =…

人工智能 2023年7月21日
0054
图像处理系列——直方图之灰度直方图(Image Histogram)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月22日
0098
【Pytorch】torch_dct中解决AttributeError: module ‘torch‘ has no attribute ‘irfft‘

问题背景在使用 torch_dct时报错，经调研，是torch版本过高，dct中调用的旧的fft相关函数已经更新。探索过程参考[2]中说的对应关系如下：旧版新版 torch…

人工智能 2023年6月16日
0088
Python数据分析案例07——二手车估价（机器学习全流程，数据清洗、特征工程、模型选择、交叉验证、网格搜参、预测储存）

案例背景本次案例来自2021年matchcop大数据竞赛A题数据集。要预测二手车的价格。训练集3万条数据，测试集5千条。官方给了二手车的很多特征，有的是已知的，有的是匿名的。要求…

人工智能 2023年6月19日
0098
Pytorch+Python实现人体关键点检测

用Python+Pytorch工程代码对人体进行关键点检测和骨架提取，并实现可视化。使用背景：物体检测为许多视觉任务提供动力，如实例分割、姿态估计、跟踪和动作识别。它在监控、自…

人工智能 2023年7月24日
0063
Yolov5如何更换BiFPN?

🌟想了解YOLO系列算法更多教程欢迎订阅我的专栏🌟 对于基础薄弱的同学来说，推荐阅读《目标检测蓝皮书》 📘，里面涵盖了丰富的目标检测实用知识，是你迅速掌握目标检测的理想选择！如果…

人工智能 2023年7月29日
0053
基于51单片机的心率脉搏检测报警系统Proteus仿真

资料编号：135 下面是相关功能视频演示： 135-基于51单片机的心率脉搏检测报警系统Proteus仿真（源码+仿真+全套资料）功能讲解：采用51单片机做的心率计设计，能实时…

人工智能 2023年6月26日
0070
《Effective C++》阅读总结（二）:类的构造、析构和赋值

第二章类的构造、析构和赋值今天是周六早上，但很不幸待会儿还是要去公司，本月kpi还剩一些工作要做，这个月计划的Effective C++学习，也基本完成了，最后一章节模板相关那…

人工智能 2023年6月4日
0065
基于密度的DBSCAN聚类及其优化的OPTICS聚类（一）

DBSCAN聚类算法：可以生成形状多样的类，并且可以检测出异常值和噪声点。但是对于输入参数敏感，如何提高DBSCAN聚类结果的准确性和可信度，是一个值得研究的趋势和方向。 OPTI…

人工智能 2023年5月31日
0082
【原力计划小程序】1、一篇文章深入了解小程序的学习路线（以项目驱动的方式带你学习微信小程序）

文章目录一、我的微信小程序开发历程 * (1) 我的代码经历 (2) 我的微信小程序项目二、微信小程序开发的学习路线三、认识小程序 * (1) 小程序分类 (2) 小程序是啥…

人工智能 2023年7月1日
00112
基于神经网络的预测模型控制器matlab仿真

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月12日
0063
ubuntu22部署c++ 配置opencv4.5.5,opencv_contrib4.5.5,以及opencv下的cuda（cuda11.6,cudnn8.4.1）

cudann一定要配置好不然opencv配置cuda会失败的我这里采用的是opencv4.5.5和相同版本的contribure 一.软件的安装这个部分我装了太多的依赖具体是那…

人工智能 2023年6月26日
00115

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas

数据结构

Series

DataFrame

大家都在看