pandas中的DataFrame数据结构

2023年7月7日上午3:38 • 人工智能 • 阅读 64

pd.DataFrame()

DataFrame 是一种二维的数据模型，相当于EXcel表格中的数据，有横竖两种坐标，横轴用columns，竖轴用index 来确定，在建立DataFrame 对象的时候，需要确定三个元素：数据，竖轴，横轴。
DataFrame既有行索引也有列索引，

import pandas as pd
import numpy as np
a = pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz'))
print(a)

设置索引index

a.index = a['x']
print(a)

//&#x53EF;&#x65B0;&#x5EFA;&#x4E00;&#x4E2A;DataFrame&#xFF0C;index&#x8BBE;&#x7F6E;&#x4E3A;&#x522B;&#x7684;&#x8868;&#x683C;index
labels = pd.DataFrame(columns=['s','x'],index=a.index)
print(labels)

a.iloc[行位置，列位置]

通过默认生成的数字索引查询指定的数据

下面表格说明:

i值里的数字可以为正数也可以为负数，正数0代表第一行，1代表第2行；负数 -1代表倒数第一行，-2代表倒数第2行

方法说明：行(列)数索引值从0开始a.iloc[i]i值可以是数字也可以是一个数组，获取第i行数据或者行子集a.iloc[:,j]j值可以是数字也可以是一个数组, 获取第j列数据或者列子集a.iloc[i,j]获取第i行第j列的值

1. a.iloc[i] 获取第i行数据或者行子集

print(a)
print(a.iloc[0]) #&#x83B7;&#x53D6;&#x7B2C;&#x4E00;&#x884C;&#x6570;&#x636E;

print(a.iloc[:2]) #&#x83B7;&#x53D6;&#x7B2C;&#x4E00;&#x884C;&#x548C;&#x7B2C;&#x4E8C;&#x884C;

print(a.iloc[1:]) #&#x83B7;&#x53D6;&#x7B2C;&#x4E8C;&#x884C;&#x5230;&#x6700;&#x540E;&#x4E00;&#x884C;&#x7684;&#x6570;&#x636E;

print(a.iloc[[0,-1]]) #&#x83B7;&#x53D6;&#x7B2C;&#x4E00;&#x884C;&#x548C;&#x5012;&#x6570;&#x7B2C;&#x4E00;&#x884C;&#x6570;&#x636E;

2. a.iloc[:,j] 获取第j列数据或者列子集

print(a.iloc(:,0) #&#x83B7;&#x53D6;&#x7B2C;0&#x5217;&#x6570;&#x636E;

print(a.iloc[:,[0,1]]) #&#x83B7;&#x53D6;&#x7B2C;&#x4E00;&#x5217;&#x548C;&#x7B2C;&#x4E8C;&#x5217;&#x6570;&#x636E;

print(a.iloc[:,:2]) #&#x83B7;&#x53D6;&#x7B2C;&#x4E00;&#x5217;&#x548C;&#x7B2C;2&#x5217;

3. a.iloc[i,j] 获取第i行第j列的值

print.iloc(-1,0) #&#x83B7;&#x53D6;&#x5012;&#x6570;&#x7B2C;&#x4E00;&#x884C;&#x7B2C;&#x4E00;&#x5217;&#x6570;&#x636E;&#xFF0C;&#x5373; 12
print(a.iloc[1,[0,1]]) #&#x83B7;&#x53D6;&#x7B2C;2&#x884C;&#xFF0C;&#x7B2C;&#x4E00;&#x4E8C;&#x5217;&#x6570;&#x636E;

print(a.iloc[[0,1],2]) #&#x83B7;&#x53D6;&#x7B2C;&#x4E00;&#x4E8C;&#x884C;&#x7B2C;3&#x5217;&#x6570;&#x636E;

print(a.iloc[[0,1],[1,2]]) #&#x83B7;&#x53D6;&#x7B2C;&#x4E00;&#x4E8C;&#x884C;&#x7684;&#x7B2C;&#x4E8C;&#x4E09;&#x5217;&#x6570;&#x636E;

将Pandas中的DataFrame类型转换成Numpy中array类

在用pandas包和numpy包对数据进行分析和计算时，经常用到DataFrame和array类型的数据。在对DataFrame类型的数据进行处理时，需要将其转换成array类型

1.a.values

import numpy as np
import pandas as pd

print(a.values)
print(a['w'].values)

2.使用numpy中的array方法

print(np.array(a))
print(np.array(a['w']))

pandas使用sort_index排序

DataFrame.sort_index(axis=0, level=None, ascending=True, inplace=False, kind=’quicksort’, na_position=’last’, sort_remaining=True, ignore_index=False, key=None)[source]
sort_index文档
axis：0按照行名排序；1按照列名排序
level：默认None，否则按照给定的level顺序排列—貌似并不是，文档
ascending：默认True升序排列；False降序排列
inplace：默认False，否则排序之后的数据直接替换原来的数据框
kind：排序方法，{‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’。似乎不用太关心。
na_position：缺失值默认排在最后{“first”,”last”}
by：按照某一列或几列数据进行排序，但是by参数貌似不建议使用

x.sort_index() 默认参数ascending=True 对行index升序排列

c = pd.DataFrame(np.arange(16).reshape(4,4),index=list('adbc'),columns=list('wxyz'))
print(c['w'].sort_index()) #&#x539F;&#x672C;index&#x4E3A;adbc,&#x5BF9;index&#x6392;&#x5E8F;&#x540E;&#x53D8;&#x6210;abcd

c = pd.DataFrame(np.arange(16).reshape(4,4),index=list('adbc'),columns=list('wxyz'))
print(c)
c.sort_index(ascending=True,inplace=True)
print(c) #inplace=True,&#x8FD9;&#x65F6;&#x5019;c&#x88AB;&#x4FEE;&#x6539;&#x4E86;

x.sort_index(ascending=False)对行index降序排列

print(c['w'].sort_index(ascending=False))

3. 对列columns排序
默认axis=0，对行index排序，axis=1对列index排行

d = pd.DataFrame(np.arange(16).reshape(4,4),index=list('adbc'),columns=list('zwyx'))
print(d)
print(d.sort_index(axis=1)) # &#x539F;&#x672C;&#x5217;columns&#x4E3A;zwyx, &#x5BF9;&#x5217;columns&#x6392;&#x5E8F;&#x540E;&#x53D8;&#x6210;wxyz

对列columns降序排列

print(d.sort_index(axis=1,ascending=False))  # &#x539F;&#x672C;&#x5217;columns&#x4E3A;zwyx, &#x5BF9;&#x5217;columns&#x6392;&#x5E8F;&#x540E;&#x53D8;&#x6210;zyxw

pandas中的rolling函数用于移动计算

DataFrame.rolling(window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None, method=’single’)
rolling文档

window：也可以省略不写。表示时间窗的大小，注意有两种形式（int or offset）。如果使用int，则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型，表示时间窗的大小。、min_periods：每个窗口最少包含的观测值数量，小于这个值的窗口结果为NA。值可以是int，默认None。offset情况下，默认为1。
center参数，默认为False，表示当前元素往上选，加上本身总共筛选3个。
center参数，默认为True，表示以当前元素为中心，从个方向进行筛选。
win_type: 窗口的类型。截取窗的各种函数。字符串类型，默认为None。各种类型
on: 可选参数。对于dataframe而言，指定要计算滚动窗口的列。值为列名。
axis: int、字符串，默认为0，即对列进行计算
closed：定义区间的开闭，支持int类型的window。对于offset类型默认是左开右闭的即默认为right。可以根据情况指定为left both等。

print(d)
print(d['w'].rolling(3).sum()) #&#x76F8;&#x5F53;&#x4E8E;&#x521B;&#x5EFA;&#x4E86;&#x4E00;&#x4E2A;&#x957F;&#x5EA6;&#x4E3A;3&#x7684;&#x7A97;&#x53E3;&#xFF0C;&#x7A97;&#x53E3;&#x4ECE;&#x4E0A;&#x5230;&#x4E0B;&#x4F9D;&#x6B21;&#x6ED1;&#x52A8;&#xFF0C;&#x5F53;&#x524D;&#x884C;&#x52A0;&#x4E0A;&#x524D;2&#x884C;&#x6570;&#x636E;&#x7684;&#x603B;&#x548C;

print(d['w'].rolling(3,center=True).sum())

6.pandas的填充缺失值fillna()

在数据集里面的缺失值需要填充起来，避免各种出错,在做分析的时候，我们经常要将缺失值填充为前一个值，或者是后一个值。

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)[source]

参数说明method取值 : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None

pad/ffill：用前一个非缺失值去填充该缺失值

backfill/bfill：用下一个非缺失值填充该缺失值

None：指定一个值去替换缺失值（缺省默认这种方式）inplaceFalse 创建一个副本，修改副本，原对象不变（缺省默认）

True 直接修改原对象axis默认是纵向填充的;1是左右横向填充的

fillna文档

import pandas as pd
import numpy as np
from numpy import nan as NaN

df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]])
print(df1)

1.用常数填充

print(df1.fillna(100)) # 将所有NaN替换成100

2.用字典填充

print(df1.fillna({0:10,1:20,2:30})) # 将columns为0的所有NaN填充10，为1列的所有NaN填充20，为2列的所有NaN填充30

3.用前一个非缺失值去填充

print(df1.fillna(method='ffill')) #用前一个非缺失值去填充该缺失值

4.用后一个非缺失值去填充

print(df1.fillna(method='bfill')) #用后一个非缺失值去填充该缺失值

7.pandas中的where()

where文档
DataFrame.where(cond, other=nan, inplace=False, axis=None, level=None, errors=’raise’, try_cast=NoDefault.no_default)
cond :条件判断
other：条件cond为False时，将值替换为other

import pandas as pd
import numpy as np

df1=pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
print(df1)

print(df1.where(df1!=1,100)) #条件判断为False的值替换为100，即值为1的替换成100

pandas.DataFrame.copy

DataFrame.copy文档

DateFrame.copy(deep=True) ：复制object的索引和数据

当deep=True时(默认), 会创建一个新的对象进行拷贝. 修改这份拷贝不会对原有对象产生影响.
当deep=False时, 新的对象只是原有对象的references. 任何对新对象的改变都会影响到原有对象

a = pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz'))# b = pd.DataFrame(np.array([33,11,22,44]),index=list('adbc'),columns=['m'])
print(a)

p = a.iloc[2:]
p.index = a.iloc[:2].index
print(p)

p.iloc[:2] = p - 1
print(p)
print(a) #&#x53EF;&#x4EE5;&#x770B;&#x5230;a&#x7684;&#x540E;2&#x884C;&#x4E5F;&#x88AB;&#x4FEE;&#x6539;&#x4E86;

上面操作可以看到修改p后a也被修改了，因此我们可以用DateFrame.copy(deep=True) 复制索引和数据。

a = pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz'))# b = pd.DataFrame(np.array([33,11,22,44]),index=list('adbc'),columns=['m'])
print(a)

p = a.iloc[2:].copy(deep=True)
p.index = a.iloc[:2].index
p.iloc[:2] = p - 1
print(p)
print(a)  #&#x6B64;&#x65F6;a&#x6CA1;&#x6709;&#x53D8;&#x5316;

Original: https://blog.csdn.net/qq_34035425/article/details/121078711
Author: Jqlender
Title: pandas中的DataFrame数据结构

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675397/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【机器学习笔记1】一元线性回归模型及预测

目录什么是线性回归模型？一元线性回归模型问题引入：问题解析：代价函数（损失函数）：代价函数的图像为什么不是最小而是极小值？梯度下降算法梯度下降算法公式（对于一元线…

人工智能 2023年6月15日
0083
BMTrain使用介绍等-清华大模型课程

68 使用介绍 69 背景介绍 70 知识蒸馏 Original: https://www.cnblogs.com/nlpers/p/16712902.htmlAuthor: nl…

人工智能 2023年6月4日
0079
pytorch自定义图像分类项目的训练+OpenCV部署实战案例

一、项目介绍分为2部分：（含代码及资料下载） 1）基于pytorch从头实现resnet18结构，训练并导出onnx模型+推理。 2）使用pytorch内置的resnet18模型…

人工智能 2023年6月26日
0084
神经网络加上注意力机制，精度不升反降？

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0050
Word2Vec词向量训练、使用及可视化操作【保姆级教程（包含藏文处理方法）】

目录一、前言二、Word2Vec词向量训练 2.1 数据输入格式 2.2词向量训练三、词向量使用四、词向量可视化一、前言 word2vec是静态词向量构建方法的一种，本…

人工智能 2023年6月12日
0079
【机器学习】机器学习笔记（吴恩达）

文章目录中文笔记地址视频地址第1章引言 * 1.1 欢迎 1.2 机器学习是什么 1.3 监督学习 1.4 无监督学习第2章 * 2.1 模型展示 – 单变量…

人工智能 2023年6月24日
0081
ISP浅谈-Demosaic

一.概念介绍大多数数码相机使用单个传感器阵列加上彩色滤光片捕捉图像，数据通过在黑白 cmos 图像传感器的基础上，增加彩色滤波结构和彩色信息处理模块获得图像的彩色信息，再对该彩…

人工智能 2023年6月25日
0067
ubuntu18.04如何从头搭建一套ORB_SLAM3的框架，并在测试集和自己的D345i相机上进行测试。

安装和测试安装 * C++11或者C++0x编译器的安装 Pangolin安装 opencv的安装 – 安装 make 过程出现的问题 (非必要的部分–o…

人工智能 2023年7月11日
00110
java计算机毕业设计的健身房管理系统源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月27日
0078
对两种类型的蘑菇图像进行识别与分类——使用SVM分类器（matlab）

该项目已免费开源！点个收藏和赞吧！https://gitee.com/zhengzsj/mushroom-classification-system-based-on-matlab…

人工智能 2023年7月1日
0090
【pytorch】将模型部署至生产环境：使用opencv(C++)中的dnn模块或onnxruntime(python)直接调用ONNX模型

(一）待训练模型采用CIFAR10，10分类按上述源码训练后得到模型参数文件：saveTextOnlyParams.pth关于onnx及onnxruntime使用见：【pytorc…

人工智能 2023年7月19日
0083
只有我一个人对ChatGPT感到蕉绿吗？

卷友们好，我是rumor。上周四，在国内公众号还没刷屏的时候，的消息了，当时迅速看了下博客内容，心想「就这？」，这不跟DeepMind的一样吗？而且设计的还没它好，Sparro…

人工智能 2023年7月31日
0055
【小方法】python图片拼接(PIL模块)

使用场景：今天超级🦅识别验证码遇到一个问题，着张图片是由两张图片组成的，但是超级🦅识别点选验证码，只能传入一张图片，于是需要将两张图片进行一个拼接。当然截图也是可以的，但是截图…

人工智能 2023年6月17日
0062
Perl 编程基础用法

#!/usr/bin/perl -w # 标准的头部写法，-w意为显示警告 $a=$b+10 # $a和$b都不&…

人工智能 2023年6月6日
0066
蓝牙耳机什么牌子性价比高？性价比高的游戏蓝牙耳机推荐

现在真正的无线耳机已经成为耳机的主流，无论是原创音频还是后来从事耳机行业的厂商，都有几款真正的无线耳机。对于广大消费者来说，还有什么比性价比更有说服力呢？所以今天我要推荐几款性价比…

人工智能 2023年5月25日
0085
【OpenCV 例程200篇】203. 伪彩色图像处理

OpenCV 例程200篇总目录201. 图像的颜色空间转换202. 查表快速替换（cv.LUT）203. 伪彩色图像处理204. 图像的色彩风格滤镜205. 调节色彩平衡/饱和…

人工智能 2023年6月18日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30