pandas常用方法

2023年7月7日下午1:01 • 人工智能 • 阅读 71

1、了解

1.1 DataFrame和Series关系

pandas读取数据会返回一个 DataFrame的数据结构，查看某一列或者某一行的数据类型，会返回一个 Series的数据机构，也就是 Series是 DataFrame的组成单元。

1.2 df.iloc[]和df.loc[]区别

df.iloc[]利用具体的索引值获取行,只能是整型，
比如获取前三行：df.iloc[:3]
df.loc[]利用索引的名称获取行和列
如果设置了某一列为索引，然后利用df.loc[],就可以拿到指定索引的行，如果索引不在，就会报KeyError，

1.2.1 例如创建一个Series（和DataFrame查找方法一样）

import pandas as pd
s = pd.Series(np.nan, index=[49, 48, 47, 46, 45, 1, 2, 3, 4, 5])
print(s)

49   NaN
48   NaN
47   NaN
46   NaN
45   NaN
1    NaN
2    NaN
3    NaN
4    NaN
5    NaN

1.2.2 利用iloc和loc查询


print(s.iloc[:6])

49   NaN
48   NaN
47   NaN
46   NaN
45   NaN
1    NaN

print(s.loc[:6])

keyError: 6

1.2.3 根据索引内容，查找对应的索引数值

df = pd.DataFrame(np.nan,
                  index=list('abcde'),
                  columns=['x', 'y', 'z', 8, 9])
print(df)

    x   y   z   8   9
a NaN NaN NaN NaN NaN
b NaN NaN NaN NaN NaN
c NaN NaN NaN NaN NaN
d NaN NaN NaN NaN NaN
e NaN NaN NaN NaN NaN

df_select = df.iloc[:df.index.get_loc('c') + 1, :4]
print(df_select)

    x   y   z   8
a NaN NaN NaN NaN
b NaN NaN NaN NaN
c NaN NaN NaN NaN

2、预览表格

2.1 查看前五行

import pandas as pd
df=pd.read_csv('test.csv')

df.head()

2.2 查看后五行

df.tail()

3、查看列名和索引

3.1 列名查看

df.colums

3.2 索引查看

df.index

4、将DataFram数据类型转换为Numpy

df.values

5、获取某一列数据

res=df[列名]

res[:5]

6、获取某一行数据

df.iloc[索引名]

7、设置某一列为索引

df.set_index(列名)

8、创建DataFrame


data = {'A':[1,2,3],
       'B':['a','b','c']}
df_create = pd.DataFrame(data)

9、创建Series

col = [i for i in range(5)]
s = pd.Series(data=col)

10、合并两个DataFrame

10.1 两个相同形状的df


df_a = pd.DataFrame({'id':['K0','K1','K2','K3'], 'A':['A0','A1','A2','A3'], 'B':['BO','B1','B2','B3']})
df_b = pd.DataFrame({'id':['K0','K1','K2','K3'], 'C':['CO','C1','C2','C3'],'D':['DO','D1','D2','D3']})
res = pd.merge(df_a, df_b, on='id')
res
"""
    id   A  B   C   D
0   K0  A0  BO  CO  DO
1   K1  A1  B1  C1  D1
2   K2  A2  B2  C2  D2
3   K3  A3  B3  C3  D3
"""

10.2 形状不同的df

df_a = pd.DataFrame({'id1':['K0','K1','K2','K3'],
                     'id2':['K0','K1','K2','K3'],
                     'A':['A0','A1','A2','A3'],
                     'B':['BO','B1','B2','B3']})
df_b = pd.DataFrame({'id1':['K0','K1','K2','K3'],
                     'id2':['K0','K1','K2','K4'],
                     'C':['C0','C1','C2','C3'],
                     'D':[' DO','D1','D2','D3']})
res = pd.merge(df_a, df_b, on=['key1', 'key2'])
print(res)

"""
    id1 id2 A   B   C   D
0   K0  K0  A0  BO  C0  DO
1   K1  K1  A1  B1  C1  D1
2   K2  K2  A2  B2  C2  D2
"""

10.3 纵向合并

纵向合并数据 pd.concat([df1,df2, ...], axis=0, ignore_index=True)重置索引，axis=1则是水平合并，与Numpy有很多相似的地方。

11 查看有多少行数据


len(df)

df.shape

df.info()

12、空值相关

12.1 显示有空值的行


res_df=df[df.isnull().T.any()==True]

12.2 显示没有空值的行


res_df=df[df.isnull().T.any()==False]

13 根据某一列的内容找对应的行


target=df.query('name==bob')

14 找某两列的内容同时满足的行

search_se= df.loc[df['jpg_name']=='img_id','item_name']=="身高"

search_index = search_se[search_se == True].index

target_dataframe = df.loc[search_index]

15、获取多个sheet的名字

sheet_name=df.keys()
sheet_1_df=df[sheet_name[0]]

16、读取时，只选指定的列


pd.read_csv(read_path_6,usecols=[2,5,6])

17、读取多个sheet


指定参数sheet_name=None，则会读取所有的
pd.read_csv(read_path_6,sheet_name=None,usecols=[2,5,6])

Original: https://blog.csdn.net/weixin_42726887/article/details/124856802
Author: OnTheOurWay
Title: pandas常用方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676301/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在window的pycharm里的pytorch框架上使用AMDgpu加速深度学习训练

AMD加速训练介绍 AMD加速深度学习使用dml框架pytorch 软件架构软件架构说明 python3.8版本可用在pycharm里使用说明使用torchvision0…

人工智能 2023年7月23日
0084
YOLOv3原理及流程简述

相关内容：YOLOv3论文翻译从头实现YOLOv3：第1部分从头实现YOLOv3：第2部分从头实现YOLOv3：第3部分从头实现YOLOv3：第4部分从头实现YOLOv3：第5部分…

人工智能 2023年7月10日
0091
白噪声，有色噪声的定义、特性及其MATLAB仿真

一、白噪声白噪声（white noise）是指功率谱密度在整个频域内是常数的噪声。所有频率具有相同能量密度的随机噪声称为白噪声。白噪声是指在较宽的频率范围内，各等带宽的频带所含…

人工智能 2023年7月6日
00169
使用huggingface的Transformers预训练自己的bert模型+FineTuning

① 将”softmax+交叉熵”推广到多标签分类问题多分类问题引申到多标签分类问题（softmax+交叉熵）作者苏剑林论述了将多分类任务下常用的softma…

人工智能 2023年5月31日
00110
数字图像处理：python线性邻域滤波法,非线性中值滤波法

还是数字图像处理的作业。。。对包含随机噪声的LenaNoise图像进行以下处理（可使用编程语言自带函数，以实验报告形式提交word文件）：（1）线性邻域滤波法，分别使用以下2种…

人工智能 2023年6月22日
0094
Anaconda的安装以及使用清华源镜像安装pytorch

1.Anaconda的安装因为在他官网的安装速度缓慢，所以我们选择在清华源镜像站安装这里我选择的是 Anaconda3-5.3.1-Windows-x86_64.exe 清华源…

人工智能 2023年7月23日
0075
MMDetection 系列之（自定义数据管道处理增强管道）

数据管道设计遵循典型约定，我们使用Dataset和DataLoader对多个worker进行数据加载。数据集返回与模型的forward方法的参数相对应的数据项字典。由于目标检测中…

人工智能 2023年6月16日
0087
Windows下使用Darknet训练自己的数据集（模型：yolov4-tiny、数据集：垃圾分类）

本文章主要介绍如何使用Darknet在windows下训练自己的数据集，其中模型使用的是yolov4-tiny，数据集使用的是自己垃圾分类数据集（需要的自取：在我上传的资源中有）P…

人工智能 2023年7月1日
0092
程序分析与优化-11 多分支分析

本章是系列文章的第十一章，主要介绍GPU的编译原理，分析了多核运行过程中的内存分岔和控制流分岔的分析和处理。本文中的所有内容来自学习DCC888的学习笔记或者自己理解的整理，如需…

人工智能 2023年6月4日
0086
图像分割的方法

导读：数字图像处理技术是一个跨学科的领域。随着计算机科学技术的不断发展，图像处理和分析逐渐形成了自己的科学体系，新的处理方法层出不穷，尽管其发展历史不长，但却引起各方面人士的广泛关…

人工智能 2023年5月26日
00103
深度学习：STGCN学习笔记

目录标题基于图神经网络的图分类问题 GCN在行为识别领域的应用 * 主要任务研究思路 ST-GCN(SpatialTemporal Graph Convolutional Ne…

人工智能 2023年7月26日
0044
强化学习—— 蒙特卡洛树（Monte Carlo Tree Search, MCTS）

强化学习—— 蒙特卡洛树（Monte Carlo Tree Search, MCTS） 1. 单一状态蒙特卡洛规划 * 1.1 特点 1.2 数学模型 2. 上限置信区间策略 3….

人工智能 2023年6月25日
0092
机器学习分类器——案例（opencv sklearn svm ann）

机器学习分类器——案例（opencv sklearn svm ann python） ps：最近师姐给我们留了一个任务，记录一下从一开始的什么都不懂到现在把任务做出来，并从中学习到…

人工智能 2023年7月9日
0076
《动手学深度学习》(八) — 多尺度标检测和单发多框检测

1 多尺度目标检测在前面的章节中，我们以输入图像的每个像素为中心，生成了多个锚框。基本而言，这些锚框代表了图像不同区域的样本。然而，如果为每个像素都生成的锚框，我们最终可能会得到…

人工智能 2023年7月9日
0068
python数据分析-面试题

设逾期表为df,格式为pandas.DataFrame,详细数据如下所示，其中order_no为非重复订单号，overdue_days为逾期天数，info_tabel为逾期标签，…

人工智能 2023年7月6日
0069
Windows10 1050Ti cuda toolkit11.3 pytorch-gpu 踩坑教程

Windows10 1050Ti cuda toolkit11.3 pytorch-gpu 踩坑教程本篇博客记录了自己电脑安装pytorch GPU版本整个过程，包括很多踩过的坑…

人工智能 2023年7月22日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31