python处理dataframe数据_pandas入门-3 DataFrame数据查看和处理

2023年7月8日上午8:54 • 人工智能 • 阅读 74

如果对于较大的数据，一次输出全部行列，看起来很乱，所以需要使用一些方法查看部门数据

数据：

hero.csv

加载方法：

Python

importpandasaspd

df=pd.read_csv(‘hero.csv’,encoding=’gbk’)

查看数据：

由于行数较多想查看前5行，可以使用

df.head() 或 df[0:5]

前10行，该参数可自行设置：

df.head(10)

最后5行

df.tail()

最后10行，该参数可自行设置：

df.tail(10)

查看某一列数据：

df[‘品质’] 或者 df.品质

查看某一列前5行数据：

df[‘品质’].head()

其他行数或者最后几行方法类似

查看多列数据：

df[[‘品质’,’初始血量’]]

查看前10行多列数据：

df.loc[0:10,[‘品质’,’英雄名字’]]

查看行列区间数据：

df.iloc[3:5,0:2]

loc和iloc有什么区别呢？

loc是根据索引的名字来取数据的，iloc是根据行数来取数据的，只不过我们之前的例子行索引刚好也是数字，所以会出现这种问题

可以看这个例子：

Python

importpandasaspd

importnumpyasnp

a=np.zeros((4,3))

df=pd.DataFrame(a,index=list(‘abcd’),columns=list(‘ABC’))

print(df.loc[0]) #这个报错

print(df.loc[‘a’])

print(df.iloc[0])

还有一个需要注意的地方df.iloc[0]和df.iloc[[0]]的区别：

第一个返回的是Series，第二个返回的是DataFrame

Python

importpandasaspd

importnumpyasnp

a=np.zeros((4,3))

df=pd.DataFrame(a,index=list(‘abcd’),columns=list(‘ABC’))

print(df.loc[‘a’])

print(df.loc[[‘a’]])

print(df.iloc[0])

print(df.iloc[[0]])

print(type(df.loc[‘a’]))

print(type(df.loc[[‘a’]]))

print(type(df.iloc[0]))

print(type(df.iloc[[0]]))

结果：

A0.0

B0.0

C0.0

Name:a,dtype:float64

ABC

a0.00.00.0

A0.0

B0.0

C0.0

Name:a,dtype:float64

ABC

a0.00.00.0

查看列名：

df.columns

查看索引：

df.index

查看行列数：

df.shape

查看列数据类型：

df.dtypes

查看空值

df.isnull()

查看前5行空值：

df.isnull().head()

其他行数或者最后几行方法类似

查看表信息：

df.info()

查看某一类型唯一值：

df[‘品质’].unique()

查看某一类型各值出现频次

df[‘品质’].value_counts()

数据处理

去掉有空值的行：

df = df.dropna()

去掉全是空值的行：

df = df.dropna(how=’all’)

填充空值为0:

df = df.fillna(value=0)

根据空值之前的值填充数据

df = df.fillna(method=’ffill’)

根据空值之后的值填充数据：

df = df.fillna(method=’bfill’)

数据类型转换：

Python

importpandasaspd

dic={‘a’:{‘A’:1,’B’:2},’b’:{‘A’:3,’B’:4},’c’:{‘A’:5,’B’:6}}

df=pd.DataFrame(dic)

print(df.dtypes)

df[‘a’]=df[‘a’].astype(‘str’)

df[‘b’]=df[‘b’].astype(‘float’)

print(df.dtypes)

结果：

aint64

bint64

cint64

dtype:object

aobject

bfloat64

cint64

dtype:object

大小写转换：

Python

importpandasaspd

dic={‘a’:{‘A’:’Tom’,’B’:’Jack’},’b’:{‘A’:3,’B’:4},’c’:{‘A’:5,’B’:6}}

df=pd.DataFrame(dic)

print(df.a)

df[‘a’]=df[‘a’].str.upper()#大写

print(df.a)

df[‘a’]=df[‘a’].str.lower()#小写

print(df.a)

结果：

ATom

BJack

Name:a,dtype:object

ATOM

BJACK

Name:a,dtype:object

Atom

Bjack

Name:a,dtype:object

如果修改首字母大写，可以使用title()

修改列名：

Python

importpandasaspd

importnumpyasnp

a=np.arange(12).reshape((3,4))

df=pd.DataFrame(a)

print(df.columns)

df.columns=list(‘abcd’)

print(df.columns)

结果：

RangeIndex(start=0,stop=4,step=1)

Index([‘a’,’b’,’c’,’d’],dtype=’object’)

条件筛选：

使用loc筛选：

Python

importpandasaspd

dic1={‘name’:[‘tom’,’jack’,’lucy’,’kate’,’bob’],

‘total’:[280,270,270,260,240],

‘math’:[100,90,95,90,80],

‘chinese’:[80,90,85,80,80],

‘english’:[100,90,90,90,80],}

df1=pd.DataFrame(dic1,columns=[‘name’,’total’,’math’,’chinese’,’english’])

选择total大于等于270的数据

df_t=df1.loc[df1[‘total’]>=270,[‘name’,’total’,’math’,’chinese’,’english’]]

print(df_t)

选择math,chinese,english都大于等于90的数据

df_t=df1.loc[(df1[‘math’]>=90)&(df1[‘chinese’]>=90)&(df1[‘english’]>=90),[‘name’,’total’,’math’,’chinese’,’english’]]

print(df_t)

结果：

nametotalmathchineseenglish

0tom28010080100

1jack270909090

2lucy270958590

nametotalmathchineseenglish

1jack270909090

使用query筛选：

Python

importpandasaspd

dic1={‘name’:[‘tom’,’jack’,’lucy’,’kate’,’bob’],

‘total’:[280,270,270,260,240],

‘math’:[100,90,95,90,80],

‘chinese’:[80,90,85,80,80],

‘english’:[100,90,90,90,80],}

df1=pd.DataFrame(dic1,columns=[‘name’,’total’,’math’,’chinese’,’english’])

选择total大于等于270的数据

df_t=df1.query(‘total>=270’)[[‘name’,’total’,’math’,’chinese’,’english’]]

print(df_t)

选择math,chinese,english都大于等于90的数据

df_t=df1.query(‘math>=90 & chinese>=90 & english>=90’)[[‘name’,’total’,’math’,’chinese’,’english’]]

print(df_t)

结果：

nametotalmathchineseenglish

0tom28010080100

1jack270909090

2lucy270958590

nametotalmathchineseenglish

1jack270909090

这2个功能基本一样，相对来说第一个更好，第一个判断的数据直接在使用前用变量声明，然后随时修改变量值即可，而不是在函数中逐个修改

Original: https://blog.csdn.net/weixin_29147347/article/details/113974286
Author: 日本狸猫田中裕之
Title: python处理dataframe数据_pandas入门-3 DataFrame数据查看和处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678167/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在部署AI算法时，如何进行性能评估和优化

问题：如何进行性能评估和优化AI算法部署？ 1. 介绍在部署AI算法时，性能评估和优化是关键步骤之一。通过性能评估，我们可以了解算法的表现，并对其进行进一步优化。本文将详细介绍如…

人工智能 2024年1月3日
0046
python回归代码_线性回归代码-python

import numpy as np import matplotlib.pyplot as plt from scipy.optimize import leastsq # 方法…

人工智能 2023年6月18日
0065
图解机器学习算法(9) | GBDT模型详解（机器学习通关指南·完结）

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/34 本文地址：https://www.showmeai.tech…

人工智能 2023年6月25日
0079
尚硅谷Promise笔记

文章目录一、Promise介绍与基本使用 * 1-1.初体验之promise封装ajax请求 1-2.Promise对象状态属性PromiseState的值有三个 1-3.Pro…

人工智能 2023年7月29日
0067
通俗易懂的RNN

目录一、什么是RNN 二、为什么要发明RNN 三、RNN的基础知识 * 1、循环核介绍 2、循环核按时间步展开 3、记忆体 4、循环计算层 5、TF描述循环计算层二、RNN的补…

人工智能 2023年6月16日
0054
【LittlevGL ESP32 学习笔记 ①】移植最新的 LVGL 版本到安信可ESP32C3模组，显示一个二维码。（附带源码）

本系列博客学习由非官方人员半颗心脏潜心所力所写，仅仅做个人技术交流分享，不做任何商业用途。如有不对之处，请留言，本人及时更改。系列一：ESP32系列模组基础学习系列笔记 1、 …

人工智能 2023年5月23日
00142
深度学习术语Neck，Head，Embedding，One&&Two stages Detector等等

1.backbone 主干网络。这个主干网络大多时候指的是提取特征的网络，其作用就是提取图片中的信息，给后面的网络使用。这些网络经常使用的是ResNet， VGG等，这些网络已经证…

人工智能 2023年6月25日
0096
深度学习与神经网络有什么区别

深度学习与神经网络有什么区别找深度学习和神经网络的不同点，其实主要的就是：原来多层神经网络做的步骤是：特征映射到值。特征是人工挑选。深度学习做的步骤是信号->特征->…

人工智能 2023年7月28日
00100
【Jetson目标检测SSD-MobileNet应用实例】（五）根据输出的检测结果，使用串口和STM32配合进行电机控制

【Jetson目标检测SSD-MobileNet应用实例】（一）win11中配置SSD-MobileNet网络训练境搭建【Jetson目标检测SSD-MobileNet应用实例】（…

人工智能 2023年7月10日
0070
【OpenCV 例程200篇】66. 图像滤波之低通/高通/带阻/带通

【OpenCV 例程200篇】66. 图像滤波之低通/高通/带阻/带通欢迎关注『OpenCV 例程200篇』系列，持续更新中欢迎关注『Python小白的OpenCV学习课』系…

人工智能 2023年6月22日
0093
从Python到Go：初学笔记

本文记录了我在学习Go的过程时的一些笔记，主要是比较Python和Go之间的差异并作简单描述，以此使Python程序员对Go语言的特性有简略的了解。初学难免有纰漏，欢迎各位批评指正…

人工智能 2023年6月4日
0075
AssertionError: Invalid device id 和RuntimeError: CUDA error: invalid device ordinal

我在使用torch多卡并行时出现了这个两个问题。 ##问题一：AssertionError: Invalid device id，即无效的设备id 出现的原因：结合代码解释： im…

人工智能 2023年6月16日
0078
sklearn的make_classification函数生成随机的n类分类

目录 make_classification函数生成随机的n类分类问题的简介示例如下以下内容为官网内容以及个人的总结下面有运行的示例，可以结合示例来对此函数进行了解，如需更多…

人工智能 2023年6月16日
00118
Python采集剧本杀店家数据信息，做可视化演示

前言哈喽啊，友友们有喜欢玩桌游或者剧本杀的吗其实我自己对这个不太感兴趣哈哈，但是也玩过正好又有朋友约着出去，就是不知道哪家店更值得去所以趁着还有几天就用python来采集…

人工智能 2023年6月29日
0084
【Pandas】DataFrame查询数据

DataFrame查询数据加载数据通过索引查询 * 查询某(几)列查询一列的某(几)行查询多列的某(几)行使用loc和iloc方法查询 * 使用bool-seri…

人工智能 2023年7月15日
0072
2021SC@SDUSC基于人工智能的多肽药物分析问题（七）

基于人工智能的多肽药物分析(7) [En] Analysis of Peptide drugs based on artificial Intelligence (7) 2021S…

人工智能 2023年5月25日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python处理dataframe数据_pandas入门-3 DataFrame数据查看和处理

print(df.loc[0]) #这个报错

选择total大于等于270的数据

选择math,chinese,english都大于等于90的数据

选择total大于等于270的数据

选择math,chinese,english都大于等于90的数据

大家都在看