【python-NOJ-季总结】—【第八季：Pandas库】—表格Dataframe的建立和使用

2023年7月6日下午4:23 • 人工智能 • 阅读 61

本章内容写pandas库里的表格dataframe的相关使用。

内容包括： 表格的建立（传入参数和设置index）， 添加行/列（append），表格的筛选，删除行/列（drop）， 表格排序， 数据透视（df.pivot）， 表格划分（ groupby）等。

1. 建立表格df=pd.DataFrame(data,columns,index)

一般创建形式如下：

df=pd.DataFrame(data,columns=columns,index=index)

三个参数， 参数1data为 建立表格所需数据，二维数组； 参数2column为列名，一维数组，当创建形式维字典创建时，不需要列名参数，同时参数1是字典； 参数3是索引，一位数组，可有可无，默认是0，1，2……

（1）建立一个空的框架：

df=pd.DataFrame()

&#x8F93;&#x51FA;&#xFF1A;
Empty DataFrame
Columns: []
Index: []

此时没有传入参数，建立的是一个空表格。

（2）传入一个 二维列表：

data=[['zhang',10],['li',20],['wang',15]]
df=pd.DataFrame(data,columns=['Name','Age'])

同时在后面可以 设置数据类型dtype=float，可以将表格中的数字数据自动转换成浮点数。

注意，此处一定是二维列表，或者字典。

（3）字典创建：

data= {'Name':['zhang','li','wang'],'Age':[10,20,30]}
df=pd.DataFrame(data)

字典创建列名自动带入了字典键，键值为表格元素。

（4）关于声明表头

可以在 创建表格时声明表头，当特定表头的元素不存在，填充为NaN。

data=[{'a':1,'b':2},{'a':3,'b':4,'c':5}]
df1=pd.DataFrame(data,columns=['a','b'])
df2=pd.DataFrame(data,columns=['a','d'])

&#x8F93;&#x51FA;&#xFF1A;
   a  b
0  1  2
1  3  4
   a   d
0  1 NaN
1  3 NaN

2. 添加元素df[‘column_name’],df.loc,df.iloc,df.append

分为添加行和添加列。

关于添加列，只需要 df[‘column_name’]=[]即可，默认添加到最后一列；当想添加到指定的位置时，采用 df.insert()方法；

关于添加行，有三种方法。首先 df.iloc[]=[]，参数为数字，会被覆盖；其次 df.loc[]，参数为索引名Index，根据索引名添加；最后 df.append()，将两个表格合成一个。

添加列：

（1）添加到最后一列

df1['score']=[80,98,67,90]

（2）具体插入某一列到位置： df.insert(iloc,column,value)

三个参数，插入位置，列名，插入值列表：

df1.insert(2,'birth',['1995-07-01','1998-09-04','1993-11-03','1994-04-17'])

【python-NOJ-季总结】—【第八季：Pandas库】—表格Dataframe的建立和使用

（3）添加一行： df.iloc[index]

index是整数，表示添加到第几行， 原数据会被覆盖，且不能超过len(dataframe)；

data=[{'a':1,'b':2},{'a':3,'b':4}]
df1=pd.DataFrame(data,columns=['a','b'],index=['first','second'])
df1.iloc[0]=[6,7]

&#x8F93;&#x51FA;&#xFF1A;
        a  b
first   6  7
second  3  4

（4） df.loc[]方法

根据索引添加，此时添加的数值使用给定的索引。

当添加的索引值 已经存在时，更改； 不存在时， 添加到最后一行。

一般这种方法，表格的索引都是自定义的。

data=[{'a':1,'b':2},{'a':3,'b':4}]
df1=pd.DataFrame(data,columns=['a','b'],index=['first','second'])
df1.loc['third']=[9,10]

&#x8F93;&#x51FA;&#xFF1A;
        a   b
first   1   2
second  3   4
third   9  10

data=[{'a':1,'b':2},{'a':3,'b':4}]
df1=pd.DataFrame(data,columns=['a','b'])
df1.loc[3]=[6,7]

&#x8F93;&#x51FA;&#xFF1A;
   a  b
0  1  2
1  3  4
3  6  7

（5） df.append：添加到最后一行

这是需要创建两个表格，然后拼接成一个。需要注意参数ignore_index，默认保留原索引，改为True时表示重新排序索引。

一般插入一个新的一项时，采用简单方法构建一个新的表格，然后append到目标表格去。

data=[[1,2],[3,4]]
df1=pd.DataFrame(data,columns=['a','b'])
data=[[5,6],[7,8]]
df2=pd.DataFrame(data,columns=['a','b'])
df=df1.append(df2,ignore_index=True)

&#x8F93;&#x51FA;&#xFF1A;
   a  b
0  1  2
1  3  4
2  5  6
3  7  8

3. 不同dataframe的拼接方法df1.merge(df2,on,how)

df=df1.merge(df2, on=’ 合并的列名 ‘, how=’ outer’）

how表示内连接（inner）或者外连接（outer）：内连接表示保留共有元素，外连接表示保留所有元素，没有值的进行NaN填充；

同时，合并列名也可以选择多个。

df1=pd.DataFrame(data1,columns=['Name','Sex','Age'])
df2=pd.DataFrame(data2,columns=['Name','Weights','Heights'])
df_merge=df1.merge(df2,on='Name',how='outer')
df_merge2=df1.merge(df2,on='Name',how='inner')

&#x8F93;&#x5165;&#xFF1A;
3
zhao male 15
qian female 1
sun male 75
2
zhao 100 112
qian 147 256

&#x8F93;&#x51FA;&#xFF1A;
   Name     Sex  Age  Weights  Heights
0  zhao    male   15    100.0    112.0
1  qian  female    1    147.0    256.0
2   sun    male   75      NaN      NaN
   Name     Sex  Age  Weights  Heights
0  zhao    male   15      100      112
1  qian  female    1      147      256

总结博客见：pandas dataframe的合并（append, merge, concat） – GUXH – 博客园 (cnblogs.com)

4. 更改dataframe中的值df.loc和df.iloc[index,column]

三种方法， df.iloc[]，根据索引位置来查找，参数都为整数，表示几行几列，等价于 df.iat；

df.loc[]，参数为index名和column名，等价于 df.at；

5. dataframe按照某列排序df.sort_values(by,inplace,ascending)

格式为：df.sort_values(by=’A’,inplace=True, ascending=True)，参数1表示按哪个列进行排序，会在原dataframe上进行修改

df.sort_values(by='A',inplace=True, ascending=True)

&#x8F93;&#x51FA;&#xFF1A;
   A  B
1  0  9
2  4  8
1  6  3
0  7  5
0  8  5

6. 取指定范围内的值df.loc[行1:行末，列1:列末],df.iloc

有loc方法和iloc方法。loc方法通过index和column来取，不能通过数字，iloc方法通过数字索引来去，不能使用索引名。

同时需要注意，iloc方法按照数字来取时，不包含最后一个元素。

print(df_merge1.loc[1:2,'Sex':'Heights'])
print(df_merge1.iloc[0:2,2:4])

&#x8F93;&#x51FA;&#xFF1A;
   Name     Sex  Age  Weights  Heights
0  zhao    male   15    100.0    112.0
1  qian  female    1    147.0    256.0
2   sun    male   75      NaN      NaN
      Sex  Age  Weights  Heights
1  female    1    147.0    256.0
2    male   75      NaN      NaN
   Age  Weights
0   15    100.0
1    1    147.0

8.删除指定行

(133条消息) 12_Pandas.DataFrame删除指定行和列（drop）_饺子大人的博客-CSDN博客_dataframe删除指定行

使用groupby对表格进行划分

（1）

for i in df.groupby('Group'):
    print(i)
df1=df['Sales'].groupby(df['Group']).sum()
print(df1)
df1=df['Sales'].groupby(df['Mon']).sum()
print(df1)

数据透视表格

df.pivot(index='Mon',columns='Part',values='Num')

df=pd.DataFrame(data,columns=['Mon','Part','Num','Price'])
print(df)
print(df.pivot(index='Mon',columns='Part',values='Num'))
print(df.pivot(index='Mon',columns='Part',values='Price'))

   Mon Part  Num  Price
0    1    A    1      2
1    1    B    3      4
2    1    C    5      6
3    1    D    7      8
4    1    E    9     10
5    2    A   11     12
6    2    B   13     14
7    2    C   15     16
8    2    D   17     18
9    2    E   19     20
Part   A   B   C   D   E
Mon
1      1   3   5   7   9
2     11  13  15  17  19
Part   A   B   C   D   E
Mon
1      2   4   6   8  10
2     12  14  16  18  20

添加一行的平均值

df['Mean']=df.apply(lambda x:x.mean(),axis=1)

并添加一列进去

df.mean

筛选

如果想要筛选出 B列大于零 的 行：

df1 = df[df[‘B’]>0]

如果要根据B、C两列来筛选数据，但最终只显示A、D两列的数据：

df4 = df[[‘A’, ‘D’]][(df[‘B’]>0)&(df[‘C’]

Original: https://blog.csdn.net/zhuge2017302307/article/details/121294525
Author: 昔我往矣wood
Title: 【python-NOJ-季总结】—【第八季：Pandas库】—表格Dataframe的建立和使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674325/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Stata | 分组回归系数差异性检验

这篇博客介绍的是在两个样本组的模型设定是一样的情形下，进行分组回归后，比较相同变量中二者在系数大小上是否显著差异。如果系数差异显著，则说明二者在经济意义上显著差异。因为我们常常使…

人工智能 2023年6月15日
00156
TensorFlow-深度学习笔记

文章目录教程环境配置 * 安装Windows CPU版本tensorflow 安装CUDA、cuDNN 安装Windows GPU版本tensorflow 查看使用的是CPU还…

人工智能 2023年5月25日
0061
python统计excel某一列不同类别数量

功能：某一列（比如病例类型）数据含有多种类别（比如’死亡’，’存活’，’失访’三种类别）取值，用python…

人工智能 2023年7月15日
00110
python读取数据库的值并保存为csv格式的文件

由于自己不怎么会写存储过程，不能再数据库中直接处理数据，只能通过python读取数据库的数据用python处理数据。需要引用的包为 import pymssql import p…

人工智能 2023年7月8日
0044
PaddleOCR在 windows下的webAPI部署方案

很多小伙伴在使用OCR时都希望能过采用API的方式调用，这样就可以跨端跨平台了。本文将介绍一种基于python的PaddleOCR识方案。喜欢的可以关注公众号，获取更多内容。一、…

人工智能 2023年6月4日
0096
Python OpenCV配置CUDA以支持GPU加速 (不使用Visual Studio)

Welcome to My Blog 文章唯一地址：https://blog.csdn.net/REAL_liudebai/article/details/119356958 问题…

人工智能 2023年7月5日
00107
Python pandas 替换指定数据

目录 * – 一、构造dataframe – 二、替换指定数据（fillna、isin、replace) – 三、替换函数replace()详解…

人工智能 2023年7月8日
00103
聚类性能评价指标

好的聚类算法一般要求类簇具有高的类内（intra-cluster）相似度和低的（inter-cluster）相似度。聚类算法有外部（External）评价指标和内部（Intern…

人工智能 2023年6月2日
0063
2021年7月20日，使用yolov5训练摔倒检测模型，效果超乎你想象！！！

1.准备阶段，配置好自己的cuda 10.0环境，这里我就不多说了，网上教程太多了。在cmd中输入nvcc -V,最终结果显示下图即确定你的cuda 10.0环境安装成功。2.去g…

人工智能 2023年6月16日
0079
论文研读-机器学习可视化-面向可视解释的零样本分类主动学习

面向可视解释的零样本分类主动学习 1 文章概要 * 1.1 摘要 1.2 引言 – 1.2.1 零样本分类 1.1.2 解决方案 1.2.3 文章贡献 1.3 组织结构…

人工智能 2023年7月2日
0075
3.yolov5目标检测-常用评估指标

yolov5官网的模型评估对比图需要借助狼来了的故事了解：真阳性，假阳性，假阴性，真阴性。 IOU：交并比，用来筛选最终预测出来的边界框。通过求标注和预测的交并比，可以得到一个…

人工智能 2023年7月27日
0044
开集识别(Open Set Recognition, OSR)算法：《Towards Open Set Deep Networks》OpenMax

写完了论文，重新梳理一下，以后不再更新。 1.相关论文源码《Towards Open Set Deep Networks》即OpenMax源码:https://github.co…

人工智能 2023年6月17日
00108
表格图像提取-基于传统交点方法和Tesseract-OCR

本文应用传统交点方法来提取框线表格，主要是针对存在合并单元格的表格，并用tesseract-ocr来做了文字识别，主要难点是前者的提取部分，现将部分方法分享给大家。建议各位可以…

人工智能 2023年6月20日
0092
2021科大讯飞试题标签预测挑战赛亚军方案总结

摘要这个比赛的任务是根据题目的文本内容，预测题目的知识点及难度标签，其中知识点包括五个类型，我们需要预测出对应类型的知识点标签。在本次比赛中，我们构造了六个独立的模型，模型结构相…

人工智能 2023年5月30日
0078
怒肝半月！Python 学习路线+资源大汇总

Python 学习路线 by 鱼皮。原创不易，请勿抄袭，违者必究！大家好，我是鱼皮，肝了十天左右的 Python 学习路线终于来了~ 和之前一样，在看路线前，建议大家先通过以下视…

人工智能 2023年6月11日
0060
【OpenCV】学习笔记（一）：OpenCV4.5.5文件介绍

文章目录摘要一、简介 * 1.计算机视觉 2.OpenCV 3.OpenCV文件夹二、build文件夹 * 1.bin 2.etc 3.include 4.x64 5.其他 …

人工智能 2023年6月18日
0087

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30