Python基础教程（四）Pandas–DataFrame

2023年8月19日下午5:26 • Python • 阅读 32

DataFrame数据框架是一种二维数据结构，即数据按行和列的表格方式排列。

DataFrame的创建

可以使用以下构造函数创建一个pandas DataFrame –

pandas.DataFrame( data, index, columns, dtype, copy)

No参数说明1data数据采用各种形式，如ndarray，序列，地图，列表，字典，常量和另一个DataFrame。2index对于行标签，如果没有索引被传递，则要用于结果帧的索引是可选缺省值np.arrange（n）。3columns对于列标签，可选的默认语法是 – np.arrange（n）。这只有在没有通过索引的情况下才是正确的。4dtype每列的数据类型。5copy如果默认值为False，则使用该命令（或其它）复制数据。

DataFrame可以使用单个列表或列表列表创建。
例1

data = [1,2,3,4]
df = pd.DataFrame(data,index=[list('abcd')],columns=['data'])
print(df)

   data
a     1
b     2
c     3
d     4

data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'])
print(data)
print( df)

[['Alex', 10], ['Bob', 12], ['Clarke', 13]]
     Name  Age
0    Alex   10
1     Bob   12
2  Clarke   13

字典列表可以作为输入数据传递以创建DataFrame。字典键默认作为列名。

df1 = pd.DataFrame({'one':[1,2,3],'two':[4,5,6]},index=['a','b','c'])
print(df1)

   one  two
a    1    4
b    2    5
c    3    6

DataFrame的常用属性

No属性说明1index获取索引2T转置3columns获取列索引4values获取值数组5describe()获取快速统计

例子：

df1 = pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),\
                    'two':pd.Series([4,5,6,7],index=['a','b','c','d'])},index=['a','b','c','d'])
print(df1)

print(df1.index)

Index(['a', 'b', 'c', 'd'], dtype='object')

print(df1.columns)

Index(['one', 'two'], dtype='object')

print(df1.values)

[[ 1.  4.]
 [ 2.  5.]
 [ 3.  6.]
 [nan  7.]]

print(df1.T)

       a    b    c    d
one  1.0  2.0  3.0  NaN
two  4.0  5.0  6.0  7.0

print(df1.describe())

       one       two
count  3.0  4.000000
mean   2.0  5.500000
std    1.0  1.290994
min    1.0  4.000000
25%    1.5  4.750000
50%    2.0  5.500000
75%    2.5  6.250000
max    3.0  7.000000

索引和切片

与Series相似，建议使用loc方法选取。并且不要使用连续两个中括号。

loc属性：将索引解释为标签
iloc属性：将索引解释为下标

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print df ['one']

a     1.0
b     2.0
c     3.0
d     NaN
Name: one, dtype: float64

按标签选择：可以通过将行标签传递给 loc 函数来选择行。
按整数位置选择：行可以通过将整数位置传递给 iloc 函数来选择。

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print df.loc['b']

one 2.0
two 2.0
Name: b, dtype: float64

df1 = pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),\
                    'two':pd.Series([4,5,6,7],index=['a','b','c','d'])},index=['a','b','c','d'])
print(df1)
print(df1.loc['a','one'])
print(df1.loc['a',:])

   one  two
a  1.0    4
b  2.0    5
c  3.0    6
d  NaN    7
1.0
one    1.0
two    4.0
Name: a, dtype: float64

数据对齐和数据缺失问题


df1 = pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),\
                    'two':pd.Series([4,5,6,7],index=['a','b','c','d'])},index=['a','c','d','b'])
print(df1)
df2 = pd.DataFrame({'one':pd.Series([1,2,3,8],index=['a','b','c','d']),\
                    'two':pd.Series([4,5,6,7],index=['a','b','c','d'])},index=['a','c','d','b'])
print(df2)
print(df1+df2)

   one  two
a  1.0    4
c  3.0    6
d  NaN    7
b  2.0    5
   one  two
a    1    4
c    3    6
d    8    7
b    2    5
   one  two
a  2.0    8
c  6.0   12
d  NaN   14
b  4.0   10

方法描述isnull判断是否为缺失值notnull判断不是缺失值fillna填充缺失值dropna删除缺失值，含有axis 参数。默认情况下，axis = 0，即沿着行，这意味着如果行内的任何值为NA，则排除整行。

例子：

df3 = df1+df2
df3.loc['b','one'] = np.nan
df3.loc['b','two'] = np.nan
print(df3)

   one   two
a  2.0   8.0
c  6.0  12.0
d  NaN  14.0
b  NaN   NaN

print(df1.fillna(0))

   one   two
a  2.0   8.0
c  6.0  12.0
d  NaN  14.0
b  NaN   NaN

NaN所在的行列全部丢弃

print(df1.dropna())

print(df3.dropna(how='any'))

   one   two
a  2.0   8.0
c  6.0  12.0

所在列或者行全为NaN，就把该行或者列删除

print(df3.dropna(how='all'))

   one   two
a  2.0   8.0
c  6.0  12.0
d  NaN  14.0

Original: https://blog.csdn.net/ngany/article/details/113802958
Author: ngany
Title: Python基础教程（四）Pandas–DataFrame

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754116/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python中的array是什么意思_python中数组（numpy.array）的基本操作

为什么要用numpy Python中提供了list容器，可以当作数组使用。但列表中的元素可以是任何对象，因此列表中保存的是对象的指针，这样一来，为了保存一个简单的列表[1,2,3]…

Python 2023年8月27日
0046
用Python获取隔壁蹭网妹子的QQ号

Original: https://www.cnblogs.com/123456feng/p/16169617.htmlAuthor: 蚂蚁ailingTitle: 用Python…

Python 2023年11月3日
0043
Python获取“双十一”商品评论，做词云分析，一个简单的案例教学

前言环境使用 Python 3.8 Pycharm 模块使用 requests jieba 结巴分词 wordcloud 词云数据来源分析明确需求采集数据是什么东西? 通过…

Python 2023年10月31日
0035
pygame代码大全_Python打砖块小游戏源代码

这次用Python实现的是一个接球打砖块的小游戏，最核心的就是：碰撞检测的数学模型程序运行截图：其实，编程问题到最后就是数学问题，这个游戏涉及到2D圆形与矩形的碰撞检测问题：…

Python 2023年9月21日
0062
XPath语法和lxml模块

XPath语法和lxml模块什么是XPath？ xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素…

Python 2023年6月10日
0067
pytest-assume插件（全网最详细解释）：多重断言执行

使用pytest进行断言判断的时候，为了用例的精准性，经常会多个方面进行断言，比如如下：断言1：断言响应的http的状态断言2：断言响应返回的code值断言3：断言响应返回的…

Python 2023年9月11日
0051
python3 Flask 多人答题(完整项目带源码与使用)

TopQB答题系统 2020/01/05@pingfan 功能：1、多人同时答题系统2、在线查看个人得分与答题情况（解析）3、载入题库，随机抽取题目支持【单选题，多选题，判断题】4…

Python 2023年8月14日
0052
python scrapy 框架 pip 安装超版本引发的 pip 不能使用问题

就python scrapy框架 pip安装超版本引发的pip不能使用问题## 标题步骤1、升级pippython -m pip install –upgrade pi…

Python 2023年10月4日
0045
CentOS7 环境部署（Python Django项目）

CentOS7 默认自带Python2.7，采用yum代替yum作为包管理器安装基本环境安装gcc、gcc-c++编译环境 yum install -y gcc gcc-c++…

Python 2023年8月4日
0037
Numpy基础（二）——数组转置、计算内积和换轴

1 数组转置转置是一种特殊的数据重组形式，可以返回底层数据的视图而不需要复制任何内容。利用数组的transpose方法或者数组的T属性实现。 In [88]: arr=np.ar…

Python 2023年8月24日
0071
day49-JDBC和连接池05

11.BasicDAO 先来分析一个问题前面我们使用了Apache-DBUtils和Druid简化了JDBC开发，但仍存在以下不足： SQL语句是固定的，不能通过参数传入，通用性…

Python 2023年10月18日
0050
Python爬取豆瓣top250电影数据并写入excel，视频教程+源码奉上不可能学不会

Original: https://www.cnblogs.com/123456feng/p/16135606.htmlAuthor: 蚂蚁ailingTitle: Python爬…

Python 2023年5月24日
0070
10道Python基础面试题附答案，你都掌握了吗？

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月24日
0072
ChatGPT的注册！

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月3日
0034
什么是war包？war包该怎么运行？

什么是 jar 包jar 包全称 Java Archive ，中文名叫 java 归档文件，这是一种与平台无关的文件格式，它允许将许多文件组合成一个压缩文件（是的，jar 包就是一…

Python 2023年11月7日
0032
宝塔面板部署python项目

关闭项目管理器，重新打开，检查服务器是否正常运行，如状态显示已暂停，检查日志。如果日志中有No Module named xx的报错则在step5中添加相应的module。如果有…

Python 2023年8月9日
0038

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python基础教程（四）Pandas–DataFrame

DataFrame的创建

DataFrame的常用属性

索引和切片

数据对齐和数据缺失问题

大家都在看