pandas模块—–二维数据结构：DataFrame对象

2023年8月17日上午3:47 • Python • 阅读 31

二维数据结构：DataFrame对象

创建DataFrame对象

"""
pandas.DataFrame( data, index, columns, dtype, copy)
data    支持多种数据类型，如:ndarray，series，map，lists，dict，constant和另一个DataFrame。
index   行标签，如果没有传递索引值，默认值为0,1,2,3,4.......

columns 列标签，如果没有传递索引值，默认值为0,1,2,3,4.......

dtype   每列的数据类型
copy    是否复制数据，默认值为False
"""

创建空DataFrame对象

df = pd.DataFrame()
print (df)

利用列表创建

#利用单层list
x = [1,2,3,4,5,6]
df = pd.DataFrame(x，dtype=np.float32)
print(df)

#利用双层list
x = [
    ["tom",10],
    ["jack",20],
    ["mike",30]
]
#df = pd.DataFrame(x,columns=['name','age'])
#如果是True，那么x数据不改变
df = pd.DataFrame(x,columns=['name','age'，'sex'],copy=True)
df['age'] = 100
print(df)
print(x)

利用数据是字典的列表创建
x = [
    {'a':1,'b':2},
    {'a':10,'b':20,'c':30}
]
#index 行索引  columns列索引
df1 = pd.DataFrame(x)
print(df1)
df1 = pd.DataFrame(x,index=["first","second"])
print(df1)
#如果没有c，就会默认是nun
df1 = pd.DataFrame(x,index=["first","second"],columns=['a','c'])
print(df1)

利用字典创建

#利用字典创建DataFrame
#a、b是列索引，一定要设置行索引（index），否则报错
x = {'a':1,'b':2}
d1 = pd.DataFrame(x,index=['row1'])
print(d1)

字典里面的v是列表类型创建DataFrame
#那么默认列索引是name和age
x = {
    'name':['zs','ls','ww','zl'],
    'age':[14,15,16,17]
}
d1 = pd.DataFrame(x)
print(d1)
print(d1['age'])

利用Series和字典的结合来创建DataFrame

"""
#只有列索引，没有行索引
s1 = pd.Series([1,2,3,4,5,6])
s2 = pd.Series([100,200,300,400,500])
"""
#列索引是one，two，行索引是index
s1 = pd.Series([1,2,3,4,5,6],index=['a','b','c','d','e','f'])
s2 = pd.Series([100,200,300,400,500],index=['a','b','c','d','e'])
x = {
    'one':s1,
    'two':s2
}
d1  = pd.DataFrame(x)
print(d1)

列的读取

"""
语法：
df[columns]  查询单列
df[[columns] ] 查询多列
查询出一列和一列都会进行降维DataFrame-----》Series
"""
x = [
    ["tom",10],
    ["jack",20],
    ["mike",30]
]
df = pd.DataFrame(x,columns=['name','age'],index=['row1','row2','row3'])
print(df)
#根据columns获取列数据
print("----------------------")
print(df['name'])
print(type(df['name'])) #
print("----------------------")
print(df[['name','age']])
print(type(df[['name','age']]))

列的添加


"""
语法：df[columns] = 数据
切记数据要是同类型的数据，
"""
x = [
    ["tom",10],
    ["jack",20],
    ["mike",30]
]
df = pd.DataFrame(x,columns=['name','age'],index=['row1','row2','row3'])
print(df)
#依据list进行创建的，添加列的时候要是list
x1 = ['nan','nv','nan']
df["three"] = x1
print("---------------------------------------------")
print(df)

"""
语法：
df1[columns]=df1[columns]+df1[columns]

"""
x = [
    {'a':1,'b':2},
    {'a':10,'b':20,'c':30}
]
df1 = pd.DataFrame(x)
print(df1)
df1['d'] = {'a':2,'b':3} 报错
#数据已经标明列了，不能使用上面的方法，我们可以使用DataFrame中的现有列添加新列
df1['d']=df1['a']+df1['b']
print("--------------------------------")
print(df1)

列的删除

"""
删除语法
del df[columns] 根据下标进行检索删除，没有返回值
df.pop(columns) 根据下标进行检索删除，并返回删除的那一列
"""
df = pd.DataFrame(d)
print ("通过传递Series添加一个新列:")
df['three']=s3
print (df)
del df['one']
print (df)
df_pop = df.pop('two')
print("--------------------------")
print (df_pop)
"""
a    1
b    2
c    3
d    4
"""
print (df)
"""
   three
a   10.0
b   20.0
c   30.0
d    NaN
"""

行的读取

使用loc方法

"""
语法：
loc[index] 查询一行数据
扩展
loc[index,columns]  精确到行和列，那就是一个数据
查询多行和多列（精确到第几行和第几列）
loc[[index1,index2,....],[columns1,columns12,.....]]
查询多行和多列（第几行到第几行,第几列到第几列）
不是左开右闭
loc[index1:index2,columns1：columns2]
使用布尔索引也可以查询多行多列
loc[行_布尔索引,列_布尔索引]
"""
x = [
    ["tom",10],
    ["jack",20],
    ["mike",30]
]
df = pd.DataFrame(x,columns=['name','age'],index=['row1','row2','row3'])
print(df)
print(df.loc["row1"])#查询一行数据
"""
name    tom
age      10
Name: row1, dtype: object
"""
print("---------------------------------------")
#查询一个数据 ，精确到第一行。name那一列的数据
print(df.loc["row1","name"])#tom
print("---------------------------------------")
print(df.loc[['row1','row2'],"name"]) #查询第一行和第二行的name
"""
row1     tom
row2    jack
Name: name, dtype: object
"""
print("---------------------------------------")
print(df.loc[['row1','row2'],['name','age']]) #查询第一行和第二行的name和age
"""
      name  age
row1   tom   10
row2  jack   20
"""
print("---------------------------------------")
print(df.loc['row1',['name','age']]) #第一行的name和age
"""
name    tom
age      10
Name: row1, dtype: object
"""
print("----------------------------------")
print(df.loc['row1':'row3','name'])#查询第一行到第三行的name
"""
row1     tom
row2    jack
row3    mike
Name: name, dtype: object
"""
print("----------------------------------")
print(df.loc['row1','name':'age']) #第一行的name到age
"""
name    tom
age      10
Name: row1, dtype: object
"""
print("----------------------------------")
print(df.loc['row1':'row3','name':'age'])
"""
      name  age
row1   tom   10
row2  jack   20
row3  mike   30
"""
print("----------------------------------")
b = df['age']

使用df.iloc方法

df.loc方法，根据行、列的标签值查询

df.iloc方法根据行、列的数字位置查询

"""
语法：
iloc[num_index] 根据索引位置获取行
iloc[num_index1:num_index2] 第几行到第几行,左开右闭
iloc[[num_index1,num_index2,.....]] 第几行和第几行
iloc[num_index,num_columns] #第几行的第几列
iloc[num_index,[num_columns1,num_columns2,....]] 第几行，第几列和第几列
iloc[num_index,[num_columns1:num_columns2]] 第几行，第几列到第几列,左开右闭
"""
x = [
    ["tom",10],
    ["jack",20],
    ["mike",30]
]
df = pd.DataFrame(x,columns=['name','age'],index=['row1','row2','row3'])
print(df)
print("------------------------")
print(df.iloc[2]) #根据索引位置获取行
"""
name    mike
age       30
Name: row3, dtype: object
"""
print("------------------------")
print(df.iloc[0:2])
"""
      name  age
row1   tom   10
row2  jack   20
"""
print("------------------------")
print(df.iloc[[0,2]])
"""
      name  age
row1   tom   10
row3  mike   30
"""
print("------------------------")
print(df.iloc[2,0]) #mike

print("------------------------")
print(df.iloc[2,[0,1]])
"""
      name  age
row1   tom   10
row2  jack   20
"""
print("-----------------------------------------")
print(df['row1':'row3'])
"""
      name  age
row1   tom   10
row2  jack   20
row3  mike   30
row1    zs   10
row2    ls   20
row3    ww   30
"""
print("-------------ignore_index=True，则不使用索引标签----------------------------")
df1 = pd.DataFrame(y,columns=['name','age'],index=['row1','row2','row3'])
df2 = df.append(df1,ignore_index=True)
print(df2)
"""
           0      1      2     3      4      5     6
Name     Tom  James  Ricky   Vin  Steve  Minsu  Jack
Age       25     26     25    23     30     29    23
Rating  4.23   3.24   3.98  2.56    3.2    4.6   3.8
"""
print("--------df.axes返回行轴标签和列轴标签列表----------")
df_axes = df.axes
print(df_axes)
#[RangeIndex(start=0, stop=7, step=1), Index(['Name', 'Age', 'Rating'], dtype='object')]
print("--------df.dtypes返回每列的数据类型----------")
df_dtype = df.dtypes
print(df_dtype)
"""
[['Tom' 25 4.23]
 ['James' 26 3.24]
 ['Ricky' 25 3.98]
 ['Vin' 23 2.56]
 ['Steve' 30 3.2]
 ['Minsu' 29 4.6]
 ['Jack' 23 3.8]]
"""

print("-----df.head(n)返回前n行(观察索引值)。默认数量为5----")
df_head = df.head(2)
print(df_head)
"""
    Name  Age  Rating
5  Minsu   29     4.6
6   Jack   23     3.8
"""

Original: https://blog.csdn.net/weixin_51996883/article/details/121859167
Author: zyr——52521
Title: pandas模块—–二维数据结构：DataFrame对象

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/751739/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Flask框架——flask-script

在上篇文章中，我们学习了Flask框架——蓝图，这篇文章我们来学习一下Flask框架的扩展工具flask-script。 flask-script是一个支持自定义命令的工具，为Fl…

Python 2023年8月11日
0053
tensorflow+keras+python对应的版本

进入深度学习，我的毕设框架是tensorflow，有很多需要注意的问题，尤其是版本问题，以前的代码都是在tensorflow1的版本中运行，现在已经出来2了，所以安装2，很多版本1…

Python 2023年8月2日
00238
200行Python代码实现B站UP主小助手（显示视频播放数、粉丝数等）

功能点显示日期时间显示树莓派当前局域网IP 显示当前UP主粉丝数显示B站未读消息显示B站视频总计播放数显示视频总计获赞数显示总计获得充电次数显示直播间人气值显示直播…

Python 2023年11月9日
0056
极限学习机（ELM）从原理到程序实现（附完整代码）

摘要：极限学习机（ ELM）是当前一类非常热门的机器学习算法，被用来训练单隐层前馈神经网络（ SLFN）。本篇博文尽量通俗易懂地对极限学习机的原理进行详细介绍，之后分析如何用 _M…

Python 2023年10月25日
0031
开始你的第一个scrapy项目吧

开始你的第一个scrapy项目吧 * – scrapy安装与验证 – 创建第一个scrapy项目 – 创建爬虫文件 – 爬虫文件各参…

Python 2023年10月3日
0021
Python 网络爬虫：Scrapy框架下爬虫的简单思路

文章目录文章目录文章目录前言一、分析数据源 * 思路分析二、代码部分总结前言最近写了一个词典网站的爬虫，响应以及获取数据的方式非常的简单，本以为会是个轻松的爬虫脚本…

Python 2023年10月6日
0046
【读书笔记】《利用Python进行数据分析》第2版_第四章 NumPy基础：数组与向量化计算

umpy.linalg拥有一个矩阵分解的标准函数集，以及其他常用函数，例如求逆和行列式求解。 from numpy.linalg import inv,qr X = np.rand…

Python 2023年8月25日
0039
数据清洗–3.2 解析XML文件并转换成可用的DataFrame

数据清洗–3.2 解析XML文件并转换成可用的DataFrame 目录数据清洗–3.2 解析XML文件并转换成可用的DataFrame 前言一、读取XML文件二、…

Python 2023年8月8日
0038
python grpc 微服务

https://realpython.com/python-microservices-grpc/ https://www.manning.com/books/developing…

Python 2023年6月12日
0063
python开发框架——Django基础知识（二）

hello！我是wakeyo_J，每天一个小知识，一起学python，让技术无限发散。 python开发框架——Django配置和路由 1、文件配置（BASE_DIR） 2、静态文…

Python 2023年8月5日
0055
Linux——innode

回顾缓冲区标准错误流的理解文件系统 Inode VS 文件名创建/删除/查看文件系统做了什么软硬链接动静态库回顾缓冲区关掉1，log.txt中没文件是因为，字符串在缓…

Python 2023年11月6日
0050
Python飞机大战

存在四个对象：我方飞机、敌方飞机、我方子弹、敌方子弹功能: 背景音乐的添加我方飞机可以移动【根据按键来控制的】敌方飞机也可以移动【随机的自动移动】双方飞机都可以发送子弹步骤:…

Python 2023年9月18日
0026
pytest篇2-运行方式和用例执行规则

我们上一篇博客简单介绍了pytest框架，最后也了解了pytest的运行规则如下： 1、测试文件必须以test开头或者以test结尾（test_ /_test） 2、测试类必须以T…

Python 2023年9月12日
0040
pandas数据分组groupby()和统计函数agg()

数据分组使用 groupby() 方法进行分组 group. size()查看分组后每组的数量 group. groups 查看分组情况 group. get_group(‘&a…

Python 2023年8月6日
0058
Python根据csv绘制多折线图（内含批量读取+自定义坐标标签+阴影处理）

实现功能 1.从csv中读取数据 2.数据清洗（大小超出范围的异常值处理） 3.数据累积处理（将每日数据处理为历史累积值） 4.绘制多折线图 0.导入相关包import os im…

Python 2023年8月7日
0045
全新conda环境安装transformers全流程记录

由于需要安装huggingface的transformers库，但是在我windows的一个已经安装好pytorch和tensorflow的环境中安装，总是出现各种问题。因此在实验…

Python 2023年9月7日
0047

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas模块—–二维数据结构：DataFrame对象

创建DataFrame对象

创建空DataFrame对象

利用列表创建

利用字典创建

利用Series和字典的结合来创建DataFrame

列的读取

列的添加

列的删除

行的读取

使用loc方法

使用df.iloc方法

大家都在看