DataFrame对象（创建，读取，添加，删除，方法）

2023年7月7日上午9:36 • 人工智能 • 阅读 47

创建DataFrame对象

语法：

pandas.DataFrame( data, index, columns, dtype, copy)
data 支持多种数据类型，如:ndarray，series，map，lists，dict，constant和另一个DataFrame。
index 行标签，如果没有传递索引值，默认值为0,1,2,3,4…….

columns 列标签，如果没有传递索引值，默认值为0,1,2,3,4…….

dtype 每列的数据类型
copy 是否复制数据，默认值为False

import pandas  as pd
df = pd.DataFrame()
print (df)

利用单层list

import pandas  as pd
x = [1,2,3,4,5,6]
df = pd.DataFrame(x，dtype=np.float32)
print(df)

利用双层list

import pandas  as pd
x = [
    ["tom",10],
    ["jack",20],
    ["mike",30]
]
#df = pd.DataFrame(x,columns=['name','age'])
#如果是True，那么x数据不改变
df = pd.DataFrame(x,columns=['name','age'，'sex'],copy=True)
df['age'] = 100
print(df)
print(x)

利用数据是字典的列表创建

import pandas  as pd
x = [
    {'a':1,'b':2},
    {'a':10,'b':20,'c':30}
]
#index 行索引  columns列索引
df1 = pd.DataFrame(x)
print(df1)
df1 = pd.DataFrame(x,index=["first","second"])
print(df1)
#如果没有c，就会默认是nun
df1 = pd.DataFrame(x,index=["first","second"],columns=['a','c'])
print(df1)

import pandas  as pd

#利用字典创建DataFrame
#a、b是列索引，一定要设置行索引（index），否则报错
x = {'a':1,'b':2}
d1 = pd.DataFrame(x,index=['row1'])
print(d1)
'''
      a  b
row1  1  2'''

字典里面的v是列表类型创建DataFrame
#那么默认列索引是name和age
x = {
    'name':['zs','ls','ww','zl'],
    'age':[14,15,16,17]
}
d1 = pd.DataFrame(x)
print(d1)
'''
  name  age
0   zs   14
1   ls   15
2   ww   16
3   zl   17'''
print(d1['age'])
'''
0    14
1    15
2    16
3    17
Name: age, dtype: int64'''

import pandas  as pd

s1=pd.Series(["馒头","包子","豆浆","老碗面"])
s2=pd.Series([1,1.5,2,10])
a={
    "食品":s1,
    "价格":s2
}
df1=pd.DataFrame(a)
print(df1)
'''
    食品    价格
0   馒头   1.0
1   包子   1.5
2   豆浆   2.0
3  老碗面  10.0 '''

列的读取

、语法
df[columns_lable]查询单列
df[columns_lable]查询多列
查询一列会进行降维DataFrame——–>Series
查询多列不变

import pandas  as pd
s1=pd.Series(["馒头","包子","豆浆","老碗面"])
s2=pd.Series([1,1.5,2,10])
a={
    "食品":s1,
    "价格":s2
}
df1=pd.DataFrame(a)
s=df1['食品']
print(s)
'''
0     馒头
1     包子
2     豆浆
3    老碗面
Name: 食品, dtype: object'''
print(type(s))#    查询一列会进行降维DataFrame-------->Series
s2=df1[['食品','价格']]
print(s2)
'''
    食品    价格
0   馒头   1.0
1   包子   1.5
2   豆浆   2.0
3  老碗面  10.0'''
print(type(s2))#   查询多列不变

列的添加

语法：df[columns]=数据
切记是同类型数据
df1[columns]=df1[columns]+df1[columns]

import pandas  as pd
s1=pd.Series(["馒头","包子","豆浆","老碗面"])
s2=pd.Series([1,1.5,2,10])
a={
    "食品":s1,
    "价格":s2
}
df1=pd.DataFrame(a)
print(df1)
print('======================')
'''
    食品    价格
0   馒头   1.0
1   包子   1.5
2   豆浆   2.0  '''
#df[columns]=数据
a=['太干','不错',"太甜",'好吃']
df1['评价']=a
print(df1)
'''
    食品    价格  评价
0   馒头   1.0  太干
1   包子   1.5  不错
2   豆浆   2.0  太甜
3  老碗面  10.0  好吃 '''
print('======================')

df1[columns]=df1[columns]+df1[columns]

df1['详细评价']=df1['食品']+df1['评价']
print(df1)
'''
    食品    价格  评价   详细评价
0   馒头   1.0  太干   馒头太干  
1   包子   1.5  不错   包子不错  
2   豆浆   2.0  太甜   豆浆太甜  
3  老碗面  10.0  好吃  老碗面好吃'''

列的删除

原数据

s1=pd.Series(["馒头","包子","豆浆","老碗面"])
s2=pd.Series([1,1.5,2,10])
a={
    "食品":s1,
    "价格":s2
}
df1=pd.DataFrame(a)
a=['太干','不错',"太甜",'好吃']
df1['评价']=a
df1['详细评价']=df1['食品']+df1['评价']
print(df1)
'''
    食品    价格  评价   详细评价
0   馒头   1.0  太干   馒头太干
1   包子   1.5  不错   包子不错
2   豆浆   2.0  太甜   豆浆太甜
3  老碗面  10.0  好吃  老碗面好吃'''

删除语法

del df[columns] 根据下标进行检索删除，没有返回值

del df1['评价']
print(df1)
'''
    食品    价格   详细评价
0   馒头   1.0   馒头太干
1   包子   1.5   包子不错
2   豆浆   2.0   豆浆太甜
3  老碗面  10.0  老碗面好吃'''

df.pop[columns] 根据下标进行检索删除,并返回删除的那一列

a=df1.pop("详细评价")
print(a)#要删除的数据
'''
0     馒头太干
1     包子不错
2     豆浆太甜
3    老碗面好吃
Name: 详细评价, dtype: object'''
print(df1)#删除完的数据
'''
    食品    价格
0   馒头   1.0
1   包子   1.5
2   豆浆   2.0
3  老碗面  10.0'''

行的读取

原数据

s1=pd.Series(["馒头","包子","豆浆","老碗面","大盘鸡","木桶饭","麻辣烫"],index=["row1","row2","row3","row4","row5","row6","row7"])
s2=pd.Series([1,1.5,2,10,13,11,20],index=["row1","row2","row3","row4","row5","row6","row7"])
s3=pd.Series(["好吃","好吃","好吃","好吃","好吃","好吃","好吃",],index=["row1","row2","row3","row4","row5","row6","row7"])
a={
    "食品":s1,
    "价格":s2,
    "评价":s3
}
df1=pd.DataFrame(a)
print(df1)
'''
       食品    价格  评价
row1   馒头   1.0  好吃
row2   包子   1.5  好吃
row3   豆浆   2.0  好吃
row4  老碗面  10.0  好吃
row5  大盘鸡  13.0  好吃
row6  木桶饭  11.0  好吃
row7  麻辣烫  20.0  好吃'''

loc[index] 查询一行数据

print(df1.loc['row1'])#       必须用自己新设置的索引
'''
食品     馒头
价格    1.0
评价     好吃
Name: row1, dtype: object'''

loc[index,columns] 精确到行和列，那就是一个数据

print(df1.loc['row4','食品'])#  老碗面

loc[[index1,index2,….],[columns1,columns12,…..]] 获取多行多列

print(df1.loc[['row1','row3'],["食品","价格"]])

'''

      食品   价格        

row1  馒头  1.0

row3  豆浆  2.0'''

混合使用

print(df1.loc['row1',["食品","价格"]])#单行多列

'''

食品     馒头

价格    1.0

Name: row1, dtype: object'''

print(df1.loc[['row1','row3'],"食品"])#多行单列

'''

row1    馒头

row3    豆浆

Name: 食品, dtype: object'''

print(df1.loc["row1":"row3","食品":"价格"])#查询多行和多列（第几行到第几行,第几列到第几列）不是左开右闭

'''

      食品   价格

row1  馒头  1.0

row2  包子  1.5

row3  豆浆  2.0'''

print(df1.loc[["row1","row3"],"食品":"价格"])#结合使用

'''

      食品   价格

row1  馒头  1.0

row3  豆浆  2.0'''

#布尔索引

index_bool=[True,False,True,False,True,False,False]

col_bool=[True,False,True]

print(df1.loc[index_bool,col_bool])

'''

       食品  评价

row1   馒头  好吃

row3   豆浆  好吃

row5  大盘鸡  好吃'''

a=df1['价格']>8

print(df1.loc[a])

'''

       食品    价格  评价

row4  老碗面  10.0  好吃

row5  大盘鸡  13.0  好吃

row6  木桶饭  11.0  好吃

row7  麻辣烫  20.0  好吃'''

df.loc方法，根据行、列的标签值查询

df.iloc方法根据行、列的数字位置查询

语法：
iloc[num_index] 根据索引位置获取行
iloc[num_index1:num_index2] 第几行到第几行,左开右闭
iloc[[num_index1,num_index2,…..]] 第几行和第几行
iloc[num_index,num_columns] #第几行的第几列
iloc[num_index,[num_columns1,num_columns2,….]] 第几行，第几列和第几列
iloc[num_index,[num_columns1:num_columns2]] 第几行，第几列到第几列,左开右闭
iloc[[num_index1,num_index2,…..],[num_columns1,num_columns2,….]]
iloc[num_index1:num_index2,[num_columns1:num_columns2]]

原数据

import pandas  as pd
s1=pd.Series(["馒头","包子","豆浆","老碗面","大盘鸡","木桶饭","麻辣烫"],index=["row1","row2","row3","row4","row5","row6","row7"])
s2=pd.Series([1,1.5,2,10,13,11,20],index=["row1","row2","row3","row4","row5","row6","row7"])
s3=pd.Series(["好吃","好吃","好吃","好吃","好吃","好吃","好吃",],index=["row1","row2","row3","row4","row5","row6","row7"])
a={
    "食品":s1,
    "价格":s2,
    "评价":s3
}
df1=pd.DataFrame(a)
print(df1)
'''
       食品    价格  评价
row1   馒头   1.0  好吃
row2   包子   1.5  好吃
row3   豆浆   2.0  好吃
row4  老碗面  10.0  好吃
row5  大盘鸡  13.0  好吃
row6  木桶饭  11.0  好吃
row7  麻辣烫  20.0  好吃'''
print(df1.iloc[0:4])#第几行到第几行,左开右闭
'''
       食品    价格  评价
row1   馒头   1.0  好吃
row2   包子   1.5  好吃
row3   豆浆   2.0  好吃
row4  老碗面  10.0  好吃 '''
print(df1.iloc[[0,3]])#第几行和第几行
'''
       食品    价格  评价
row1   馒头   1.0  好吃
row4  老碗面  10.0  好吃'''
print(df1.iloc[6,0])#麻辣烫                   第几行的第几列
print(df1.iloc[6,0:2])#第几行的，第几列到第几列
'''
食品     麻辣烫
价格    20.0
Name: row7, dtype: object'''
print(df1.iloc[6,[0,2]])#第几行的，第几列和第几列
'''
食品    麻辣烫
评价     好吃
Name: row7, dtype: object'''
print(df1.iloc[[0,2,4],[0,2]])#哪几行的哪几列
'''
       食品  评价
row1   馒头  好吃
row3   豆浆  好吃
row5  大盘鸡  好吃'''

df[num_index1:num_index2] 第几行到第几行左开右闭—切片
df[label_index1:label_index2] 第几行到第几行，左开右开

import pandas  as pd

#原数据
s1=pd.Series(["馒头","包子","豆浆","老碗面","大盘鸡","木桶饭","麻辣烫"],index=["row1","row2","row3","row4","row5","row6","row7"])
s2=pd.Series([1,1.5,2,10,13,11,20],index=["row1","row2","row3","row4","row5","row6","row7"])
s3=pd.Series(["好吃","好吃","好吃","好吃","好吃","好吃","好吃",],index=["row1","row2","row3","row4","row5","row6","row7"])
a={
    "食品":s1,
    "价格":s2,
    "评价":s3
}
df1=pd.DataFrame(a)
print(df1)
'''
       食品    价格  评价
row1   馒头   1.0  好吃
row2   包子   1.5  好吃
row3   豆浆   2.0  好吃
row4  老碗面  10.0  好吃
row5  大盘鸡  13.0  好吃
row6  木桶饭  11.0  好吃
row7  麻辣烫  20.0  好吃'''

print(df1[0:4])#第一行到第五行，但是第五行不取
'''
       食品    价格  评价
row1   馒头   1.0  好吃
row2   包子   1.5  好吃
row3   豆浆   2.0  好吃
row4  老碗面  10.0  好吃 '''
print(df1["row1":"row3"])#第一行到第三行，第三行也取
'''
      食品   价格  评价
row1  馒头  1.0  好吃
row2  包子  1.5  好吃
row3  豆浆  2.0  好吃'''

行的添加

在末尾追加一行，返回一个新对象
df.append(other,ignore_index= False,verify_integrity = False,
sort = False)
other：要附加的数据，DataFrame或者Series等类型
ignore_index：如果是True，则不使用索引标签，默认false
verify_integrity：如果是True，在创建于重复项的索引时，引发valueError，默认时false
sort：如果原数据和添加数据的列没有对齐，则对列进行排序，不建议排序

x = [
    ["tom",10],
    ["jack",20],
    ["mike",30]
]
df = pd.DataFrame(x,columns=['name','age'],index=['row1','row2','row3'])
print(df)
print("-----------------------------------------")
y = [
    ["zs",10],
    ["ls",20],
    ["ww",30]
]
df1 = pd.DataFrame(y,columns=['name','age'],index=['row1','row2','row3'])
df2 = df.append(df1)
print(df2)
"""
   name  age
0   tom   10
1  jack   20
2  mike   30
3    zs   10
4    ls   20
5    ww   30
"""
print("------verify_integrity=True，在创建于重复项的索引时，引发valueError-------")
df1 = pd.DataFrame(y,columns=['name','age'],index=['row1','row2','row3'])
df2 = df.append(df1,verify_integrity=True)
print(df2)

行的删除

df1= df.drop(index) #删除某行，返回一个新数据

x = [
    ["tom",10],
    ["jack",20],
    ["mike",30]
]
df = pd.DataFrame(x,columns=['name','age'],index=['row1','row2','row3'])
print(df)
print("--------------------------")
df1= df.drop('row1')
print(df1)

Original: https://blog.csdn.net/weixin_62478198/article/details/121839818
Author: F濤
Title: DataFrame对象（创建，读取，添加，删除，方法）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675962/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

攻克 Transformer & 注意力机制的查询、键和值 & 有无参数的Nadaraya-Watson核回归

自2017年横空出世，transformer⼀直都普遍存在于现代的深度学习应用中，例如语言、视觉、语音和强化学习领域。 *学习Transformer不能急躁，需要打好基础。目录…

人工智能 2023年6月18日
0081
CNN实现手写数字识别

手写数字识别一致是一个机器学习里面常见的案例，今天通过CNN来实现一个手写数字识别来介绍一个机器学习的流程。数据预处理 from keras import datasets (x…

人工智能 2023年6月17日
0065
密度图+回归线，相关图这样画？seaborn中 joinplot 结合核密度图和回归图（KDE+regplot）

因为jointplot就是联合绘图，通常边缘上绘制分布图，中间绘制其它的（比如核密度图），所以如何去除边缘的分布图，再叠加一条回归线呢,可以用于替换常规散点图表示相关图的方式，如下…

人工智能 2023年7月16日
0068
GNN的理解与研究

文章目录一：初识GNN * 1.什么是GNN 2.GNN与CNN、RNN的区别 3.GNN的应用领域二：GNN原理 * – 1.邻接矩阵 2.聚合操作 3.多层迭代…

人工智能 2023年6月17日
0059
【SVM分类】基于matlab鲸鱼算法优化SVM分类（多输入多分类）【含Matlab源码 1557期】

⛄一、获取代码方式获取代码方式1：完整代码已上传我的资源：【ELM分类】基于matlab鲸鱼算法优化核极限学习机数据分类【含Matlab源码 2012期】获取代码方式2：付费专…

人工智能 2023年7月2日
0080
pytorch——AlexNet——训练花分类数据集

宝藏博主：霹雳吧啦Wz_太阳花的小绿豆_CSDN博客-深度学习,Tensorflow,软件安装领域博主目录数据集下载训练集与测试集划分 “split_data.p…

人工智能 2023年6月30日
0072
【深度学习】嵌入式人工智能概述

AI嵌入式系统 1.1 概念嵌入式系统是指”嵌入”在应用中的计算机系统。嵌入式系统和传统PC的不同之处在于它通常针对特定应用配备专用软硬件接口，在运算速度…

人工智能 2023年6月25日
0087
目标检测回归损失函数：SmoothL1/IoU/GIoU/DIoU/CIoU Loss

文章目录 1. Smooth L1 Loss * 1.1 假设x为预测框和真实框之间的数值差异，常用的L1和L2 Loss定义为： 1.2 上述的3个损失函数对x的导数分别为： 1…

人工智能 2023年6月18日
0058
python 查看程序的GPU显存占用

显示GPU显存占用方法引言一、nvidia-smi 二、windows下的任务管理器三、pynvml库四、显存不够用又没钱怎么办引言主要针对显卡：nvidia初衷：想要…

人工智能 2023年6月16日
0081
tensorflow Lite 2—- 移动端部署–yolov5+训练自己的数据集

一、模型移动端环境部署可以参考： tensorflow lite 1—- 移动端部署–object detection 官方历程手把手教程_行码阁119的…

人工智能 2023年5月23日
0078
机器学习初探：（五）逻辑回归之多分类

（五）逻辑回归 – 多分类图片出处文章目录（五）逻辑回归 – 多分类 * 逻辑回归多分类（One-vs-all logistic regressi…

人工智能 2023年6月16日
0078
python dataframe index loc_基于DataFrame筛选数据与loc的用法详解

DataFrame筛选数据与loc用法 python中pandas下的DataFrame是一个很不错的数据结构，附带了许多操作、运算、统计等功能。如何从一个DataFrame中筛…

人工智能 2023年7月7日
0038
如何确定分类的阈值，如何确定哪个模型好呢

当时使用sigmoid时，如果确定分类的阈值呢？（使用sigmoid的多分类或者softmax的2分类，其实2分类的softmax就是sigmoid没区别）一般我们喜欢使用0….

人工智能 2023年7月1日
00124
问EXCEL、Python、BI到底谁才是数据分析中的佼佼者？

俗话说的好：有人的地方就有鄙视圈，就像学C/C++的看不起学JAVA，学JAVA看不起学PHP，学PHP看不起学VBA的。在数据分析行业也存在着这样的鄙视链:学Python看不起…

人工智能 2023年7月16日
00121
OpenCV-Python 彩色图像转灰度图

本文主要是讲OpenCV-Python对图像进行彩色转灰度图的操作文章目录前言一、读取图片二、彩色图片转灰度图强烈说明：前言这里给出一个OpenCV-Python文档…

人工智能 2023年5月28日
0086
知识图谱指南：从理论到应用

知识图谱并不是一个全新的概念，早在 2006 年就有文献提出了语义网（Semantic Network）的概念，呼吁推广、完善使用本体模型来形式化表达数据中的隐含语义，RDF（re…

人工智能 2023年6月1日
0067

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30