DataFrame的一般操作

2023年7月6日下午2:40 • 人工智能 • 阅读 73

*1.DataFrame对象的生成

pandas.DataFrame(data,index,columns,dtype,copy)

1.data:支持多种数据类型

2.index：行标签，如果没有传递，则默认为0，1，2，3…

3.columns：列标签，如果没有传递，则默认为0，1，2，3…

4.dtype:每列的数据类型

5.copy：是否复制数据，默认值为false

*从列表创建DataFrame

1.一维列表创建DataFrame

import pandas as pd
data=[1,2,3,4,5]
df=pd.DataFrame(data)
print(df)

'''
    0
0   1
1   2
2   3
3   4
4   5
'''

2.二维列表创建DataFrame,并指定数据类型

import pandas as pd
data=[['alex',10],['bob',12],['clarke',13]]
df=pd.DataFrame(data,columns=['name','age'],dtype=int)   #指定了dtype
print(df)

'''
     name  age
0    alex  10
1    bob   12
2    clarke 13
'''

从ndarray/list的字典来创建DataFrame， *不传入columns的话，字典中的key代替了DateFrame中的columns，values代替了DataFrame中该columns的值

import pandas as pd
data={'name':['tom','jack','steve'],'age':[17,18,19]}
df1=pd.DataFrame(data)
print(df1)
'''
    name   age
0    tom    17
1    jack   18
2    steve  19
'''
df2=pd.DataFrame(data,columns=['NAME','AGE'])
print(df2)
'''
    NAME  AGE
0    tom    17
1    jack   18
2    steve  19
'''

*传递字典列表来创建DataFrame

import pandas as pd
data=[{'a':1,'b':2},{'a':5,'b':10,'c':20}]
df1=pd.DataFrame(data)
print(df1)

'''
    a  b  c
0   1  2  NaN
1   5  10  20
'''

#插入index后
df2=pd.DataFrame(data,index=['first','second'])
print(df2)
'''
        a  b  c
first   1  2  NaN
second  5  10  20
'''
#插入columns后,列会对key值进行一个筛选，然后输出，没有的columns则整列返回NaN
df3=pd.DataFrame(data,index=['first','second']，columns=['a','b','d')
print(df3)

'''
        a  b   d
first   1  2   NaN
second  5  10  NaN

'''

*插入columns后,列会对key值进行一个筛选，然后输出，没有的columns则整列返回NaN
*从Series字典创建DataFrame

import pandas as pd
d={'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3,4],index=
      ['a','b','c','d'])}
df=pd.DataFrame(d)
print(df)
'''
    one  two
a    1.0  1
b    2.0  2
c    3.0  3
d    NaN  4'''

*2.DataFrame对象的使用
读取列

import pandas as pd
d={'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3,4],index=
      ['a','b','c','d'])}
df=pd.DataFrame(d)
print(df['one])
'''
a  1
b  2
c  3
d  NaN
'''

添加列

import pandas as pd
d={'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3,4],index=
      ['a','b','c','d'])}
df=pd.DataFrame(d)
df['three']=pd.Series([10,20,30],index=['a','b','c'])#通过此行追加列，并添加此列数据和设置索引
print(df)
'''
    one  two   three
a    1.0  1     10
b    2.0  2     20
c    3.0  3     30
d    NaN  4     NaN

'''

删除列

import pandas as pd
d={'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3,4],index=
      ['a','b','c','d'])}
df=pd.DataFrame(d)
df['three']=pd.Series([10,20,30],index=['a','b','c'])
#1.使用del命令
del df['one']   #删除columns为one的列

#2.使用pop命令
df.pop('two')   #删除columns为two的列

读取行

import pandas as pd
d={'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3,4],index=
      ['a','b','c','d'])}
df=pd.DataFrame(d)
#1.按索引选择   loc
df.loc['b']
'''
one 2.0
two 2.0
name:b,dtype:float64
'''
#2.按位置选择    iloc
df.iloc[2]
'''
one 3.0
two 3.0
name:c,dtype:float64'''

#按切片选择
df[2:4]
'''
    one  two
c    3.0   3
d    NaN   4

添加行

import pandas as pd
df=pd.DataFrame([[1,2],[3,4]],columns=['a','b'])
df2=pd.DataFrame([[5,6],[7,8]],columns=['a','b'])
df=df.append(df2)
'''
   a   b
0  1   2
1  3   4
0  5   6
1  7   8
'''
df.append(other,ignore_index=False,verity_integrity=False,sort=False)
other:要附加的数据，DataFrame或者Series等类型
ignore_index:如果是True，则不使用索引标签，默认为false
verity_integrity:如果是true，在创建于重复项的索引时，引发valueError，默认为false
sort:如果原数据和添加数据的列没有对齐，则对列进行排序，不建议排序'''

删除行

import pandas as pd
df=pd.DataFrame([[1,2],[3,4]],columns=['a','b'])
df=df.drop(0)     #此处删除了index为0的行，即下方运行结果
print(df)
'''
    a   b
1   3   4
'''

3.DataFrame的属性和方法

因以上属性和方法通俗易懂，在此，就列举一二

import pandas as pd
df=pd.DataFrame([[1,2],[3,4]],columns=['a','b'])
print(df.T)
'''
    0   1
a   1   3
b   2   4'''
print(df.values)
'''
[[1,2]
 [3,4]]'''

4.DataFrame函数应用

import pandas as pd
data={'name':pd.Series(['jack','tom','jerry'],index=
      ['a','b','c']),'age':pd.Series([18,19,20],index=['a','b','c'])}
df=pd.DataFrame(data)
'''
    name   age
a   jack    18
b   tom     19
c   jerry   20'''

print(df.sum())   #返回所请求轴的值的总和，默认情况下axis=0
'''
name  jacktomjerry
age    47
dtype:object'''

print(df.sum(1))    #按行进行求和
'''
a   18
b   19
c   20
dtype:int32'''

df.describe(include=[”])#用来计算有关DataFrame列的统计信息摘要

object:汇总字符串列

number：汇总数字列

all：将所有列汇总在一起（不应将其作为列表值传递）

df.describe(include=['object'/'number']/'all']

import pandas as pd
import numpy as np
s=pd.Series(['tom','Willim Rick','Jorn','Alpha','1234'])
print(s)
'''
0  tom
1  willim Rick
2  Jorn
3  Alpha
4  1234
'''

print(s.str.split('i')   #按什么拆分，先把Series类型转换成str类型再调用方法
'''
0  [tom]
1  [w,ll,m R,ck]
2  [Jorn]
3  [Alpha]
4  [1234]
dtype:object
'''
print(s.str.cat(sep='='))
'''
tom=willim Rick=Jorn=Alpha=1234'''

print(s.str.contains('i'))    #判断元素中是否有i子字符串
'''
0  false
1  true
2  false
3  false
4  false
'''
print(s.str.endwith('k'))   #判断每个元素末尾是否以k结束
'''
0   false
1   true
2   false
3   false
4   false
'''

print(s.str.find('m'))   #判断每个元素中传入的子字符串所在的位置
'''
0  2
1  5
2  -1
3  -1
4  -1'''

'''

把数据放到函数中进行应用/转换，成我们想要的数据

pipe(func,args,kwargs)
func:函数
args,kwargs:意味着，我们自定义函数需要多个参数的时候可以进行传递
——————————————————————————————————————————
apply(func,axis= 0,raw= False,result_type=None,args=(),kwargs)
func:作用于每一行和每一列
axis：所对应的轴，默认是0
0或者index:代表每一列
1或者columns:代表每一行
raw：布尔类型，默认是False
如果时False：将每一行和每一列作为Series传递给函数
如果时True：将数据作为ndarry传递给函数
result_type : {‘expand’, ‘reduce’, ‘broadcast’, None}，默认是none
expand：类似列表的结果转换成DataFrame的列
reduce：如果可能，返回一个Series或DataFrame，而不是类似列表的结果，和expand相反
broadcast:结果保留原始索引和列

———————————————————————————————————————————

使用applymap,那么df是一个整体

import pandas as pd
import numpy as np
#表式函数应用  pipe()
def adder(ele1,ele2):
    return ele1+ele2
df=pd.Dataframe(np.arange(9).reshape(3,3),columns=['col1','col2','col3'])
data=df.pipe(adder,2)
'''
   col1   col2   col3
0   2      3      4
1   5      6      7
2   8      9      10
'''

#行和列函数应用
df=pd.Dataframe(np.arange(9).reshape(3,3),columns=['col1','col2','col3'])
data=df.apply(np.mean)
'''col1   5
col2   6
col3   7'''

#元素函数应用
df=pd.DataFrame(np.random.randint(10,size=(3,3)),columns=['col1','col2','col3'])
data=df['col1'].map(lambda x:x*100)
print(data)
'''
0    200
1    500
2    100
Name: col1, dtype: int64'''

Original: https://blog.csdn.net/weixin_53591842/article/details/121845804
Author: 蔡叔叔two
Title: DataFrame的一般操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674153/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于知识图谱的金融舆情风险分析及自动表示学习技术

公众号系统之神与我同在知识图谱 in 4Paradigm标准化知识图谱构建风险传导分析案例认知智能是人工智能发展的高阶形态知识图谱：AI的大脑 ·一种大规模语义网络·一种结构化…

人工智能 2023年6月1日
0090
深度学习–TensorFlow（4）BP神经网络（损失函数、梯度下降、常用激活函数、梯度消失&&梯度爆炸）

目录一、概念与定义二、损失函数/代价函数（loss）三、梯度下降法二维w与loss：三维w与loss：四、常用激活函数 1、softmax激活函数 2、sigmoid激…

人工智能 2023年5月25日
00123
【pytorch】ResNet18、ResNet20、ResNet34、ResNet50网络结构与实现

文章目录 ResNet主体 BasicBlock * ResNet18 ResNet34 ResNet20 Bottleneck Block * ResNet50 ResNet到底…

人工智能 2023年7月25日
00125
Python 重命名文件夹

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月9日
0075
我们来用Unity做个2D像素boss战

从个人角度出发，《死亡细胞》有很多让我爱不释手的特征：优秀的操作手感，碎片化的剧情，变化多端的随机地图，多种特点明显的敌人，丰富的装备（技能）系统——以及精彩炫酷的Boss战。无论…

人工智能 2023年6月28日
00105
深度学习框架安装(Tensorflow&PyTorch&PaddlePaddle）

一、前言本文中讲解的深度学习框架安装的步骤是基于Anaconda的，所以大家要想按照本文中的步骤安装深度学习框架，需要先安装Anaconda （换源要慎重）。实验环境： Win…

人工智能 2023年5月23日
0064
论文浅尝 | Wordly Wise(WoW) – 用于语音视觉知识问答的跨语言知识融合模型

笔记整理: 谭亦鸣，东南大学博士生来源：NAACL’21链接：https://aclanthology.org/2021.naacl-main.153.pdf 论文提出…

人工智能 2023年5月27日
0086
注意力机制——注意力评分函数（代码+详解）

目录 * – + 注意力分数 + * 关于a函数的设计有两种思路 * – 1.加性注意力(Additive Attention) – 2.缩放点…

人工智能 2023年6月15日
0085
Python模块之Pandas 格式化数据

一、style格式化数据 1、所有列格式化 2、指定列格式化 (1) 使用字典对指定列格式化 (2) 使用lambda对指定列格式化 (3) 使用 na_rep设置空值的显示 (4…

人工智能 2023年7月8日
0098
pid摄像头循迹（opencv和openmv）

pid摄像头循迹（opencv和openmv）用摄像头进行循迹的方法参考 * 硬件选型方面软件思路一.图像预处理：代码部分二.线性拟合 opencv线性拟合：实际在树莓…

人工智能 2023年7月18日
00116
kaldi nnet模型的decode流程解析

文章目录前言 1、特征提取 * 1-1 filter bank特征计算 1-2 cmvn处理 1-3 拼帧 2、nnet-forward 3、解码生成词图(lattice) 前言…

人工智能 2023年5月25日
0070
尝试阅读和理解 RotatE: Knowledge Graph Embedding by Relational Rotation in Complex Space

文中提到知识图谱模型所面临的问题 a fundamental problem for knowledge graph is predicting the missing links…

人工智能 2023年6月1日
0098
（六）多项式回归

文章目录前言 1. 一个例子 2. 多项式回归模型 3. 代码实现前言这篇文章介绍多项式回归。一个例子线性回归可以很好地拟合线性分布的数据，但是对于非线性的数据却派不上…

人工智能 2023年6月16日
0080
医学图像格式预处理

医学图像文件数据存储格式 DICOM DICOM(Digital Imaging and Communications in Medicine)是指医疗数字影像传输协定，是用于医学…

人工智能 2023年6月18日
0078
第十七届全国大学生智能车竞赛智能视觉组总结

文章目录前言一、本次比赛任务分工二、OpenArt部分任务 * 1.地图识别 2.图像识别 – 1）模型训练 2）图像处理 3）通讯总结前言我参加了第十七届…

人工智能 2023年6月24日
0097
git bash运行CycleGAN-TensorFlow问题（个人笔记）

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月25日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31