文章目录
一、pandas是什么?
1、Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建。
2、Pandas纳入大量库和标准数据模型,提供高效的操作数据集所需的工具。
3、Pandas提供大量能使我们快速便捷地处理数据的函数和方法。
4、Pandas是字典形式,基于NumPy创建,让NumPy为中心的应用变得更加简单。
二、常用函数
1.读入csv数据
import pandas as pd
pd.read_csv("girl.csv")
read.csv()中有很多其他参数可以选择。
pd.read_csv('girl.csv', sep='\t')
pd.read_csv('girl.csv',delim_whitespace=True)
还有header和name参数
pd.read_csv('girl.csv',delim_whitespace=True, header=1)
pd.read_csv('girl.csv', delim_whitespace=True
, names=["编号", "姓名", "地址", "日期"])
pd.read_csv('girl.csv', delim_whitespace=True,
names=["编号", "姓名", "地址", "日期"], header=0)
2.数据处理
2.1 iloc()
对dataframe类型数据进行处理:
ABCDa0.5600940.3526860.9541000.926277b0.5637280.3355170.2329020.973932c0.4821550.9766180.5654620.44510d0.477140.9333530.2917640.986668
iloc 基于行索引和列索引(index,columns) 都是从 0 开始
如果数据的行标签和列标签名字太长或不容易记,则用 iloc 很方便,只需记标签对应的索引即可
frame.iloc[0,0]
frame.iloc[0:2,:]
ABCDa0.5600940.3526860.9541000.926277b0.5637280.3355170.2329020.973932
frame.iloc[:,0:2]
ABa0.5600940.352686b0.5637280.335517c0.4821550.976618d0.477140.933353
frame.iloc[[0,3],[0,3]]
2.2、创建dataframe格式数据
有很多种方式可以获得df格式的数据。我认为主要分为三大类:
1:直接从文件中读取得到df数据
2:先创建一个空的,再往里赋值
3:从其他格式转换为df格式(都是使用pd.DataFrame函数)
这里面我日常使用中第一和第三种方式最为常用。第一种可以往上翻看读取数据。
这里主要介绍下第三种
2.2.1 list转df
import pandas as pd
new_lists =[ [1,2,3,4,5], [7,8,9,10,11], {1,2,3,4,5}]
df2 =pd.DataFrame(new_lists, columns = ["image","quality","type","Retinopathy_grade","Risk_of_macular_edema"])
print(df2)
image quality type Retinopathy_grade Risk_of_macular_edema
0 1 2 3 4 5
1 7 8 9 10 11
2 1 2 3 4 5
原来列表里有集合也不影响。
注意:list的列数要和你自己设置的列数一致,不然会报错。
也可以指定每行index = [ ‘i.’, ‘ii.’,”iii” ]
df2 =pd.DataFrame(new_lists, columns =
["image","quality","type","Retinopathy_grade","Risk_of_macular_edema"],
index = [ 'i.', 'ii.',"iii" ])
image quality type Retinopathy_grade Risk_of_macular_edema
i. 1 2 3 4 5
ii. 7 8 9 10 11
iii 1 2 3 4 5
但也要注意行数和lisi的行数要一致不然会报错。
2.2.2 numpy转df
import numpy as np
data_np =np.random.randint(100, size=(4, 3))
data_df = pd.DataFrame(data_np)
print(data_df)
0 1 2
0 70 36 79
1 38 17 29
2 63 45 74
3 21 25 2
3、赋值
今天在对df数据进行重新赋值时使用:
df.iloc[行,列] = a
虽然没有报错,但数据没有改变。要用下面的方法才会正确赋值:
df[列,行] = a
之后更新
Original: https://blog.csdn.net/qq_46717669/article/details/124731825
Author: Brandy_Whisky
Title: pandas常用函数
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/638803/
转载文章受原作者版权保护。转载请注明原作者出处!