pandas常用函数

文章目录

一、pandas是什么?

1、Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建。
2、Pandas纳入大量库和标准数据模型,提供高效的操作数据集所需的工具。
3、Pandas提供大量能使我们快速便捷地处理数据的函数和方法。
4、Pandas是字典形式,基于NumPy创建,让NumPy为中心的应用变得更加简单。

二、常用函数

1.读入csv数据

import pandas as pd
pd.read_csv("girl.csv")

read.csv()中有很多其他参数可以选择。

pd.read_csv('girl.csv', sep='\t')
pd.read_csv('girl.csv',delim_whitespace=True)

还有header和name参数


pd.read_csv('girl.csv',delim_whitespace=True, header=1)

pd.read_csv('girl.csv', delim_whitespace=True
, names=["编号", "姓名", "地址", "日期"])

pd.read_csv('girl.csv', delim_whitespace=True,
names=["编号", "姓名", "地址", "日期"], header=0)

2.数据处理

2.1 iloc()

对dataframe类型数据进行处理:

ABCDa0.5600940.3526860.9541000.926277b0.5637280.3355170.2329020.973932c0.4821550.9766180.5654620.44510d0.477140.9333530.2917640.986668

iloc 基于行索引和列索引(index,columns) 都是从 0 开始
如果数据的行标签和列标签名字太长或不容易记,则用 iloc 很方便,只需记标签对应的索引即可


frame.iloc[0,0]


frame.iloc[0:2,:]

ABCDa0.5600940.3526860.9541000.926277b0.5637280.3355170.2329020.973932


frame.iloc[:,0:2]

ABa0.5600940.352686b0.5637280.335517c0.4821550.976618d0.477140.933353


frame.iloc[[0,3],[0,3]]

2.2、创建dataframe格式数据

有很多种方式可以获得df格式的数据。我认为主要分为三大类:
1:直接从文件中读取得到df数据
2:先创建一个空的,再往里赋值
3:从其他格式转换为df格式(都是使用pd.DataFrame函数)
这里面我日常使用中第一和第三种方式最为常用。第一种可以往上翻看读取数据。
这里主要介绍下第三种

2.2.1 list转df

import pandas as pd
new_lists =[ [1,2,3,4,5], [7,8,9,10,11], {1,2,3,4,5}]
df2 =pd.DataFrame(new_lists, columns = ["image","quality","type","Retinopathy_grade","Risk_of_macular_edema"])
print(df2)
  image  quality  type  Retinopathy_grade  Risk_of_macular_edema
0      1        2     3                  4                      5
1      7        8     9                 10                     11
2      1        2     3                  4                      5

原来列表里有集合也不影响。
注意:list的列数要和你自己设置的列数一致,不然会报错。

pandas常用函数
也可以指定每行index = [ ‘i.’, ‘ii.’,”iii” ]
df2 =pd.DataFrame(new_lists, columns =
["image","quality","type","Retinopathy_grade","Risk_of_macular_edema"],
index = [ 'i.', 'ii.',"iii" ])
     image  quality  type  Retinopathy_grade  Risk_of_macular_edema
i.       1        2     3                  4                      5
ii.      7        8     9                 10                     11
iii      1        2     3                  4                      5

但也要注意行数和lisi的行数要一致不然会报错。

2.2.2 numpy转df

import numpy as np
data_np =np.random.randint(100, size=(4, 3))
data_df = pd.DataFrame(data_np)
print(data_df)
   0   1   2
0  70  36  79
1  38  17  29
2  63  45  74
3  21  25   2

3、赋值

今天在对df数据进行重新赋值时使用:

df.iloc[行,列] = a

虽然没有报错,但数据没有改变。要用下面的方法才会正确赋值:

df[列,行] = a

之后更新

Original: https://blog.csdn.net/qq_46717669/article/details/124731825
Author: Brandy_Whisky
Title: pandas常用函数

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/638803/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球