Pandas学习笔记
导入库
import pandas as pd
读取文件数据
df = pd.read_csv("data/dogName.csv")
Series函数
带标签的一维数组;构成:键 值
t = pd.Series([1,2,3,4,5])
改变索引
t2 = pd.Series([1,2,3,4,5],index=list("abcde"))
通过字典创建
temp_dict = {"name":"xiaohong","age":30,"tel":10086}
a = pd.Series(temp_dict)
几种取值方式
a[:]
a["tel"]
a[:2]
a[["name","age","f"]]
t[t>4]
a.index
list(a.index)
a.values
DataFrame函数
二维,行索引index(axis=0),列索引columns(axis=1)
pd.DataFrame(np.arange(12).reshape(3,4))
更换索引值
pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("XYZW"))
利用字典
d1 = {"name":["小红","小刚"],"age":[22,25],"tel":[10086,10010]}
pd.DataFrame(d1)
d2 = [{"name":"xiaoming","age":11,"tel":10086},{"name":"xiaozhang","age":12},{"name":"liming"}]
m = pd.DataFrame(d2)
DataFrame()的几种属性
; 一个小练习:找到狗的名字的数量的最大值
import pandas as pd
df = pd.read_csv("data/dogName.csv")
df = df.sort_values(by="Count_AnimalName",ascending=False)
print(df.head(5))
取值
取行取列 []中写数组表示对行操作,[]中写字符串,表示对列操作
print(df[:20])
print(df["Row_Labels"])
print(df[:20]["Row_Labels"])
loc和iloc函数
loc函数 通过标签做获取行数据
iloc函数 通过位置获取行数据
; loc
n.loc["a","Z"]
n.loc["a",:]
n.loc[["a","c"],]
iloc
n.iloc[1]
n.iloc[:,2]
n.iloc[1:,2:]
缺失数据处理
pd.isnull(m)
删除NAN所在的行 all全部满足NAN any部分满足NAN inplace原地修改
m.dropna(axis=0,how="all",inplace = False)
填充数据
m.fillna(0)
NAN不部分填充中值数据
m.fillna(m.mean())
某一列NAN不部分填充中值数据
m["age"] = m["age"].fillna(m["age"].mean())
处理0表示缺失的0的数据
m[m==0] = np.nan
Original: https://blog.csdn.net/htthr/article/details/126710939
Author: 飞飞飞KiKi
Title: Pandas学习笔记
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/677703/
转载文章受原作者版权保护。转载请注明原作者出处!