Pandas学习笔记

2023年8月6日下午6:27 • Python • 阅读 43

1.常用的数据结构有：Series，DataFrame

Series的创建：

import pandas as pd
series1=pd.Series([1,2,3,4],index=['a','b','c','d'],name='practice')

Series的对象可以是列表、字典和数组，其中字典的键即为索引

Series常用属性有：values以数组形式呈现数值（pandas的建立是基于numpy）、index、dtypes、ndim

方法有append()用于拼接，drop()删除但不改变原序列，若想改变，需设置参数inplace=True

DataFrame可看作是由多个Series组成的，或理解为Series是DataFrame的一列。

DataFrame的创建：

常用属性有：values、shape、dtypes、columns、ndim、size、index

to_list()方法可用列表形式查看

2.数据获取和保存

技巧：先修改运行路径，再读取文件

import os
os.getcwd() # &#x83B7;&#x53D6;&#x5F53;&#x524D;&#x8DEF;&#x5F84;
os.chdir('&#x6587;&#x4EF6;&#x5B58;&#x50A8;&#x8DEF;&#x5F84;') # &#x5C06;Python&#x8FD0;&#x884C;&#x8DEF;&#x5F84;&#x6539;&#x4E3A;&#x6587;&#x4EF6;&#x5B58;&#x50A8;&#x8DEF;&#x5F84;
df=pd.read_csv('&#x6587;&#x4EF6;&#x540D;.csv',encoding='gbk',dtype={'id':str},nrows=n,sep=',',na_values='&#x6682;&#x65E0;') # &#x5F53;&#x6587;&#x4EF6;&#x4E2D;&#x5B58;&#x5728;&#x5927;&#x91CF;&#x4E2D;&#x6587;&#x65F6;&#xFF0C;encoding&#x5B9C;&#x8BBE;&#x7F6E;&#x4E3A;gbk,nrows&#x53EA;&#x8BFB;&#x53D6;&#x524D;n&#x884C;&#xFF0C;&#x9ED8;&#x8BA4;&#x4EE5;,&#x5206;&#x5272;&#xFF0C;na_values&#x8BBE;
     # &#x7F6E;&#x5C06;&#x201C;&#x6682;&#x65E0;&#x201D;&#x8BFB;&#x53D6;&#x4E3A;&#x7F3A;&#x5931;&#x503C;

注：pandas默认将第一行作为表头

常用方法：head(n)查看前n行、tail(n)查看后n行、dtypes属性查看每一列的数据类型，其中object一般指字符串类型

读取excel文件，参数sheet_name用于指定读取的表

df=pd.read_excel('&#x6587;&#x4EF6;&#x540D;.xlsx',encoding='utf-8',sheet_name='')

concat()用于拼接数据，ignore_index=True用于索引设置。

数据保存：

data.to_csv/to_excel(data.csv/xlsx,index=False) index表示不写入索引

3.数据筛选

查看前n行：df[:n]

查看某一列：df.column_name或df[‘column_name’]

查看某一列前n行：df[‘column_name’][:n]

loc与iloc：

df.loc[A,B]其中A,B分别为行索引、列索引的名称

df.iloc[A,B]其中A,B分别为行、列的位置，即索引值

因而loc方法更加灵活

4.条件查询与增删改查

逻辑运算符：&与、|或、~非用于连接条件

注：条件与条件之间要有（）

1）判断是否在某一区间内df[column].between(a,b,inclusive=True)inclusive=True表示包含a,b

2）判断a中是否包含b df[‘a’]isin([‘b’])或df[‘a’].str.contains(‘b’)

删除a 列：df.drop(‘a’, axis=1)注：设定参数inplace=True时，原数据才改变

del(df[‘a’])直接在原数据上进行删除

增加列：df.insert(index,column_name,data)

删除行：df.drop(labels, axis=0,inplace=True)

修改：df.loc[df[‘id’]==1,’id’]=100直接在原数据上进行修改，先取出id=1的行，再将其id改为100

修改列名：df.rename(columns={‘a’:’A’},inplace=True)

修改索引名：df.rename(index={1:’001′},inplace=True)

描述统计：df.describe()

5.数据库数据读取和保存

import pymysql
from sqlalchemy import create_engine
import pandas as pd

建立连接的固定语法：create_engine(‘mysql+pymysql://user:passward@IP:3306/database_name’)#3306为端口名

conn=create_engine('mysql+pymysql://root:l123456'@localhost:3306/test01)
sql='select * from table_name'
df=pd.read_sql(sql,conn)

方便起见，可编写一个函数用于连接数据库

def query(table):
    host='localhost'
    user='root'
    passward='l123456'
    database='test01'
    port=3306
    conn=create_engine('mysql+pymysql://{}:{]@{}:{}/{}'.format(user,passward,host,port,database))
    sql='select* from '+str(table) # from&#x540E;&#x8981;&#x52A0;&#x4E00;&#x4E2A;&#x7A7A;&#x683C;
    results=pd.read_sql(sql,conn)
    return results

保存至数据库：

try:
    df.to_sql('testdf',con=conn,index=False,if_exists='replace')
except:
    print('error')

其中if_exists参数设置为replace表示替换，append为追加，fail无作为

6.数据整合

merged=pd.concat([df1,df2],axis=1,join=’inner’) join参数为inner表交集，outer表并集

合并后索引会错乱，可重置索引：df.reset_index(drop=True,inplace=True)若无drop=True,则索引成为一个新的变量

pd.merge(left=df1,right=df2,how=’right’,left_on,right_on)how的参数right为右连接，left左连接，inner内连接,left_on与right_on指定连接字段

对于合并两个具有重复列的数据集，处理思路是先找出不重复的列，再对不重复的列进行合并

cols_to_use=df2.columns.difference(df1.columns)
pd.merge(df1,df2[cols_to_use],how,left_index=True,right_index=True)

7.层次化索引：在一个轴上拥有两个或两个以上索引

读取文件时，设置参数index_col=[a,b]a,b为索引字段的索引值

8.数据排序

首先需判断是否有缺失值

df.isnull()判断是否有缺失值

np.sum(df.isnull(),axis=0)统计每列缺失值

df.sort_values(‘排序字段’,asceding=True,na_position=’last’,inplace=True)na_position参数设定为last表示将缺失值排在最后

排序后索引错乱，可用reset_index()重置

9.分组聚合，相当于sql中的group by

首先使用聚合函数，如寻找一列中的最小值：np.min(df.column_name)相当于df[‘column_name’].min(axis= 0)

对字符串型数据进行描述统计

df[‘字符串字段’].describe(include=’object’)

分类汇总：grouped=df.groupby(‘a’)以a为分类依据

grouped.max()/size()/count()/cumcount()组内索引

10.聚合函数

1)agg():grouped.agg([np.mean,np.sum]),grouped.agg({‘column2′:np.mean,’column3’:np.sum})

也可自定义函数，如

def DoubleSUM(data):
    S=data.sum()*2
    return S

grouped.agg({‘column_name’:DoubleSUM})

2)apply函数

df[‘column_name’].apply(np.sum,axis=0)

df[‘column_name’].apply(lambda x: x[0]-x[1],axis=1) 用第一列的值减第二列的值

3）transform函数（了解）不能输出聚合形式的结果

示例：grouped.mean().transform(lambda x:x*2)

df[column_name].transform(lambda x:x*2)

11.透视图和交叉表

1）透视图

pivot_table(data,index,columns,value,aggfunc,fill_value,margins,margins_value)其中value为浮点型或整型，margins为总计。

2）交叉表（通常用于统计频数、频率）

pd.crosstab(index,columns,margins,values,aggfunc,normalize)

normalize参数为’all’时计算在所有数据中出现的频率，为’index’时计算在行中出现的频率，为’columns’时计算在列中出现的频率。

12.数据预处理

1）日期格式处理：

pd.to_datetime(df[‘column_name’],format=’%Y年%m月’,errors=’coerce’)将日期数据转化为标准日期格式，返回的是视图，若想改变原数据，可设置inplace=True；format根据数据实际格式而定，errors=’coerce’非前述格式则处理为空值。

2）字符串处理：

df[‘column_name’].str[:-1].astype(‘float’)去掉字符串最后一个字并设置数据类型，应用场景：去掉数据的单位。

value_counts()统计数据出现的次数

df[‘column_name’].str.replace(‘A’,’B’)对字符串型数据进行替换，如将’–‘替换为’缺失值’

df.describe(include=’all’)对所有类型的字段进行描述统计，包含字符串型

3）计算时间差

df[‘diff_day’]=pd.datetime.today()-df[‘datetime_column’]

转换为天数：(df[‘diff_day’]/ np.timedelta64(1,’D’)).astype(int)以1天为周期，若以1周为周期，则设定为(7,’D’)

4）常用场景示例：

df[‘tel’]=df[‘tel’].apply(lambda x:x.replace(x[3:7],’****’))隐藏电话号码的中间四位，默认按行操作

df[’email’].apply(lambda x:x.split(‘@’)[1])以’@’将数据分成两段，取后一段，即取后缀

df[‘new_tel’]=df[‘tel’].str[0:3]或df[‘new_tel’]=df[‘tel’].apply(lambda x:x[0:3])取号码前三位

不重复抽样：data=df.sample(n,replace= False)

取出日期：df[‘date’]=df[‘column_date’]. dt.date

两列相乘得到新的字段：df[‘total_price’]=df[[‘Quantity’,’UnitPrice’]].apply(np.prod,axis=1)

统计每天的总计：grouped_data=data.groupby(by=’date’).sum()

将索引转换成日期格式：grouped_data.index=pd.to_datetime(grouped_date.index)

计算变化率：grouped_data[‘总价变化率’]=grouped_data[‘total_price’]. pct_change()

计算5日移动平均：grouped_data[‘SMA-5’]=grouped_data[‘total_price’]. rolling(5).mean()

把数据向下平移1个单位：grouped_data[‘total_price_before’]=grouped_data[‘total_price’]. shift(1)若为-1，则向上平移1个单位。

13.数据清洗

1）重复值处理

判断重复值：df.duplicated(subset,keep=’first’)，subset设定判断的依据字段，keep=’first’保留第1个重复值，’last’保留最后一个。

统计有多少重复值：np.sum(df.duplicated(subset,keep))

删除重复值：df.drop_duplicates(subset,keep))

2）缺失值处理

查看缺失值情况：np.sum(df.is_null())默认axis=0

缺失率统计：df.apply(lambda x:sum(x.isnull())/ len(x))

剔除缺失值：df.dropna(how)how=’any’只要有就删除此行，how=’all’全部缺失才删除此行

df.drop(labels=[‘a,’,’b’],axis=1)删除a,b两列

df.dropna(subset,how,axis=0)

填充缺失值：df.column_name.fillna(df.column_name.mean()/mode()[0])mode()众数，一般取第一个进行填充。对多个字段进行填充时，可用字典形式：df.fillna(value={‘column1′:df.column1.mode()[0],’column2′:df.column2.mean(),’column3’:df.column3.median()})

前向填充：df.fillna(method=’ffill’)

后向填充：df.fillna(method=’bfill’)

插值填充：df.column_name.interpolate(method)method=’linear’,’polynomial’多项式，order=2设置最高项次数

3）异常值处理

异常值的识别：xbar=df.column_name.mean()

xstd=df.column_name.std()

any(df.column_name > xbar+3*xstd)

或通过计算分位差识别：

Q1=df.column_name.quantile(q=0.25)

Q3=df.column_name.quantile(q=0.75)

分位差IQR=Q3-Q1

any(df.column_name > Q3+1.5*IQR)

any(df.column_name < Q1-1.5*IQR)

替换异常值：

方法一用不超过上限的最大值进行替换：UL=Q3+1.5*IQR

replace_value=df.column_name[df.column_name < UL].max()

方法二用百分之一和百分之九十九分位数进行替换：P1=df.column_name.quantile(0.01)

P99=df.column_name.quantile(0.99)

df[‘column_new’]=df[‘column_name’]

df.loc[df[‘column_name’] > P99,’column_new’]=P99

df.loc[df[‘column_name’] < P1,’column_new’]=P1

4）数据离散化——分箱（等频或等宽）

等宽分段（易受异常值影响）：df[‘a’]=pd. cut(df[‘a’],n,labels=range(1,n+1))分n段

等频分段：方法一根据百分位数划分

k=n

w=[i/k for i in range(k+1)]

pd. qcut(df[‘a’],w,labels=range(0,4))

方法二根据百分位数的具体数值划分

k=n

w=df[‘a’].quantile([i/k for i in range(k+1)])

pd. cut(df[‘a’],w,labels=range(0,n+1))

Original: https://blog.csdn.net/m0_58444622/article/details/124123891
Author: 我就是美玉
Title: Pandas学习笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/738153/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

外包四年太差劲，幡然醒悟要跳槽

前几天有个读者过来说，”二哥，外包干了四年，感觉和外界差距有点大，现在被动醒悟，希望你能帮我制定一下学习路线。” 那二哥这么负责任，必须得承担起这份职责啊…

Python 2023年9月26日
0051
2022年Python顶级自动化特征工程框架⛵

💡 作者：韩信子@ShowMeAI📘 机器学习实战系列：https://www.showmeai.tech/tutorials/41📘 本文地址：https://www.showm…

Python 2023年10月28日
0048
UCI数据集详解及其数据处理（附148个数据集及处理代码）

摘要：本文对机器学习中的 _UCI_数据集进行介绍，带你从 _UCI_数据集官网出发一步步深入认识数据集，并就下载的原始数据详细讲解了不同类型的数据集整理如何通过程序进行整理。为了…

Python 2023年10月26日
0073
Python：实现简单的递归下降Parser

1. 算术运算表达式求值在上一篇博文《Python技法：用re模块实现简易tokenizer》中，我们介绍了用正则表达式来匹配对应的模式，以实现简单的分词器。然而，正则表达式不是…

Python 2023年10月26日
0039
给程序员的Web3入门指南

上海疫情，在家封了快三个月。居家办公也有好处，省去了通勤，业余时间多出来一块，可以研究一些自己感兴趣的东西。于是陆陆续续看了快两个月的Web3，买了自己的ENS，人生中第一个NFT…

Python 2023年9月27日
0063
pandas输出列名_使用Pandas的字典键和值的列名

我正在使用pandas将一些数据转储到excel文件中。数据是字典格式的，我使用下面的代码来转储它。df1 = pd.DataFrame.from_dict(weights_dic…

Python 2023年8月8日
0033
Pandas知识点-equals()与==的区别

Pandas知识点-equals()与==的区别在Pandas中，equals()方法用于验证数据是否等效。验证等效性需要进行比较，上一篇文章介绍了比较操作。比较操作参考：ht…

Python 2023年8月6日
0051
pandas支持读取哪些类型文件_Pandas教程: 读取Excel文件

场景: 假设我们要打开如下的Excel文件. 目前遇到的问题是: 数据区域并不是从第一行或第一列开始, 所以读取后的文件可能会出现问题, 导致我们无法进行进一步的数据筛选或运算. …

Python 2023年8月8日
0046
Python基础之数据可视化

在日常工作中，枯燥的文字说明常常会令人望而却步，不如格式规范的表格容易让人接受，但通俗易懂的图表更会让人耳目一新，赏心悦目。本文主要一个简单的小例子，简述Python利用Matpl…

Python 2023年9月6日
0063
SpringBoot3.x中spring.factories功能被移除的解决方案

背景笔者所在项目组在搭建一个全新项目的时候选用了 SpringBoot3.x，项目中应用了很多 SpringBoot2.x时代相关的第三方组件例如 baomidou出品的 myb…

Python 2023年10月13日
0035
postman中js脚本简单用法

1.获取接口相应结果 2.设置环境变量 3.设置全局变量 4.通过key值获取环境变量 5.通过key值获取全局变量 6.通过key值获取一个变量 7.通过key值注销一个环境变量…

Python 2023年6月11日
0069
matplotlib-python可视化库

模仿matlab构建，将数…

Python 2023年9月1日
0044
python学习之pandas库入门教程

numpy库和pandas库是作为python数据处理不可缺少的两个库，大家可能学完numpy之后感觉pandas和numpy大同小异，我个人理解是pandas和numpy都是对数…

Python 2023年8月24日
0034
统计学习：EM算法及其在高斯混合模型(GMM)中的应用

1. EM算法的基本思想我们在应用中所面对的数据有时是缺损的/观测不完全的[1][2]。我们将数据分为：可观测数据，用(Y)表示；缺失数据，用(Z)表示; 完全数据，用(X=…

Python 2023年10月26日
0053
SpringCloud Alibaba框架都有啥啊

前言文章目录前言 1.集成Nacos实现服务的自动注册与发现 2. Feign负载均衡 * 注：OpenFeign和Feign的区别： 3.使用Sentinel实现了接口的限流…

Python 2023年9月30日
0067
【pytest】pytest.ini执行时报错:UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xaa in position 15

报错：写好run.py文件和pytest.ini文件后，通过执行run.py的时候报错： UnicodeDecodeError: ‘gbk’ codec …

Python 2023年9月10日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas学习笔记

大家都在看