pandas高级操作

2023年8月17日上午6:49 • Python • 阅读 33

pandas高级操作

1.替换操作
2.映射操作
*
2.1 map
2.2.apply 和 applymap
3.排序实现的随机抽样
4.数据的分类处理
5.高级数据聚合
6.透视表
7.交叉表

1.替换操作

替换操作可以同步作用于Series和DataFrame中
单值替换
普通替换;替换所有符合要求的元素
按照指定单值替换： to_replace={列标签：替换值} value='新值'
多值替换
列表替换： to_replace=[],value=[]
字典替换：(推荐) to_replace={ro_replace:value,to_replace:value}

df=DataFrame(data=np.random.randint(0,100,size=(5,6)))

df.replace(to_replace=2,value='Two')

df.replace(to_replace={3:'three'})

df.replace(to_replace={4:62},value='five')

2.映射操作

2.1 map

注意:map是Series的方法，只能被Series调用
概念：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定(给一个元素值提供不同的表达方式)


dic={
    'name':['张三','李四','张三'],
    'salary':[15000,20000,15000]
}
df=DataFrame(data=dic)
df

dic1={
    '张三':'tom',
    '李四':'jack'
}
df['e_name']=df['name'].map(dic)

当运算工具


dic={
    'name':['张三','李四','张三'],
    'salary':[15000,20000,15000]
}
def after_sal(s):
    if s>3000:
        s=s-(s-3000)*0.5
    return s

df['after_sal']=df['salary'].map(after_sal)

lambda表达式操作

data['href'].map(lambda x:True if x in [1,2,3] else False)

2.2.apply 和 applymap

apply:
参数是一列 (axis=0)或一行 (axis=1)的数据
作用行或列的元素是 DataFrame的运算工具

def get_field(a):
  index,content_list=a
data.loc[:,['index','novel_content_list']].apply(get_field,axis=1)

applymap，作用到每个元素 【每个元素都会执行get_field函数】

def get_field(a):
    print(a)
data.loc[:2,['index','novel_content']].applymap(get_field)

3.排序实现的随机抽样

take()
np.random.permutation()

df=DataFrame(data=np.random.randint(0,100,size=(100,3)),columns=['A','B','C'])

np.random.permutation(10)

df.take(np.random.permutation(3),axis=1).take(np.random.permutation(100),axis=0)

4.数据的分类处理

groupby()函数
groups属性查看分组情况

df = DataFrame({
    'item':['Apple','Banana','Orange','Banana','Orange','Apple'],
    'price':[4,3,3,2.5,4,2],
    'color':['red','yellow','yellow','green','green','green'],
    'weight':[12,20,50,30,20,44]
})

df.groupby(by='item')

df.groupby(by='item') .get_group(("price",30000))

df.groupby(by='item').groups

分组聚合


df.groupby(by='item',as_index=False)['price'].mean()

dic=df.groupby(by='color')['weight'].mean().to_dict()

df['mean_w']=df['color'].map(dic)

5.高级数据聚合

使用 groupby分组后,也可以使用 transform和 apply提供自定义函数实现更多的运算
df.groupby('item')['price'].sum()<==>df.groupby('item')['price'].apply(sum)
transform和 apply都会进行运算，在 transform或者 apply中传入函数即可
transform和 apply也可以传入一个 lambda表达式
agg(),分组后进行多种不同的聚合操作

df = DataFrame({
    'item':['Apple','Banana','Orange','Banana','Orange','Apple'],
    'price':[4,3,3,2.5,4,2],
    'color':['red','yellow','yellow','green','green','green'],
    'weight':[12,20,50,30,20,44]
})

def my_mean(s):
    m_sum=0
    for i in s:
        m_sum+=i
    return m_sum/len(s)

df.groupby(by='item')['price'].transform(my_mean)

df.groupby(by='item')['price'].transform(my_mean)

df.groupby(by='item')['price'].apply(my_mean)
df.groupby('district')['salary'].agg(['min','max','mean'])

6.透视表

概念
透视表是一种可以对数据动态排布并且分类汇总的表格格式,pivot_table
优点
灵活性高，可以随意定制分析计算要求
脉络清晰易于理解数据
操作性强，报表神器
重要参数
index:分类汇总的条件
- 每一个pivot_table必须拥有一个index
values:需要对计算的数据进行筛选
columns：设置列层次字段
- 对values字段再进行分类
aggfunc：设置对数据聚合时进行的函数操作
- 当我们未设置aggfunc时，他默认aggfunc=’mean’计算均值

df=pd.read_csv('./data/透视表-篮球赛.csv',encoding='utf8')

df.pivot_table(index=['主客场','胜负'],values=['得分','篮板','助攻'],aggfunc='sum')

df.pivot_table(index='主客场',values='得分',columns='对手',aggfunc='sum',fill_value=0)

7.交叉表

是一种用于计算分组的特殊透视图，对数据进行汇总
pd.crosstab(index,columns)
index:分组数据，交叉表的行索引
columns:交叉表的列索引

df = DataFrame({
    'sex':['man','man','women','women','man','women','man','women','women'],
    'age':[15,23,25,17,35,57,24,31,22],
    'smoke':[True,False,False,True,True,False,False,True,False],
     'height':[168,179,181,166,173,178,188,190,160]
})

pd.crosstab(df.smoke,df.sex)

Original: https://blog.csdn.net/m0_46926492/article/details/124316199
Author: 荼靡，
Title: pandas高级操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/751855/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenAI 开源语音识别模型 Whisper 初体验

OpenAI 开源语音识别模型 Whisper 初体验前言一、Whisper 9种运行模型以及所需配置二、使用conda 和 ffmpeg的实现步骤 * 1.准备环境 2. …

Python 2023年9月27日
0048
Windows Python PyTorch CUDA 11.7 TensorRT 环境配置

版本说明截止到 2022.12.24, 相关工具情况如下 Nvidia GeForce Game Ready 驱动程序: 527.56, 运行 nvidia-smi 可知该驱动最…

Python 2023年10月11日
0087
解决YOLOV5训练时P、R、mAP等值均为0的问题

最近用YOLOV5训练自己的数据集，出现了训练失败的情况，比如box，obj，cls，labels等均为nan或0，找了很多办法，其实就是cuda与PyTorch版本的问题 Epo…

Python 2023年8月3日
00366
制作一个谷歌浏览器插件，实现网页数据爬虫

一、什么是浏览器插件浏览器插件，基于浏览器的原有功能，另外增加新功能的工具，是可定制浏览体验的小型软件程序，让用户可以根据个人需要或偏好来定制浏览器。如拦截网页中的广告、划词翻…

Python 2023年10月10日
00126
docker+jenkins+allure+pytest(一)

docker+jenkins+allure+pytest(一) 第一部分 docker search jenkins docker pull jenkins/jenkins doc…

Python 2023年9月14日
0036
python跨年表白神器–你值得拥有！

教你做python跨年表白神器点赞收藏后，快去表白！！！这里是文章的表白神器所有代码+图片+思路解析，对文章不是太懂得小伙伴们可以自取一下哟：跨年表白神器所有完整配置，直接拿…

Python 2023年9月23日
0036
pytest的DDT的数据结构：数据驱动的几种方式

一、数据字典：1、定义数据字典：f={“username”:”admin”,”password”:&#822…

Python 2023年9月14日
0064
中国风？古典系？AI中文绘图创作尝鲜！⛵

💡 作者：韩信子@ShowMeAI📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42📘 本文地址：https://www.showm…

Python 2023年10月24日
0041
【人工智能】神经网络八股扩展

回顾tf.keras搭建神经网络八股的六步法神经网络八股学习笔记 import train,test Sequential/Class model.compile model.f…

Python 2023年10月25日
0042
Netty 学习（四）：ChannelHandler 的事件传播和生命周期

Netty 学习（四）：ChannelHandler 的事件传播和生命周期作者： Grey 原文地址：博客园：Netty 学习（四）：ChannelHandler 的事件传播和…

Python 2023年10月21日
0062
python pandas数据处理和基本操作

本文介绍的方法均为我在做作业是常用的方法，要是有不对的地方还请大神指正本文示例文件 排名,姓&#x540…

Python 2023年8月19日
0049
Python 数据可视化：Matplotlib库的使用

✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。🍎个人主页：小嗷犬的博客🍊个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。🥭本文内容：P…

Python 2023年8月31日
0052
【山大智云开发日志】seafdav分析（7）

2021SC@SDUSC 经过几周的代码学习，已经完成了大部分代码的分析，还剩下一些零散的文件。 _version.py主要是描述了当前的WsgiDAV版本号。预发布版(alph…

Python 2023年8月5日
0034
如何使用Pandas操作数据

Pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据清洗功能。一、数据结构 pandas的主要…

Python 2023年8月16日
0066
python导入上级目录下的文件_python 导入同级目录文件、上级目录文件以及下级目录数据集和模块包…

划重点：其中dataset_path = ”表示在Python工作文件夹 dataset_path = ‘..’表示在Python工作文件夹的…

Python 2023年8月15日
0050
python中文界面设定_怎么实现python设置中文界面

怎么实现python设置中文界面发布时间：2020-10-27 09:22:02 来源：亿速云阅读：73 作者：小新这篇文章给大家分享的是有关怎么实现python设置中文界面…

Python 2023年9月21日
0037

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas高级操作

pandas高级操作

2.1 map

2.2.apply 和 applymap

大家都在看