一、替换操作(replace)
- 替换操作可以同步作用与Series和DataFrame中
df.replace(to_replace , value , replace , …) #将所有 to_replace 替换成value
df.replace(to_replace={4:5},value=’five’ ) #将指定列 的元素进行替换,re_place{列索引:被替换的值}
df.replace(to_replace={1:’one’} ) #字典形式的替换,将1替换成’One’
二、映射操作(map)
- 概念:创建一个映射关系列表,把values元素和一个特定的标签或者字符串绑定(给一个元素值提供不同的表现形式)——字典形式的映射关系表
- 创建一个df,两列分别是姓名和薪资,然后给其名字起对应的英文名
Series_data. map( dic) #只能给Series数据进行映射(dic)
map只能是Series的方法,只能被Series调用
三、运算工具(map)
- 需求:超过3000部分的钱需要缴纳50%的税,计算每个人的税后薪资
四、排序实现的随机抽样
take([隐式索引],axis=1) #将原始数据按隐式索引打乱(列打乱)
np.random.permutation(n) #产生0~n的随机数
- 将原始数据的列打乱(axis=1)
- 在此基础上将原始数据的行进行打乱(axis=0)
- 随机取样
五、数据的分类处理
- 数据分类处理的核心
- groupby(by , )函数
- groups属性查看分组情况
- 对原始数据的水果进行分类并查看分组情况
- 为什么要进行分组呢? 为了进行聚合【分组聚合】——计算每一种说过的平均价格
- 将计算出的每种颜色的平均重量汇总到源数据,需要用到映射——map(dic),字典数据。
六、高级数据聚合
当我们分好组之后,想进行一个聚合操作,但是这个聚合操作并没有被pandas封装,那么就需要我们自己封装一个聚合操作,例如mean()。
- transform( ) #返回映射后的结果
- apply( ) #返回没有映射的结果
七、数据加载
- 读取type-.txt文件
- 读取数据库中的数据
八、透视表
- 透视表是一种可以对数据动态排列并且 分类汇总 的表格格式。在Excel中常用,而在pandas中被称作pivot_table。
- 透视表优点:
- 灵活性高,可以随意定制你的分析计算要求
- 脉络清晰易于理解数据
-
操作性强,报表神器
-
导入数据
- 参数index
- 参数values
- 参数aggfunc
- 参数columns
九、交叉表
- 是一种用于计算分组的特殊透视表,对数据进行汇总
- pd.crosstab(index,columns)
- index:分组数据,交叉表的行索引
-
columns:交叉表的列索引
-
原始数据
- 求出各个性别(列)抽烟(行)的人数
- 求出各个年龄段(行)抽烟(列)人的情况
Original: https://blog.csdn.net/S1406793/article/details/123497393
Author: S1406793
Title: 数据分析—pandas的高级操作
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/599838/
转载文章受原作者版权保护。转载请注明原作者出处!