一、移除重复数据
- DataFrame.duplicated()
- DataFrame.drop_duplicates()
1. duplicated()
返回bool序列,标识是否重复
示例:
2. drop_duplicates
剔除重复值
示例
二、利用函数或映射进行数据转换
1. Series.map()
接受 函数或含有 映射关系的字典型对象
示例:
2. DataFrame.apply()
接收 函数,并将函数作用于DataFrame的每一列or每一行
3. DataFrame.applymap()
接收 函数(字典型对象不可),并将函数作用于DataFrame的每一个元素
三、替换值
1. DataFrame.replace()
替换一个值、替换多个值、不同的值进行不同的替换
示例:
四、重命名轴索引
1. DataFrame.rename()
对轴标签进行重命名
五、离散化和面元划分
为了便于分析,连续数据常常被离散化或拆分为”面元”(bins),下面两个离散化函数对分量和分组分析都非常重要
1. pd.cut()
按指定分割点进行分组
示例:
2. pd.qcut()
按分位数进行分组
示例:
六、检测和过滤异常值
异常值的检测和过滤运算在很大程度上就是数组运算
七、排列和随机采样
1. np.random.permutation()
示例:
八、计算指标/哑变量
1. pd.get_dummied()
获得哑变量
Original: https://blog.csdn.net/weixin_42418170/article/details/120826010
Author: Sigmoid_哼哼
Title: 利用python进行数据分析——数据过滤、清洗、转换等
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/675361/
转载文章受原作者版权保护。转载请注明原作者出处!