实习产物。
要求:导入一张表格,内有很多列数据。需要将所有列分为三类:数字、分类、时间
1.连续字段,统计:记录数、非空记录数、空值数(NULL 、”)、空值占比、去重记录数、最大值、最小值、均值、标准差、10-90&99分位数
- 分类字段,统计:记录数、非空记录数、空值数(NULL 、”)、空值占比、去重记录数、每个分类的记录数即频度,记录数占比即频率
3.时间字段,统计:计算字段的最大日期,最小日期,by YYYYMM 的记录数,生成柱状图
代码逻辑
分类逻辑
基本基于数据类型分类(可能需要在上游数据里先调好数据类型)
1.Time——数据类型为date; 此处只有datetime64[ns],如有不同可在include里删改
2.Categorial——数据类型为object∪(去重纪录数
Original: https://blog.csdn.net/DeEspAiR/article/details/125908787
Author: DeEspAiR
Title: 【Python】展示表格中每列数据的统计特征-[自动化办公]
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/755198/
转载文章受原作者版权保护。转载请注明原作者出处!