文章目录
- 二、数据预处理常用到的
* - 1.查看某一数占总数的比例 和 某一列最大数
- 2.查看里面的类别
- 3.删除两列
- 5.提取两行
- 4.pd.cut()和pd.qcut() 分箱
- 5、.groupby()函数
- 3.归一化
- 2.4 处理连续型特征:二值化与分段 (常用分箱)
- 实际操作分箱
- 三、函数
* - 1.交叉验证
- 一、查看自己的版本
- 四、分析数据,对数据进行处理(合并训练集和测试集一起处理)
* - 1、合并训练集和测试集
- 2.去除重复值、恢复索引
- 3.缺失值处理(平均数等、随机森林填补、删掉缺失值(一般不怎用,除非数很少))
- 4.把字符串转变成数值型
–
第一步 :分析数据,对数据进行处理(合并训练集和测试集一起处理)
- 1.去除重复值 data.drop_duplicates(inplace=True)
- 2.缺失值处理(平均数等、随机森林填补、删掉缺失值(一般不怎用,除非数很少))
- 3.把字符串转变成数值型
- (可选可不选)4.二值化,分段(分箱,连续型变量)
二、数据预处理常用到的
test=pd.read_csv('test.csv')
train=pd.read_csv('train.csv')
train = pd.read_csv("train.csv", index_col=0,encoding='utf-8')
train.info()
train.shape
train.head()
train.describe()
train.drop_duplicates(inplace=True)
train.index=range(train.shape[0])
data = pd.concat([train, test])
y=df.iloc[:,-1]
data[data['loan_default'].notnull()]
data[data['loan_default'].isnull()
1.查看某一数占总数的比例 和 某一列最大数
某一列最大数
; 2.查看里面的类别
3.删除两列
; 5.提取两行
Original: https://blog.csdn.net/weixin_44953928/article/details/123854792
Author: xiao52x
Title: python常用函数(1):数据预处理常用到的
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/740137/
转载文章受原作者版权保护。转载请注明原作者出处!