python常用函数(1):数据预处理常用到的

文章目录

第一步 :分析数据,对数据进行处理(合并训练集和测试集一起处理)

  • 1.去除重复值 data.drop_duplicates(inplace=True)
  • 2.缺失值处理(平均数等、随机森林填补、删掉缺失值(一般不怎用,除非数很少))
  • 3.把字符串转变成数值型
  • (可选可不选)4.二值化,分段(分箱,连续型变量)

二、数据预处理常用到的


test=pd.read_csv('test.csv')
train=pd.read_csv('train.csv')
train = pd.read_csv("train.csv", index_col=0,encoding='utf-8')
train.info()
train.shape
train.head()

train.describe()

train.drop_duplicates(inplace=True)

train.index=range(train.shape[0])

data = pd.concat([train, test])

y=df.iloc[:,-1]

data[data['loan_default'].notnull()]

data[data['loan_default'].isnull()

1.查看某一数占总数的比例 和 某一列最大数

python常用函数(1):数据预处理常用到的
某一列最大数
python常用函数(1):数据预处理常用到的

; 2.查看里面的类别

python常用函数(1):数据预处理常用到的

3.删除两列

python常用函数(1):数据预处理常用到的

; 5.提取两行

python常用函数(1):数据预处理常用到的

Original: https://blog.csdn.net/weixin_44953928/article/details/123854792
Author: xiao52x
Title: python常用函数(1):数据预处理常用到的

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/740137/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • python正则表达式(二)

    二、re特殊字符 符号描述. 匹配任何字符换行符除外^ 匹配字符串的开始$ 匹配字符串末尾或字符串末尾换行符之前 匹配前面RE的0个或更多(贪婪)重复。贪婪意味着它将匹配尽可能多的…

    Python 2023年11月8日
    028
  • python test.py_python学习-pytest(一)

    学习pytest第一步 一、安装 pytest不是python默认的package,需要手动安装。 pytest支持python 2.6–3.5之间的版本,同时可以在w…

    Python 2023年9月13日
    050
  • 2022年总结——实习

    lastday!感觉有很多想总结和分享的,但一落实到键盘上似乎就变得无从下手了(-__-)。但还是想发表点什么,哪怕是对看到这篇博客的你们有那么一点点帮助也是好的。 notice:…

    Python 2023年10月11日
    043
  • twisted mysql_scrapy Pipeline使用twisted异步实现mysql数据插入

    from twisted.enterprise import adbapi class MySQLAsyncPipeline: def open_spider(self, spid…

    Python 2023年10月6日
    037
  • Python制作游戏 — 贪吃蛇

    哈喽,我是小圆。我又来分享关于python制作的小游戏啦。今天这个可是当年真正意义上的第一款手机游戏 — 贪吃蛇。 我们主要要做的内容 创建游戏窗口 绘制贪吃蛇与食物 蛇吃食物 现…

    Python 2023年9月20日
    060
  • pytest学习笔记–接口自动化测试基础之日志封装学习

    logger.setLevel(level)方法配置过滤日志级别根据源码可以看到参数level可以使int类型或者string类型,以debug级别为例,level写int类型: …

    Python 2023年9月11日
    075
  • 深度强化学习-DQN算法原理与代码

    DQN算法是DeepMind团队提出的一种深度强化学习算法,在许多电动游戏中达到人类玩家甚至超越人类玩家的水准,本文就带领大家了解一下这个算法,论文和代码的链接见下方。 论文:Hu…

    Python 2023年10月9日
    059
  • Flask+Swagger—-接口平台的创建(flasgger模块)—小白入门

    抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。 Original: https://blo…

    Python 2023年8月14日
    078
  • 如何修改product.product的display_name的显示,解决_rec_name失效的问题

    啊哦~你想找的内容离你而去了哦 内容不存在,可能为如下原因导致: ① 内容还在审核中 ② 内容以前存在,但是由于不符合新 的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。 可…

    Python 2023年9月22日
    065
  • 深入理解Python Scrapy一【初识Scrapy】

    文章目录 * – 为什么选择Scrapy – Scrapy是什么 – Scrapy如何工作 – 开始使用Scrapy –…

    Python 2023年10月3日
    050
  • 查看yolov5/lite各层参数量和各层FLOPs

    我会简述如何得到v5模型中各层的参数量和计算量(烂大街的参量表),然后再将如何得到各层的计算量FLOPs(基本没人教怎么获得各层FLOPs,花我一番功夫,其实特别简单,轮子U神都造…

    Python 2023年9月28日
    060
  • 【Linux】操作系统及进程概念

    大家好我是沐曦希💕 文章目录 一、冯诺依曼体系结构 二、操作系统OS 三、系统调用和库函数概念 四、进程 * 1.概念 2.描述进程-PCB 3.查看进程 4.查看系统调用 5.查…

    Python 2023年11月5日
    041
  • Beego笔记

    以下beego 3基于 go v1.8+,bee v2.0+,开发工具是goland2022.1 一、Beego安装 1、 安装beego和bee 1)下载beego和bee 安装…

    Python 2023年6月10日
    064
  • git 提交后Jenkins自动构建、并发布服务

    现状:当前开发在迭代中完成相关feature功能开发之后到发布到dev环境的流程是: 提交代码到git对应的分支 需要登录域账号去Jenkins服务查找相关的项目任务,再手动选择分…

    Python 2023年10月30日
    037
  • 详解机器学习中的数据处理(二)——特征归一化

    摘要:在机器学习中,我们的数据集往往存在各种各样的问题,如果不对数据进行预处理,模型的训练和预测就难以进行。这一系列博文将介绍一下机器学习中的数据预处理问题,以(\color{#4…

    Python 2023年10月20日
    036
  • Windows环境下部署Flask项目要点

    作者参考以下原创内容完成部署 一次Windows系统部署网站(flask项目)的详细过程_chuyh89的博客-CSDN博客_windows部署flask Flask项目部署到Wi…

    Python 2023年8月9日
    068
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球