pandas计算含缺失值中列平均值_详解Python数据分析–Pandas知识点

2023年8月16日上午8:42 • Python • 阅读 70

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘

重复值的处理

利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的ID.

import pandas as pd

df = pd.DataFrame({“ID”: [“A1000″,”A1001″,”A1002”, “A1002”],

“departmentId”: [60001,60001, 60001, 60001]})

df.drop_duplicates()

pandas计算含缺失值中列平均值_详解Python数据分析--Pandas知识点

缺失值的处理

缺失值是数据中因缺少信息而造成的数据聚类, 分组, 截断等

2.1 缺失值产生的原因

主要原因可以分为两种: 人为原因和机械原因.

1) 人为原因: 由于人的主观失误造成数据的缺失, 比如数据录入人员的疏漏;

2) 机械原因: 由于机械故障导致的数据收集或者数据保存失败从而造成数据的缺失.

2.2 缺失值的处理方式

缺失值的处理方式通常有三种: 补齐缺失值, 删除缺失值, 删除缺失值, 保留缺失值.

1) 补齐缺失值: 使用计算出来的值去填充缺失值, 例如样本平均值.

使用fillna()函数对缺失值进行填充, 使用mean()函数计算样本平均值.

import pandas as pd

import numpy as np

df = pd.DataFrame({‘ID’:[‘A10001’, ‘A10002’, ‘A10003’, ‘A10004’],

“Salary”:[11560, np.NaN, 12988,12080]})

用Salary字段的样本均值填充缺失值

df[“Salary”] = df[“Salary”].fillna(df[“Salary”].mean())

2) 删除缺失值: 当数据量大时且缺失值占比较小可选用删除缺失值的记录.

示例: 删除entrytime中缺失的值,采用dropna函数对缺失值进行删除:

import pandas as pd

df = pd.DataFrame({“ID”: [“A1000″,”A1001″,”A1002”],

“entrytime”: [“2015-05-06″,pd.NaT,”2016-07-01” ]})

df.dropna()

3) 保留缺失值.

删除前后空格

使用strip()函数删除前后空格.

import pandas as pd

df = pd.DataFrame({“ID”: [“A1000″,”A1001″,”A1002”],<

Original: https://blog.csdn.net/weixin_39537680/article/details/114354772
Author: weixin_39537680
Title: pandas计算含缺失值中列平均值_详解Python数据分析–Pandas知识点

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/750980/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

配置python程序debug/run，避免每次运行都会重复加载数据集或模型，节约大量等待时间

需要用到的依赖包： pip install flask 首先新建一个文件运行flask的文件，文件名随便： from flask import Flask, request app…

Python 2023年8月10日
0080
锁相环技术知识

目录 0 分类 1、PLL * 1.1 系统结构 2、SOGI-based PLL 未完待续 * 2.1 结构理解 2.2 C语言实现 – 2.2.1 通过控制框图直接…

Python 2023年9月15日
0049
AttributeError: cannot assign module before Module.__init__() call

诸神缄默不语-个人CSDN博文目录运行环境，报错信息和查找到的错误内容：Linux系统Python 3.8（使用anaconda管理的虚拟环境）PyTorch 1.11+cuda…

Python 2023年10月27日
0027
Python自动版的贪吃蛇这不就来了嘛？借助哈密顿环实现效果

相关文件关注小编，私信小编可以领取源码哟~~当然别忘了一键三连哟！！！开发工具 Python版本：3.6.4相关模块：pygame模块；以及一些python自带的模块。环境搭…

Python 2023年9月24日
0050
手撕Googlenet卷积神经网络-pytorch-详细注释版（可以直接替换自己数据集）-直接放置自己的数据集就能直接跑。跑的代码有问题的可以在评论区指出，看到了会回复。训练代码和预测代码均有。

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年10月27日
0028
python arcade库教程（1）

1.窗口的创建这个是最基础的了但是！！！创建一个窗口和创建一个程序框架（效果相同）是不一样的先说简单的在arcade中，创建一个窗口非常简单 #导&…

Python 2023年9月20日
0030
Selenium4.0+Python3系列（一） – 开发环境搭建

一、写在前面我从未想过自己会写python系列的自动化文章，有些同学会问，那你现在为什么又开始写了？不止一个人找过我，问我可以写一些 Python自动化的文章吗，答案是肯定的。…

Python 2023年10月18日
0041
python中注释

python中注释在python中的注释一般分为单行注释、多行注释以及文档注释。注释描述在实际开发过程中，有效的代码注释不仅可以提升个人的工作效率，快速了解自己的程序情况，在团…

Python 2023年8月2日
0061
Seaborn数据可视化

目录前言 1.安装 2.快速上手 * 2.1 模式设置 2.2 线形图 3.各种图形绘制 * 3.1 调色板 3.2 线形图 3.3 散点图 3.4 柱状图 3.5 箱式图 3….

Python 2023年9月1日
0056
Django 模板语言获取列表（可迭代对象）的下标、索引。从而实现显示序号

Django 模板语言获取列表的下标、索引。如何给列表显示序号。注意：本文章被盗被盗网址：http://nicethemes.cn/news/txtlist_i141862v.h…

Python 2023年8月5日
0061
1.8 字典的运算

如何进行一些计算操作(如求最大值、排序等)在数据字典里吗？ [En] How to perform some calculation operations (such as fin…

Python 2023年5月24日
00111
Anaconda, PyTorch, CUDA Driver, PyCharm 安装与配置

安装Anaconda(2022.05) 最新版本 https://www.anaconda.com/历史版本 https://repo.anaconda.com/archive/ …

Python 2023年10月28日
0047
好习惯！pandas 8 个常用的 index 索引设置

大家好，我是东哥呀！本篇是pandas100个骚操作系列的第 18 篇：8个常用的index设置系列内容，请看上面专栏，或者订阅👉「pandas100个骚操作」在数据处理时，…

Python 2023年8月17日
00167
pygame多种方式实现屏保操作（自动切换、鼠标切换、键盘切换）

pygame多种方式实现屏保操作（自动切换、鼠标切换、键盘切换），欢迎往下观看。一、图片处理（一）图片采集我认为有三种方法：其一：使用爬虫技术从网上下载图片，可以开一个子线…

Python 2023年9月22日
0045
记Windows的一个存在了十多年的bug

bug Windows有一个bug，持续了十多年，从Windows Visita开始（2007年），一直存在，直到Windows11（2021年）才修复（其实也不叫修复，后面我再具…

Python 2023年10月20日
0046
Java简化代码推理，最终使用lamda表达式

代码，自然写的越简洁越好啦，写的人舒服，看的人也舒服，一切为了高效。要把有限的时间花到其它有意思的事情上去。 lamada表达式简化了匿名内部类。函数接口只有一个抽象方法的接…

Python 2023年10月15日
0032

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas计算含缺失值中列平均值_详解Python数据分析–Pandas知识点

用Salary字段的样本均值填充缺失值

大家都在看