python实现表格分析与建模_python实现数据分析与建模

2023年8月21日下午9:54 • Python • 阅读 67

首先我们做数据分析，想要得出最科学，最真实的结论，必须要有好的数据。而实际上我们一般面对的的都是复杂，多变的数据，所以必须要有强大的数据处理能力，接下来，我从我们面临的最真实的情况，一步一步教会大家如何做。

1.数据的读取

(1)读取模块

Import pandas as pd

Import numpy as np

(2)读取表格的全部数据

df = pd.read_csv(“.data/HR.csv”)

(3)读取你所需要的数据

sl_s=df[“sactisfaction_level”]

数据的处理

2.1.异常值(空值)处理

2.1.1删除

首先，第一步是对空值的处理。

有两种，一种直接删除，另一种指代。

如果数据多，想简单一点，就直接删除，方法都很简单。

首先，建立一个DataFrame表

1.为了确定是否含有空值：

df.isnull() #如果含有空值，返回True

2.删除

df.dropna() #去掉含空值的行

如果想要删除某一个属性含空值的行就加入subset参数

df.dropna(subset=[“B”]) #去掉B属性含空值的行

判断是否有重复的数据：

df.duplicated([“A”]) #A属性中重复的数据返回True

删除A属性重复的行

df.drop_duplicates([“A”])

df.drop_duplicates([“A”],keep=False) #删除A属性全部重复的行

df.drop_duplicates([“A”],keep=first) #删除A属性全部重复的行，保留第一个

df.drop_duplicates([“A”],keep=last) #删除A属性全部重复的行，保留最后一个

2.1.2指代

有些数据非常重点，不能删除，那我们就选择指代，也就是替换

含空值的数据被替换为”b*”

df.fillna(“b*”)

E属性中的含空值的数据被替换成该属性的平均值

df.fillna(df[“E”].mean())

插值替换

如果含空值的元素为最后一个，那么空值的数据替换成和上一个数据一样

怎么含空值的元素为中间，那么空值的数据被(上+下)/2代替

df[“E”].interpolate()

3次样条插值 order 参数就是几次样条插值

df[“E”].interpolate(method=”spline”,order=3)

*函数

(4)异常值分析(含有就返回True) –isnull()

sl_s.isnull()

主要表示没有空值

(5)提取异常值的该属性信息

sl_s[sl_s.isnull()]

(6)提取异常值的表格全部信息

df[df[“sactisfaction_level”].isnull()]

(7)丢弃异常值 –dropna()

sl_s=sl_s.dropna()

注：删除为空的异常值

可以利用where()把异常数据赋空，然后利用dropna()删除

(8)填充异常值 –fillna()

sl_s=sl_s.fillna()

(9)平均值 –mean()

sl_s.mean()

(10)标准差 –std()

Sl_s.std()

(11)最大值 –max()

sl_s.max()

(12)最小值 –min()

sl_s.min()

(13)中位数 –median()

sl_s.median()

(14)下四分位数 –quantile(q=0.25)

sl_s.quantile(q=0.25)

(15)上四分位数 –quantile(q=0.75)

sl_s.quantile(q=0.75)

(16)偏度 –skew()

sl_s.skew()

分析：小于0 是负偏均值偏小，大部分数是比他的均值大的

大于 0 稍微有些振偏

远大于0，是极度振偏，均值要比他的大多数值大好多。

(17)峰度 –kurt()

sl_s.kurt()

分析：

Original: https://blog.csdn.net/weixin_42511217/article/details/114426192
Author: 骆驼奇
Title: python实现表格分析与建模_python实现数据分析与建模

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/756091/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

25~30K的学员面试考题，10分钟就写完？

前言今天的这个案例，是一位同学的面试题，人在国外，月薪25~30K本来以为是难度很大的反爬、逆向或者算法之类的，谁知道，就是一个很简单的爬虫划重点，10分钟就写出来了 ; 案例…

Python 2023年11月9日
0025
在 Python 列表和字典里，这些坑你踩过吗

Original: https://www.cnblogs.com/123456feng/p/16140272.htmlAuthor: 蚂蚁ailingTitle: 在 Pytho…

Python 2023年5月24日
0058
python语法教程——def()函数

什么是函数？我们在编程的过程中往往会发现，实现某一功能的代码块会被频繁地使用。如果每次使用这段代码都得复制粘贴，这会使得代码冗长而又臃肿，增大了代码的阅读难度。为了方便我们实现对…

Python 2023年8月1日
0095
PyTorch Geometric Temporal 介绍 —— 数据结构和RGCN的概念

PyTorch Geometric Temporal is a temporal graph neural network extension library for PyTorc…

Python 2023年10月28日
0047
【Python爬虫】采集一个优秀艺术家相互交流的网站——P站（一个正经的网站）

前言总所周知, p站是日本知名的虚拟社区, 聚集了众多来自日本, 中国, 韩国, 美国等国家的优秀艺术家。他们在p站上相互交流, 分享高清优秀插画, 是一个正经的网站环境介绍 …

Python 2023年5月25日
0067
为什么会出现梯度爆炸和梯度消失现象？怎么缓解这种现象的发生？

前言：梯度消失现象在深度神经网络训练过程中表现得尤为突出，随着网络层数的加深，损失在反向传播时梯度在不断减小，导致浅层网络的学习进行不下去，参数得不到有效更新。为什么会出现这种现象…

Python 2023年9月28日
0054
机器学习基础

Linear Regression 线性回归 cost function 代价函数 [J(\theta_0,\theta_1) = \frac{1}{2m} \sum^m_{i=1…

Python 2023年6月6日
0077
朋友很喜欢打篮球，我用Python爬取了1000张他喜欢的NBA球星图片

Original: https://www.cnblogs.com/pythonQqun200160592/p/15693330.htmlAuthor: python可乐编程Tit…

Python 2023年5月24日
0075
车辆占用应急车道识别抓拍系统 opencv

车辆占用应急车道识别抓拍系统通过opencv+python人工智能识别技术，对高速公路应急车道进行不间断实时监测，当监测到应急车道上有车辆违规占用时，立即告警提醒后台人员及时处理避…

Python 2023年11月6日
0041
手把手教你从安装CentOS7.4镜像开始，搭建IoT视频监控系统

摘要：在CentOS7.4服务器版本的环境下安装nginx服务器、配置文件服务器、流媒体服务器。在CentOS7.4服务器版本的环境下安装nginx服务器、配置文件服务器、流媒体…

Python 2023年10月17日
0065
【自考】数据结构第四章树和二叉树，期末不挂科指南，第6篇

章节简介前5篇博客写的都是线性结构，对于有层级结构的数据需要用树形结构来描述本章的重要知识点理解有关树的基本概念和二叉树的基本概念掌握二叉树的存储结构以及遍历方法掌握树的…

Python 2023年6月3日
0085
详解数据驱动

本章主要介绍pytest几种数据驱动的方法，也是我们做接口自动化中经常要使用到的，大致分为以下四种。一.yaml 二.json 三.csv 四.excel 一.yaml 1.安装…

Python 2023年11月3日
0053
Django全栈

pip3 install django==2.2.7 -i https://pypi.tuna.tsinghua.edu.cn/simple >>>import …

Python 2023年8月6日
0039
Matplotlib绘制动图以及绘制平滑曲线

文章目录绘制动图 * FuncAnimation – 方法 ArtistAnimation – 方法绘制平滑曲线 * 使用 scipy.ndimage….

Python 2023年8月31日
0051
【练习12-3】Python编程从入门到实践第2版

12-3 import pygame class Ship(): def init(self, ai_settings, screen):”’ Initia…

Python 2023年9月19日
0030
害！非科班出身的程序员，到底差在哪里？

大家好，这里是程序员晚枫，知识星球：Python读者圈。昨天，我收到了一个关于这个星球的问题，我感觉很清楚。今天，我想详细回答一下。 [En] I received a ques…

Python 2023年5月24日
0050

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python实现表格分析与建模_python实现数据分析与建模

含空值的数据被替换为”b*”

E属性中的含空值的数据被替换成该属性的平均值

插值替换

3次样条插值 order 参数就是几次样条插值

大家都在看