python大数据分析笔记_python数据分析与建模实现-第一次笔记

2023年7月8日下午10:14 • 人工智能 • 阅读 42

编辑推荐:

本文来自csdn

，文章主要介绍了python做数据分析时，数据的的读取和处理，以及静态结构分析等相关内容。

首先我们做数据分析，想要得出最科学，最真实的结论，必须要有好的数据。而实际上我们一般面对的的都是复杂，多变的数据，所以必须要有强大的数据处理能力，接下来，我从我们面临的最真实的情况，一步一步教会大家怎么做。

1.数据的读取

(1)读取模块

Import pandas as pd

Import numpy as np

(2)读取表格的全部数据

df = pd.read_csv(“.data/HR.csv”)

(3)读取你所需要的数据

sl_s=df[“sactisfaction_level”]

数据的处理

2.1.异常值(空值)处理

2.1.1删除

首先，第一步是对空值的处理。

有两种，一种直接删除，另一种指代。

如果数据多，想简单一点，就直接删除，方法都很简单。

首先，建立一个DataFrame表

1.为了确定是否含有空值：

df.isnull() #如果含有空值，返回True

2.删除

df.dropna() #去掉含空值的行

如果想要删除某一个属性含空值的行就加入subset参数

df.dropna(subset=[“B”]) #去掉B属性含空值的行

判断是否有重复的数据：

df.duplicated([“A”]) #A属性中重复的数据返回True

删除A属性重复的行

df.drop_duplicates([“A”])

df.drop_duplicates([“A”],keep=False)

删除A属性全部重复的行

df.drop_duplicates([“A”],keep=first)

删除A属性全部重复的行，保留第一个

df.drop_duplicates([“A”],keep=last)

删除A属性全部重复的行，保留最后一个

2.1.2指代

有些数据非常重要，不能删除，那我们就选择指代，也就是替换

含空值的数据被替换为”b*”

df.fillna(“b*”)

E属性中的含空值的数据被替换成该属性的平均值

df.fillna(df[“E”].mean())

插值替换

如果含空值的元素为最后一个，那么空值的数据替换成和上一个数据一样

如何含空值的元素为中间，那么空值的数据被(上+下)/2代替

df[“E”].interpolate()

3次样条插值 order 参数就是几次样条插值

df[“E”].interpolate(method=”spline”,order=3)

*函数

(4)异常值分析(含有就返回True)

–isnull()

sl_s.isnull()

主要表示没有空值

(5)提取异常值的该属性信息

sl_s[sl_s.isnull()]

(6)提取异常值的表格全部信息

df[df[“sactisfaction_level”].isnull()]

(7)丢弃异常值 –dropna()

sl_s=sl_s.dropna()

注：删除为空的异常值

可以利用where()把异常数据赋空，然后利用dropna()删除

(8)填充异常值 –fillna()

sl_s=sl_s.fillna()

(9)平均值 –mean()

sl_s.mean()

(10)标准差 –std()

Sl_s.std()

(11)最大值 –max()

sl_s.max()

(12)最小值 –min()

sl_s.min()

(13)中位数 –median()

sl_s.median()

(14)下四分位数 –quantile(q=0.25)

sl_s.quantile(q=0.25)

(15)上四分位数 –quantile(q=0.75)

sl_s.quantile(q=0.75)

(16)偏度 –skew()

sl_s.skew()

分析：小于0 是负偏均值偏小，大部分数是比他的均值大的

大于 0 稍微有些振偏

远大于0，是极度振偏，均值要比他的大多数值大好多。

(17)峰度 –kurt()

sl_s.kurt()

分析：

Original: https://blog.csdn.net/weixin_30569303/article/details/113659313
Author: 小西老师
Title: python大数据分析笔记_python数据分析与建模实现-第一次笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679417/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

TensorFlow安装步骤

环境：Win10，Python 3.8，Anaconda电脑：GeForce RTX 2060, NVIDIA CUDA 11.1.4官方教程：在 Windows 上安装 Tens…

人工智能 2023年6月16日
0088
TensorFlow2和keras详细安装教程

环境配置：系统：win10 1、安装 Anaconda，安装教程请自行百度。这里我使用的版本是： C:\Users\HaiBin>conda –version conda…

人工智能 2023年5月23日
0077
ZYNQ图像处理(2)——ov5640_hdmi显示环境搭建

1、ov5640摄像头介绍 1.1 ov5640简介 OV5640 是一款 1/4 英寸单芯片图像传感器，其感光阵列达到 2592 _1944（即 500W 像素），能实现最快 1…

人工智能 2023年6月17日
0093
互联网指标体系构建及分析方法

目录一、One Metric – 第一关键指标法二、AARRR海盗指标法 2.1 为什么叫海盗模型呢？ 2.2 AARRR模型的核心点 2.3 AARRR海盗模型…

人工智能 2023年7月16日
0080
yolo v5 数据标注和训练

yolo v5 数据集标注安装labelimg软件 1.进入虚拟环境2.pip install labelimg3.直接输入labelimg就可以打开软件 conda activ…

人工智能 2023年7月21日
0078
用pointnet++分类自己的点云数据

目录一、简单介绍pointnet++ 1.1 三维数据的表示方法 1.2 pointnet算法 1.3 pointnet++算法的提出二、pointnet++如何运行自己的数据…

人工智能 2023年6月12日
0066
03 【npm的使用】

03 【npm的使用】 1.包和npm 1.1 什么是包由于 Node 是一套轻内核的平台，虽然提供了一系列的内置模块，但是不足以满足开发者的需求，于是乎出现了包（package…

人工智能 2023年6月28日
0085
2022-2028全球与中国DevOps云平台和付费软件工具市场现状及未来发展趋势

辰宇信息咨询市场调研公司最近发布-《2022-2028全球与中国DevOps云平台和付费软件工具市场调研报告》内容摘要本文重点分析在全球及中国有重要角色的企业，分析这些企业De…

人工智能 2023年6月11日
00125
实战：QT车牌识别系统综合设计

该系统是博主结合许多QT开发项目综合制作，借用了Opencv的开发库来完成的一个项目，具体的可以按照目录来，关于识别方面仅仅提供一个思路，目前还在想如何去优化（准备采用神经网络将数…

人工智能 2023年5月26日
0073
数据挖掘的概念和步骤

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月19日
0091
机器学习(七)——tf.keras搭建神经网络固定模式

import——导入相关模块 train,test——指定训练集与测试集 model = tf.keras.models.Sequential——在Sequential搭建神经网络…

人工智能 2023年7月13日
0051
【‘pip‘ 不是内部或外部命令，也不是可运行的程序或批处理文件】

目录一、【解决方法】（添加环境变量）二、【演示】（解决方法的详细版） 1、打开系统属性（高级）界面 2、编辑用户变量——添加pip的完整路径（1）点击环境变量（2）点击…

人工智能 2023年7月30日
0067
深入浅出网络编程TCP，UDP，Socket，Http网络编程面试题

目录什么是网络编程网络编程中的主要问题计算机网络体系结构 TCP / UDP Socket HTTP 什么是网络编程网络编程中的主要问题计算机网络体系结构 OSI 参考模…

人工智能 2023年7月29日
0055
《Matlab实用案例》系列Matlab从入门到精通实用100例案例教程目录（持续更新）

### 回答1： Matlab_2022-FPGA生成代码是一种有效的开发工具，能够将 _Matlab_程序转化为FPGA芯片可执行的硬件描述语言HDL代码。本 _教程_将重点介绍…

人工智能 2023年6月18日
0075
关于安装pytorch的简单步骤及一些问题解决

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月27日
0052
行业知识图谱调查报告（二）：知识图谱构建及行业知识图谱构建举例

行业知识图谱调查报告（二）：知识图谱构建及行业知识图谱构建举例目录行业知识图谱调查报告（二）：知识图谱构建及行业知识图谱构建举例 * 二、知识图谱构建 – 2.1 …

人工智能 2023年6月1日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31