python数据分析之数据清洗（以摩托车的销售情况数据为例）

2023年6月11日下午5:09 • 人工智能 • 阅读 75

文章目录

一、获取数据集并寻找存在的问题
*
1、阅读数据集描述
2、查看数据并发现问题
二、清洗步骤
*
1、数据格式转换
2、去重复
3、缺失值处理
4、异常值处理
5、数据离散化
参考

一、获取数据集并寻找存在的问题

1、阅读数据集描述

; 2、查看数据并发现问题

缺失值比较多
价格，里程不为实数
数据存在重复
部分数据没有离散化
存在异常值
其他问题

二、清洗步骤

1、数据格式转换

价格$1,000 -> 1000(整数)，其他数据去掉逗号


def f_1(s):
    if '$' in str(s):
        s = str(s).strip('$')
    s = str(s).replace(',','')
    return float(s)

df['Price'] = df['Price'].apply(f_1)
df['Mileage'] = df['Mileage'].apply(f_1)

2、去重复

print ('数据集是否存在重复观测: \n', any(df.duplicated()))

检查数据集是否有重复

在这个数据集中’Condition’,’Condition_Desc’,’Price’,’Location’是比较重要的几个属性，可以把这几个字段重复的删除


print(df[df.duplicated()])

print(np.sum(df.duplicated()))

df.drop_duplicates(subset= ['Condition','Condition_Desc','Price','Location'],keep='first',inplace=True)

3、缺失值处理

（1）删除法


df.dropna(subset=['Condition','Price','Mileage'],inplace=True)

（2）填补法（种类繁多，见下图）

4、异常值处理

画出箱线图

plt.subplot(131)
df.Price.plot(kind = 'box')
plt.subplot(132)
df.Mileage.plot(kind='box')
plt.subplot(133)
df.Bid_Count.plot(kind='box')
plt.tight_layout()
plt.show()

删除或者替换异常值（极大/极小）


def substitute(attr,df):

    attr = str(attr)
    P1 = df[attr].quantile(0.01);
    P99 = df[attr].quantile(0.99)
    df.loc[df[attr] > P99, attr] = P99
    df.loc[df[attr] < P1, attr] = P1
for a in {'Price','Mileage','Bid_Count'}:
    substitute(a,df)

这样数据就看起来好多了

5、数据离散化

数据离散化实际就是”分箱”——就是把数据分成不同的几类，便于分析
常用函数pandas.cut：


plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
df = pd.read_csv('MotorData.csv',encoding = 'gbk',na_values='Na')
w = [100,1000,5000,10000,20000,30000]
df['Price'] = pd.cut(df['Price'],bins=w,labels=['低','便宜','划算','中等','高'],ordered=True)
df['Price'].hist()
plt.show()

参考

去重复
https://blog.csdn.net/dzysunshine/article/details/100022994
箱线图
https://blog.csdn.net/sscc_learning/article/details/78771324

Original: https://blog.csdn.net/qq_51539256/article/details/122740971
Author: 英雄各有见
Title: python数据分析之数据清洗（以摩托车的销售情况数据为例）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600714/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

提升小目标检测的一种新的包围框相似度度量：Normalized Gaussian Wasserstein Distance…

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月9日
0063
PyTorch 图像处理：Tensor、Numpy、PIL格式转换以及图像显示

🤵 Author ：Horizon Max ✨ 编程技巧篇：各种操作小结 🎇 机器视觉篇：会变魔术 OpenCV 💥 深度学习篇：简单入门 PyTorch 🏆 神经网络篇：经典网络…

人工智能 2023年7月18日
0053
综合运用pandas和xlsxwriter解决所需问题（读取表格、更改数据、保存到新表格），附加一些注意事项

目录（1）声明：（2）问题：（4）思路：（5）代码实现：（附加注释）（6）注意事项：（1）声明：不局限于下述问题，可以根据自身情况加以修改。（2）问题：如下图所示…

人工智能 2023年7月16日
0054
2021-09-28vs+opencv+QT简单的图像处理工程

初学C++完成一个小小的测试前面已经配置好了opencv链接: VS2019+opencv4.5.3. 界面（QT）先尝试采用FLTK库进行编写，只能显示个图片，关于这个的教程太…

人工智能 2023年6月20日
0076
yolo fastest V2数据集训练模型步骤

1，收集数据集，train，val文件夹2，labelimg标注数据集，yolo数据格式3，运行train和val内jpg2listtxt.bat生成各自的list.txt4，修改…

人工智能 2023年7月10日
0077
model.fit( )函数：训练模型

将训练数据在模型中训练一定次数，返回loss和测量指标 model.fit(x, y, batch_size, epochs, verbose, validation_split,…

人工智能 2023年6月12日
00110
【opencv图像处理】–4. 低、高通滤波，卷积和各种算子

系列所有代码，复制粘贴即可运行。希望有能力的朋友还是拿C++运行一下。本节讨论图像的低通滤波（卷积，方盒，中值双边，高斯），高通滤波（Sobel,Scharr,Laplace,c…

人工智能 2023年6月18日
0066
【网络安全】记一次APP登录爆破

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月29日
0078
试验设计系列（一）| 样本量与功效（power）的计算

在「临床医师看过来」系列的前18篇文章中，我们介绍了基础的统计分析及JMP入门操作。从本文开始，我们将通过三篇系列文章来陆续介绍临床试验的一些内容，分别从样本量、随机分组、等效性检…

人工智能 2023年7月16日
00111
ChatGPT写的一篇数字化转型文章

文末附ChatGPT调戏链接，无需注册登录直接使用。数字化转型是指企业利用数字技术来改善业务流程、增强竞争力和降低成本。它旨在帮助企业更快、更有效地实现业务发展和创新，并为客户提…

人工智能 2023年7月31日
0062
2021研电赛获奖作品合集

2021″兆易创新杯”第十六届研究生电子设计竞赛（以下简称”研电赛”）已经结束，在比赛中出现了很多优秀作品，特作为整理获奖情况：全…

人工智能 2023年5月25日
00100
【物联网安全知多少？】

感谢您光临我新开的专栏呀❤作为物联网的爱女，当然要讲物联网啦物联网工程涉及到的范围非常广泛，由此引申出的安全问题自然需要万分重视！🆗那我们就开始了解学习吧！物联网安全体系一、物…

人工智能 2023年6月2日
0083
绿盟安全事件响应观察网络安全形势分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0086
ML之interpret：基于titanic泰坦尼克是否获救二分类预测数据集利用interpret实现EBC模型可解释性之全局解释/局部解释案例

ML之interpret：基于titanic泰坦尼克是否获救二分类预测数据集利用interpret实现EBC模型可解释性之全局解释/局部解释案例目录基于titanic泰坦尼克是…

人工智能 2023年7月15日
0071
Anaconda安装与Python虚拟环境配置保姆级图文教程(附速查字典)

目录 1 混乱的Python库 2 什么是Anaconda？ 3 Anaconda的安装 * 3.1 Windows系统 3.2 Linux系统 3.3 测试 4 虚拟环境管理(速…

人工智能 2023年7月3日
0086
【项目实战】Python实现LightGBM分类模型(LGBMClassifier算法)项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+代码讲解），如需数据+代码+文档+代码讲解可以直接到文章最后获取。 1.项目背景如今已是大数据时代，具备大数据思想至关重…

人工智能 2023年7月3日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31