动手学数据分析2

2023年7月8日上午9:50 • 人工智能 • 阅读 76

先导入numpy和pandas，为避免列省略先在前设置展开全部列 #数据过大时行列会省略

#数据过大时行列会省略
pd.set_option('display.max_column',None)#显示消失的列

读取文件

df=pd.read_csv('train.csv')

对缺失值进行处理

法1
df[df['Age']==None]=0
print(df.head(3))
法2
df[df['Age'].isnull()]=0
print(df.head(3))
法3
df[df['Age']==np.nan]=0
print(df.head(3))

因为数值列读取数据后，空缺值的数据类型为float64，所以用None一般索引不到，比较的时候最好用np.nan

DataFrame中dropna用于删除缺失值

DataFrame. dropna(axis=0, how=’any’, thresh=None, subset=None, inplace=False )

#dropha用于删除缺失值，默认删除行
print(df.dropna().head(3))
#fillna用于替换缺失值
print(df.fillna(0).head(3))#用0替代

查看数据中的重复值

#查看数据中的重复值
print(df[df.duplicated()])

将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示

#将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示
df['AgeBand']=pd.cut(df['Age'],5,labels=[1,2,3,4,5])
print(df.head())

将连续变量Age划分为(0,5] (5,15] (15,30] (30,50] (50,80]五个年龄段，并分别用类别变量12345表示

#将连续变量Age划分为(0,5] (5,15] (15,30] (30,50] (50,80]五个年龄段，并分别用类别变量12345表示
df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = [1,2,3,4,5])
print(df.head(3))

Original: https://blog.csdn.net/hxchuadian/article/details/122480021
Author: hxchuadian
Title: 动手学数据分析2

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678253/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python直接使用plot()函数画图

目录一、plot（）函数的认识二、plot()函数基本运用三、plot()函数数据可视化画图以及图元基本参数设置一、plot()函数的认识在使用Python进行数据可视化…

人工智能 2023年7月3日
0093
【数模之数据分析-2】

数据分析之Numpy 四则运算: * 相关程序运行如下：随机模块： * 相关程序运行如下：文件读写： * 相关程序运行如下：数组保存： * 相关程序运行如下： Numpy练习…

人工智能 2023年7月4日
0054
卷积层中的权重共享是什么意思

问题：卷积层中的权重共享是什么意思？介绍：在深度学习中，卷积神经网络（Convolutional Neural Networks，简称CNN）是一种主要用于图像识别和处理的神经…

人工智能 2024年1月1日
0039
因子分析——python

目录一、起源二、基本思想三、算法用途四、因子分析步骤五、factor_analyzer库四、实例详解 1.导入库 2.读取数据 3.充分性检测 3.1 Bartlett…

人工智能 2023年6月23日
0088
【自动驾驶】碰撞检测算法

参考链接：【自动驾驶】碰撞检测算法 – 知乎【规划】Box2d::HasOverlap() 碰撞检测接口详解_lemon_zy的博客-CSDN博客_box2d碰撞检…

人工智能 2023年6月2日
00100
tensorflow机器学习 2022/03/19

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0074
【语音算法】wav2vec系列原理和使用

文章目录前言 1. wav2vec 2. vq-wav2vec 3. wav2vec2.0 * 3.1 encoder 3.2 context 3.3 wav2vec2.0的使用…

人工智能 2023年5月27日
0075
PyTorch中的自动微分是如何工作的

1. 问题介绍 PyTorch是一个流行的机器学习框架，其中的自动微分是其重要功能之一。本文将详细介绍PyTorch中的自动微分是如何工作的。在解决问题的过程中，我们将使用一个虚拟…

人工智能 2024年1月3日
0067
MultiHead-Attention和Masked-Attention的机制和原理

文章目录一、本文说明二. MultiHead Attention * 2.1 MultiHead Attention理论讲解 2.2. Pytorch实现MultiHead A…

人工智能 2023年7月27日
0065
OpenCV入门【C++版】

OpenCV基础入门【C++语言】 * – Chapter1 读取图片/视频/摄像头 – + 从文件读取图片 + 从文件读取视频 + 读摄像头 &#8211…

人工智能 2023年7月20日
0055
2022年全球及中国工业五金垫圈行业研究

2021年全球工业五金垫圈市场规模大约为亿元（人民币），预计2028年将达到亿元，2022-2028期间年复合增长率（CAGR）为 %。未来几年，本行业具有很大不确定性，本文的…

人工智能 2023年6月11日
0083
The Power of Scale for Parameter-Efficient Prompt Tuning及prefix tuning与prompt tuning的区别

1.本文贡献（1）提出prompt tuning，并在大型语言模型领域展示其与model tuning(fine tuning)的竞争力；（2）减少了许多设计选择，显示质量和鲁…

人工智能 2023年5月27日
0065
人脸识别opencv

opencv与dlib介绍 1.1 opencv介绍 opencv是一个基于bsd许可（开源）发行的跨平台计算机视觉库，可以运行在liunx，windows,android和mac…

人工智能 2023年7月20日
0064
vs2019配置opencv4.6.0+opencv_contrib4.6.0

在我上一篇博客已经说明怎么安装opencv4.6.0，因为遇到要做图片融合用到surf，orb等特征提取的工具，所以在基础上又加装了opencv_contrib4.6.0。 vs2…

人工智能 2023年6月18日
0095
数字信号处理实验——语音信号的数字滤波

文章目录前言一、实验项目二、实验目的三、实验平台四、实验内容 * 1.分析信号 2.信号处理实验结果分析 * 代码地址前言 “数字信号处理”课程实验研究 [En] S…

人工智能 2023年5月27日
0076
【强化学习】Q-Learning算法详解以及Python实现【80行代码】

在文章正式开始前，请不要被强化学习的tag给吓到了，这也是我之前所遇到的一个困扰。觉得这个东西看上去很高级，需要一个完整的时间段，做详细的学习。相反，强化学习的很多算法是很符合直观…

人工智能 2023年7月4日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

动手学数据分析2

大家都在看