python进行数据分析第二章task02

2023年8月7日上午10:15 • Python • 阅读 40

文章目录

第二章数据清洗和特征处理
*
2.1 缺失值观察与处理
–
- 2.1.1 缺失值观察
- 2.1.2对缺失值进行处理
2.2 重复值的观察与处理
特征观察和处理
–
- 对文本变量进行转换
  +
  *
  –
  - join和concat之间的区别
- 按百分比分段qcut

第二章数据清洗和特征处理

2.1 缺失值观察与处理

2.1.1 缺失值观察

缺失值统计

; 2.1.2对缺失值进行处理

1.可使用的函数有 dropna 函数和fillna函数

df.dropna().head(3)
df[df['Age']==None]=0
df[df['Age'].isnull()] = 0
df[df['Age'] == np.nan] = 0

df.fillna(0)
df.fillna({'Age':0})

chunker.loc[chunker['Age'].isnull(),'Age']=0

查看检验方法

chunker.isnull.sum()

2.2 重复值的观察与处理

df.duplicated()
查看是否有重复值

df[df.duplicated()]没有显示任何一行表明没有重复值

删除重复行
a.drop_duplicates()

将前面清洗好的数据保存为csv
df.to_csv(‘train_clear.csv’)

; 特征观察和处理

数值型数据
离散型数据
连续型数据
文本型特征

首先进行分箱操作
1.分箱操作是什么

pandas.cut将数据分成离散的区间
必须是一维的

第一个参数是那列的数据
bins 怎么分段
right 右边是闭的还是开的
labels 标签默认没有标签

如果出现异常的值

对文本变量进行转换

列对象.unique()查看有什么种类

value_counts()数有多少个
python进行数据分析第二章task02

replace 替换【】，【】，
inplace=

df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])
df.head()

map方法

df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})

from sklearn.preprocessing import LabelEncoder
种类很多的时候可以导入这个包

df['Cabin']=LabelEncoding().fit_transform(df['Cabin'])
//这个函数可以把文本变量变成数字变量
//要么是文本要么是数字

df.head()

one-hot编码
abcd ,value

这些数据是不可比较的，所以用0-10表示是没有对应的意义的大小
处理的数据只有0和1提高计算效率

转换的函数

x=pd.get_dummies(df['Age'],prefix='Age')
//将变量转换为
df=pd.getconcat([df,x],axis=1)
//在原来的表中进行拼接
df.head()

循环合并

for column in['Cabin','Embarked']:
    x= pd.get_dummies(df[column],prefix=column)
    df=pd.getconcat([df,x],axis=1)
df.head()

join方法合并
将指定列进行get_dummies 后合并到 元数据中
df = df.join(pd.get_dummies(df.color))

join和concat之间的区别

Series.str.extract字符串提取函数

从纯文本Name特征里提取出Titles的特征所谓的Titles就是Mr,Miss,Mrs等

正则表达式

df['Title']=df.Name.str.extract('([A-Za-z]+)\.')
df

按百分比分段qcut

Original: https://blog.csdn.net/m0_52024881/article/details/121324404
Author: speoki
Title: python进行数据分析第二章task02

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739747/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

CSS宝典④-CSS布局秘籍(1)任督二脉BFC/IFC

HTML系列：人人都懂的HTML基础知识-HTML教程 HTML元素大全(1) HTML元素大全(2)-表单 CSS系列： CSS基础知识筑基常用CSS样式属性 CSS选择器大…

Python 2023年10月16日
0043
【pytest】（一） pytest的介绍、安装与运行

目录 1. pytest的介绍 2. pytest的安装 3. pytest识别测试的条件 4. pytest的运行 * 4.1 Pycharm中调用 4.2 Python代码中调…

Python 2023年9月11日
0062
Python获得女友聊天记录，一招解决疑神疑鬼

Original: https://www.cnblogs.com/pythonQqun200160592/p/15423871.htmlAuthor: python可乐编程Tit…

Python 2023年5月25日
0080
Python：五种方法实现“字符串反转”

一道题目是实现一个反转字符串的函数，具体如下：编写一个函数，其作用是将输入的字符串反转过来。输入字符串以字符数组 char[] 的形式给出。不要给另外的数组分配额外的空间，你必…

Python 2023年6月9日
0098
Windows 10 – Python 的虚拟环境 Virtualenv – 全局 python 环境切换问题

目录 1. 虚拟环境 2. 解决全局 python 环境切换的 bug * virtualenv 虚拟环境与本地 python 环境的测试 3. virtualenv 虚拟环境个…

Python 2023年8月4日
0072
python配置celery消息队列【完整版汇总】

前言：随着项目并发量的增加，怎样去提高项目的效率是我们不能不去考虑的事情，所有使用消息队列技术，将耗费时间的任务放到队列中做异步执行是非常好的一个策略，本文以django为例来…

Python 2023年8月6日
0061
springboot基于协同过滤算法的书籍推荐毕业设计源码101555

2 系统开发环境 **** 开发技术说明：本系统前端部分基于MVVM模式进行开发，采用B/S模式，后端部分基于python的Django框架进行开发。前端部分：前端框架采用了比…

Python 2023年8月6日
0057
一键自动化数据分析！快来看看 2022 年最受欢迎的 Python 宝藏工具库！ ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析◉技能提升系列：https://www.showmeai.tech/tutorials/33📘 数据分析实战系列：https://ww…

Python 2023年10月29日
0048
案例——中国篮球运动员的基本信息分析

案例——中国篮球运动员的基本信息分析分析目标 1、计算中国男篮、女篮运动员的平均身高与平均体重2、分析中国篮球运动员的年龄分布3、计算中国篮球运动员的体质指数数据获取先导入可…

Python 2023年8月18日
0064
Python 获取图片某像素BGR值并生成纯色图 | Python工具

前言最近，需要获得特定图片的像素颜色并生成该颜色的纯色图片。所以我写了一个工具，并与你分享。如果你有相同的场景，你可以直接使用它。 [En] Recently, there is…

Python 2023年5月24日
00106
Scrapy爬取二手房信息

Scrapy爬取链家二手房信息，并存为.csv文件——第一个完整爬取项目 1.打开Pycharm，进入Terminal 创建爬虫项目：scrapy startproject Ljh…

Python 2023年10月2日
0055
基于深度学习的文本分类案例：使用LSTM进行情绪分类

Sentiment classification using LSTM 在这个笔记本中，我们将使用LSTM架构在电影评论数据集上训练一个模型来预测评论的情绪。首先，让我们看看什么是…

Python 2023年10月21日
0049
【20211106】【Python】numpy ndarray二维数组，按照行、列求平均

语法： np.mean(axis=0)：对第 n 列的每行元素求平均。 np.mean(axis=1)：对第 m 行的每列元素求平均。 import numpy as np a…

Python 2023年8月24日
0056
DxO FilmPack 6 for Mac/Win(胶片模拟效果滤镜软件)

Original: https://www.cnblogs.com/aurora-123/p/16814023.htmlAuthor: 佛系女孩Title: DxO FilmPac…

Python 2023年10月28日
0043
数据分析-pandas（dataframe）

DataFrame选取列 data={‘Name’:[‘关羽’,’刘备’,’张飞’,’曹操’],’Age’:[28,34,29,42]} index=["rank1&qu…

Python 2023年8月7日
0048
python第三方库pygame的使用

作用：pygame一般用来做游戏注意：1.在使用pygame提供的功能之前，需要调用init方法 2.在游戏结束前需要调用 quit 方法 pygame中的各个函数： 1.pyg…

Python 2023年9月17日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31