【数据科学】05 数据合并（merge、concat、combine）与数据清洗（缺失值、重复值、内容和格式）

2023年7月15日下午12:20 • 人工智能 • 阅读 50

实际应用中，需要分析的数据可能来自不同的数据集，因此在开始数据分析之前，需要先将不同的数据集合并。
pandas中提供了三种不同的数据合并方式：

1.1 merge()合并

pd.merge(left,right,[参数列表])

参数说明left参与合并的左侧DataFrame对象，

right参与合并的右侧DataFrame对象，

how连接方式，”inner”、”outer”、”left”、”right”其中之一，默认为”inner”on用于连接的列名（或列名列表）;未指定改参数时，为左右数据集的公共列left_on左侧DataFrame对象中用于连接的键right_on右侧DataFrame对象中用于连接的键left_index布尔型，是否将左侧DataFrame对象的行索引用作连接键right_index布尔型，是否将右侧DataFrame对象的行索引用作连接键sort是否根据连接键对合并后的数据排序，默认为Truesuffixes字符串值元组，用于追加到重叠列名的末尾，默认为’_x’和’_y’

inner：内连接，连接两个DataFrame对象键值的交集的行
outer：外连接，连接两个DataFrame对象键值的并集的行
left：左链接，取出左侧DataFrame对象的全部行，连接右侧DataFrame对象键值匹配的行
right：右链接，取出右侧DataFrame对象的全部行，连接左侧DataFrame对象键值匹配的行

1.2 concat()合并

pd.concat(objs,axis,[参数列表])

参数说明objs需要连接的对象，如[df1, df2]axis连接的轴，默认为0；axis=0，按行堆叠；axis=1，按列堆叠join默认为”outer”，outer为并集/inner为交集ignore_indexignore_index 忽略需要连接的frame本身的index，当原本的index没有特别意义的时候可以使用join_axesIndex对象列表，用于其他n-1轴的特定索引，而不是执行内部/外部设置逻辑keys可以给每个需要连接的df一个labellevels序列列表，默认值无；用于构建MultiIndex的特定级别（唯一值）nameslist，default无，结果层次索引中的级别的名称verify_integrityboolean，default False；检查新连接的轴是否包含重复项copyboolean，default True

1.3 combine()合并

df1.combine_first(df2)
专门针对df1中的空值进行处理。
当行、列索引相同时：用df2数据集来填充df1中的缺失值
当行、列索引不同时：结果中的列是两个数据集列的并集，结果中的行是两个数据集行的并集，并用df2的对应值填充df1中的NA值
df.combine(other, func, fill_value=None, overwrite=True)
基于传递的函数执行与另一个DataFrame的逐列组合。
使用func将DataFrame与其他 DataFrame 组合到按元素组合的列。生成的DataFrame的行索引和列索引将是两者的并集。

参数说明otherDataFrame，要按列合并的DataFramefunc将两个系列作为输入并返回一个Series或一个标量的函数，用于逐列合并两个数据帧fill_value标量值，默认None；在将任何列传递给合并函数之前填充NaN的值overwriteboolean，默认为True；如果为true，列自我不存在在其他将与NaN的覆盖


import pandas as pd
df = pd.DataFrame(
    {"A": ["001", None, "003", None, "005"],
     "B": ["1", "2", "3", "4", "5"]})
df["A"] = df["A"].combine(df["B"], lambda a, b: a if pd.notna(a) else b)

2.1 缺失值

1. 识别缺失值

df.isnull()
判断dataframe每行每列的元素是否为缺失值，分别用False和True表示
df.isnull().any() && df.isnull().any(1)
查看所有列、行是否有缺失值
df.isnull().all() && df.isnull().all(1)
查看所有列、行是否 全部为缺失值

2. 处理缺失值

滤除缺失值
df.dropna(how, axis, thresh, inplace)

参数说明how取值为any或all，how=’all’值丢弃全部NA的行（列）axis轴向参数，默认为0；axis=0，丢弃行数据；axis=1，丢弃列数据thresh保留部分观测数据，例如thresh=3，则当一行（列）有3个或以上非NA值才保留inplace默认为False；inplace=True表示修改调用者而不产生副本

填充缺失值
df.fillna()

参数说明value用于填充缺失值的标量值或字典对象method用于填充缺失值的方法。method=’ffill’，向前填充；method=’bfill’，向后填充。也可以使用平均值或中位数等统计学方法，如method=df.mean()axis待填充的轴，默认axis=0，按列填充inplace默认为False；inplace=True表示修改调用者而不产生副本

注：不同列的缺失值用不同的数值来填充，需要构造{列索引名：值}形式的字典对象作为参数。


patient_data.fillna({'体重':patient_data['体重'].mean(),'心率':75}, inplace=True)

2.2 重复值

1. 查看重复值
df.duplicated()
查看DataFrame对象df中是否有重复行，返回一个布尔型的Series

2. 删除重复值
df.drop_duplicates()
删除df中重复的数据行，结果中默认保留 第一个出现的值组合，传入take_last=True则保留最后一个。

注：上面的两个方法会默认判断全部列，也可以对部分列进行重复项判断或删除，只需传入列名或列名的列表。

df.drop_duplicates(['column_a'])

2.3 内容与格式清洗

1. replace数据替换
df.replace(to_replace,value,[参数列表])

参数说明to_replace要替换掉的值value替换后的新值inplace是否修改原始数据，默认为False

如果一次需要修改多个值，则可以传入一个列表和要替换的值：

df.replace([270,1400],np.nan)

对不同的值进行不同的替换，传入一个替换关系组成的列表或字典：

df.replace({'U.S.A.':'USA','U.K.':'UK'})

2. iterrows()迭代器遍历
df.iterrows()
iterrows()返回值为元组(index,row)


for index,row in patient_data[rows_with_cm].iterrows():
        height =float(row['身高'][:-2])/100
        patient_data.at[i,'身高(m)'] = '{}'.format(round(height,2))

Original: https://blog.csdn.net/weixin_47575631/article/details/124177060
Author: 春杪无蜩
Title: 【数据科学】05 数据合并（merge、concat、combine）与数据清洗（缺失值、重复值、内容和格式）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/694258/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用PyMetis实现聚类融合算法

在Java中需要用到一些机器学习相关的库，比如Weka、Apache Mahout等。下面以Weka为例，简单介绍如何 Java 。 1. 导入Weka库在Java工程中导入W…

人工智能 2023年7月15日
0074
《了解CV和RoboMaster视觉组》完结啦！

加入RoboMaster视觉/算法组必看/你的最后一本计算机视觉入门书在今天完成了基本的编写工作。全书共三十五万六千零四字，相当于一本长篇小说。导出成PDF后共327页，光是目录就…

人工智能 2023年7月28日
0081
Armnn(v21.05)使用方法及部分源码理解

工作原因需要使用 Armnn 进行神经网络推理，之前使用 tensorflow2 的 detection API 训练了自己SSD模型，转换成tflite以后使用 tensorfl…

人工智能 2023年5月25日
00102
回归标准差和残差平方和的关系_统计的基石：简单线性回归

记得关注“ R语言与统计 “ ~~简单线性回归(Simple linear regression) 也称为一元线性回归，是分析一个自变量 (x)与因变量(…

人工智能 2023年6月18日
00103
数据分析进阶之路——目标拆解方法

在进行数据分析之前，首先要明确数据分析的目标。无论是宏观的观测数据还是微观的拆解目标，某些情况下不可避免的会造成目标方向的遗漏。但我们所期待的是能够将目标”相互独立，完…

人工智能 2023年6月11日
0096
【OpenCV 例程200篇】61. 导向滤波（Guided filter）

【OpenCV 例程200篇】61. 导向滤波（Guided filter）欢迎关注『OpenCV 例程200篇』系列，持续更新中欢迎关注『Python小白的OpenCV学习课…

人工智能 2023年6月19日
0069
Yolov5的配置+训练（超级详细！！！）

我本来说只是单纯的记录一下第一次跑代码的流程的，结果看到了这么多大家都收藏和点赞，我决定再稍微改改他的排版，希望更多地朋友能在CV方向迅速上手！一、NVIDIA驱动安装与更新首先查…

人工智能 2023年7月4日
0069
远场语音交互硬件声学性能测试标准

远场语音交互硬件声学性能测试标准文档版本 V1.8 修改日期2019.11.26 谙声科技声学实验室文档修改记录版本修改日期修改人批准人批准日期描述 V1.0 …

人工智能 2023年5月25日
0074
Lexical Model

Lexical Model 本篇文章是针对《Improving Lexical Choice in Neural Machine Translation》这篇论文的一些理解。同时这…

人工智能 2023年5月28日
0082
五种常见的聚类算法总结

一、关于聚类的基础描述 1.1 聚类与分类的区别 1.2 聚类的概念 1.3 聚类的步骤二、几种常见的聚类算法 2.1 K-means聚类算法 1) K-means算法的流程： …

人工智能 2023年6月2日
0083
模拟退火算法介绍和实例实现

一、模拟退火算法简介模拟退火算法(SA)来源于固体退火原理，是一种基于概率的算法。将固体加温至充分高的温度，再让其徐徐冷却，加温时，固体内部粒子随温升变为无序状，内能增大，分子和原…

人工智能 2023年7月28日
0065
Python机器学习—特征工程

文章目录 1、数据集 * 1.1 可用数据集 1.2 scikit-learn数据集 – sklearn小数据集 sklearn大数据集 1.3 数据集的划分 &#82…

人工智能 2023年6月11日
0078
【(强推)李宏毅2021/2022春机器学习课程】2022-语音与影像上的神奇自监督学习模型【精】

文章目录 Review：Self-supervised Learning for Text Self-supervised Learning for Speech Self-sup…

人工智能 2023年5月25日
0073
线结构光平面方程自动标定

根据激光三角测量法原理写的线结构光传感器的自动标定程序，之前借助matlab和自己写的几个程序完成的步骤比较复杂，由于cpp容易部署及应用到项目中以及我懒，所以花了一个下午加晚上整…

人工智能 2023年6月17日
0081
Repvgg详解及其实现（pytorch）

论文下载地址：https://arxiv.org/abs/2101.03697 官方源码（Pytorch实现）：GitHub – DingXiaoH/RepVGG: R…

人工智能 2023年7月21日
0067
【CV】FPN：用于目标检测的特征金字塔网络

论文名称：Feature Pyramid Networks for Object Detection论文下载：https://arxiv.org/abs/1612.03144论文年…

人工智能 2023年7月9日
0099

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31