pandas -表的横向合并纵向合并

2023年7月8日下午8:47 • 人工智能 • 阅读 79

《Merge, join, and concatenate》笔记

PS默认情况下，所有合并函数生成文件的方式均是新生成，即不修改原DF/Series数据。

常用 merge() 来添加新字段（即列）， concat() 来添加新记录（即行）

++++++++++ merge() ++++++++++

pandas.merge是pandas的全功能、 高性能的的内存连接操作，在习惯上非常类似于 SQL之类的关系数据库。
相较于其他开源软件（如R中的 base::merge.data.frame）， pandas.merge的性能要好得多（在某些情况下好得多一个数量级）。其原因是在DataFrame中优化的算法设计和数据的内部布局。

DataFrame.merge(
right,
how='inner',
on=None, left_on=None, right_on=None,
left_index=False, right_index=False,
sort=False,
suffixes=('_x', '_y'),
copy=True,
indicator=False,
Validate=None
)

merge两个DataFrame：

>>> A              >>> B
    lkey value         rkey value
0   foo  1         0   foo  5
1   bar  2         1   bar  6
2   baz  3         2   qux  7
3   foo  4         3   bar  8

>>> A.merge(B, left_on='lkey', right_on='rkey', how='outer')
   lkey  value_x  rkey  value_y
0  foo   1        foo   5
1  foo   4        foo   5
2  bar   2        bar   6
3  bar   2        bar   8
4  baz   3        NaN   NaN
5  NaN   NaN      qux   7

merge多个DataFrame与之类似，直接向后添加：

A.merge(B, right_on='col_r', left_on='col_l', how='outer').merge(C, right_on='col_r1', left_on='col_l1', how='outer')

注：

截止到2019上半年， merge()函数仍然会合并左右表的NaN 和 None，详见GH22491 和GH22618。
假如要删除NaN 和 None，使用 new_df.dropna(subset=['key_or_keys], inplace=True)。

"""NaN是float，None是object，虽然都可以在numpy中运行、但是None会把numpy计算性能拉到底，NaN不会。"""
s_bad = pd.Series([1, None], dtype=object)
s_good = pd.Series([1, np.nan])

print (s_bad )
print (s_good )

0 1
1 None
dtype : object
0 1.0
1 NaN
dtype : float64

print (s_bad .dropna ())
print (s_good .dropna ())

0 1
dtype : object
0 1.0
dtype : float64

print (s_bad .isnull ())
print (s_good .isnull ())

0 False
1 True
dtype : bool
0 False
1 True
dtype : bool

++++++++++ concat() ++++++++++

默认按照axis=0执行合并，即默认向df1添加行。
如果df2有df1没有的列，也添加列。

concat()函数一边按照an axis执行所有的复杂合并命令，同时（如果有的话）按其他axes执行运算，还执行参数”join”的设定 innor | outer命令。注意，之所以说”如果有”，是因为Series只有一个axis。

pandas.concat(
objs,
axis=0,
join='outer',
sort=None,
gnore_index=False,

verify_integrity=False,
join_axes=None, keys=None, levels=None, names=None,copy=True)

多个DataFrame的话，多注意 “按axes（即第一个axis之外的axis/axes）的合并”，还有”设置更多条件的合并”（ axis、 join 。 进一步有 sort 操作，且未来的 join 不再默认执行 sort=True ，需要主动设置）、
join = innor/outer操作的是axis（ 它其实是实际意义上的index，如果你对该函数较熟悉的话）。
搭配 keys合并后的表，可以快速的提取数据，key的对象随axis的取值变化而改变。
ignore_index搭配 axis：实现用递增的数字，作为新DF的字段名称；
把参数 index换成参数 join_axes可以实现相当于SQL的left join功能，即只保左边表df1的index。例如 result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])。

++++++++++ append() ++++++++++
功能：简化版的 concat()（实际上比concat诞生的早）。同样是用来处理Dataframe/Series。

DataFrame.append(
other,
sort=None,
ignore_index=False,
verify_integrity=False)

附注：一个Series合并到一个DataFrame
如果我们要把一个Series合并到一个DataFrame的话，用 DataFrame.assign()可以得到相同的结果。
但是对于任意数量的DataFrame/Series对象，请使用 concat()。

concat()和 append()通用的：
– 比如2个表的index一个是[i, ii, iii, iv]，一个是[a, b, c, d]，通过设定 ignore_index=True，即用新的index[0, 1, 2, 3]来添加合并对象。
-仅适用于 concat()的：
– ignore_index=True搭配 axis=1（行名称变成了事实上的Column，列名称反而成了事实上的index），可以在合并结果中用 数字序号作为 列名称；
仅适用于 append()的：
– 直接把一个手写Series 的列或者一个dict 的列集，合并到DataFrame 行的后边得到一个新的DF。虽然不是特别有效率（因为函数应用的对象Series/DF需要手工码出来）。
— e.g. 手写Series类型数据，手写dict类型数据。其结果不容易理解，一般使用 merge或者 concat:

import pandas as pd

df1 = pd .DataFrame ([5 , 6 , 7 , 8 ], index =[‘A’, ‘B’, ‘C’, ‘Y’])
print (df1 )

s2 = pd .Series ([‘X0’, ‘X1’, ‘X2’, ‘X3’])
print (s2 )

dicts = [{‘A’: 1 , ‘B’: 2 , ‘C’: 3 , ‘X’: 4 },
{‘A’: 5 , ‘B’: 6 , ‘C’: 7 , ‘Y’: 8 }]
print (dicts )

0
A 5
B 6
C 7
Y 8

0 X0
1 X1
2 X2
3 X3
dtype : object

[{‘A’: 1 , ‘B’: 2 , ‘C’: 3 , ‘X’: 4 }, {‘A’: 5 , ‘B’: 6 , ‘C’: 7 , ‘Y’: 8 }]

result = df1.append(s2, ignore_index=True)
print(result)

b = df1.append(dicts, ignore_index=True)
print(b)

    0    1    2    3
0   5  NaN  NaN  NaN
1   6  NaN  NaN  NaN
2   7  NaN  NaN  NaN
3   8  NaN  NaN  NaN
4  X0   X1   X2   X3

     0    A    B    C    X    Y
0  5.0  NaN  NaN  NaN  NaN  NaN
1  6.0  NaN  NaN  NaN  NaN  NaN
2  7.0  NaN  NaN  NaN  NaN  NaN
3  8.0  NaN  NaN  NaN  NaN  NaN
4  NaN  1.0  2.0  3.0  4.0  NaN
5  NaN  5.0  6.0  7.0  NaN  8.0

++++++++++ JOIN() ++++++++++
它通过索引或者指定的列把来自其他DaraFrame的列添加到左DF上。
如果只按照索引进行join的话，可以迅速的同时jion多个DataFrame。

DataFrame.join(
other,
on=None,
how='left',
lsuffix='',
rsuffix='',
sort=False
)

例子：
new_df = left.join(right, on=key_or_keys)

等价于 new_df = pd.merge(left, right, left_on=key_or_keys, right_index=True, how='left', sort=False)
还等价于 new_df = left.merge(right, on=key_or_keys, how='left')

DataFrame提供了 pandas.DataFrame.merge()和 pandas.DataFrame.join()作为使用 pandas.merge()的快捷方式。
例如 df1.merge(right=df2, ...)，也即 pandas.merge(left=df1, right=df2, ...)。

两者都能按照行名称匹配出新的一列。

map()在知道所有映射关系后，能方便快捷的匹配映射数据。
貌似有很多路径可以实现类似EXCEL的VLOOKUP功能。

Original: https://blog.csdn.net/sinat_23971513/article/details/115392664
Author: sljwy
Title: pandas -表的横向合并纵向合并

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679277/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

dataframe 条件取非_python-Pandas DataFrame获取索引匹配特定条件的…

尝试这个： compare[compare.index.get_level_values(0).month.isin([5, 6, 7])] 演示： In [45]: import…

人工智能 2023年7月9日
0087
Elasticsearch：如何在 CentOS 上创建多节点的 Elasticsearch 集群 – 8.x

在我之前的文章 “Elasticsearch：使用 RPM 安装包来安装 Elastic Stack 8.x” 里，我详细地介绍了如何使用 RPM 安装包来…

人工智能 2023年7月29日
0063
Python-opencv fft、dct变换 + 幅度、相位谱结合实现艺术效果

快速傅里叶变换（FFT）原始二维傅里叶变换公式： np工具箱中有fft2函数可以对图像做二维快速傅里叶变换（不断分解成更小的、更容易的小蝶形变换替换大变换），但是要让输出的频谱图…

人工智能 2023年5月28日
0090
Ubuntu18.04安装opencv3.1.0

在Ubuntu中安装opencv相当于cmake编译该文件，注意编译完成后需要安装 1.下载opencv3.1.0.zip Releases 2.安装依赖包终端输入： sudo …

人工智能 2023年7月19日
0074
【2023届秋招面试篇】经纬恒润自动驾驶感知算法岗位一面

下午2：00 – 3：00面的经纬恒润的感知算法岗总体情况：项目相关的所有问题全部回答出来了，语言类python和pytorch的问题没回答出来面试官挺好，双方会有…

人工智能 2023年7月21日
0094
Attention注意力机制

一、概念深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。二、Encoder-Decoder 框架引…

人工智能 2023年5月31日
00101
滑模变结构控制（2）–RBF神经网络

目录前言 1 问题描述 2 RBF神经网络原理 3 控制算法设计与分析 4 仿真实例 5 总结参考文献前言如果被控对象的数学模型已知，滑模控制器可以使系统输出直接跟踪期望指…

人工智能 2023年7月28日
0067
局域网电话软件系统功能与应用

局域网电话在同一媒体上集成了语音和数据，支持自动呼叫分配、语音邮件和交互式语音响应，以及工作站之间的语音呼叫和电话会议。但是，局域网呼叫不需要仅限于局域网。与数据一样，语音也可以在…

人工智能 2023年5月25日
00117
计算机视觉教程0-2：你了解眼里所见的色彩吗？(详解RGB/HSV/Lab)

目录 1 认识色彩 2 描述色彩 * 2.1 RGB色彩空间 2.2 HSV色彩空间 2.3 Lab色彩空间 3 数字成像 4 数字成像实例 1 认识色彩我们DNA里的氮元素，牙…

人工智能 2023年7月27日
00105
实战cox经过age和sex多因素分析得到千个与生存相关基因cox_results然后lasso回归筛选基因得到9个基因然后计算risk_score 画roc曲线列线图森林图最优子集逐步回归

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月18日
00121
图像处理技术的综合应用——提取篮球

摘要本文以篮球图像为例，重点研究了篮球图像与其他种类球的图像背景的分割，从图像中检索出篮球。由于篮球的颜色，大小，形状与其他球类相比，均有差异，且篮球上的黑色花纹对边缘检测、色彩…

人工智能 2023年6月18日
0061
OpenART mini使用教程

前言 OpenART mini 是我们在 NXP 的 OpenART 套件的基础上，去除非视觉部分而制作出来的迷你版。虽说只是迷你版，但”麻雀虽小，五脏俱全&#8221…

人工智能 2023年7月28日
00183
Mac m1上用vscode安装opencv

安装python mac有自带的，主要是用python3 安装opencv 一种办法是通过homebrew来安装，安装命令 brew install opencv@3(如果没有&#…

人工智能 2023年7月20日
0056
深度学习（PyTorch）——flatten函数的用法及其与reshape函数的区别

Flatten层用来将输入”压平”，即把多维的输入一维化，常用在从卷积层到全连接层的过渡。Flatten不影响batch的大小。就是把高纬度的数组按照ｘ…

人工智能 2023年7月27日
0087
自适应阈值canny边缘检测（功能实现）

学习记录… 1 概述 canny边缘检测是一种特别常用且性能优秀的边缘检测算法，相比于普通的边缘检测算法，canny获得的边缘较细且具有连续的边缘轮廓，为之后的一系列图…

人工智能 2023年5月26日
00103
珍藏书籍，人工智能书籍推荐–AI“圣经”/超详细计算机视觉书籍赠送

导读：悟已往之不谏，知来者之可追人工智能（英语：Artificial Intelligence，缩写为AI）亦称智械、机器智能，指由人制造出来的机器所表现出来的智能。通常人工智能…

人工智能 2023年7月17日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas -表的横向合并 纵向合并

《Merge, join, and concatenate》笔记

大家都在看

pandas -表的横向合并纵向合并