pandas基本操作及拼接

2023年7月8日上午8:20 • 人工智能 • 阅读 95

本文参考W3Cschool——”pandas中文教程”，进行归纳学习。附

，需要自取。

pandas是在numpy的基础上开发的数据处理工具包，提供了快速、灵活的数据结构。

它适用于处理一下类型的数据：

与SQL与Excel表类似，含异构列的表格数据；
有序和无序的时间序列数据；
带行列标签的矩阵数据；
任意其他形式的观测、统计数据集，且不必事先标记。

pandas的主要数据结构：

series（一维数据，同构数组）
DataFrame（二维数据，带标签的、大小可变、异构表格）

>>> series = pd.Series([1, 3, 5, np.nan, 6, 8])
>>> series
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

用带索引和标签的Numpy数组生成DataFrame

In [5]: dates = pd.date_range('20130101', periods=6)

In [6]: dates
Out[6]:
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [7]: df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

In [8]: df
Out[8]:
                   A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
2013-01-06 -0.673690  0.113648 -1.478427  0.524988

用Series字典对象生成DataFrame

In [9]: df2 = pd.DataFrame({'A': 1.,
                            'B': pd.Timestamp('20130102'),
                            'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                            'D': np.array([3] * 4, dtype='int32'),
                            'E': pd.Categorical(["test", "train", "test", "train"]),
                            'F': 'foo'})

In [10]: df2
Out[10]:
     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo

df.head()
df.tail()

df.index
df.columns

df.describe()

选择单列

df['A']

用 [ ]切片

df[0:3]

按标签选择


df.loc[dates[0]]

df.loc[:, ['A', 'B']]

df.loc['20130102':'20130104', ['A', 'B']]

按位置选择

df.iloc[3]
df.iloc[3:5, 0:2]

Pandas 主要用 np.nan 表示缺失数据。计算时，默认不包含空值。

删除所有含有缺失值的行：

df.dropna(how = 'any')

填充缺失值

df.fillna(value = 5)

提取 nan值的布尔掩码

pd.isna(df)

一般情况下，运算时排除缺失值。

描述性统计

df.mean()

df.mean(1)

Pandas提供了concat，merge，join和append四种方法用于dataframe的拼接，其区别如下：

调用方法使用场景备注

可用于两个或多个df间行方向或列方向进行内联或外联拼接操作，默认行拼接，取并集提供了参数(axis = 0 or 1)设置行/列拼接的方向

可用于df间行方向的拼接操作，默认①

的简略形式，只不过只能在跨行(axis = 0，即沿着列索引向下)上进行合并。 ②DataFrame和Series进行合并的时候需要使用参数

或者含有属性name

可用于df间列方向的拼接操作，默认左列拼接，how=’left’支持左联、右联、内联和外联四种操作类型

可用于两个df间列方向==（一般用join代替）==或行方向的拼接操作，默认列拼接，取交集（即：存在相同主键的df1和df2的列拼接）支持左联、右联、内联和外联四种操作类型

Original: https://blog.csdn.net/weixin_43226986/article/details/112002880
Author: 阿阿阿是阿翼啊
Title: pandas基本操作及拼接

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678111/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

面试：Android中的一些小问题随笔

Q：安卓为什么要用反射创建 view？创建对象要么 new 要么反射，android 可以用代码构建视图（Flutter、Compose），但可读性和维护很艰难，远不如布局文件来…

人工智能 2023年6月30日
0080
数据分析实战项目练习——餐厅订单数据

餐厅订单数据分析本文将从以下几个方面对餐厅订单数据进行可视化展示及剖析，旨在为营业者提供一定的决策和建议。餐厅最受欢迎菜品TOP10 订单ID点菜种类TOP10（消费维度分析）…

人工智能 2023年7月15日
00118
使用Labelme对视频进行标注

Labelme视频标注 Labelme项目主页一、Labelme安装在Windows/Linux/MacOS系统上均可通过anaconda来进行安装（1）下载安装anacond…

人工智能 2023年7月12日
0065
基于深度学习的目标检测——经典论文

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月11日
0042
如何在MXNet中进行模型解释和可解释性分析

问题描述对于深度学习模型，理解其内部的决策过程和预测结果的原因是非常重要的。在MXNet中，我们可以进行模型解释和可解释性分析，帮助我们了解模型的工作方式以及预测结果的可靠性。本…

人工智能 2024年1月1日
0029
2022年了，软件测试已经饱和了？

这个年头找工作跟找对象一样难，咳咳，工作对象都木有，双重打击5555。关于今年的就业市场，很多人表示特别惨淡，以往简历一投就有大批企业来联系，今年自己投递一大堆简历出去，可能全部…

人工智能 2023年6月19日
00144
文献精讲–红外小目标检测之Local Contrast Measure（局部对比度测量）原理篇

文献精讲–红外小目标检测之Local Contrast Measure（局部对比度测量）原理篇一万年没有更新过文章了，正好赶上研究生开学，为了憋一篇质量高一点的paper，最近在…

人工智能 2023年6月22日
0093
十五.激光和惯导LIO-SLAM框架学习之惯导与雷达外参标定（1）

专栏系列文章如下：一：Tixiao Shan最新力作LVI-SAM(Lio-SAM+Vins-Mono)，基于视觉-激光-惯导里程计的SLAM框架，环境搭建和跑通过程_goldq…

人工智能 2023年6月10日
0084
【AI】PyTorch实战（一）：目标检测之fasterrcnn_resnet50_fpn

1、简述 R-CNN系列演化史：R-CNN –> Fast RCNN –> Faster R-CNN 这篇博客只演示”怎么用&#82…

人工智能 2023年7月27日
0032
Python数据分析与应用（一）

一、Python数据分析概述 数据分析是指&am…

人工智能 2023年6月11日
0070
python：DataFrame的创建以及DataFrame的属性

一、DataFrame的创建 Pandas 的数据结构主要是：Series（一维数组），DataFrame（二维数组）。DataFrame是由索引和内容组成，索引既有行索引inde…

人工智能 2023年6月19日
0081
机器学习（九）——聚类（分类+原理＋计算示例）

1、聚类的定义 \qquad聚类：是机器学习中的无监督学习，目标是通过对无标记训练样本的学习来解释数据的内在性质以及规律，为进一步的数据分析提供基础。\qquad聚类试图将数据集中…

人工智能 2023年5月31日
0052
弱小目标检测跟踪算法研究（2）红外弱小目标数据集准备（红外弱小目标的数据集又来了）

红外弱小目标的数据集又来了！说在前面的话数据集后续 ; 说在前面的话弱小目标，顾名思义：目标信号弱，像素少，由于目标信噪比较低，目标最少可能只有一个像素单元。因此，弱小目标…

人工智能 2023年7月9日
0076
【完美解决】RuntimeError: one of the variables needed for gradient computation has been modified by an inp

正文在后面，往下拉即可~~~~~~~~~~~~ 欢迎各位深度学习的小伙伴订阅的我的专栏 Pytorch深度学习·理论篇+实战篇(2023版)专栏地址： 💛Pytorch深度学习·理…

人工智能 2023年6月17日
0088
文献解读-物理信息深度学习(PINN)

物理信息深度学习(PINN) 偏微分方程的数据驱动解和数据驱动发现在 GitHub 上查看作者马齐亚·赖西, 巴黎·佩迪卡里斯, 和乔治·埃姆·卡尼亚达基斯摘要我们…

人工智能 2023年6月16日
0076
[RV1109/RV1126系列]-4.RGA、DRM对图像Resize加速

; RGA、DRM对图像Resize加速上文中，我们已经部署好RKNN基本的转换、部署工具的安装操作，下面我们对在视觉算法中常用 Resize 操作进行优化提速，因RV1126/…

人工智能 2023年6月19日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas基本操作及拼接

大家都在看