pandas常用指令整理

2023年7月8日下午8:00 • 人工智能 • 阅读 59

pandas指令整理

本文旨在记录自己学习过程中遇到的一些常见代码，日后会进行日常维护，如果有幸被同样在学习的朋友看到还请批评指正。如果碰巧对你提供了一些帮助，那我也荣幸万分。

pandas中的常用数据有两种类型，一维的series,二维的DataFrame。

Series

1.创建series

pd.series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

import pandas as pd

a = pd.Series([1, 2, 3, 4, 5, 6, 7])
print(a)

打印结果如下

左侧一列是行号，右侧一列是我们输入的内容.

下面添加索引index

a = pd.Series([1, 2, 3, 4, 5, 6, 7], index=list("abcadef"))
print(a)

即行号是可以自定义的，不过自定义的行号的个数要与传入数据个数相同。

通过字典也可以创建series

dict = {"a": 1, "b": 2, "c": 3, "d": 4}
a = pd.Series(dict)
print(a)

其效果和指定内容和索引的效果相同。
下面是通过一个推导式创建字典，再生成series的操作

import string
dict = {string.ascii_uppercase[i]: i for i in range(10)}
b = pd.Series(dict)
print(b)

2.索引

可以直接通过索引键（这里借鉴字典中的说法）来找到该键对应的值。

print(a["a"])
print(b["B"])

可以通过指令a.index()获取series的所有键。

print(a.index)
for i in a.index:
    print(i)
print(list(a.index))

打印效果分别如下图所示。

同样，也可以获取series的所有值

print(a.values)
print(list(a.values))

结果分别如下：

series与ndarray具有相同的操作方式，可以进行同样的切片操作。

DataFrame

import pandas as pd
import numpy as np

DataFrame是二维的，可以看做是series的容器。

1.创建DataFrame

pd.DataFrame(data=None,index: Optional[Axes] = None,columns: Optional[Axes] = None,dtype: Optional[Dtype] = None,copy: bool = False,)

a = pd.DataFrame(np.arange(0, 18).reshape(3, 6))
print(a)
a = pd.DataFrame(np.arange(0, 18).reshape(3, 6), index=list("abc"), columns=list("ABCDEF"))
print(a)

如果不指定index(行号)和columns(列号)的话，则会默认设置为从0开始的数字。

指定行列号的效果如下。

通过字典生成DataFrame
一个键可以对应一个值列表，可以将一个键看做一列数据的属性名称。

dict1 = {"a": [1, 2], "b": [2, 2], "c": [4, 5]}
d1 = pd.DataFrame(dict1)
print(d1)

同样也可以分别创建包含各个键的字典，分别赋值，效果与上面的方法相同。

dict2 = [{"a": 2, "b": 5, "c": 4, "d": 5}, {"a": 5, "b": 2, "c": 5, "d": 8}, {"a": 4, "b": 6, "c": 5}]
d2 = pd.DataFrame(dict2)
print(d2)

如果在生成DataFrame时出现缺项，则计算机会自动用nan填充。如上图。

2.DataFrame的属性

(1) index
.index指令可以获取行号，如果行号是连续数字的话，则会返回行号的起点，终点和步长。如果是字符则会返回所有行号。

print(d2.index)

print(a.index)

（2）values
.values可以返回包含所有值的ndarray

print(d2.values)

(3) columns
.columns可以返回所有的列号

print(d2.columns)

（4）shape尺寸
.shape指令可以返回Dataframe的尺寸。

print(d2.shape)

（5）dtypes数据类型
.dtypes可以返回数据类型

print(d2.dtypes)

会按照列号逐列返回。
（6）维度
.ndim可以返回Dataframe的维度

print(d2.ndim)

（7）前n行元素
.head（n）可以返回前n行元素，默认为前5行，可以结合排序指令筛选数据

print(d2.head(2))

（8）后n行元素
.tail(n) 可以返回后n行元素，默认为后5行

print(d2.tail(2))

（9）详细信息
.info()， .describe()
以上两个指令均可返回dataframe的详细信息。返回结果略有不同。
.info()会返回所有的列号，每一列的数据个数和数据类型，还会返回当前dataframe占用的内存空间。

print(d2.info())

.describe()指令会返回列号，每一列的数据个数，以及该列数据的均值，方差等统计学数据。

print(d2.describe())

（10）排序
.sort_values（by,axis=0,ascending=True,inplace=False,kind=”quicksort”,na_position=”last”, ignore_index=False, key: ValueKeyFunc = None,）

这个指令可以对dataframe进行排序，主要会用到前两个参数：
by：指定按照哪一列的列号进行排序。
ascending：是否降序
按照a列降序排序

print(d2)
d2 = d2.sort_values(by="a")
print(d2)

按照a列升序排序

d2 = d2.sort_values(by="a", ascending=False)

索引

可以通numpy中的索引方式一样，进行切片操作。

d2 = pd.DataFrame(dict2)
print(d2[:2])

print(d2["a"])

print(d2[:2]["a"])

可以使用.loc指令按照行列号索引。

print(a)
print(a.loc["c", "A"])

print(a.loc["c"])

print(a.loc[:, "A"])

print(a.loc[["c", "b"]])

print(a.loc[:, ["B", "D"]])

print(a.loc[["c", "b"], ["B", "D"]])

print(a.loc[["c", "b"], "B":"D"])

使用.iloc指令按位置索引

print(a.iloc[1])

print(a.iloc[1:3])

print(a.iloc[1, 4])

print(a.iloc[1, [3, 5]])

print(a.iloc[1, 3:5])

a.iloc[1, 3:5] = 10
print(a)

a.iloc[1, 3:5] = np.nan
print(a)

布尔索引：

print(a[a > 5])

print(a[(a["A"] > 5)])

print(a[(a["A"] > 5) | (a["E"] < 10)])

处理nan数据

print(a.isnull())

print(a.notnull())

'''
删除nan所在的行列
"how"默认为any，只要有任意一个为nan就删除其所在的行列。若为"all"则仅当当前行或列全部为nan时才删除
inplace：表示替换，原地修改。
'''
c = a.dropna(axis=1, how="any", inplace=False)

b = a
c = b.dropna(axis=1, how="any", inplace=True)
print(c)
print(b)

如果inplace是True，那么经过dropna操作以后，改变的将是a本身，不会有返回值。

c = a.dropna(axis=1, how="all", inplace=False)
print(c)

a.loc["a", ["B", "C"]] = np.nan
d = a.fillna(666)
print(d)

读取外部数据

pd.read_csv()
pd.read_excel()
pd.read_sql(sql_sentence, connection)
pd.read_clipboard()

打印显示所有数据

转载自：https://blog.csdn.net/qq_17753903/article/details/84947089


pd.set_option('display.max_columns', None)

pd.set_option('display.max_rows', None)

pd.set_option('max_colwidth',100)

数据合并

按行合并join()

df1 = pd.DataFrame(np.linspace(0, 9, 10).reshape(2, 5), index=["1", "2"], columns=list("abcde"))
df2 = pd.DataFrame(np.ones((3, 3)), index=["x", "z", "y"], columns=list("123"))
print(df1)
print(df2)
print("*"*100)
print(df1.join(df2))
print("*"*100)
print(df2.join(df1))

上面这个例子中两组数据的行号均不相同，df1行号是”1″, “2”，df2的行号是”x”, “z”, “y”。下面对df1的行号进行一下修改，再运行相同的程序。

df1 = pd.DataFrame(np.linspace(0, 9, 10).reshape(2, 5), index=["x", "z"], columns=list("abcde"))
df2 = pd.DataFrame(np.ones((3, 3)), index=["x", "z", "y"], columns=list("123"))
print(df1)
print(df2)
print("*"*100)
print(df1.join(df2))
print("*"*100)
print(df2.join(df1))

由上面的例子可见，按行拼接，以其前边的数据为准，后边的数据存在相同的行号则合并，如果不存在相同的行号则用nan补全。

按列合并merge()

（1）内连接
merge()指令按照列号连接（内连接）
a.merge(b，on(“column”))结果是将b按照给定的列号”column”进行连接。
具体操作步骤：逐个判断b的column列上的元素有没有与a中对应列上的元素相等
如果相等，则将这个元素对应的行和a中那个元素对应的行进行拼接，拼接过后的行包含a，b两个数据所有的列号，取的是并集。

df1 = pd.DataFrame(np.linspace(0, 9, 10).reshape(2, 5), index=["1", "2"], columns=list("abcde"))
df3 = pd.DataFrame(np.zeros((3, 3)), index=["x", "z", "y"], columns=list("adf"))
print(df1)
print(df3)
print("*"*100)
print(df1.merge(df3, on="a"))
print("*"*100)
print(df1.merge(df3, on="d"))

从上图我们可以看出，对df1和df3按照a列合并，df1中的第a列的第一个元素和df3中的第a列的第1个元素相等，则这个元素对应的行进行拼接，取并集，注意图中出现了d_x和d_y这两列，不要将这里的x,y和df3的行号弄混，这里d_x指的是第一个数据（df1）中的d列，d_y指的是第二个数据（df3）中的d列，因为两组数据存在了相同的列号，为了便于区分才这样写的。
当按照d列拼接时，因为df1中的d列和df3中的d列没有元素相同，所以最后得到的是空的DF。
那么将指令稍作修改：

print(df1)
print(df3)
print("*"*100)
print(df3.merge(df1, on="a"))

结果如下，修改了merge()指令前后数据的位置，输出结果中数据列号的位置也会跟着调换。

（2）外连接

print(df1)
print(df3)
print("*"*100)
print(df1.merge(df3, on="a", how="outer"))
print("*"*100)
print(df1.merge(df3, on="d", how="outer"))
print("*"*100)
print(df3.merge(df1, on="a", how="outer"))

可以看到，仍然会进行对比的操作，与上面内连接不同的地方就在与即使指令前面的数据中指定列的元素与后边的数据中对应列上的元素都不相等，也会将两组数据拼接在一起，不会删除数据，缺失数据的地方用nan补齐。
（3）左右连接
左右连接就是将参数how设置为”left”或”right”
a.merge(b，on(“column”), how=”left”)（左连接）以左边的数据为准，左边有的行都有，左边没有的就没有
a.merge(b，on(“column”), how=”right”)（右连接）以右边的数据为准，右边有的行都有，右边没有的就没有
左连接：

print(df1)
print(df3)
print("*"*100)
print(df1.merge(df3, on="a", how="left"))
print("*"*100)
print(df1.merge(df3, on="d", how="left"))
print("*"*100)
print(df3.merge(df1, on="a", how="left"))

右连接：

print(df1)
print(df3)
print("*"*100)
print(df1.merge(df3, on="a", how="right"))
print("*"*100)
print(df1.merge(df3, on="d", how="right"))
print("*"*100)
print(df3.merge(df1, on="a", how="right"))

按照不同列合并

当出现列号都不相同时，可以使用a.merge(b，left_on(“column1”), right_on(“column2”))使a的column1列和b的column2列进行比较合并。

print(df1)
print(df3)
print("*"*100)
print(df1.merge(df3, left_on="a", right_on="d")
print("*"*100)
print(df1.merge(df3, left_on="a", right_on="d")
print("*"*100)
print(df3.merge(df1, left_on="a", right_on="d")

就是将前面的数据指定列和后面的数据指定列进行对比，不再是对比列号相同的列。同样可以进行内连接，外连接，左右连接的选择。

Original: https://blog.csdn.net/weixin_44394368/article/details/117247335
Author: Bingo
Title: pandas常用指令整理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679203/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

故障诊断知识图谱

该文档主要参考：概述该项目要求从网络上爬取相关设备故障和维修解决方式，并构建知识库，当设备出现故障时，用户通过输入数控机床相关参数（品牌、型号、故障代码、某个或多个超出阈值参数…

人工智能 2023年6月24日
0086
“如何获取一篇论文的代码以及运行”相关教程

在科研的过程，如果想复现一篇论文的代码，那我们该如何找到对应的代码？现以论文《Attention Is All You Need》为例提供两种思路：一、部分论文正文都会提供代码链…

人工智能 2023年6月24日
0059
[附源码]Python计算机毕业设计Django会议室预定管理APP

项目运行环境配置：Pychram社区版+ python3.7.7 + Mysql5.7 + HBuilderX+list pip+Navicat11+Django+nodejs。 …

人工智能 2023年7月29日
0039
加速度计原理解析

加速度计顾名思义,就是测量加速度的.那么,我们如何认识这个加速度呢?在此用一个盒子形状的立方体来做模型，认识加速度,如下,盒子内的图像。请注意，加速度计反应的加速向量与当前的受力…

人工智能 2023年5月28日
0056
将yolov5中的PANet层改为BiFPN

本文以YOLOv5-6.1版本为例一、Add 1.在common.py后加入如下代码结合BiFPN 设置可学习参数学习不同分支的权重两个分支add操作 class BiFP…

人工智能 2023年7月26日
0052
实测：nn.CrossEntropyLoss()多维输出 + 权重分配

pytorch版本：1.10.0 part1：多维输出部分问题描述：我有长度为14万的频域序列数据若干，要对每条序列进行异常检测。我将每个长序列划分为多个短序列，每个短序列长度…

人工智能 2023年7月21日
0045
Xgboost算法 36 （二） Xgboost分类树参数详解

模型参数 n_estimatores：总共迭代的次数，即决策树的个数 early_stopping_rounds：在验证集上，当连续n次迭代，分数没有提高后，提…

人工智能 2023年7月2日
0077
【skLearn分类、回归算法】随机森林分类器 RandomForestClassifier

文章目录随机森林分类器 RandomForestClassifier * Ⅰ.基本参数 Ⅱ.重要参数 n_estimators Ⅲ.随机森林探索wine数据集 Ⅳ.交叉验证绘制学…

人工智能 2023年6月18日
00111
python数据分析实战：使用Lightgbm解决二分类预测问题以泰坦尼克号数据为例

背景来自于kaggle上的一个经典比赛，我们使用Lightgbm进行分类预测，数据说明： VariableDefinitionKeysurvivalSurvival0 = No,…

人工智能 2023年7月15日
0078
2021 年“泰迪杯”数据分析技能赛B题：python实现肥料登记数据分析(含原始数据)

这周复习了python数据处理的实战，把之前竞赛的题目重新做了一遍。这里侧重数据分析与数据处理的部分。文末含原始题目与数据，需要的小伙伴自取~ 【事先说明】：本文只是在技术维度上…

人工智能 2023年7月14日
00128
论文笔记：ICLR 2019 RotatE Knowledge Graph Embedding by Relational Rotation in Complex Space

1. 前言论文链接：https://openreview.net/forum?id=HkgEQnRqYQgithub：https://github.com/DeepGraphLe…

人工智能 2023年6月1日
0072
TensorFlow推荐系统（一）

1 前言我们浏览在各个平台时会发现”为你推荐”功能。比如YouTube推荐爱看的视频，音乐软件为你提供你可能喜欢的音乐等。其实这一功能的背后涉及的原理就是…

人工智能 2023年5月25日
0068
启英泰伦-腾讯云小微产品方案

1 离在线整体方案概述 ¶ 1.1 方案概述 ¶ 随着人们生活水平的提高，对产品的功能要求越来越高，对产品通用性的追求也越来越高。传统的线下语音产品只受本地功能控制，不能满足人们对…

人工智能 2023年5月27日
0092
空间转录组 STAGATE

最近在阅读和复现各个大佬的空转论文，记录、交流学习下，如有错误，欢迎指出。前言首先是STAGATE，是中科院提出来的方法，具体发表在NC上，主要思路与空转普遍的思路类似，提取基…

人工智能 2023年6月15日
0055
通过anaconda升级、安装jupyter notebook内核kernel的python版本

本来我是要通过重装的方式来升级到最新版本python内核的，然后在看了很多帖子之后终于成功、免于卸载了，现在就把完整的步骤分享出来。使用环境：Windows10 目录 0 准备工…

人工智能 2023年7月28日
0064
基于卡尔曼滤波的信号处理以及图像追踪Python实现

引言这篇文章将由浅入深，从最简单的信号处理开始，到计算机视觉图像跟踪的应用。该文章使用Python语言，在进行视觉处理时，并未使用opencv自带的api，而是从矩阵运算进行逐步…

人工智能 2023年6月18日
00101

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30