Pandas 函数

2023年7月7日上午3:04 • 人工智能 • 阅读 75

1.data structure:

Series:

Series is a one-dimensional labeledarray capable of holding any data type (integers, strings, floating point numbers,Python objects, etc.).

s = pd.Series(data, index=index, dtype, name, copy))

data:

a Python dict
an ndarray
a scalar value (like 5)

index:

索引，默认为0 ~ (length-1)，也可自行以list形式设置

eg1 data为randn生成

s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
s
a 0.469112
b -0.282863
c -1.509059
d -1.135632
e 1.212112
dtype: float64

eg2 data 为dict

d = {"b": 1, "a": 0, "c": 2}
pd.Series(d)
Out:
b 1
a 0
c 2

data&#x4E3A;dict&#x7C7B;&#x578B;&#x65F6;&#xFF0C;&#x82E5;index&#x4E0D;&#x9ED8;&#x8BA4;&#x8BBE;&#x7F6E;&#xFF0C;&#x5219;key&#x53D8;&#x4E3A;&#x7D22;&#x5F15;&#x503C;

DataFrame

DataFrame 是一个表格型的数据结构

pandas.DataFrame( data, index, columns, dtype, copy)

data：一组数据(ndarray、series, map, lists, dict 等类型)。
index：索引值，或者可以称为 行标签。
columns： 列标签，默认为 RangeIndex (0, 1, 2, …, n) 。
dtype：数据类型。
copy：拷贝数据，默认为 False。

eg1: data 为 dict

Pre-defined lists
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr =  [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]

Import pandas as pd
import pandas as pd

Create dictionary my_dict with three key:value pairs: my_dict
my_dict = {'country' : names, 'drives_right' : dr,'car_per_cap' : cpc}

Build a DataFrame cars from my_dict: cars
cars=pd.DataFrame(my_dict)

Definition of row_labels
row_labels = ['US', 'AUS', 'JPN', 'IN', 'RU', 'MOR', 'EG']

Specify row labels of cars &#x8BBE;&#x7F6E;&#x884C;label&#xFF0C;&#x5217;label&#x9ED8;&#x8BA4;&#x4E3A;key
cars.index=row_labels

print(cars)

Pandas CSV

1. 读入csv数据

Import the cars.csv
cars = pd.read_csv('cars.csv',index_col=0)

#index_col=0 &#x5373;&#x7528;csv&#x4E2D;&#x7B2C;1&#x5217;&#x4F5C;&#x4E3A; row label&#xFF0C;index_col=1, &#x5373;&#x7528;csv&#x4E2D;&#x7B2C;2&#x5217;&#x4E3A; row label&#xFF0C;&#x7531;&#x6B64;&#x7C7B;&#x63A8;... ; &#x9ED8;&#x8BA4;&#x60C5;&#x51B5;&#x4E0B;&#xFF1A; index_col &#x4E3A;0&#xFF0C;1&#xFF0C;2&#xFF0C;3...

print(cars.to_string())

to_string()用于返回 DataFrame 类型的数据，如果不使用该函数，则输出结果为数据的前面 5 行和末尾 5 行，中间部分以 … 代替。

outcome

2. 将 DataFrame 存储为 csv 文件：

cars.to_csv('cars.csv')

3.数据处理

读取前n行

head( n ) 方法用于读取前面的 n 行，如果不填参数 n ，默认返回 5 行。

print(cars.head(n))

读取后n行

print(cars.tail(n))

获取某列

++++++++&#x4EE5;label+++++++++&#x4E3A;&#x7D22;&#x5F15;

#print as series
print(cars['country'])

#print as dataframe:
 print(cars[['country']])

Print out DataFrame with country and drives_right columns
print(cars[['country','drives_right']])

+++++++&#x4EE5;&#x5E8F;&#x53F7;&#x4E3A;&#x7D22;&#x5F15;+++++++++

Print out first 3 observations
print(cars[0:3])

Print out fourth, fifth and sixth observation
print(cars[3:6])

打印某行/某列（通用）

#&#x6253;&#x5370;&#x67D0;&#x884C;

print as series:

cars.loc['RU']
cars.iloc[4]

print as dataFrame:

cars.loc[['RU']]
cars.iloc[[4]]

cars.loc[['RU', 'AUS']]
cars.iloc[[4, 1]]

打印某个位置的元素

print as series:

cars.loc['IN', 'cars_per_cap']
cars.iloc[3, 0]

cars.loc[['IN', 'RU'], ['cars_per_cap', 'country']] # [[&#x884C;m,&#x884C;n],[&#x5217;i,&#x5217;j]]
cars.iloc[[3, 4], [0, 1]]

print as dataFrame:
cars.loc[[['IN', 'RU']], [['cars_per_cap', 'country']]]

4.数据清洗

删除空白数据

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

axis：默认为 0，表示逢空值剔除整行，如果设置参数 axis＝1 表示逢空值去掉整列。
how：默认为 ‘any’ 如果一行（或一列）里任何一个数据有出现 NA 就去掉整行，如果设置 how=’all’ 一行（或列）都是 NA 才去掉这整行。
thresh：设置需要多少非空值的数据才可以保留下来的。
subset：设置想要检查的列。如果是多个列，可以使用列名的 list 作为参数。
inplace：如果设置 True，将计算得到的值直接覆盖之前的值并返回 None，修改的是源数据。

(1)Pandas默认的空白数字

Pandas 把 n/a 和 NA 当作空数据，na 不是空数据

(2)设置空白数字

import pandas as pd

missing_values = ["n/a", "na", "--"]

df = pd.read_csv('property-data.csv', na_values = missing_values)

(3)判断某列各个单元格是否为空

print (df['NUM_BEDROOMS'].isnull())

(4)删除

删除指定列中包含空值的行

df.dropna(subset=['ST_NUM'], inplace = True)

(5)replace

对整个dataFrame进行操作

df.fillna(12345, inplace = True)

对指定列进行操作

df['PID'].fillna(12345, inplace = True)

删除重复数据

用 dupicated()判断，如果对应的数据是重复的， duplicated() 会返回 True，否则返回 False。

print(df.duplicated())

结果：

0    False
1    False
2     True
3    False
dtype: bool

用 drop_duplicates() 删除

df.drop_duplicates(inplace=True)

删除符合某些条件的数据

import pandas as pd

person = {
  "name": ['Google', 'Runoob' , 'Taobao'],
  "age": [50, 40, 12345]    # 12345 &#x5E74;&#x9F84;&#x6570;&#x636E;&#x662F;&#x9519;&#x8BEF;&#x7684;
}

df = pd.DataFrame(person)

for x in df.index:
  if df.loc[x, "age"] > 120:
    df.drop(x, inplace = True)

print(df.to_string())

5.计算

中位数/均值/众数

median()、mean() 和 mode()

x = df["ST_NUM"].mean()

6.其他功能函数

(1) dataFrame.shift()

DataFrame.shift(periods=1, freq=None, axis=0)

[该部分参考自pandas常用函数之shift – pinweihelai – 博客园，仅用于个人学习]

假如现在有一个DataFrame数据df，如下所示：

indexvalue1A0B1C2D3

df.shift()
#&#x7B49;&#x4EF7;&#x4E8E;df.shift(1)
#df.shift(2)  &#x5373;&#x8868;&#x793A;&#x5411;&#x4E0B;&#x79FB;2
#df.shift(-1) &#x5373;&#x8868;&#x793A;&#x5411;&#x4E0A;&#x79FB;1

就会变成：

indexvalue1ANaNB0C1D2

(2) dataFrame.pct_change(n)

表示当前元素与先前元素的相差百分比，当然指定periods=n,表示当前元素与先前n 个元素的相差百分比。

（3）heatmap 热度图

Plot rectangular data as a color-encoded matrix.

import seaborn as sns
sns.heatmap(dataset )

heatmap(data, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt=’.2g’, annot_kws=None, linewidths=0, linecolor=’white’, cbar=True, cbar_kws=None, cbar_ax=None, square=False, xticklabels=’auto’, yticklabels=’auto’, mask=None, ax=None, **kwargs)

key index:

annot : If True, write the data value in each cell.

Original: https://blog.csdn.net/qq_43123477/article/details/122769637
Author: 温酒ss
Title: Pandas 函数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675345/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Python处理EXCEL】基础操作篇2：Python对EXCEL数据的预处理

目录一、熟悉数据 1.1 shape 1.2 info 1.3 head 1.4 describe 二、数据预处理 2.1 缺省值的处理 2.1.1 isnull()检查缺省值 …

人工智能 2023年7月7日
0073
如何快速连接Basler工业摄像头,获取并保存图像和视频（python+opencv+pypylon)

写在前面：电脑已经安装anaconda(或者miniconda)如有需要，请联系：qq:2953392202 1.打开anaconda2.搭建虚拟环境 conda create -…

人工智能 2023年7月19日
00147
python合并单元格索引_python笔记：纵向合并表格

工作中我们常常遇到多个格式相同的表格面要合并成一个表格，比如将2019年的数据与2020年的数据合并在一起来进行分析。平时EXCEL时我们通常直接复制粘贴，但有时因表格内容过大，直…

人工智能 2023年7月8日
0075
halcon 画ROI区域并保存读取

read_image (Image, ‘fabrik’)dev_open_window (0, 0, 512, 512, ‘black&#821…

人工智能 2023年6月20日
00104
可解释深度学习：从感受野到深度学习的三大基本任务：图像分类，语义分割，目标检测，让你真正理解深度学习

目录前言一、初识感受野 1.1猜一猜他是什么？ 1.2人眼视觉系统下的感受野 1.3深度神经网络中的感受野 1.3.1感受野的性质 1.3.2感受野的定义 1.3.3举一个例子…

人工智能 2023年5月26日
00114
YOLOV7训练专属于自己的目标检测模型（保姆级教程，含数据集预处理）

ubuntu20.04 cuda11.0 cudnn8.0.4 python3.8 torch1.12.0 torchvision0.11.0 （1）把yolov7克隆到本地 gi…

人工智能 2023年6月23日
0097
基于ROS搭建仿真环境——B站苏的一休抓取环境复现

大佬链接：https://www.bilibili.com/video/BV19f4y1h73E?vd_source=6f2fc443cc3323efe0300c7cb662e8a…

人工智能 2023年7月29日
0059
深度学习图像处理入门

学习路线— 1、图像分类 2、目标检测 3、图像分割进tensorflow官网用tensorflow.google.cn 1.1卷积神经网络基础全连接层：BP算法…

人工智能 2023年6月22日
0084
Pytorch应用训练好的模型

保存训练好的模型有两种方式，第一种保存模型结构且保存模型参数，第一种方式存在一种陷阱，也就是每次加载模型都得把类定义，或者访问类所在的包。保存方式为： torch.save(模型名…

人工智能 2023年7月21日
0040
在半监督学习中，如何使用标记和未标记的数据

半监督学习中标记和未标记数据的使用在机器学习中，半监督学习是介于监督学习和无监督学习之间的一种学习方式。在半监督学习中，我们既有一部分标记的数据（已知其类别），也有一部分未标记的…

人工智能 2023年12月31日
0060
异常业务预警算法总结

OneClassSVMOneClass SVM 是一個非监督学习的算法，顾名思义训练数据只有一个分类。透过这些正常样本的特征取学习一个决策边界，再透过这个边界去判别新的数据是否与训…

人工智能 2023年7月17日
0056
关于 Sensor flicker/banding现象的解释

目录 1、基本概念 2、30fps， 1帧内banding过程演示 3、30fps，帧与帧之间banding过程演示 4、25fps，帧与帧之间banding过程演示 5、总结…

人工智能 2023年6月20日
0096
利用Tensorflow实现三层全连接的神经网络

1.Tensorflow的概述原理： tensorflow的使用类似于一种框架定义，在使用tensorflow定义变量variable，和占位符tensorflow.placeho…

人工智能 2023年5月24日
0081
Python高效实现滑块验证码自动操纵

CDA数据分析师出品作者：CDALevel Ⅰ 持证人岗位：数据分析师行业：大数据众所周知，规范性的网络爬虫可以帮助Decision-maker在低成本下获得想要的信息，不仅…

人工智能 2023年7月16日
0053
cudart64_110.dll not found windows解决方法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月26日
0055
数学建模：相关性分析学习——皮尔逊（pearson）相关系数与斯皮尔曼（spearman）相关系数

目录前言一、基本概念及二者适用范围比较 1、什么是相关性分析 2、什么是相关系数 3、适用范围比较二、相关系数 1.皮尔逊相关系数（Pearson correlation） …

人工智能 2023年7月14日
0039

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pandas 函数

大家都在看