Python pandas库的简单使用

2023年7月8日上午2:05 • 人工智能 • 阅读 62

Python pandas库的简单使用

简洁：# numpy创建的数组中元素要求是同种数据类型，对数据分析、挖掘有较大的局限性，所以我们需要学习pandas库
pandas基于Numpy而创建可以处理不同的数据类型，而且有非常利于数据处理的数据结构：序列series和数据框dataframe
序列由两部分组成，一部分是索引，一部分是对应的值

序列的创建和访问

import pandas as pd
import numpy as np
s1=pd.Series([1,-2,2.3,'hq'])

s2 = pd.Series([1,-2,2.3,'hq'],index=['a','b','c','d'])
s3 = pd.Series((1,2,3,4,'h1'))
s4 = pd.Series(np.array([1,2,4,7.1]))

mydict = {'red':2000,'blue':1000,'yello':500}
ss = pd.Series(mydict)

print(s1[3])
print(s2['c'])

序列属性

序列有两个属性，分别是值和索引，通过index和values可以获得其内容

import pandas as pd
s1=pd.Series([1,-2,2.3,'hq'])
val = s1.values
in1 = s1.index
print(val)
print(in1)

执行结果如下：
[1 -2 2.3 ‘hq’]
RangeIndex(start=0, stop=4, step=1)

序列方法

1.unique（）

通过序列中的unique()方法，去掉序列中重复的元素值，

import pandas as pd
s5 =[1,2,2,3,'hq','hq','he']
s5 = pd.Series(s5)
s51 = s5.unique()
print(s51)

执行结果如下
[1 2 3 ‘hq’ ‘he’】

2.isin()

# 通过isin()方法判断元素值是否存在，存在true,不存在false

import pandas as pd
s5 =[1,2,2,3,'hq','hq','he']
s5 = pd.Series(s5)
s52 =s5.isin([0,'he'])
print(s52)

'''
0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool
'''

3.value_counts()

使用序列中的value_counts()方法，统计序列元素值出现的次数，

import pandas as pd
s5 =[1,2,2,3,'hq','hq','he']
s5 = pd.Series(s5)

s53 =s5.value_counts()
print(s53)

'''2     2
hq    2
1     1
3     1
he    1
dtype: int64
其中索引为云序列元素的值，值为出现的次数
'''

4空值处理方法

在序列中处理空值的方法有3个，isnull()notnull(),dropa()
isnull()判断序列是否有空值，如果是返回True,否则返回false
notnull()判断序列中是否有非空值，如果是返回True，否则返回False
dropan()负责清洗序列中的空值

import pandas as pd
import numpy as np
ss1 = pd.Series([10,'hq',60,np.nan,20])
tt1 = ss1[ss1.isnull()]
tt2 = ss1[ss1.notnull()]
tt3 = ss1.dropna()
print(tt1)
print(tt2)
print(tt3)

执行结果：
3 NaN
dtype: object
0 10
1 hq
2 60
4 20
dtype: object
0 10
1 hq
2 60
4 20
dtype: object

序列切片

切片，连续或者间断的批量获取序列中的元素。

import pandas as pd
import numpy as np
s1 = pd.Series([1,-2,2.3,'hq'])
s2 = pd.Series([1,-2,2.3,'hq'],index=['a','b','c','d'])
s4 = pd.Series(np.array([1,2,4,7.1]))
s22 = s2[['a','b']]
s11 = s1[0:1]
s12 = s1[[0,2,3]]
s41 = s4[s4>2]
print(s22)
print('-'*20)
print(s11)
print('-'*20)
print(s12)
print('-'*20)
print(s41)

运行结果

序列聚合运算

# 序列的聚合运算，主要包括对序列中的元素求和、平均数，最大值，最小值，中位数，方差，标准差等

import pandas as pd
s = pd.Series([1,2,3,4,5])
su =s.sum()
sm = s.mean()
ss = s.std()
smx = s.max()
smi = s.min()
smed = s.median()
svar = s.var()

数据框

pandas 中另一个重要的数据对象为数据框，由多个序列按照相同的索引组织在一起的形成的二维表。
数据框的每一列为序列。数据框的属性包括index，列名和values。
由于数据框是更为广泛的一种数据组织形式，再将去外部数据文件读取到python中时大部分会采用数据框的形式进行存取。如数据库Excel，TXT文件。
同时数据框也提供了极为丰富的方法用于处理数据和完成计算任务。
数据框是python完成数据分析与挖掘任务的重要数据结构之一。

数据框的创建

基于字典，利用pandas中的Dataframe()函数，可以创建数据框。其中字典的键转化为列名，字典的值转化为列值，而索引转化为默认值，即从0开始由大到小排列

; 数据框属性

数据框有三个属性，列名、列值和索引

数据框方法

数据框作为数据挖掘分析的重要数据结构，提供了非常丰富的方法用于数据处理及计算。
去掉空值(nan)值，按照值进行排序，按照索引进行排序，取钱n行数据，删除列、数据框之间的水平连接，数据框转化为Numpy数组、数据导出到Excel文件、相关统计分析等。

1.dropna() 去掉空值

注意：原来的数据集不会发生改变，新数据集需要重新定义。

; fillna() 空值填充

默认情况下所有空值可以填充一个元素值（数值或者字符串），也可以指定不同的列填充不同的值。

import pandas as pd
import numpy as np
data ={'a':[2,2,np.nan,5,6],'b':['kl','kl','kl',np.nan,'kl'],'c':[4,5,6,np.nan,6],'d':[7,9,np.nan,9,8]}
df = pd.DataFrame(data)

print(df)
df2 = df.fillna(0)
print(df2)
df3 = df.fillna('love')
print(df3)
df4 = df.fillna({'a':0,'b':1,'c':2,'d':3})
print(df4)
df5 = df.fillna({'a':10,'b':20})
print(df5)

输出结果如下图：

sort_values() 指定列按值进行排序

; sort_index() 按索引进行排序

head() 取数据集中的前n行

; drop() 删除数据集中的制定的列

join()实现两个数据框之间的水平连接

import pandas as pd
data = {'a':[5,3,4,1,6],'b':['d','c','a','e','q'],'c':[4,6,5,5,6]}
Df = pd.DataFrame(data)
print(Df)
print('--'*20)
Df3 = pd.DataFrame({'d':[1,2,3,4,5]})
print(Df3)
print('-'*30)
Df4 = Df.join(Df3)
print(Df4)

to_numpy() 将数据框转换为Numpy数组的形式

import pandas as pd
list1 = ['a','b','c','d','e','f']
list2 = [1,2,3,4,5,6]
list3 = [1.4,3.5,2,6,7,8]
list4 = [4,5,6,7,8,9]
list5 = ['t',5,6,7,'k',9.6]

D = {'M1':list1,'M2':list2,'M3':list3,'M4':list4,'M5':list5}
print(D)

G = {'M1':list2,'M2':list3,'M3':list4}
print(G)

D = pd.DataFrame(D)
print(D)

D1=D.to_numpy()
print(D1)

G = pd.DataFrame(G)
print(G)

G1 = G.to_numpy()
print(G1)

输出结果如下图：

通过to_excel() 可以将数据框导出到Excel文件中。

注意：查看excel文件需要通过在pycharm中alt+F12 通过pip install openpyxl,安装openpyxl


D.to_excel('D.xlsx')
G.to_excel('G.xlsx')

统计方法对数据框中各列求和，平均值等。

import pandas as pd
data = {'a':[5,3,4,1,6],'b':['d','c','a','e','q'],'c':[4,6,5,5,6]}
Df = pd.DataFrame(data)

Df3 = pd.DataFrame({'d':[1,2,3,4,5]})

Df4 = Df.join(Df3)
print(Df4)
import warnings
warnings.filterwarnings('ignore')
DDD = Df4.drop('b',axis=1)
print(DDD)
R1 = Df4.sum()
print(R1)
R2 = Df4.mean()
print(R2)
R3 = Df4.describe()
print(R3)

数据框切片

利用数据框中的iloc属性进行切片

import pandas as pd
import numpy as np
data ={'a':[2,2,np.nan,5,6],'b':['kl','kl','kl',np.nan,'kl'],'c':[4,5,6,np.nan,6],'d':[7,9,np.nan,9,8]}
df = pd.DataFrame(data)

df2 = df.fillna(0)
print(df2)
c3 = df2.iloc[1:3,2]
print(c3)
c4 = df2.iloc[1:3,0:2]
print(c4)
c5 = df2.iloc[1:3,:]
print(c5)
c6 = df2.iloc[[0,2,3],[1,2]]
print(c6)
TF=[True,False,False,True,True]
print(TF)
c7 = df2.iloc[TF,[1]]
print(c7)

利用loc属性进行切片

数据框中的loc属性，主要基于列标签进行索引，对列值进行行定位，通过指定列，从而实现数据切片操作。获取数据的所有列，使用’:’表示。切片操作或的的数据还可以筛选前n行。

import pandas as pd
import numpy as np
data ={'a':[2,2,np.nan,5,6],'b':['kl','kl','kl',np.nan,'kl'],'c':[4,5,6,np.nan,6],'d':[7,9,np.nan,9,8]}
df = pd.DataFrame(data)

df2 = df.fillna(0)
print(df2)
c8 = df2.loc[df2['b'] == 'kl',:]
print(c8)
c9 = df2.loc[df2['b']== 'kl',:].head(3)
print(c9)
c10 =df2.loc[df2['b'] == 'kl',['a','c']].head(3)
print(c10)
c11 = df2.loc[df2['b'] == 'kl',['a','c']]
print(c11)

外部文件读取

在数据分析与挖掘中，业务数据大多存储在外部文件中，如Excel TXT CSV文件等。因此，需要将外部文件读取到python中进行分析

Excel文件读取

通过read_excel()函数可以读取Excel文件，可以读取指定的工作簿（sheet）也可以设置读取有表头或无表头的数据表，示例代码如下：

import pandas as pd
path = '2014年各省市售电量.xlsx'
data =pd.read_excel(path)
print(data)

data1 = pd.read_excel(path,'Sheet2')
print(data1)

dta = pd.read_excel('Excel1.xls',header=None)
print(dta)

注意：默认情况读取会省略中间的行、列

我们可以设置set_option出现完整数据。

TXT文件读取

通过read_table()函数读取
注意：TXT文件数据列之间会使用特殊字符作为分隔，常见的有tab键、空格，逗号，还有TXT文件是没有表头的。
示例代码如下：

; CSV文件读取

使用read_csv（）函数，实例代码如下：
csv文件可以存储大规模的数据文件，比如单个数据文件大小可达数GB、数10GB，这时候可以此阿勇分块的方式进行读取，示例代码如下：

本案例介绍了对数据文件每次读取50000行记录，读取的字段为指定的第3,4，10列。不足50000行的，按实际数据量读取。其中对于reader为一个数据阅读器可以通过循环的方式依次把每次读取的数据取出来并进行处理，实际上，对于大规模的csv数据文件，读取该文件的部分数据也是很有必要的，比如读取其前1000行，实例代码如下：

本次对pandas库的简单知识，个人做了简要阐述。
如果有前辈大牛们，发现文章中，有错误，不足之处，请在评论区指出！！！

谢谢观看！

Original: https://blog.csdn.net/weixin_51339619/article/details/123772743
Author: 迭代人，递归神
Title: Python pandas库的简单使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677543/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

LabVIEW开放神经网络交互工具包（ONNX)下载与超详细安装教程

文章目录前言一、LabVIEW开放神经网络交互工具包（ONNX)简介二、安装前的准备工作三、LabVIEW开放神经网络交互工具包（ONNX）下载四、LabVIEW开放神经…

人工智能 2023年5月28日
0096
2022最新版40个前端练手项目【附视频+源码】

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0081
VIT实战总结：非常简单的VIT入门教程，一定不要错过

文章目录摘要项目结构计算mean和std 生成数据集数据增强Cutout和Mixup 导入项目使用的库设置全局参数图像预处理与增强读取数据设置模型定义训练和验证函…

人工智能 2023年7月21日
00103
从Neo4j中导出CSV文件

导出数据需要用到工具apoc，其安装过程也是十分简单。首先下载一个对应Neo4j版本的jar包，需要什么版本直接下载就好https://github.com/neo4j-contr…

人工智能 2023年6月10日
0085
机器学习开篇之机器学习的分类

目录 1 引言 2 机器学习分类 2.1 监督学习（Supervised Learning） 2.1.1 传统监督学习 2.1.2 非监督学习 2.1.3 半监督学习 2.1.4 …

人工智能 2023年6月15日
0068
ResNet应用——猫十二分类

残差思想修改输入比重构整个输出更容易（锦上添花比雪中送炭容易太多）注意本文展现的是做此题的大概流程，准确率并不高。为提高准确率使用了迁移学习 + ResNet。此文章目…

人工智能 2023年7月2日
00100
【Python数据分析】之数据合并的concat函数与merge函数

文章目录系列文章一、concat函数 * 1)横向堆叠与外连接 – 横向堆叠合并df1和df2,采用==外连接==的方式 2) 纵向堆叠与内链接二、merge()…

人工智能 2023年7月15日
0081
【机器学习】决策树python实现

决策树理解：所谓决策树，就是根据树结构来进行决策。举个例子，小明的妈妈去上海人民公园相亲角为儿子物色相亲对象，广场上数百名适婚年龄男女的家长自发来到这里，手里拿着自家孩子的基本资…

人工智能 2023年6月15日
0074
R实战 | Nomogram(诺莫图/列线图)及其Calibration校准曲线绘制

R实战|Nomogram(诺莫图/列线图)及其Calibration校准曲线绘制 Nomogram，中文常称为诺莫图或者列线图。简单的说是将 Logistic回归或 Cox回归的结…

人工智能 2023年6月23日
00128
ModuleNotFoundError: No module named ‘onnxruntime‘和ModuleNotFoundError: No module named ‘onnx‘

D:\programfiles\miniconda\envs\py38torch_gpu\python.exe C:/Users/liqiang/Desktop/handpose_…

人工智能 2023年6月18日
0089
基于51单片机的高精度可调数控稳压电源Proteus仿真

资料编号：131 下面是相关功能视频演示： 131-基于51单片机的高精度可调数控稳压电源Proteus仿真（源码+仿真+全套资料）功能讲解：采用51单片机作为主控，独立按键来…

人工智能 2023年6月26日
00112
deep sort yolov7 pytorch实现

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月26日
0090
YOLOV7训练自己的yolo数据集

YOLOv7源码：https://github.com/WongKinYiu/yolov7 文章目录一、配置YOLOv7环境二、使用自己的数据集训练 * 修改yolov7配置 …

人工智能 2023年6月17日
00100
【数学建模】-聚类模型学习笔记之Kmeans聚类

学习来源：清风老师我们可以更加准确的在每个类中单独使用统计模型进行估计、分析或预测；也可以探究不同类之间的相关性和主要差异。分类是已知类别的，聚类未知。 K-means聚类算法…

人工智能 2023年6月2日
0073
如何使用私钥文件下载git源码

文档说明本文档描述如何用私钥下载git源码。环境 ubuntu 16.04.2 LTS 用一个实际git链接来举例： git clone ssh://QianXun@xa.fi…

人工智能 2023年6月28日
0084
深度学习中的随机种子torch.manual_seed(number)、torch.cuda.manual_seed(number)

训练模型过程中，会遇到很多的随机性设置，设置随机性并多次实验的结果更加有说服力。但是现在发论文越来越要求模型的可复现性，这时候不得不控制代码的随机性问题且每次随机的初始权重一样，有…

人工智能 2023年6月23日
00105

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python pandas库的简单使用

序列的创建和访问

序列属性

序列方法

1.unique（）

2.isin()

3.value_counts()

4空值处理方法

序列切片

序列聚合运算

数据框

数据框的创建

; 数据框属性

数据框方法

1.dropna() 去掉空值

; fillna() 空值填充

sort_values() 指定列按值进行排序

; sort_index() 按索引进行排序

head() 取数据集中的前n行

; drop() 删除数据集中的制定的列

join()实现两个数据框之间的水平连接

to_numpy() 将数据框转换为Numpy数组的形式

通过to_excel() 可以将数据框导出到Excel文件中。

统计方法 对数据框中各列求和，平均值等。

数据框切片

利用数据框中的iloc属性进行切片

利用loc属性进行切片

外部文件读取

Excel文件读取

TXT文件读取

; CSV文件读取

谢谢观看！

大家都在看

统计方法对数据框中各列求和，平均值等。