Pandas详细总结(20000字完结）

2023年7月8日下午3:42 • 人工智能 • 阅读 72

文章内容是我自己学习pandas所做的一些笔记，知识点搭配案例，内容全面而详细。

apply() applymap() map() 区别

按时期统计数据 df.resample()

按时期显示数据 df.to_period()

先统计后显示

时间序列 pandas.date_range()

时间序列重采样

时间序列数据汇总 resample().ohlc()

移动窗口数据计算 df.rolling()

Series对象

●Pandas库中的一种数据结构，类似于一维数组
●由一组数据以及与这组数据有关的标签(索引)组成
●Series对象可以存储整数、浮点数、字符串、Python对象等多种数据类型的数据

●创建Series对象

pd.Series(data,index=index)

import pandas as pd
data=[‘语文’,’数学’,’英语’]
s=pd.Series(data=data,index=[‘张三’,’李四’,’王五’])
print(s)

张三    语文
李四    数学
王五    英语
dtype: object

●Series的索引

●位置索引
●索引范围[0,N-1]
●标签索引
●索引名称
●获取多个标签索引值使用[标签索引1，标签索…]
●切片索引
●[start:stop:step]
●获取Series的索弓|和值
●获取索引s.index
●获取值s.values

这是一个Series对象s
张三语文
李四数学
王五英语
dtype: object

●位置索引
print(s[1]) >>>数学
●标签索引
print(s[‘李四’]) >>>数学
print(s[[‘张三’,’王五’]])
张三语文
王五英语
dtype: object
●切片索引

位置索引切片含头不含尾

print(s[0:2])
张三语文
李四数学
dtype: object

标签索引切片含头含尾

print(s[‘张三’:’王五’])
张三语文
李四数学
王五英语
dtype: object
●Series的索弓|和值
s.values
[‘语文’ ‘数学’ ‘英语’]
s.index
Index([‘张三’, ‘李四’, ‘王五’], dtype=’object’)

DataFrame对象

●DataFrame对象是Pandas库中的一种数据结构，类似于二维数组，由行列构成

●与Series一样支持多种数据类型

●创建DataFrame对象

●pd.DataFrame(data,index,columns,dtype)

import pandas as pd
data=[[‘小太阳’,150,99],[‘剪刀’,15,999],[‘电脑’,999,888]]
columns=[‘名称’,’价格’,’数量’]
s=pd.DataFrame(data=data,columns=columns)
s

data={
‘名称’:[‘小太阳’,’剪刀’,’电脑’],
‘价格’:[150,15,999],
‘数量’:[99,999,888],
‘供应商’:’英雄联盟’
}
s=pd.DataFrame(data=data)
s

DataFrame对象的一些重要属性

1 values 查看所有元素的值
2 dtypes 查看所有元素的类型
3 index 查看所有行名、重命名行名
4 columns 查看所有列名、重命名列名
5 T 行列数据转换
6 head 查看前N条数据,默认5条
7 tail 查看后N条数据,默认5条
8 shape 查看行数和列数shape[0]表示行,shape[1]表示列

data={
    '名称':['小太阳','剪刀','电脑'],
    '价格':[150,15,999],
    '数量':[99,999,888],
    '供应商':'英雄联盟'
}
s=pd.DataFrame(data=data)

1 s.values

2 s.dtypes

3 s.index

4 s.columns

5 s.T

8 s.shape s.shape[0] s.shape[1]
(3,4) 3 4

DataFrame对象的一些重要方法

1 describe() 查看每列的统计汇总信息,DataFrame类型

2 count() 返回每一列的非空值的个数

3 sum() 返回每一列的和，无法计算返回空值

4 max() 返回每一列的最大值

5 min() 返回每一列的最小值
6 info() 查看索引、数据类型和内存信息

导入外部数据

导入.xIs或.xIsx文件

●导入.xIs或.xIsx文件
●pd.read excel(io,sheet name,header)
●常用参数说明
●io:表示.xIs或.xIsx文件路径或类文件对象
●sheet_name:表示工作表,用法如下
●header:默认值为0,取第一行的值为列名，数据为除列名以外的数据，如果数据不包含列名，则设置header=None

sheet_ name=0 第一个Sheet页中的数据作为DataFrame对象
sheet_ name=1 第二个Sheet页中的数据作为DataFrame对象
sheet_ name= ‘Sheet1’ 名称为’Sheet1 ‘的Sheet页中的数据作为DataFrame对象
sheet name=[0,1,’Sheet3’] 第一个第二个和名称为Sheet3的Sheet页中的数据作为DataFrame象
sheet_ name=None 读取所有工作表

fp=pd.read_excel(‘美团商家数据.xlsx’,sheet_name=0,usecols=[‘店铺名’,’饮食类型’])
或fp=pd.read_excel(‘美团商家数据.xlsx’,sheet_name=0,usecols=[0,1])

导入csv文件

● pd.read_ csv(filepath or_ buffer ,sep=’,’,header,encoding= None)
● 常用参数说明
● filepath_ or _buffer:字符串、文件路径，也可以是URL链接
● sep:字符串、分隔符
● header:指定作为列名的行，默认值为0，即取第一行的值为列名。数据为除列名以外的数据，若数据不包含列表，则设置header= None
● encoding:字符串，默认值为None,文件的编码格式

fp=pd.read_csv(r'C:\Users\xiaoxin15\Desktop\&#x7F8E;&#x98DF;&#x5546;&#x5BB6;&#x6570;&#x636E;.csv',sep=',',encoding='gbk')
gbk&#x5BF9;&#x5E94;ANSI
print(fp.head(5))

导入html网页数据

只可以读取含有table标签的网页

import pandas as pd
url=’http://www.espn.com/nba/salaries’
df=pd.concat(pd.read_html(url,header=0))
print(df)

数据提取loc和iloc的使用

import pandas as pd
data=[[45,65,200],[89,69,42],[58,74,39]]
index=[‘张三’,’李四’,’王五’]
col=[‘语文’,’数学’,’英语’]
s=pd.DataFrame(data=data,index=index,columns=col)
s

数据提取按行

(‘—————————————————————-数据提取根据标签’)
s.loc[‘张三’]
(‘—————————————————————-数据提取根据序列’)
s.iloc[0]

(‘—————————————————————-数据提取提取多行’)
s.loc[[‘张三’,’王五’]]
或
s.iloc[[0,2]]

(‘—————————————————————-切片’)
s.loc[‘张三’:’王五’]

s.iloc[0:2]含头不含尾

s.iloc[::]#start:stop:step

数据提取按列

print(‘———————————————-直接使用列名’)
s[[‘数学’,’英语’]]
print(‘———————————————使用loc iloc’) ：逗号左边表示行逗号右边表示列
s.loc[:,[‘数学’,’英语’]]
s.iloc[:,[1,2]]

print(‘—————-提取连续数据’)
s.loc[:,’语文’:]
或
s.iloc[:,0:]
或
s.iloc[:,[0,1,2]]

提取区域数据

s.loc[‘张三’,’语文’]
s.iloc[0,0]
45

s.loc[[‘张三’,’王五’],[‘语文’,’数学’]]
s.iloc[[0,2],[0,1]]

s.iloc[0:2,0:2] #,左边行切片,右边列切片
s.loc[‘张三’:’王五’,’语文’:’英语’]

筛选指定条件数据

单个条件
s[‘语文’]>=50

s.loc[s[‘语文’]>=50]

多个条件
s.loc[(s[‘语文’]>=50) & (s[‘数学’]>=70)]

数据的增加修改和删除

数据增加

按行

print(‘————————————–直接赋值’)
s[‘化学’]=[90,88,67]
s

print(‘————————————–采用loc属性在最后一列增加’)
s.loc[:,’物理’]=[77,88,99]
s

print(‘————————————–在指定索引位置添加一列’)
lst=[22,33,32]
s.insert(0,’心理’,lst)
s

按列

print(‘————————————–采用loc属性’)
s.loc[‘沙比’]=[77,88,99]

print(‘————————————–添加多行’)
d=pd.DataFrame( data={‘语文’:[78,79],’数学’:[74,71],’英语’:[45,46]}, index=[‘小虎’,’小红’] ) s=pd.concat([s,d])

数据修改(内容和索引的修改)

print(‘———————————————————修改列索引’)
print(‘—————1 直接使用 columns属性’)
s.columns=[‘chinese’,’math’,’english’]

print(‘—————2 使用 rename方法’)
s.rename({‘chinese’:’语文’,’math’:’数学’,’english’:’英语’},inplace=True,axis=1)

print(‘———————————————————修改行索引’)
print(‘—————1 直接使用 index属性’)
s.index=[‘小明’,’小虎’,’小狗’]

print(‘—————2 使用 rename方法’)
s.rename({‘小明’:’张三’,’小虎’:’李四’,’小狗’:’王五’},inplace=True,axis=0)
Pandas详细总结(20000字完结）

数据内容的修改

print(‘———————————————————-修改数据内容’)
print(‘————————-修改一整行’)
s.loc[‘张三’]=[10,10,10] / s.iloc[0,:]=[10,10,10]

print(‘————————-修改一整列’)
s[‘数学’]=[100,100,100] s.loc[:,’数学’]=[100,100,100]

print(‘————————-修改某一处’)
s.loc[‘李四’,’语文’]=80或s.iloc[1,0]=80

删除数据drop()

print(‘——————————————————————删除列数据’)
s.drop([‘语文’],axis=1,inplace=True)

s.drop(columns=’英语’,inplace=True)

s.drop(labels=’数学’,axis=1,inplace=True)

print(‘————————————————————删除行数据’)
s.drop([‘张三’],axis=0,inplace=True)
s.drop(index=’李四’,inplace=True)
s.drop(labels=’王五’,axis=0,inplace=True)

条件删除print(‘————————————————————条件删除’)

s.drop(s[s[‘语文’]

Original: https://blog.csdn.net/weixin_54824895/article/details/126089167
Author: 一事无成～
Title: Pandas详细总结(20000字完结）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678789/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

StyleGAN2代码PyTorch版逐行学习（上）

详细地记录下我看StyleGAN2代码的过程，希望大家给予我一点帮助，也希望对大家有一点帮助。如果有啥错误和问题，评论区见~（私信我不咋看的）前菜建议大家先去自行搜索学习GAN…

人工智能 2023年6月16日
00152
使用Keras构建深度学习模型(以Resnet50为例) 实现对Cifar10数据集的分类

keras是目前流行的深度学习框架之一，目前已经整合到Tensorflow2.0版本中，用户通过安装Tensorflow包即可实现对Keras方便的调用。 Keras为用户提供了多…

人工智能 2023年7月1日
0087
在线拍卖数据分析

在线拍卖数据分析首先需配置部署在线拍卖数据分析系统所需要的环境，然后把数据集上传到 HDFS 分布式文件系统，利用 Hive 或 Spark 对在线拍卖数据进行分析处理，并利用 …

人工智能 2023年6月11日
0062
高分辨率遥感图像目标检测和场景分类研究进展

本文按照西北工业大学程塨老师的高分辨率遥感图像目标检测和场景分类研究进展汇报进行整理，需要的同学可借此了解遥感图像相关知识~ 高分辨率遥感图像目标检测和场景分类一、背景介绍 * …

人工智能 2023年6月17日
0075
NLP中的对抗训练

目录一、对抗训练的基本概念二、NLP中常用对抗训练算法的pytorch版本实现 1、FGM——Fast Gradient Method 2、PGD——Projected Gra…

人工智能 2023年7月22日
0070
多激光雷达标定multi_LiDAR_calibration

多激光雷达标定multi_LiDAR_calibration 对于多激光雷达的标定主要采用ICP、NDT等配准方法进行估计多个激光雷达的外参变换矩阵T T T。在这里先介绍一些先前…

人工智能 2023年5月26日
0071
旅行场景下的推荐算法探索

今天给大家分享阿里巴巴集团高级算法温鸿所做的分享《旅行场景下的推荐算法探索.pdf》,关注推荐算法及其实践的伙伴们别错过啦！（到省时查报告小程序中搜索”推荐&#8221…

人工智能 2023年6月1日
0070
一文搞懂内部类

内部类分为：本地内部类，实例内部类，静态内部类，匿名内部类。 1.本地内部类其中，本地内部类用的最少，也不建议用。因为局限很大。例如 public class Test { p…

人工智能 2023年6月26日
0074
话筒增益_一篇文章教会您KORG Pa编曲键盘话筒/吉他效果器基础设置

热门活动这篇文章包含了一个非常有用的中文描述全球麦克风设置页面，请务必 [En] This article contains a very useful description …

人工智能 2023年5月27日
00148
彻底搞懂float16与float32的计算方式

1 float 16与float 32 1.1 float16 1.1.1 计算方式 float 16又称半精度，用16个比特也就是2个字节表示一个数。如下图所示，其中1位符号…

人工智能 2023年6月25日
0099
基于tensorflow2.0+使用bert获取中文词、句向量并进行相似度分析

本文基于 transformers库，调用bert模型，对中文、英文的稠密向量进行探究开始之前还是要说下废话，主要是想吐槽下，为啥写这个东西呢？因为我找了很多文章要么不是不清晰，…

人工智能 2023年5月23日
00105
【AI视野·今日CV 计算机视觉论文速览第239期】Wed, 3 Nov 2021

AI视野·今日CS.CV 计算机视觉论文速览Wed, 3 Nov 2021Totally 48 papers👉上期速览✈更多精彩请移步主页 ; Interesting: 📚基于单图…

人工智能 2023年7月12日
0055
【图像去噪】基于核回归算法实现图像去噪matlab代码

1 简介在对图像信息进行处理的过程中,由于种种原因,其质量有可能受到损害,噪声是其中之一。因此为了后续更高层次的处理,有必要对图像进行去噪。近年来,在非参数估计理论基础上发展起来…

人工智能 2023年6月18日
0084
【某航】人工智能复习思路和提纲

简答题思考汇总孕育期：1956年前图灵机、冯诺依曼提出存储程序的概念、香农信息论形成期：1956年-1969年人工智能概念、鲁滨逊归结原理知识应用期：1968-80年代末 …

人工智能 2023年6月1日
0081
【项目实战课】快速上手目标检测任务，MMdetection框架详细解读与案例实战

欢迎大家来到我们的项目实战课，本期内容是《MMdetection框架解读与案例实战》。所谓项目实战课，就是以简单的原理回顾+详细的项目实战的模式，针对具体的某一个主题，进行代码级…

人工智能 2023年7月10日
0050
python opencv实现找到图像的轮廓，填充颜色

我想找到图片中的闭合圈，然后填充颜色所需要的cv函数： 1。OpenCV提供的findContours()方法可以通过计算图像梯度来判断出图像的边缘，然后将边缘的点封装成数组返回…

人工智能 2023年6月17日
0091

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pandas详细总结(20000字 完结）

●创建Series对象

●Series的索引

位置索引切片 含头不含尾

标签索引切片 含头含尾

●创建DataFrame对象

DataFrame对象的一些重要属性

DataFrame对象的一些重要方法

1 describe() 查看每列的统计汇总信息,DataFrame类型

导入.xIs或.xIsx文件

导入csv文件

导入html网页数据

只可以读取含有table标签的网页

数据提取按行

数据提取按列

提取区域数据

筛选指定条件数据

数据增加

按行

按列

数据修改(内容和索引的修改)

删除数据drop()

大家都在看

Pandas详细总结(20000字完结）

位置索引切片含头不含尾

标签索引切片含头含尾