pandas | 学习笔记

2023年8月6日下午10:42 • Python • 阅读 67

1.可以通过传递一个list对象来创建一个Series，pandas会默认创建整型索引

s = pd.Series([1,3,5,np.nan,6,8])

2.通过传递一个numpy array，时间索引以及列标签来创建一个DataFrame

df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))
dates = pd.date_range('20130101',periods=6)

3.通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame

df = pd.DataFrame({'A':1,
                   'B':pd.Timestamp('20130201'),
                   'C':pd.Series(1,index=list(range(4),dtype='float21'),
                   'D':np.array([3]*4,dtype='int32'),
                   'E':pd.Categorical(["test","train","test","train"]),
                   'F':'foo'})

4.查看不同列的数据类型

df.dtypes

1.查看DataFrame中头部和尾部的行

df.head()
df.tail(3)

2.显示索引，列和底层的numpy数据

df.index
df.columns
df.values

3.describe()函数对于数据的快速统计汇总

df.describe()

4.对数据的转置

df.T

5.按轴进行排序

df.sort_index(axis=1,ascending=False)

6.按值进行排序

df.sort_values(by='B')

1.选择一个单独的列，这将会返回一个Series，等同于df.A

df['A']

2.通过[ ]进行选择，这将会对行进行行切片

df[0:3]

通过标签选择

1.使用标签来获取一个交叉的区域

df.loc[date[0]]

2.通过标签来在多个轴上进行选择

df.loc[:,['A','B']]

3.标签切片

df.loc['20130102':'20130104',['A','B']]

4.对于返回的对象进行维度缩减

df.loc['20130102',['A','B']]

5.获取一个标量

df.loc[dates[0],'A']

6.快速访问一个标量（与上一个方法等价）

df.loc[date[0],'A']

通过位置选择

1.通过传递数值进行位置选择（选择的是行）

df.iloc[3]

2.通过数值进行切片

df.iloc[3:5,0:2]

3.通过指定一个位置的列表

df.iloc[[1,2,4],[0,2]]

4.对行进行切片

df.iloc[1:3,:]

5.对列进行切片

df.iloc[:,1:3]

6.获取特定的值

df.iloc[1,1]
#快速访问标量
df.iat[1,1]

布尔索引

1.使用一个单独列的值来选择数据

df[df.A > 0]

2.使用where操作来选择数据

df[df > 0]

3.使用isin()方法来过滤

df2 = df.copy()
df2['E'] = ['one','one','two','three','four','three']
df2[df2['E'].isin(['two','four'])]

1.reindex()方法可以对特定轴上的索引进行改变/增加/删除操作，这将返回原始数据的一个拷贝

df1 = df.reindex(index=dates[0:4],columns=list(df.columns)+['E'])
df1.loc[dates[0]:date[1],'E'] = 1

2.去掉包含缺失值的行

df1.dropna(how='any')

3.对缺失值进行填充

df1.fillna(value=5)

4.对数据进行布尔填充

pd.isnull(df1)

1.执行描述性统计

df.mean()

2.在其它轴上进行相同的操作

df.mean(1)

3.对于拥有不同维度，需要对齐的对象进行操作，pandas会自动沿着指定的维度进行广播

s = pd.Series([1,3,5,np.nan,6,8],index=dates).shift(2)
df.sub(s,axis='index')

apply

df.apply(np.cumsum)
df.apply(lambda x:x.max() - x.min())

concat

pieces = [df[:3],df[3:7],df[7:]]
pd.concat(pieces)

merge

pd.merge(left,right,on='key')

append

df.append(s,ignore_index=True)

1.分组并对每个分组执行sum函数

df.groupby('A').sum()

2.通过多个列进行分组形成一个层次索引，然后执行函数

df.groupby(['A','B']).sum()

Original: https://blog.csdn.net/happylls666/article/details/128245819
Author: 奔跑的蜗牛君666
Title: pandas | 学习笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/738607/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

win7升级到win10系统后，node13升级为node16，node版本node-sass版本与不匹配，导致出现npm ERR! ERESOLVE could not resolve

1. 错误 npm ERR! code ERESOLVE 系统从 win7升级到 win10，之前的 node版本是 13.14.0，现在版本是 16.17.1。正常的 vue程序…

Python 2023年10月19日
0076
python饼图百分比_如何避免饼图matplotlib中百分比为零的键

以下代码应按预期工作：from matplotlib import pyplot from collections import Counter import numpy as n…

Python 2023年9月6日
00104
python 矩阵切片_python数组切片

numpy 切片 In [8]: arr = np.array( [[1, 2], [3, 4]]) In [9]: arr Out[9]: array([[1, 2], [3, …

Python 2023年8月20日
0081
python带你采集各种表情包，做群里最靓的崽~

Original: https://www.cnblogs.com/Qqun261823976/p/16506854.htmlAuthor: python倩Title: pytho…

Python 2023年5月23日
0073
pandas：查看CSV、Excel表格及数据属性

pandas：查看表格及数据属性 0 操作学习所用数据 1 数据描述 * 1.1 df.head()/ df.tail() 查看表格 – 1.1.1查看前3行表格 1….

Python 2023年8月6日
00156
人工智能在游戏中的应用与未来展望

人工智能在游戏中的应用与未来展望摘要：人工智能是全球科技发展的一个热点, 其在多个领域都有突出的应用。本文主要介绍了人工智能在游戏中的三大应用，并对其发展趋势和前景进行了相关讨论…

Python 2023年10月7日
0051
python安装selenium(超详细)

安装selenium 在终端中输入指令，安装selenium pip install selenium 如果安装太慢，可以使用以下指令 pip install -i https:/…

Python 2023年8月2日
0065
Flask web开发实战之基础篇 Flask与HTTP

基础篇第二章 Flask与HTTP 前言 2. Flask与HTTP * 2.1 请求响应循环 2.2 HTTP请求 – 2.2.1 请求报文 2.2.2 Reque…

Python 2023年8月13日
0051
神经网络训练数据准备—数据标签在numpy和tensor之间的转换及处理—Pytorch实现

1.从txt文档中读取训练数据和测试数据 2.从txt文件中读取标签数据 3.将训练数据和测试数据转化为tensor形式，为后面训练做准备，因为训练数据在pytorch要求一般为t…

Python 2023年8月26日
0084
Python3 DataFrame缺失值的处理

在通过Pandas做数据分析时，数据中往往会因为一些原因而出现缺失值NaN (Nota number)o比如前文中的例子，当两个DataFrame对象进行简单运算时，无法匹配的位置…

Python 2023年8月7日
0091
HeartSounds开发日志(2)

后端部分: (1)form以及modelform的使用. form类里面的Meta类配置form的内容,如help_texts,label标签,需要的fields,需要的model…

Python 2023年8月5日
0062
Mybatis缓存机制

什么是缓存？为什么使用缓存？什么场景下使用缓存？缓存（Cache）就是数据交换的缓冲区，一个临时存储数据的地方，当我们读取数据时会首先从缓存中查找需要的数据，如果找到了则直接…

Python 2023年10月13日
0032
PIL和cv2读取图片时的差异及round函数讲解

torchvision的tranform中，读取图像采用PIL图像，而一般情况下我们都是用cv2，这里介绍下两者的区别， PIL读取图片scale为（0~1），读取为RGB格式，对…

Python 2023年8月24日
0083
Python导出csv中文乱码utf_8_sig没用

python读写文件基本操作在数据过滤操作中，常常需要对源文件（source）中的数据进行读取、分析、判别处理，而后再写入新的文件。在文件的读取上可以是 .xlsx也可以是 .c…

Python 2023年8月7日
0051
初始多线程

初始多线程一、基本概念 1.1 应用程序以 Windows 为例，一个拓展名为 .exe 的文件就是一个应用程序，应用程序是能够双击运行的。 1.2 进程应用程序运行起来就创…

Python 2023年10月20日
0052
python web

文章目录为什么要用Web框架？ * 框架 Django * MVC 与 MTV模型 – MVC MTV Flask 比较现成的框架为什么要用Web框架？ web网…

Python 2023年8月12日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas | 学习笔记

大家都在看