Pandas部分总结

2023年8月9日上午2:30 • Python • 阅读 47

文章目录

Pandas 总结
*
基本数据类型
–
利用Pandas进行数据分析
–

Pandas 总结

import pandas as pd

基本数据类型

介绍

与 ndarray 数据类型不同，这两种数据类型都是 可变的

Series：带标签的一维数组，标签名是 index
DataFrame：带标签且大小可变的二维表格结构

Series

构造方法：

pd.Series(
    data=None,
    index=None,
    dtype=None,
    name=None,
    copy=False,
    fastpath=False,
)

data：列数据
数据可以是任意数据类型
字典作为参数，字典键作为index，值作为填充的列数据;若指名index，则会按照index中字典键的顺序去填充；若对应数据没有该键，则用NaN 填充。


data = {'a':1, 'b':2, 'c':3}
pd.Series(data)

'''
    a    1
    b    2
    c    3
    dtype: int64

'''


data = {'a':1, 'b':2, 'c':3}
pd.Series(data, index = ['a', 'c', 'c'])

'''
    a    1
    c    3
    c    3
    dtype: int64
'''

index：行索引（DataFrame中的是columns列索引），default = np.arange(n)
dtype：数据类型
name：Series 的名字，有了名字的Series作为DataFrame的参数的时候，列名就是它的名字

se = pd.Series(data = [1, 2, 3], index = range(3),name = 'number')
df = pd.DataFrame(se)
df.columns

注意：
Series 是一列数据

Series的切片操作

可以像ndarray类型的数据一样去切片
Examples：
中括号里面参数是 index 或者索引

s = pd.Series([0, 1, 2, 3, 4, 5], index = ['a', 'b', 'c', 'd', 'e', 'f'])
print(s)
s[0]
s['a']
'''
    out:
        a    0
        b    1
        c    2
        d    3
        e    4
        f    5
        dtype: int64

        0
        0
'''

参数是切片
- 可以用index值切片

s['a':'e']

'''
    out:
        a    0
        b    1
        c    2
        d    3
        e    4
        dtype: int64

'''

+ 也可以用索引切片

s[0:5]

'''
    out:
        a    0
        b    1
        c    2
        d    3
        e    4
        dtype: int64

'''

+ 多值索引,列表里边嵌套列表


pos = [0,1,2]
s[pos]

'''
    a    0
    b    1
    c    2
    dtype: int64

'''

Series 数学运算

Series 中可以使用numpy的几乎所有函数

obj.function()

s.mean()
s.std()
s.unique()
s.sum()

多个Series的相加操作，有所不同：对应index 相加，不匹配用NaN 填充 Series由于 存在行标签，所以会根据两个运算书的标签自动对齐后进行计算。

s = pd.Series([0, 1, 2, 3, 4, 5], index = ['a', 'b', 'c', 'd', 'e', 'f'])
s[1:] + s[:-1]
'''
    out:
        a    NaN
        b    2.0
        c    4.0
        d    6.0
        e    8.0
        f    NaN
        dtype: float64

'''

s.value_count()可以实现在某列中按值的类别记录个数(一列数据)

DataFrame

构造方法：

pd.DataFrame(
    data=None,
    index: 'Optional[Axes]' = None,
    columns: 'Optional[Axes]' = None,
    dtype: 'Optional[Dtype]' = None,
    copy: 'bool' = False,
)

data：可以使用各种数据进行创建
二维数组（列表，ndarray）

data = np.array([[1, 2], [3, 4]])
pd.DataFrame(data)
'''
    out:
            0   1
        0   1   2
        1   3   4
'''

字典 Key 始终是作为 columns
- from 行

d = {'a':1,'b':1,'c':1}
f = {'a':1,'b':1,'d':1}
df = pd.DataFrame(data = [d, f])
df

'''
    out:
        a   b   c   d
    0   1   1   1.0 NaN
    1   1   1   NaN 1.0
'''

+ from 列

d = {'one':pd.Series([1, 2, 3], index=['a', 'b', 'c']),
    'two':pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
df
'''
    out:
        one two
    a   1.0 1
    b   2.0 2
    c   3.0 3
    d   NaN 4

'''

DataFrame 中的行列操作

注意：都不是方法，而是一种访问方式 []

访问某一行

df.loc[index_name]

[] 里面是index名称，或者index列表（获取多个）
可以名称切片

df.iloc[index]

index 索引
可以索引切片

访问某一列

df[column_name]

可以使用列名，或者列名列表，但是不能用列名切片
可以用列的索引切片

访问多行

df.loc[ : ] or df.loc[ [ ] ]

df.iloc[ : ] or df.iloc[ [ ] ]

访问多列

df[ : ]

DataFrame常用的属性或方法

属性

`df.T`

`df.axes`

`df.dtypes`

`df.empty`

`df.ndim`

`df.shape`

`df.size`

`df.values`

方法

`df.head()`

`df.tail()`

利用Pandas进行数据分析

读入数据

`data = pd.read_filetype(file_path)`

返回 DataFrame 类型的数据
txt 文件用 pd.read_csv读取

基本信息

`data.info()`

查看数据类型，列名，行列数，非空值统计

`data.describe()`

数值类型的数据数学信息
count
mean
std
min，max
四个分位点

`data.head(n = 5)`

查看数据的前几行信息，默认五行

`data.tail(n = 5)`

查看数据的前几行信息，默认五行

数据分析

分组

`data.groupby(by = )`

data.groupby(
    by=None,
    axis=0,
    level=None,
    as_index: 'bool' = True,
    sort: 'bool' = True,
    group_keys: 'bool' = True,
    squeeze: 'bool' = <object object at 0x0000024D9F206510>,
    observed: 'bool' = False,
    dropna: 'bool' = True,
) -> 'DataFrameGroupBy'

key_parameters：

by = :
= function：每个index值会被函数调用
= ndarray
= list
= dict
axis = ：按照 0 （列），1（行）来进行划分
0
1
dropna = ：If True, and if group keys contain NA values, NA values together
with row/column will be dropped.

使用

返回的是一个‘DataFrameGroupBy’ 的对象

对象.数学方法
sum()
count() dtype = ‘int’
mean()
std()
对象.画图方法
数据透视表：选择groupby选出的部分列作为横纵坐标画图（x, y, z）

groupby_df.pivot_table(
    values=None,
    index=None,
    columns=None,
    aggfunc='mean',
    fill_value=None,
    margins=False,
    dropna=True,
    margins_name='All',
    observed=False,
) -> 'DataFrame'

+ values：column_name，选某一列的值作为 z
+ index：column_name，x
+ columns：column_nma，y
+ aggfunc：对 **values** 进行对应的数据处理

普通图
- groupby_df.plot(x,y,kind = '',title,xticks,yticks,xlim,ylim,xlabel,ylabel) kind = ：可以指名画图类型，bar，line等等
- groupby_df.plot.scatter()
- groupby_df.plot.bar()

`se.value_counts()`

可以实现在某列中按值的类别记录个数，对于当前问题实现过程相对更简单

排序

按标签排序 `df.sort_index(axis = 1,ascending = True)`

对数据按照 DataFrame 中的 index 进行排序
axis
= 1 行
= 0 列
ascending：
= True ：升序
= False ：降序

按实际值排序 `df.sort_values(by = [], ascending = True)`

by
= [columns1, columns2,…]:按照给定的列先后进行分组
ascending
= True 升序
= False 降序

字符串文本函数 `series.str.function()`

; 统计函数

差分函数 `series.pct_change()`

协方差函数 `series.cov()`

数据排名 `series.rank()`

数据访问

N = 5
df = pd.DataFrame({'X':np.linspace(0, stop = N-1, num = N),
                  'Y':np.random.rand(N),
                  'C':np.random.choice(['Low','Medium','High'],N).tolist()})
df

迭代访问

 dir(df) 其中一部分

 'items',
 'iteritems',
 'iterrows',
 'itertuples',

`df.iteritems()` 类似字典

for key ,value in df.iteritems():
    print(key ,value)

key
value

`df.iterrows()`

for row_index, row in df.iterrows():
    print(row_index ,row)

`df.itertuples()`

for row in df.itertuples():
    print(row)

索引和选择数据函数

`df.iloc()`

`df.loc()`

`df.ix()`

`df.column_name`

Original: https://blog.csdn.net/weixin_45743271/article/details/120626667
Author: 名称又重复了
Title: Pandas部分总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743715/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

springboot项目打成war包部署

您好！关于您的问题，具体实现步骤如下： 1. 在 pom.xml 文件中进行配置，将打方式修改为，并设置打后的文件名，具体代码如下： </p> <p>…

Python 2023年11月7日
0029
vue中动态引入图片为什么要是require，你不知道的那些事

相信用过vue的小伙伴，肯定被面试官问过这样一个问题：在vue中动态的引入图片为什么要使用require 有些小伙伴，可能会轻蔑一笑：呵，就这，因为动态添加src被当做静态资源…

Python 2023年10月17日
0044
由系统函数求零极点图、频率响应(幅频特性、相频特性)的 Matlab 和 Python 方法

由系统函数求零极点、频率响应(幅频特性、相频特性)的 Matlab 和 Python 方法 Author: Sijin Yu 文章目录由系统函数求零极点、频率响应(幅频特性、相频…

Python 2023年8月2日
0047
pytest

主函数模式（1）运行所有： pytest.main() (2) 指定模块： pytest.main([‘-vs’,’test_login.p…

Python 2023年9月14日
0047
Python爬虫编程思想（158）：Scrapy中的下载器中间件

Scrapy允许使用中间件干预数据的抓取过程，以及完成其他数据处理工作。其中一类非常重要的中间件就是下载器中间件。下载器中间件可以对数据的下载和处理过程进行拦截。在Scrapy爬虫…

Python 2023年10月4日
0046
scrapy mysql pipeline_Scrapy用Pipeline写入MySQL

–– coding: utf-8 –– Define your item pipelines here Don’t fo…

Python 2023年10月6日
0050
Django 之视图url参数获取

INSTALLED_APPS = [ ‘django.contrib.admin’, ‘django.contrib.auth’, ‘django.contrib.contentt…

Python 2023年8月6日
0080
完美的Pornhub风格的Logo生成器，在线工具

pornhub是全球最大的Sex影片分享网站之一。于2007年成立于加拿大蒙特利尔，是属于大型的色情视频分享类网站，被视为是”Sex2.0″的先驱，在Ale…

Python 2023年11月6日
0037
零基础python知识手册（四）

第13 章Pygame 游戏编程： Pygame做游戏开发的优势在于不需要过多考虑与底层开发相关的内容，而可以把工作重心放在游戏逻辑上。例如，Pygame中集成了很多和底层开发相关…

Python 2023年9月24日
0039
计算机组成原理程序计数器实验

程序计数器实验实验环境计算机组成原理实验环境实验目的连接程序计数器、地址寄存器、存储器与指令寄存器，理解程序计数器的作用。掌握使用微命令通过程序计数器从存储器中读取指令和…

Python 2023年10月26日
0061
将侧边栏制成inclusion_tag

在开发过程中，像侧边栏这种功能的版块，我们在很多页面都需要使用到的时候，我们则需要在视图函数中书写重复的代码，这样很繁琐，我们可以将侧边栏制成inclusion_tag,后面我们需…

Python 2023年6月9日
0062
pandas rolling方法_Python Pandas rolling_apply将两列输入功能

Following on from this question Python custom function using rolling_apply for pandas, abo…

Python 2023年8月8日
0042
4Pandas统计分析基础二

1、groupby方法 groupby方法可以根据索引或字段对数据进行分组。格式为： DataFrame.groupby(by=None, axis=0, level=None,…

Python 2023年8月9日
0057
No.1在安装Scrapy过程中整理的步骤及遇到的问题解决

No.1在安装Scrapy过程中整理的步骤及遇到的问题解决一、概述你好！这是我第一次安装Scrapy成功后整理的，各种平台搜索和尝试，终于成功安装。耗时大概3.5小时，希望下…

Python 2023年10月2日
0039
Python+Django实现基于人脸识别的门禁管理系统【源码】

项目介绍基于人脸识别的门禁管理系统 [En] Access Control Management system based on face recognition (Python…

Python 2023年5月24日
0092
小白量化彩票实战（4）彩票特征号码重号、邻号、连号和表格展示

小白量化彩票实战（4）彩票特征号码重号、邻号、连号和表格展示我写彩票的博客,不是鼓励大家去买彩票，读者要以学习编程和娱乐的思想来看待。兴趣是学习最大的动力！彩票的号码特征很多…

Python 2023年8月17日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas部分总结

文章目录

– 访问某一行

– 属性

– data.groupby(by = )

– 迭代访问

基本数据类型

介绍

Series

构造方法：

Series的切片操作

Series 数学运算

DataFrame

构造方法：

DataFrame 中的行列操作

访问某一行

df.loc[index_name]

df.iloc[index]

访问某一列

df[column_name]

访问多行

df.loc[ : ] or df.loc[ [ ] ]

df.iloc[ : ] or df.iloc[ [ ] ]

访问多列

df[ : ]

DataFrame常用的属性或方法

属性

df.T

df.axes

df.dtypes

df.empty

df.ndim

df.shape

df.size

df.values

方法

df.head()

df.tail()

利用Pandas进行数据分析

读入数据

data = pd.read_filetype(file_path)

基本信息

data.info()

data.describe()

data.head(n = 5)

data.tail(n = 5)

数据分析

分组

data.groupby(by = )

使用

se.value_counts()

排序

按标签排序 df.sort_index(axis = 1,ascending = True)

按实际值排序 df.sort_values(by = [], ascending = True)

字符串文本函数 series.str.function()

; 统计函数

差分函数 series.pct_change()

协方差函数 series.cov()

相关性函数 series.corr()

数据排名 series.rank()

数据访问

迭代访问

df.iteritems() 类似字典

df.iterrows()

df.itertuples()

索引 和 选择数据函数

df.iloc()

df.loc()

df.ix()

df.column_name

大家都在看

– `data.groupby(by = )`

`df.T`

`df.axes`

`df.dtypes`

`df.empty`

`df.ndim`

`df.shape`

`df.size`

`df.values`

`df.head()`

`df.tail()`

`data = pd.read_filetype(file_path)`

`data.info()`

`data.describe()`

`data.head(n = 5)`

`data.tail(n = 5)`

`data.groupby(by = )`

`se.value_counts()`

按标签排序 `df.sort_index(axis = 1,ascending = True)`

按实际值排序 `df.sort_values(by = [], ascending = True)`

字符串文本函数 `series.str.function()`

差分函数 `series.pct_change()`

协方差函数 `series.cov()`

相关性函数 `series.corr()`

数据排名 `series.rank()`

`df.iteritems()` 类似字典

`df.iterrows()`

`df.itertuples()`

索引和选择数据函数

`df.iloc()`

`df.loc()`

`df.ix()`

`df.column_name`