【python】Pandas（series、dataframe）

2023年8月8日下午4:11 • Python • 阅读 45

3、查看哪里有空值 isnull().sum()

4、空值填充 fillna

5、行列选择 loc

6、获取数据具体某一个值 at 、iloc

7、分组 Grouping

Pandas

（一）定义

pandas是python的核心数据分析支持库（numpy是计算）

（二）使用场景

1、与 SQL 或 Excel 表类似的，含异构列的表格数据

2、有序和无序（非固定频率）的时间序列数据

3、带行列标签的矩阵数据，包括同构或异构型数据

4、任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记

（三）安装

pip install pandas

（四）导入

导入pandas（通常与numpy一起使用）

import pandas as pd

Series—pandas

（一）定义

带标签的一维同构数组

（二）可存储数据类型

可存储整数、浮点数、字符串、Python 对象等类型的数据

（三）函数

1、创建series

s = pd.Series(data, index=index)

（1）参数

data：

data 支持以下数据类型：
Python 字典
多维数组
标量值（如，5）

index：行索引

（2）例子

① data为 多维数组

s = pd.Series(np.random.randn(5),index=['a', 'b', 'c', 'd', 'e'])
print(s, type(s))

② data为 Python 字典

d = {'a': 1, 'b': 2, 'c': 3}
e = pd.Series(d)
print(e)

注意：

提取data里任意index对应的值,没有该索引的值为NaN

print(pd.Series(d, index=['a', 'q']))

与dict相同，如果key不存在，则用get NaN,不会报错

print(s.get('f',np.nan))

③标量值

标量值生成series，Series 按索引长度重复该标量值

3、标量值生成series，Series 按索引长度重复该标量值
q = pd.Series(416, index=['a', '1', 'c'])
print(q)

2、提取为 series数组（有逗号）

print(q.array)

3、转换为 npdrray数组 (无逗号)

print(q.to_numpy())

DataFrame—pandas

（一）定义

带标签的、大小可变的二维异构表格
由多种类型的列构成的二维标签数据结构，类似于 Excel 、SQL 表，或 Series 对象构成的字典

（二）可存储数据类型

（三）函数

1、创建DataFrame

pd.DataFrame(d)

例1：

import pandas as pd
import numpy as np

d = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df=pd.DataFrame(d)
print(df)

one two：列索引
a、b、c、d：行索引

例2：

df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20220705'),
                    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                    'D': np.array([3] * 4, dtype='int32'),
                    'E': pd.Categorical(["test", "train", "test", "train"]),
                    'F': 'foo'})
print(df2)

2、加载数据 read_csv

(读取的文件，分隔符,重新定义列名)

df = pd.read_csv("movieClassifyData.csv", sep=',', names=columns, header=0)

3、查看哪里有空值 isnull().sum()

：统计每一列中为空的个数

print(df.isnull().sum())

4、空值填充 fillna

:用c这一列的 均值(mean)填充该空值，inplace=true 操作保存

填充：用c这一列的均值填充该空值，inplace=true 操作保存
df['c'].fillna(df.c.mean(),inplace=True)

5、行列选择 loc

参数（行，列）：：所有行 [‘a’,’b’]前两列（a.b两列）

print(df.loc[:,['a','b']])

6、获取数据具体某一个值 at 、iloc

① at(第几行，第几列)

print(df.at[1,'a'])

② iloc(第几行到第几行，第几列到第几列) 整数区间

前四行（0-3）、前两列（0-1）

print(df.iloc[0:4, 0:2])

例3：数据的输入输出

（1） 加载数据 (读取的文件，分隔符,重新定义列名，)

import pandas as pd
import numpy as np
columns = ['a', 'b', 'c', 'label']
1.加载数据  (读取的文件，分隔符,重新定义列名，)
df = pd.read_csv("movieClassifyData.csv", sep=',', names=columns, header=0)
print(df)

（2） 缺失值处理处理空列-填充（均值、众数）/剔除

① 查看哪里有空值：统计每一列中为空的个数

print(df.isnull().sum())

发现c这一列有一个空值，单独获取到这一列

print(df['c'])

② 空值填充:用c这一列的 均值(mean)填充该空值，inplace=true 操作保存

填充：用c这一列的均值填充该空值，inplace=true 操作保存
df['c'].fillna(df.c.mean(),inplace=True)
print(df['c'])

原本为空值的索引为3的这一行现在被c列均值填充为25.2

再检查一下是否还有空值

print(df.isnull().sum())

7、分组 Grouping

（1）读取数据 (待读取文件，分隔符，表头，是否有行号)

读取数据 (待读取文件，分隔符，表头，是否有行号)
df=pd.read_csv("student.txt",sep=',',names=columns,index_col=0)

如果没有index_col=0：

（2）分组 groupby

分组：每个科目平均成绩
df_subj=df.groupby('学科')['成绩'].mean()
print(df_subj)

例4：

先创建表头

columns=['学号','学科','单元','成绩']

（1） 读取数据

读取数据 (待读取文件，分隔符，表头，是否有行号)
df=pd.read_csv("student.txt",sep=',',names=columns,index_col=0)
print(df)

一般不要把文件内容全部打印，使用head和shape可以大概查看文件内容

查看结构，先打印前几行查看
print(df.head(),df.shape)

可以看到将学号作为了行索引

（2）统计每个科目平均成绩（分组依据：科目）

分组：每个科目平均成绩
df_subj=df.groupby('学科')['成绩'].mean()
print(df_subj)

拆分来看，先对学科进行分组

分组：每个科目平均成绩
df_subj=df.groupby('学科')
print(df_subj)
for i in df_subj:
    print(i)

可以看到根据学科分成了语文、数学、英语三组

再接着根据学科分组只显示成绩

df_subj=df.groupby('学科')['成绩']
print(df_subj)
for i in df_subj:
    print(i)

只显示成绩一列

再求学科成绩平均数

分组：每个科目平均成绩
df_subj=df.groupby('学科')['成绩'].mean()
print(df_subj)

（3）统计每个同学每个科目平均成绩

根据两个点分组：学生和科目

分组：每个学生每门科目平均成绩
df_stubmn = df.groupby(['学号','学科'])['成绩']
print(df_stubmn)
for j in df_stubmn:
    print(j)

会显示每个同学每门科目的四个单元一组的成绩

加上 平均数，可得到每个同学每门成绩的平均数

分组：每个学生每门科目平均成绩
df_stubmn = df.groupby(['学号','学科'])['成绩'].mean()
print(df_stubmn)
for j in df_stubmn:
    print(j)

Original: https://blog.csdn.net/kin_16/article/details/125632805
Author: Htht111
Title: 【python】Pandas（series、dataframe）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/742644/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytest基本应用（二）

一.在测试过程中，经常需要测试是否如期抛出预期的异常，以确定异常处理模块生效。在 pytest 中使用 pytest.raises()进行异常捕获异常捕获 def test_z…

Python 2023年9月14日
0063
使用Flask-Migrate时遇到的一些问题

flask-sqlalchemy为是Flask用来管理数据库的一个工具,Flask-Migrate是一个为Flask应用处理SQLAlchemy数据库迁移的扩展。正常使用flas…

Python 2023年8月10日
0073
CUDA、Conda、PyTorch三者联系

系统CUDA与conda安装的cudatoolkit关系 PyTorch安装时，使用conda会安装对应版本的cudatoolkit与cudnn，而系统中也安装了cuda与cudn…

Python 2023年9月9日
0027
二、pytest接口自动化之pytest测试用例的运行方式

pytest测试用例的运行方式一、主函数模式 (1) 运行所有：pytest.main()(2) 指定模块:pytest.main([‘-vs’,&#82…

Python 2023年9月12日
0037
【Transformer 练习】点分类任务（单步+整合code）

以下是使用 Transform er_进行时间序列单变量 _单步_预测的代码示例： python import numpy as np import pandas as pd im…

Python 2023年9月29日
0043
spring boot使用swagger生成api接口文档

在之前的文章中，使用mybatis-plus生成了对应的包，在此基础上，我们针对项目的api接口，添加swagger配置和注解，生成swagger接口文档具体可以查看本站spri…

Python 2023年10月19日
0042
Python Tkinter教程（二）——Label控件、Frame控件、Button控件的完整参数和所有方法及详细用法

>>> 【上节回顾：tkinter编程基本步骤、窗口基本属性及Toplevel控件的使用】<<< Python Tkinter教程（二）这篇博…

Python 2023年8月3日
0073
http网页状态码大全查询

http网页状态码，是诸多站长经常接触到的东西，所谓的HTTP状态码，它是浏览器传输协议所响应的一种代码状态，不同的代码状态，反应了网页目前处于的状态，根据不同的状态码，可以判断出…

Python 2023年6月11日
00119
Tomcat安装与配置（详细教程）

一、安装Tomcat服务器 1.下载地址（Tomcat官网）http://tomcat.apache.org/ 2.将下载的zip文件解压到指定的目录（例如：D盘，目录不要有中文）…

Python 2023年11月7日
0032
React报错之Too many re-renders

总览产生”Too many re-renders. React limits the number of renders to prevent an infinite…

Python 2023年10月12日
0022
docker swarm快速部署redis分布式集群

之前尝试用swarm部署redis集群时网上看了很多帖子，发现大多数都是单机集群，也就是在一个服务器上启多个redis容器，然后进入其中一个容器执行redis搭建，经过研究，我实现…

Python 2023年10月17日
0037
Pandas中数据的合并与分组聚合

一、字符串离散化示例对于一组电影数据，我们希望统计电影分类情况，应该如何处理数据？（每一个电影都有很多个分类）思路：首先构造一个全为0的数组，列名为分类，如果某一条数据中分类出…

Python 2023年8月6日
0026
【Python百日基础系列】Day18 – Pandas 数据合并、重塑与透视

### 回答1： Python_是一种功能强大的编程语言，可以用于各种 _数据分析_任务。而在 _Python_的 _数据分析_工具库中， _pandas_是最受欢迎和广泛使用的工…

Python 2023年8月17日
0061
微软商店下载的python 的 pip 不能修改 config 的解决方法

微软商店下载的python不能修改config的解决方法找到图中文件的位置 C:\\Program Files\\WindowsApps\\PythonSoftwareFound…

Python 2023年5月24日
00103
pandas中的apply()使用

apply() 函数可以直接对 Series 或者 DataFrame 中元素进行逐元素遍历操作，方便且高效，apply() 使用时，通常放入一个 lambda 函数表达式、或一个…

Python 2023年8月8日
0062
python模块pandas库常用操作小结

记录一些个人在python的pandas库常用的操作的小结，方便后续开发记录，同时助人助己。持续更新中按数据格式，读取excel、csv等，输出列名、获取总量。 import …

Python 2023年8月16日
0031

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【python】Pandas（series、dataframe）

（一）定义

（二）使用场景

（三）安装

（四）导入

（一）定义

（二）可存储数据类型

（三）函数

1、创建series

（一）定义

（二）可存储数据类型

（三）函数

1、创建DataFrame

2、 加载数据 read_csv

3、 查看哪里有空值 isnull().sum()

4、 空值填充 fillna

5、行列选择 loc

6、获取数据具体某一个值 at 、iloc

7、分组 Grouping

大家都在看

2、加载数据 read_csv

3、查看哪里有空值 isnull().sum()

4、空值填充 fillna