pandas 库前置知识

2023年8月8日上午4:24 • Python • 阅读 81

pandas 库

*
– Pandas
–
+ 创建一个 Series 对象 pd.Series()
+ 创建一个 DataFrame 对象 pd.DataFrame()
+ 数据清洗
+
* 缺失值 NaN
*
– 查找缺失值 isna()
– 删除缺失值 dropna()
* 重复值
*
– 查找重复值 df.duplicated()
– 删除重复值 df.drop_duplicates()
* 异常值
*
– 检查异常值 df.describe()
– 筛选数据 df = [ df[列名] < num ]
+ 数据整理
+
* 转换日期数据 pd.to_datetime()
* 添加新列 df[‘要添加的新列的名字’]
+ 数据写入 df.to_csv(path, encoding, index)
+ 分组与聚合

Pandas


import pandas as pd

pandas 的数据结构有 Series、 DataFrame。

Series 主要由一组数据及其对应的索引组成。

以下是一个 Series 对象例子：

import pandas as pd
s = pd.Series(['读书', '健身', '余闲', '投资'], index=[0, 1, 2, 3])
print(s)

输出：

0    读书
1    健身
2    余闲
3    投资
dtype: object

左边的数字是索引，右边的是数据。

数据底部的 dtype 指的是，pandas 库中的数据类型，而对应的 object 是 pandas 自定义的字符串类型。

创建一个 Series 对象 pd.Series()

import pandas as pd
s = pd.Series(['读书', '健身', '余闲', '投资'], index=[0, 1, 2, 3])

print(s)

以上是传入链表来创建 Series 对象，还有传入字典等方式：

data = {'《三国演义》':'罗贯中', '《水浒传》':'施耐庵'}
data = 1
import numpy as np
data = np.array( [1, 2, 3] )
data = 'hello'
s = pd.Series( data )

创建一个 DataFrame 对象 pd.DataFrame()

DataFrame 对象是一种表格型的数据结构，包含行索引、列索引以及一组数据。

import pandas as pd
data = [['《三国演义》', '罗贯中'], ['《水浒 传》', '施耐庵']]
df = pd.DataFrame(data, columns=['书籍', '作者'], dtype=float)
print(df)

输出：

      书籍      作者
0  《三国演义》  罗贯中
1  《水浒 传》   施耐庵

行索引：0、1，列索引：书籍、作者，表格里面的是数据。

创建 DataFrame 对象的方法是： pd.DataFrame()。

Series 对象和 DataFrame 对象之间的联系就在于：DataFrame 对象可以被看作是由 Series 对象所组成的。

series，只是一个一维数据结构，由 index 和 value 组成。
dataframe，是一个二维结构，除了拥有 index 和 value 之外，还拥有 column。

用 df['列索引'] 提取 DataFrame 对象中某一列的数据，其实是一个 Series 对象。

import pandas as pd
data = [['《三国演义》', '罗贯中'], ['《水浒 传》', '施耐庵']]
df = pd.DataFrame(data, columns=['书籍', '作者'], dtype=float)

print(df['书籍'])
print(type(df['书籍']))

输出：

Name: 书籍, dtype: object
<class 'pandas.core.series.Series'>

数据清洗

df.info()，显示整体的数据的基本信息，有一个大概的印象。

主要包括：整体数据的总行数、各列数据类型统计、各列的列名、各列总共有多少非空数据、表格占用的系统空间等。

缺失值 NaN

当非空数据与数据总量不一致时，说明这份数据有可能存在缺失值，处理这些缺失值的第一步，就是找到它们。

; 查找缺失值 isna()

在 pandas 库中，用 isna() 方法来查找 DataFrame、Series 对象中的缺失值。

df.isna() 返回的是 DataFrame 对象， Series.isna() 返回的就是 Series 对象。

返回对象中的内容都是布尔值：

缺失数据会用 True 来表示
False 则代表这里的数据不缺失

对 DataFrame 对象使用 df.head() 方法默认可以查看数据的前 5 行， df.tail() 方法则默认可以查看数据的后 5 行。

pandas 库中，NaN 代表的就是缺失数据。

删除缺失值 dropna()

对于缺失值，最简单的方法就是将含有缺失值的行直接删除。

如果总体的数据量比较大，缺失值占总数据量的比重也比较低，将含有缺失值的行删除后并不会妨碍后续的分析。

当然除了删除之外还有其它处理方法，比如给缺失值填充数据。

在 pandas 库中，用 df.dropna() 会删除 DataFrame、Series 对象中有缺失值的行。

如果我们需要针对某几列的缺失数据进行删除，就需要用到 df.dropna() 的 subset 参数。

df.dropna(subset = ['书籍', '作者'])

重复值

查找重复值 df.duplicated()

用 df.duplicated()方法来查找 DataFrame 对象中的重复数据。

返回一个 Series 对象，找出所有重复值。重复为 True，不重复为 False。

删除重复值 df.drop_duplicates()

df = df.drop_duplicates()

异常值

检查异常值 df.describe()

describe() 方法返回出来的统计信息分别代表数值型数据的频数统计、平均值、标准差、最小值、第一四分位数、中位数、第三四分位数以及最大值。

只需要观察最大最小值、平均数、中位数就好，一般异常值都在特殊位置。

筛选数据 df = [ df[列名] < num ]


df = df[ df['单价']  200 ]

数据整理

数据整理指的是我们在数据分析前对所需字段（表格的列）进行数据排序、数据转换、数据抽取、数据合并、数据计算等准备操作。

转换日期数据 pd.to_datetime()

Python 中有专门储存时间日期的数据类型 —— datetime，我们对日期数据进行操作都需要 TA。

但 Pandas 中的日期数据（如 2021-10-08），日期列数据并不是 datetime 类型，而是 objeect（pandas自定义的字符串类型）。

在 pandas 库中我们可以使用 pd.to_datetime(arg, format) 来将 DataFrame 对象或者 Series 对象的数据类型转换成 datetime 类型。

其中的 arg 参数为我们要转换的数据，它可以是 DataFrame 对象或 Series 对象。

format 参数为 datetime 类型的日期格式，如数据，是以年-月-日的形式出现的，那对应的 format 就是 ‘%Y-%m-%d’。


Series = pd.to_datetime(mask_data['日期'], format = '%Y-%m-%d')

将 ‘日期’ 字段转换成 datetime 类型后，我们就可以直接进行增、删、改、查等各种操作。如：


year_data = Series.dt.year


month_data = Series.dt.month


day_data = Series.dt.day

添加新列 df[‘要添加的新列的名字’]

df['月份'] = n

数据写入 df.to_csv(path, encoding, index)

数据整理完了，写入 csv 文件中。

df.to_csv(path, encoding='utf-8')

分组与聚合

分组是指根据一个或多个键将数据拆分为多个组的过程，这里的键可以理解为分组的条件。

聚合指的是任何能够从数组产生标量值的数据转换过程。

分组、聚合操作一般会同时出现，用于计算分组数据的统计值或实现其他功能。

除此之外，不只有单层分组聚合操作，还有多层分组聚合操作。

单层分组聚合操作：

df = df.groupby('班级')['成绩'].mean()

多层分组聚合操作：

df = df.groupby(['班级', '性别'])['成绩'].mean()

Original: https://blog.csdn.net/qq_41739364/article/details/120635064
Author: Debroon
Title: pandas 库前置知识

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/741544/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytest自动化测试框架

fixture 特点：命令灵活：对于setup，teardown可以省略数据共享：在conftest.py配置里写方法可以实现数据共享，不需要import导入，可以跨文件共享 …

Python 2023年9月10日
0048
入门，前后端实现简单账号密码登录

前后端实现简单账号密码登录涉及知识点原理效果图前端代码 * index.html res.html login.html main.js info.html error.h…

Python 2023年8月4日
0044
Python标准库：datetime 时间和日期模块 —— 时间的获取和操作详解

datetime 模块提供了以简单和复杂的方式操作日期和时间的类。虽然支持日期和时间算法，但实现的重点是有效的成员提取以进行输出格式化和操作。该模块还支持可感知时区的对象。本文主要…

Python 2023年6月15日
0081
flask 框架简介

1.flask 是小型WEB开发框架2.flask模块Flask 构建实例redirect 网页链接跳转request 处理网页请求数据render_template使用网页模板构…

Python 2023年8月10日
0044
最全的Anaconda虚拟环境操作及Python常用命令 (持续更新—)

涵盖常见的Anaconda虚拟环境操作及Python常用命令；使用时按关键字搜索（Ctrl+F）就行！ 1、Anaconda命令提示符查看虚拟环境 conda env li…

Python 2023年9月8日
0037
Python图形界面不够美？三行代码全面美化你的Tkinter界面

文章目录 * – 前言 – 简单的初探ttkbootstrap，深入了解靠你自己 – 安装ttkbootstrap – 简单的主题调…

Python 2023年8月1日
00200
python大佬实战教学_数十位业界大佬最新著作Python从入门到实战项目

本篇文章从入门学习者的角度出发，通过简洁有趣的语言、丰富多彩的实例、大脑的任务、贴近实战的项目，循序渐进地让读者在实践中学习，在实践中提升实际能力。全文共分7篇：基础篇、进阶篇、高…

Python 2023年9月25日
0037
“matplotlib.use(‘agg‘)“语句的作用机理

问题描述在很多使用 matplotlib 库的代码中出现了 matplotlib.use(‘agg’) 的语句。有些博客认为1，在导入matplotlib库后，且在matplot…

Python 2023年8月31日
0052
基于Scrapy的爬虫解决方案

导语 | Scrapy是一个较为流行的Python爬虫框架，本文将简单介绍Scrapy的使用方法，并对一些常见问题提出解决方法。对于想快速上手爬虫的初学者来说，本文值得一阅。文章作…

Python 2023年10月4日
0038
自然语言处理NLP程序包（NLTK/spaCy）使用总结

NLTK和SpaCy是NLP的Python应用，提供了一些现成的处理工具和数据接口。下面介绍它们的一些常用功能和特性，便于对NLP研究的组成形式有一个基本的了解。 NLTK Nat…

Python 2023年10月25日
0042
Python的Scrapy框架爬取诗词网站爱情诗送给女友

文章目录前言效果展示：一、安装scrapy库二、创建scrapy项目三、新建爬虫文件scmg_spider.py 四、配置settings.py文件五、定义数据容器，修…

Python 2023年10月1日
0054
pytest学习和使用-fixture如何使用？

和setup、teardown的区别是：fixture可自定义测试用例的前置条件； setup、teardown针对整个脚本全局生效，可实现在执行用例前后加入一些操作； setup…

Python 2023年9月12日
0049
4.scrapy爬取数据【推荐使用】

安装工具包 pip install scrapy -i https://pypi.douban.com 若安装失败，请查看尚硅谷scrapy安装教程创建的基本操作 1.创建项目 …

Python 2023年10月4日
0044
python|在pycharm中pygame安装指引

python|在pycharm中pygame安装指引检查是否安装pip pip安装pygame 检测是否安装完成我电脑上运行的问题这里通过pip安装会更快一丢丢检查是否安装…

Python 2023年9月21日
0034
python中的merge函数_Python Merge函数原理及用法解析

Merge函数的用法jfz免费资源网简单来说Merge函数相当于Excel中的vlookup函数。当我们对2个表进行数据合并的时候需要通过指定两个表中相同的列作为key，然后通过…

Python 2023年8月20日
0044
Python中的三个基本知识点

Python 2023年5月24日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31