pyhton_Pandas教程

2023年11月3日上午12:42 • Python • 阅读 41

Pandas 是 Python 语言的一个扩展程序库，用于数据分析。

Pandas 是一个开放源码、BSD 许可的库，提供高性能、易于使用的数据结构和数据分析工具。

Pandas 名字衍生自术语 “panel data”（面板数据）和 “Python data analysis”（Python 数据分析）。

Pandas 一个强大的分析结构化数据的工具集，基础是 numpy（提供高性能的矩阵运算）。

Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。

Pandas 可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征。

数据结构

Series 是一种类似于一维数组的对象，它由一组数据（各种Numpy数据类型）以及一组与之相关的数据标签（即索引）组成。

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

查看pandas的版本

pandas.Series( data, index, dtype, name, copy)
data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。

pandas.DataFrame( data, index, columns, dtype, copy)
data：一组数据(ndarray、series, map, lists, dict 等类型)。
index：索引值，或者可以称为行标签。
columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。
dtype：数据类型。
copy：拷贝数据，默认为 False。

四、Pandas CSV 文件

1、read_csv() 将csv（）文件导入，存在Dataframe对象中

2、to_csv() 将 DataFrame 存储为 csv 文件

3、to_string() 用于返回 DataFrame 类型的数据，如果不使用该函数，则输出结果为数据的前面 5 行和末尾 5 行，中间部分以 ... 代替。

1、JSON 对象与 Python 字典具有相同的格式，所以我们可以直接将 Python 字典转化为 DataFrame 数据：

以上实例输出结果为：

2、从 URL 中读取 JSON 数据：

数据清洗是对一些没有用的数据进行处理的过程。

很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况，如果要对使数据分析更加准确，就需要对这些没有用的数据进行处理。

在这个教程中，我们将利用 Pandas包来进行数据清洗。

1、 Pandas 清洗空值

如果我们要删除包含空字段的行，可以使用 dropna() 方法，语法格式如下：

1.1、添加na_values属性指定的某些数据修改为空数据（NaN）

1.2、 dropna() 方法返回一个新的 DataFrame，不会修改源数据。

1.3、 fillna()方法来替换一些空字段

1.4、使用 mean() 方法计算列的均值并替换空单元格

1.5、使用 median() 方法计算列的中位数并替换空单元格：

1.6、使用 mode() 方法计算列的众数并替换空单元格

2、Pandas 清洗格式错误数据

3、Pandas 清洗错误数据

4、Pandas 清洗重复数据

Original: https://www.cnblogs.com/komorebiZjh/p/16213317.html
Author: 搁浅的小鲸鱼
Title: pyhton_Pandas教程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/810570/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

中断-NVIC与EXTI外设详解(超全面)

✅作者简介：嵌入式入坑者，与大家一起加油，希望文章能够帮助各位！！！！📃个人主页：@rivencode的个人主页🔥系列专栏：玩转STM32💬推荐一款模拟面试、刷题神器，从基础到大厂…

Python 2023年10月11日
0069
爬取笔趣阁小说

仅供学习参考，其他用途概不负责当然也可以爬取其他小说，改一下id就行 book_id字段 https://www.bbiquge.net/book_132488 1. 爬取思路 …

Python 2023年6月15日
0072
python中idxmin_如何使用idxmin（）为pandas Series对象返回USABLE索引

我只是尝试返回一个系列的最小值的索引(它只来自Dask Dataframe的一列)，然后使用该索引访问同一Dataframe的不同列中的相应值 . (即相同索引处的值 . )我也在…

Python 2023年8月20日
0064
“无所不能”的 ChatGPT，正准备把各行各业打得满地找牙

如果有一天，你遇到的任何问题，都能通过搜索找到答案，那会是什么体验？这个疯狂的现实正在离我们越来越近。继AI绘画，AI编程搅得满城风雨后，美国的人工智能团队OpenAI最近又整…

Python 2023年11月4日
0034
flask上传文件

文章目录前言一、环境二、使用 * 1.更新模型类 2.更改视图和模板 3.编写视图运行前言在开发flask项目的时候，难免会遇到文件传输的需求，现在就以上传用户头像为例…

Python 2023年8月12日
0064
Pandas的基本应用，如何创建和索引Series/DataFrame（有代码，可以运行，手打上去，可能有失误┭┮﹏┭┮）

目录手敲敲代码才有用(#^.^#) Pandas 是基于 Numpy的一种工具 Series 的介绍与操作 DataFrame的介绍和操作： Pandas 是基于 Numpy的一…

Python 2023年8月18日
0080
寻找领域不变量：从生成模型到因果表征

1 领域不变的表征在迁移学习/领域自适应中，我们常常需要寻找领域不变的表征(Domain-invariant Representation)[1]，这种表示可被认为是学习到各领…

Python 2023年10月25日
0057
一篇教程精通pytest

目录黑盒与白盒什么是自动化测试 pytest特点 pytest默认命名规则环境安装 pytest的运行方式 * main函数方式：命令行方式 – -n并行运行 …

Python 2023年9月12日
0058
利用docker部署深度学习的例子

由于工作实际需要，训练了几个语义分割的模型，但是模型的部署落地还是第一次做，前后端分别用的是vue和flask框架，数据库采用mysql。在研究算法的同时，具备一定的部署能力也是必…

Python 2023年8月11日
0074
Python测试框架pytest（10）Hooks函数 – pytest_collection_modifyitems改变顺序

pytest 默认执行用例是根据项目下的文件夹名称按 ascii 码去收集的，module 里面的用例是从上往下执行的。 pytest_collection_modifyitems…

Python 2023年9月13日
0082
pandas中数据基础操作

具体可参考pandas官方文档 1.使用pandas库载入表格数据首先数据路径存在两种情况，一种是相对路径（ps：就是相对当前代码文件的路径位置）；一种是绝对路径（ps：即在整个盘…

Python 2023年8月8日
0077
学Python爬虫，不看看m3u8文件如何加密？i春秋 m3u8 文件加密解析

⛳️ 实战场景本次实战目标站点为 https://www.ichunqiu.com/courses/qmxc，随机寻找一门课程点击播放，然后通过开发者工具获取视频文件地址。这次…

Python 2023年5月24日
0062
【深入浅出Spring原理及实战】「开发实战系列」SpringSecurity原理以及实战认证分析开发指南

前提介绍承接上一篇文章，相信大家应该已经对SpringSecurity的原理有了一定的认识，而本篇文章给大家带来的则是在实际业务开发中的技术指南，希望对你有所帮助。所谓知彼知己方…

Python 2023年9月29日
0049
python使用matplotlib 画柱状图代码_Python 使用 matplotlib 画柱状图教程

Python 使用 matplotlib 画图是非常方便的，之前的文章记录了《Python 使用 matplotlib 画折线图教程》，今天就再次记录一下使用 matplotlib…

Python 2023年9月4日
0069
css flex布局 —— 项目属性 align-self

align-self属性定义 flex 子项单独在侧轴（纵轴）方向上的对齐方式，可覆盖 align-items 属性。默认值为 auto，表示继承父元素的 align-items…

Python 2023年9月26日
0061
python读取多个文件夹_在python中如何从不同的文件夹读取多个文件

我在不同的文件夹中有年度数据文件。每个文件包含从1月1日到12月31日的每日数据。数据文件名类似于AS060419.67，其中最后四位代表年份，即1967年，0604是文件夹名。在…

Python 2023年8月8日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pyhton_Pandas教程

2、Pandas 清洗格式错误数据

3、Pandas 清洗错误数据

4、Pandas 清洗重复数据

大家都在看