Pandas数据分析(上)｜一文读懂Series和DataFrame

2023年8月7日上午11:21 • Python • 阅读 65

前言

本文主要介绍Pandas中两个重要的数据结构：Series 和 DataFrame。二者在pandas数据分析与处理中是使用最多的数据结构。

因此,学习Pandas这两个重要的数据结构，对于使用Python进行数据分析与处理非常重要。

Series

Series介绍

Series是一个有索引(或者说标签)的由同一类型数据组成的一组数据，其数据是一维的。

Series创建

Series创建：使用pd.Series()创建对象。

pd.Series(

&#xA0;&#xA0;&#xA0;&#xA0;data=None,#&#x53EF;&#x4EE5;&#x4E3A;&#x5217;&#x8868;&#x3001;&#x5143;&#x7EC4;&#x3001;&#x5B57;&#x5178;&#x3001;numpy.ndarray

&#xA0;&#xA0;&#xA0;&#xA0;index=None,#&#x53EF;&#x7701;&#x7565;&#xFF0C;&#x7701;&#x7565;&#x540E;&#x9ED8;&#x8BA4;&#x4ECE;0&#x5F00;&#x59CB;&#x521B;&#x5EFA;

    dtype=None,

    name=None,

    copy=False,

    fastpath=False,

显示给出index则为显式索引，没有显式给出索引index则系统默认提供一个从0开始递增的索引。

显式索引：即定义/创建时给出的index。

隐式索引：系统默认提供一个从0开始递增的整数索引。

例子-新建Series，给定索引index

上例，显式索引为a、b、 c、 d ,隐式索引为 0、 1、 2、 3.

例子-新建Series，省略index

未给出显式索引，系统会自动创建从0开始递增的索引。

Series属性

Series.index 获取/查看索引（index）部分

Series.values 获取/查看数据（data）部分

查看index和values属性

Series操作

索引访问与切片

Series支持显示/隐式index索引访问数据与切片操作。
Sereis 提供索引方式iloc和loc访问数据。

显式/隐式index数据访问及切片

s = pd.Series(data=list('&#x6625;&#x7720;&#x4E0D;&#x89C9;&#x6653;'),

              index=list('abcde'))

print(s['c']) # &#x663E;&#x5F0F;index&#x8BFB;&#x6570;&#x636E;

print(s[2])   # &#x9690;&#x5F0F;index&#x8BFB;&#x6570;&#x636E;

print('--------')

print(s['a':'d']) #&#x663E;&#x5F0F;index&#x5207;&#x7247;

print(s[0:3]) #&#x9690;&#x5F0F;index&#x5207;&#x7247;

⬆️注意区分Series显式index切片和隐式index切片的不同之处，显示索引是闭合，隐式索引切片同Python切片。

索引方式iloc和loc

Series.loc[ 显式索引 ]
Series.iloc[ 隐式索引 *]

s.loc['c']&#xA0;#Series.loc-&#x663E;&#x5F0F;&#x7D22;&#x5F15;

s.iloc[2]&#xA0;#Seried.iloc-&#x9690;&#x5F0F;&#x7D22;&#x5F15;

s.loc['a':'c'] #&#x5207;&#x7247;

s.iloc[0:2]&#xA0;#&#x5207;&#x7247;

loc和iloc切莫混用显式和隐式索引，否则会报错。

index支持in判断

Series可使用显式index做in操作，判断Series中有无该index。

更新index次序

Series.reindex(index=None)

调整显式index次序,返回一个新的Series，reindex不改变原Series对象。

此外更新的index为原来已存在的，如果index不存在则对应的value为NaN。

DataFrame

DataFrame介绍

DataFrame 是一种类似表格的二维数据结构的对象。DataFrame 既有行索引也有列索引，它可以被看做是一组共用index的Series组成的二维数据。

DataFrame创建

DataFrame创建的根据数据的来源，可以将DataFramec创建分为两种

第一种：直接创建/定义 (这种方式实际很少用)

pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

例-直接创建/定义

import pandas as pd

import numpy as np

x = pd.DataFrame(data=np.arange(0,20).reshape(4,5),

                index=list('ABCD'),

                columns=list('&#x91D1;&#x6728;&#x6C34;&#x706B;&#x571F;'))

第二种：从外部文件中读取/导入（常用方式）

panda可以导入以下各种数据格式：

CSV 2.EXCEL 3.SQL

4.HTML 5.Json 6.pdf 等

对应的pandas方法形如pd.read_xxxx()，如读取csv为pd.read_csv()、excel为pd.read_excel()。

#&#x4ECE;CSV

pd.read_csv(

    filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]],

    sep=',',

    delimiter=None,

    header='infer',

    names=None,

&#xA0;&#xA0;&#xA0;&#xA0;index_col=None

&#xA0;&#xA0;&#xA0;&#xA0;)

例-从文件中导入

DataFrame属性

index 行索引
columns 列名/列索引名
shape 数据形状
dtype 查看数据类型

例-查看上图DataFrame的属性

DataFrame操作

访问数据

访问整行或整列数据以及访问指定行列位置的数据，访问数据可分为两类，即 通过列columns访问和 通过index行访问。

通过列访问：根据使用列名的方式不同可以分为：列名 作为下标访问或者列名 作为属性访问

例-列名作为下标访问数据

例-列名作为属性访问数据

通过行访问： loc[显式index]， iloc[隐式index]，以及ix[]

iloc行用隐式index访问行，即行为整数

loc 行用显式名访问（如果定义了行名）

ix 混用，即行列可以用隐式或者显式（该方法已过时）

例-loc[显式index]访问行数据

例-使用iloc[隐式index]访问行数据

例-ix[行索引，列索引],访问指定位置数据

由于ix的方式已经过时，因此通过行与列访问指定数据，一般建议loc 和 iloc的方式。

删除数据

使用drop()方法删除数据。drop()方法默认不修改数据本身，如果inplace=True 则会修改原数据。

x.drop(

    labels=None,

    axis=0,

    index=None,

    columns=None,

    level=None,

    inplace=False,

    errors='raise',

例-删除指定行

例-删除指定列

–End–

Original: https://blog.csdn.net/weixin_42147780/article/details/125135496
Author: 金融科技自习生
Title: Pandas数据分析(上)｜一文读懂Series和DataFrame

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739864/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

numpy 拷贝的坑

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月25日
0043
【自动化运维新手村】Flask-ORM

摘要在上一章节【删库跑路第一步】中，我们已经了解了基本的数据库的概念，以及常用的数据表操作，并且我希望大家意识到，如果在后端应用不必须依赖数据库时，最好不要引入；但如果引入，那么…

Python 2023年8月13日
0042
sqli-lab安装

参考文章： https://zhuanlan.zhihu.com/p/374465400 Original: https://www.cnblogs.com/Akiyama-tsu…

Python 2023年6月12日
0053
全链路压测效能10倍提升的压测工具实践笔记【开源】【原创】

背景创业型公司或创新型项目往往团队资源有限，人员能力水平有限，难以投入专业自动化压测人员；同时部分业务（tob/toc场景）长期有中小型活动场景带来小规模流量并发，需要产研能长…

Python 2023年10月14日
0056
Python数据分析及可视化（Matplotlib， Plotly，random）实例：双色球根据往期数据产生随机号码

之前有写过一篇”双色球数据爬取及写入数据库Sqlite、json和Excel表”，是通过网站提供的json网页把数据爬取并存储下来，今天就通过这个数据进行数…

Python 2023年8月31日
0051
二阶段目标检测网络-Faster RCNN 详解

Faster RCNN 网络概述 Conv layers RPN 网络 Anchors 生成 RPN 网络训练集 positive/negative 二分类 RPN 生成 RoIs…

Python 2023年10月12日
0040
pandas的Excel文件读写（二）——将数据写入文件

4.1 to_excel()函数声明与调用 def to_excel(self, excel_writer: Any, sheet_name: str = "Sheet1…

Python 2023年8月7日
0039
pycharmPro创建本地项目并上传到gitlab

第一次使用gitlab，想把项目push到新的分支上 1.建立一个新的python项目，我这里是用的flask框架 2.VCS中选择Create Git Repository 建立…

Python 2023年8月10日
0030
Python-Matplotlib可视化（8）——图形的输出与保存

Python-Matplotlib可视化（8）——图形的输出与保存 * – 前言 – 生成PNG图片文件 – 控制透明度 – + 使…

Python 2023年8月30日
0063
YOLO系列（YOLOv1-YOLOv5）算法详细介绍和总结

YOLO系列（YOLOv1-YOLOv5）算法详细介绍和总结文章目录 YOLO系列（YOLOv1-YOLOv5）算法详细介绍和总结前言 YOLOv1 * YOLOv1思想 YO…

Python 2023年9月28日
0057
用pandas模块轻松做数据分析

本文主要介绍pandas模块，该模块是Python用于数据导入及数据整理的模块，对于数据分析，数据挖掘等前期数据处理工作十分有用，它提供了很多方法，使得数据处理变得简单高效。 pa…

Python 2023年8月16日
0042
【Pytorch】第 1 章：强化学习和 PyTorch 入门

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

Python 2023年10月9日
0038
精准营销！用机器学习完成客户分群！⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40📘 机器学习实战系列：https://www.s…

Python 2023年10月24日
0050
【MySQL】MySQL体系结构与内部组件工作原理解析（原理篇）（MySQL专栏启动）

📫作者简介：小明java问道之路，专注于研究 Java/ Liunx内核/ C++及汇编/计算机底层原理/源码，就职于大型金融公司后端高级工程师，擅长交易领域的高安全/可用/并发…

Python 2023年9月26日
0049
常见的图像质量评估指标SSIM、PSNR、LPIPS

现阶段针对有真实参考的图像生成任务，主要有三种质量评价指标，分别为两种人为设计的指标SSIM和PSNR，也包括深度学习网络抽取到的特征进行对比的LPIPS评价指标一：结构相似性（…

Python 2023年9月30日
0057
python+requests+pytest_Python+Requests+Pytest 在window下的安装（附pip升级过程遇到的问题）…

在window下，先安装Python3.6， cmd控制台运行Python，通过pip安装requests库和pytest 安装python a.下载安装包：https://w…

Python 2023年9月14日
0043

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pandas数据分析(上)｜一文读懂Series和DataFrame

大家都在看