Pandas索引基本操作

2023年6月11日上午11:04 • 人工智能 • 阅读 65

公众号：尤而小屋
作者：Peter
编辑：Peter

大家好，我是Peter~

本文主要是记录Pandas中单层索引的一些基本操作。

; 10种索引

下面简单回顾下之前学习创建的10种索引：

pd.Index

In [1]:

import pandas as pd
import numpy as np

In [2]:

&#x6307;&#x5B9A;&#x7C7B;&#x578B;&#x548C;&#x540D;&#x79F0;

s1 = pd.Index([1,2,3,4,5,6,7],
         dtype="int",
         name="Peter")

s1

Out[2]:

Int64Index([1, 2, 3, 4, 5, 6, 7], dtype='int64', name='Peter')

pd.RangeIndex

指定整数范围内的不可变索引

In [3]:

s2 = pd.RangeIndex(0,20,2)
s2

Out[3]:

RangeIndex(start=0, stop=20, step=2)

pd.Int64Index

64位整数型索引

In [4]:

s3 = pd.Int64Index([1,2,3,4,5,6,7,8],name="Peter")
s3

Out[4]:

Int64Index([1, 2, 3, 4, 5, 6, 7, 8], dtype='int64', name='Peter')

pd.UInt64Index

无符号整数索引

In [5]:

s4 = pd.UInt64Index([1, 2.0, 3, 4],name="Tom")
s4

Out[5]:

UInt64Index([1, 2, 3, 4], dtype='uint64', name='Tom')

pd.Float64Index

64位浮点型的索引

In [6]:

s5 = pd.Float64Index([1.5, 2.4, 3.7, 4.9],name="peter")
s5

Out[6]:

Float64Index([1.5, 2.4, 3.7, 4.9], dtype='float64', name='peter')

pd.IntervalIndex

新的间隔索引 IntervalIndex 通常使用 interval_range()函数来进行构造，它使用的是数据或者数值区间，基本用法：

In [7]:

s6 = pd.interval_range(start=0, end=6, closed="left")
s6

Out[7]:

IntervalIndex([[0, 1), [1, 2), [2, 3), [3, 4), [4, 5), [5, 6)],
              closed='left',
              dtype='interval[int64]')

pd.CategoricalIndex

In [8]:

s7 = pd.CategoricalIndex(
    # &#x5F85;&#x6392;&#x5E8F;&#x7684;&#x6570;&#x636E;
    ["S","M","L","XS","M","L","S","M","L","XL"],
    # &#x6307;&#x5B9A;&#x5206;&#x7C7B;&#x987A;&#x5E8F;
    categories=["XS","S","M","L","XL"],
    # &#x6392;&#x9700;
    ordered=True,
    # &#x7D22;&#x5F15;&#x540D;&#x5B57;
    name="category"
)

s7

Out[8]:

CategoricalIndex(['S', 'M', 'L', 'XS', 'M', 'L', 'S', 'M', 'L', 'XL'],
                                        categories=['XS', 'S', 'M', 'L', 'XL'],
                                        ordered=True,
                                        name='category',
                                        dtype='category')

pd.DatetimeIndex

以时间和日期作为索引，通过date_range函数来生成，具体例子为：

In [9]:

&#x65E5;&#x671F;&#x4F5C;&#x4E3A;&#x7D22;&#x5F15;&#xFF0C;D&#x4EE3;&#x8868;&#x5929;

s8 = pd.date_range("2022-01-01",periods=6, freq="D")
s8

Out[9]:

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03',
                                '2022-01-04','2022-01-05', '2022-01-06'],
              dtype='datetime64[ns]', freq='D')

pd.PeriodIndex

pd.PeriodIndex是一个专门针对周期性数据的索引，方便针对具有一定周期的数据进行处理，具体用法如下：

In [10]:

s9 = pd.PeriodIndex(['2022-01-01', '2022-01-02',
                                            '2022-01-03', '2022-01-04'],
                    freq = '2H')
s9

Out[10]:

PeriodIndex(['2022-01-01 00:00', '2022-01-02 00:00',
                            '2022-01-03 00:00', '2022-01-04 00:00'],
            dtype='period[2H]', freq='2H')

pd.TimedeltaIndex

In [11]:

data = pd.timedelta_range(start='1 day', end='3 days', freq='6H')
data

Out[11]:

TimedeltaIndex(['1 days 00:00:00', '1 days 06:00:00', '1 days 12:00:00',
                '1 days 18:00:00', '2 days 00:00:00', '2 days 06:00:00',
                '2 days 12:00:00', '2 days 18:00:00', '3 days 00:00:00'],
               dtype='timedelta64[ns]', freq='6H')

In [12]:

s10 = pd.TimedeltaIndex(data)
s10

Out[12]:

TimedeltaIndex(['1 days 00:00:00', '1 days 06:00:00', '1 days 12:00:00',
                '1 days 18:00:00', '2 days 00:00:00', '2 days 06:00:00',
                '2 days 12:00:00', '2 days 18:00:00', '3 days 00:00:00'],
               dtype='timedelta64[ns]', freq='6H')

操作1：读取文件时自动生成索引

默认情况下，pandas以0到 len(df)-1 的自然数为索引

In [13]:

df = pd.read_csv("student.csv")
df

df.index

RangeIndex(start=0, stop=4, step=1)

我们可以指定某个字段作为索引：

操作2：读取数据时指定索引

在读取文件的时候可以指定一个或者多个字段作为索引：

In [15]:

df1 = pd.read_csv("student.csv", index_col="name")
df1


pd.read_csv("student.csv", index_col=0)

我们查看具体的索引：

In [17]:

df1.index

Out[17]:

Index(['xiaoming', 'xiaozhou', 'peter', 'mike'], dtype='object', name='name')

同时指定多个字段作为索引：

In [18]:

df2 = pd.read_csv("student.csv", index_col=["name","sex"])
df2

我们发现此时数据框df2的索引是一个多层索引MultiIndex

In [20]:

df2.index

Out[20]:

MultiIndex([('xiaoming',   'male'),
            ('xiaozhou', 'female'),
            (   'peter',   'male'),
            (    'mike',   'male')],
           names=['name', 'sex'])

操作3：指定索引set_index

在读取之后可以指定字段作为索引

指定单个索引

比如，我们把name字段作为索引：使用的是set_index函数

In [23]:

df.set_index("name")

我们发现原始的df是没有变化的：

如果想直接改变df，有两种方法：

1、赋值法

通过对比赋值前后df的id，我们发现它们是不同的：

在Python内部其实创建了两个不同的对象，开辟了不同的内存地址，只不过对象的刚好都是df而已

2、原地修改

第二种方法是通过set_index的inplace参数，原地修改df：

In [28]:

id(df)   # &#x6539;&#x53D8;&#x524D;

Out[28]:

4633094992

In [29]:

df.set_index("name",inplace=True)  # &#x539F;&#x5730;&#x4FEE;&#x6539;

In [30]:

id(df)  # &#x6539;&#x53D8;&#x540E;

Out[30]:

4633094992

我们发现：修改后df和原来是一样的

指定多个索引

1、赋值改变

2、原地修改

; 指定Series数据为索引

其他操作

原来的列字段仍然保存：

原来的索引仍然保留：

Original: https://blog.csdn.net/qq_25443541/article/details/124185158
Author: 尤尔小屋的猫
Title: Pandas索引基本操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/599897/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

边界Fisher分析（MFA）及其非线性改进核边界Fisher分析（KMFA）的验证对比

0、前言前期博文讲述了MFA相关理论及其可以改进的点，本期文章对MFA进行非线性改进，提出核边界Fisher分析（KMFA）方法，并将MFA与KMFA在相同数据集上进行验证对比分…

人工智能 2023年6月2日
00120
MXNet支持分布式训练吗？如何进行分布式训练

MXNet支持分布式训练吗？是的，MXNet支持分布式训练。分布式训练是指将训练任务分解为多个子任务，在不同的计算节点上并行执行，以加快训练的速度。MXNet提供了分布式训练的功…

人工智能 2024年1月1日
0027
数据分析工具Pandas总结

一、Pandas的主要的数据结构：Series 和DataFrame 。 1.Series:一种类似于一维数组的对象，是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标…

人工智能 2023年7月7日
0061
opencv快速实现任意角度二维码矫正

那天听到领导他们在讨论，说要将图片进行个矫正处理，还叫来了算法部的大佬来讨论将要如何处理这个，讨论场面很是激烈不得不说好奇心是个很神奇的东西，就把我给吸引过去了我定眼一看，感觉…

人工智能 2023年7月19日
0057
Keras如何处理数据预处理和归一化

数据预处理和归一化数据预处理是机器学习任务中非常重要的一步，它通常包括数据清洗、特征选择、特征提取和数据归一化等步骤。在使用Keras进行机器学习任务时，数据预处理和归一化也非常…

人工智能 2024年1月4日
0061
python opencv实现找到图像的轮廓，填充颜色

我想找到图片中的闭合圈，然后填充颜色所需要的cv函数： 1。OpenCV提供的findContours()方法可以通过计算图像梯度来判断出图像的边缘，然后将边缘的点封装成数组返回…

人工智能 2023年6月17日
00139
yolov5 训练结果解析

yolov5 训练结果解析本文仅用于记录之前在CSDN中所学有关YOLOv5结果解析所转载知识的记录和总结笔记用。在每次训练之后，都会在runs-train 文件夹下出现一下文…

人工智能 2023年6月13日
0075
知识图谱汇总

知识图谱，是结构化的语义知识库，用于迅速描述物理世界中的概念及其相互关系，通过将数据粒度从 document 级别降到 data 级别，聚合大量知识，从而实现知识的快速响应和推理。…

人工智能 2023年6月10日
0099
随想录一刷Day53——动态规划

文章目录 Day53_动态规划 * 44. 最长公共子序列 45. 不相交的线 46. 最大子数组和 Day53_动态规划 44. 最长公共子序列 1143. 最长公共子序列思路：…

人工智能 2023年6月26日
0085
使用PyTorch Geometric构建自己的图数据集

1.如何制作自己的图数据创建一个图，信息如下：定义数据:x是每个点的输入特征，y是每个点的标签。x的维度为[M,F]，M表示结点数，F表示特征个数 x = torch.tens…

人工智能 2023年6月30日
0054
怎么把pandas.DataFrame搞的花里胡哨？？

首发公众号：pythonic生物人同类文章推荐：当Python邂逅Javascript擦出一款蠢萌蠢萌的可视化工具平日看到的pandas.DataFrame数据是这个样子的~ …

人工智能 2023年7月8日
0057
【深度学习】(10) 自定义学习率衰减策略（指数、分段、余弦），附TensorFlow完整代码

大家好，今天和大家分享一下如何使用 TensorFlow自定义指数学习率下降、阶梯学习率下降、余弦学习率下降方法，并使用 Mnist数据集验证自定义的学习率下降策略。创建…

人工智能 2023年7月14日
0065
【Python】OpenCV读取视频帧并保存为图片

cv2.VideoCapture()读取视频帧 import cv2 VIDEO_PATH = ‘video.mp4’ video = cv2.VideoCapture(video…

人工智能 2023年7月6日
0060
Python手撸机器学习系列（七）：聚类（Kmeans）

聚类聚类算法，一般情况下将给定的数据集划分为若干个不相交的子集，每个子集称为一个簇，即将数据集划分为几类。在这种情况下，可能会对一些潜在的概念进行划分，用周志华《机器学习》中的话…

人工智能 2023年5月31日
0079
使用element-ui组件库上传文件及自定义上传文件(包含多文件上传及自定义上传携带其他参数)

组件使用使用上传组件需要引入并注册Upload组件而这个组件中又用到了Button，所以也需要注册一下Button，我们只需要在main.js(new Vue实例的文件里边)，加…

人工智能 2023年6月26日
0069
【数据挖掘】2022年2023届秋招奇虎360机器学习算法工程师笔试题

公司：奇虎360 岗位：机器学习算法工程师笔试时间：2022年10月9号 1 选择题 1、E ( X 2 ) E(X^2)E (X 2 )的计算 P{X=1} = 2/3, P{…

人工智能 2023年6月19日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31