pandas df.groupby()分组后的数据访问，set_index的用法

2023年7月6日下午1:08 • 人工智能 • 阅读 107

分组方式

注意第一种与第三种方式的区别。

import pandas as pd
dic={'省份':['A','A','A','B','C'],'城市':['a','a','a_','b','c',],'订单额':[1,2,3,4,5],'规模':[5,4,3,2,1]}
df=pd.DataFrame(dic)
print(df)
df1=df.groupby('城市')['订单额'].sum()
df2=df.groupby(['省份','城市'])[['订单额','规模']].sum()
df3=df.groupby(['城市'])[['订单额']].sum()

1.df1=df.groupby(‘分组列名’)[‘作用列名’].聚合函数()

此时df坍缩成一对一映射的数据集，类似于map容器。

pandas df.groupby()分组后的数据访问，set_index的用法

2.df2=df.groupby([‘分组列名1′,’分组列名2’])[[‘作用列名1’, ‘作用列名2’ ]].聚合函数()

仍可以看作是一般的df对象，’分组列名1’是合法的行索引。

3.df3=df.groupby([‘分组列名’])[[‘作用列名’]].聚合函数()

比第一种多了一层 [ ] ，但结构与第二种相同。

数据访问

单个值

df1 [‘分组列名’]

df2.loc [‘分组列名1’, ‘分组列名2’][‘作用列名1/2’]

df3.loc [‘分组列名’][‘作用列名’]

print(df1['a'])#实际上是一对一的映射关系
print(df2.loc['A','a']['订单额'])
#df2.loc['a']['订单额']报错:此对象不存在名为的'a'索引，可通过set_index解决
#df2.loc['A']['订单额']是一组只有A省份的城市的'订单额'
print(df3.loc['a']['订单额'])

单行

df1 [‘分组列名’]

df2.loc [‘分组列名1’, ‘分组列名2’]

df3.loc [‘分组列名’]

一整列

list (df1)

list (df2 [‘分组列名1/2’])

list (df3 [‘分组列名’])

print(list(df1))
print(list(df2['订单额']))
print(list(df3['订单额']))

set_index的用法

#set_index用法
df2=df2.reset_index()#重置行索引，把原来的行索引内容变为列【此处是新增'省份'和'城市'两列数据】，行索引变为0,1,2...

df2=df2.set_index('城市')#设置行索引为'城市'
#此时的df2相当于是df3多加了'省份'这一列
print(df2)

完整代码

import pandas as pd
dic={'省份':['A','A','A','B','C'],'城市':['a','a','a_','b','c',],'订单额':[1,2,3,4,5],'规模':[5,4,3,2,1]}
df=pd.DataFrame(dic)
print(df)
df1=df.groupby('城市')['订单额'].sum()
df2=df.groupby(['省份','城市'])[['订单额','规模']].sum()
df3=df.groupby(['城市'])[['订单额']].sum()

行索引
print(df1.index)
print(df2.index)
print(df3.index)
#单个值
print(df1['a'])#实际上是一对一的映射关系
print(df2.loc['A','a']['订单额'])
#df2.loc['a']['订单额']报错:此对象不存在名为的'a'索引，可通过set_index解决
#df2.loc['A']['订单额']是一组只有A省份的城市的'订单额'
print(df3.loc['a']['订单额'])
#一整列
print(list(df1))
print(list(df2['订单额']))
print(list(df3['订单额']))

#set_index用法
df2=df2.reset_index()#重置行索引，把原来的行索引内容变为列【此处是新增'省份'和'城市'两列数据】，行索引变为0,1,2...

df2=df2.set_index('城市')#设置行索引为'城市'
#此时的df2相当于是df3多加了'省份'这一列
print(df2)

记录一种修改数据的算法（可能numpy库有，但博主暂未涉猎）

对原数据集将特定区间内的数据修改成同一个值。

import pandas as pd
dic={'省份':['A','A','A','B','C'],'城市':['a','a','a_','b','c',],'订单额':[1,2,3,4,5],'规模':[5,4,3,2,1]}
df=pd.DataFrame(dic)

df_tmp=df[df['订单额'].between(1,2)]
df_tmp['订单额']=0
print(df_tmp)
df[df['订单额'].between(1,2)]=df_tmp
print(df)

当然这样修改数据是不太规范的，所以有警告:

SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead

Original: https://blog.csdn.net/includebug/article/details/126325000
Author: #define bug
Title: pandas df.groupby()分组后的数据访问，set_index的用法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674007/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

百度飞桨-基于CV的工业读表案例（修改读表范围和数值）

外面的项目需要做一个工业读表的功能，并给发来了百度飞桨的案例链接https://www.paddlepaddle.org.cn/tutorials/projectdetail/33…

人工智能 2023年6月20日
0087
ubuntu18.04配置yolov5环境

文章目录下载yolov5 一、CPU版本下载安装PyTorch 二、GPU版本下载安装PyTorch * 1.安装显卡驱动 2.安装CUDA – 下载CUDA 3.安…

人工智能 2023年7月22日
0076
python学习笔记 4 – 线性回归、波士顿房价数据分析

1 什么是机器学习？给定一组(x(i), y(i))，给定一个模型，将x(i)输入模型后得到y(i)^计算y(i)和y(i)^的差距，差距越小，模型越优。通过不断地优化模型，使得…

人工智能 2023年7月15日
0098
TransE模型-数据预处理

数据集采用FB15K，下面代码中的文件分别为： file1：训练集，格式为（head，relation，tail） /m/027rn /location/country/form_…

人工智能 2023年6月1日
0057
工训备赛日志（一）——利用PaddleX与Paddle inference在windows环境下实现简单垃圾分类

工训备赛日志（一）——利用PaddleX与Paddle inference在windows环境下实现简单垃圾分类此节分为以下几个部分一、数据集准备二、利用PaddleX-gu…

人工智能 2023年7月3日
0076
java计算机毕业设计高校就业服务网站源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月29日
0070
基于质心的聚类(Centroid-based clustering)– k均值（k-means）

基于质心的聚类中，该聚类可以使用聚类的中心向量来表示，这个中心向量不一定是该聚类下数据集的成员。当聚类的数量固定为k时，k-means聚类给出了优化问题的正式定义：找到聚类中心并将…

人工智能 2023年6月2日
0074
Transformer常见问题与回答总结

Q&A Transformer为何使用多头注意力机制？（为什么不使用一个头）多头保证了transformer可以注意到不同子空间的信息，捕捉到更加丰富的特征信息。可以类比…

人工智能 2023年5月27日
00100
目标检测学习–yolov3

论文地址：《YOLOv3: An Incremental Improvement》 yolov3论文作者比较幽默，论文整体内容中创新点和技术分布较为零散，有兴趣的可以去看看原论文…

人工智能 2023年7月9日
0061
数据分析第4周第3天.md

pandas主要问题 1：不会分析-excel2：代码：demo 推导 dataframe索引数据分析概述数据分析师数据分析师是什么? 数据师Datician[‘…

人工智能 2023年6月11日
0062
pytorch中的transforms.ToTensor和transforms.Normalize理解

🍊作者简介：秃头小苏，致力于用最通俗的语言描述问题🍊往期回顾：卡尔曼滤波系列1——卡尔曼滤波张氏标定法原理详解🍊近期目标：拥有5000粉丝🍊支持小苏：点赞👍🏼、收藏⭐、留言📩 文…

人工智能 2023年7月21日
0093
LSTM算法详细解析（含案例）

LSTM单元结构图。前向传播：在Understanding LSTM Networks博客中已经详细得不能再详细的介绍了LSTM网络的前向传播过程。如果英文能力不是很好，也可以参…

人工智能 2023年7月12日
0077
基于知识图谱的《红楼梦》人物关系可视化及问答系统的实现

在实现这个问答系统的过程中，遇到了很多坑，在这里分享下自己的经验。以下是github中给出的步骤。 0.安装所需的库执行pip install -r requirement.t…

人工智能 2023年5月28日
00110
Keras-gpu版本安装教程（亲测有效）

本教程是在annoconda下安装Keras-gpu版本步骤1：先根据英伟达的显卡的版本下载cuda 步骤2：然后通过cuda版本来下载对应 cudnn版本，接下来需要配置一下环…

人工智能 2023年5月23日
0064
C++学习——金融时间序列处理的工具库

xtensor C++ tensors with broadcasting and lazy computingContainers of xtensor are inspired…

人工智能 2023年5月31日
0059
【Pytorch-ACDC】复现U-NetforCardiacSegmentation记录

【本文持续更新…】结构： U-Net具有简单的网络结构，前、后两部分通常被称为”编码器”和”解码器”，因其类似于大写的…

人工智能 2023年7月24日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas df.groupby()分组后的数据访问，set_index的用法

分组方式

注意第一种与第三种方式的区别。

1.df1=df.groupby(‘分组列名’)[‘作用列名’].聚合函数()

此时df坍缩成一对一映射的数据集，类似于map容器。

2.df2=df.groupby([‘分组列名1′,’分组列名2’])[[‘作用列名1’, ‘作用列名2’ ]].聚合函数()

仍可以看作是一般的df对象，’分组列名1’是合法的行索引。

3.df3=df.groupby([‘分组列名’])[[‘作用列名’]].聚合函数()

比第一种多了一层 [ ] ，但结构与第二种相同。

数据访问

单个值

df1 [‘分组列名’]

df2.loc [‘分组列名1’, ‘分组列名2’][‘作用列名1/2’]

df3.loc [‘分组列名’][‘作用列名’]

单行

df1 [‘分组列名’]

df2.loc [‘分组列名1’, ‘分组列名2’]

df3.loc [‘分组列名’]

一整列

list (df1)

list (df2 [‘分组列名1/2’])

list (df3 [‘分组列名’])

set_index的用法

完整代码

记录一种修改数据的算法（可能numpy库有，但博主暂未涉猎）

对原数据集将特定区间内的数据修改成同一个值。

当然这样修改数据是不太规范的，所以有警告:

SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead

大家都在看