pandas操作excel之groupby

2023年8月7日下午9:57 • Python • 阅读 68

import pandas as pd
import random
data = pd.read_excel('30.xlsx');
test = data.groupby('条件列')

将数据进行特征分组,以便于计算.我们来看代码

import pandas as pd
data = pd.read_excel('30.xlsx');
test = data.groupby('条件列')
for i,o in test:
    print(o)

   条件列  level_1  ID
0  113        3   4
   条件列  level_1  ID
1  114        6   7
    条件列  level_1  ID
2   115        7   8
3   115       47  48
4   115       52  53
5   115       54  55
6   115       31  32
7   115       61  62
8   115       58  59
9   115       26  27
10  115       23  24
11  115       25  26
12  115       36  37
13  115       27  28
14  115        8   9
15  115       29  30
16  115       57  58
17  115       34  35
18  115       48  49
    条件列  level_1   ID
19  116      187  188
20  116      253  254
21  116      137  138
22  116      280  281
23  116      123  124
..  ...      ...  ...

91  116      195  196
92  116      245  246
93  116      310  311
94  116      308  309
95  116      239  240

[77 rows x 3 columns]

Pandas sample()用于从DataFrame中随机选择行和列。

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

n：这是一个可选参数, 由整数值组成, 并定义生成的随机行数。
frac：它也是一个可选参数, 由浮点值组成, 并返回浮点值数据帧值的长度。不能与参数n一起使用。
replace：由布尔值组成。如果为true, 则返回带有替换的样本。替换的默认值为false。
weights：它也是一个可选参数, 由类似于str或ndarray的参数组成。默认值”无”将导致相等的概率加权。
如果正在通过系列赛；它将与索引上的目标对象对齐。在采样对象中找不到的权重索引值将被忽略, 而在采样对象中没有权重的索引值将被分配零权重。
如果在轴= 0时正在传递DataFrame, 则返回0。它将接受列的名称。
如果权重是系列；然后, 权重必须与被采样轴的长度相同。
如果权重不等于1；它将被标准化为1的总和。
权重列中的缺失值被视为零。
权重栏中不允许无穷大。
random_state：它也是一个可选参数, 由整数或numpy.random.RandomState组成。如果值为int, 则为随机数生成器或numpy RandomState对象设置种子。
axis*：它也是由整数或字符串值组成的可选参数。 0或”行”和1或”列”。

DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')

level：数值类型可以为：int、str、tuple或list，默认无，仅从索引中删除给定级别。默认情况下移除所有级别。控制了具体要还原的那个等级的索引。

drop：当指定 drop=False时，则索引列会被还原为普通列；否则，经设置后的新索引值被会丢弃。默认为 False。

inplace：输入布尔值，表示当前操作是否对原数据生效，默认为 False。

col_level：数值类型为int或str，默认值为0，如果列有多个级别，则确定将标签插入到哪个级别。默认情况下，它将插入到第一级。

col_fill：对象，默认”，如果列有多个级别，则确定其他级别的命名方式。如果没有，则重复索引名。

四、实例分析

import pandas as pd
data = pd.read_excel('30.xlsx');
test = data.groupby('条件列').ID.apply(lambda x: x.sample(frac=0.3)).reset_index()
print(test)

学习上面内容后，我们分析上面代码:

1.读取文件

groupby()进行特征划分

3.选取 ID列操作

apply(lambda x: x.sample(frac=0.3))展开为:

def test(x):
  return x.sample(frac=0.3)

reset_index()方法进行恢复原数据索引以及格式

Original: https://blog.csdn.net/qq_17802895/article/details/119548069
Author: 阿狸的情书
Title: pandas操作excel之groupby

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/740981/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas之数据结构解析——Series的介绍

作为数据分析师，在日常生活中我们会接触到各种各样的需求，其中excel更必不可少，面对庞大数据量，快速的需求我们该如何处理，这时Pandas就显得举足轻重，可以快速有效的处理表格数…

Python 2023年8月19日
0039
Django学习之旅（二）创建数据模型及数据迁移

Django也属于面先对象的编程方式，因此以对象的形式承载数据及与数据库进行传输。创建数据模型在blog应用的models.py中编写数据模型，数据模型都必须继承models….

Python 2023年8月4日
0062
基于Pytorch实现的声音分类

前言本项目是基于Pytorch的声音分类项目，旨在实现对各种环境声音、动物叫声和语种的识别。项目提供了多种声音分类模型，如EcapaTdnn、PANNS、ResNetSE、CAM…

Python 2023年9月16日
0043
【愚公系列】2022年04月 Python教学课程 64-DRF框架之序列化器

1.设置新环境在我们做任何其他事情之前，我们将使用venv创建一个新的虚拟环境。这将确保我们的软件包配置与我们正在进行的任何其他项目保持良好的隔离。 python3 -m ven…

Python 2023年8月5日
0052
matplotlib: AttributeError:‘DataFrame‘ object has no attribute ‘xx‘

画图的时候，发现bug：读取data文件发现没有相应的属性。问题在：csv文件的数据格式不对吧，正确格式应该为： “”,”Education&…

Python 2023年8月7日
0054
搞AI开发，你不得不会的PyCharm技术

摘要：PyCharm在AI项目开发提供了优秀的代码编辑、调试、远程连接和同步能力，在开发者中广受欢迎。使用PyCharm插件配合ModelArts：一键帮助用户配置远程Mode…

Python 2023年10月28日
0046
一道Python题引发的，一个知识点的探讨：删除列表中特定元素的几种方法

题目如下：给定一个仅包含大小写字母和空格 ‘ ‘ 的字符串 s，返回其最后一个单词的长度。如果字符串从左向右滚动显示，那么最后一个单词就是最后出现的单词。…

Python 2023年6月9日
0061
HashMap为何线程不安全？HashMap，HashTable，ConcurrentHashMap对比

这两天写爬虫帮组里收集网上数据做训练，需要进一步对收集到的json数据做数据清洗，结果就用到了多线程下的哈希表数据结构，猛地回想起自己看《Java并发编程的艺术》框架篇的时候，在C…

Python 2023年10月13日
0049
FastDDS（3）xml配置文件详解

XML配置文件 eProsima Fast DDS允许加载XML配置文件，每个文件包含一个或多个XML配置。除了用于加载用户XML文件的API函数外，Fast DDS还尝试在初始化…

Python 2023年9月29日
0045
4-pytest之高阶用法-appium测试补充

1，fixture 修饰器用来标记固定的工厂函数，在其他函数、模块、类或者整个工程调用他时会被激活优先执行，通常被用作完成预处理和重复操作注释：工厂函数工厂函数都是类对象, …

Python 2023年9月13日
0043
机器学习基础

Linear Regression 线性回归 cost function 代价函数 [J(\theta_0,\theta_1) = \frac{1}{2m} \sum^m_{i=1…

Python 2023年6月6日
0080
做自动化测试选择Python还是Java？

你好，我是测试蔡坨坨。今天，我们来聊一聊测试人员想要进阶，想要做自动化测试，甚至测试开发，如何选择编程语言。自动化测试，这几年行业内的热词，也是测试人员进阶的必备技能，更是软件…

Python 2023年10月24日
0039
轻量级网络-MobileNetv1 论文解读

1、相关工作标准卷积分组卷积从 Inception module 到 depthwise separable convolutions 2、MobileNets 结构 2.1…

Python 2023年10月25日
0052
python实现线性插值

插值：是根据已知的数据序列（可以理解为你坐标中一系列离散的点），找到其中的规律，然后根据找到的这个规律，来对其中尚未有数据记录的点进行数值估计。线性插值：是针对一维数据的插值方法。…

Python 2023年8月29日
0058
Python 玩转数据 8 – Pandas Indexing and Slicing

引言本文介绍一下有关 Pandas的数据访问，更多 Python 进阶系列文章，请参考 Python 进阶学习玩转数据系列内容提要：DataFrame 的轴 AxisPand…

Python 2023年8月19日
0038
深入浅出matplotlib(83)：两个信号相干性计算的可视化

在很多应用领域都需要计算两个信号的相干性，比如两个地震信号是否相关的，又或者比如设计的波形，与采集回来的波是否相同。其实最明显的，就是两束光波的相干性，双缝干涉实验会看到明亮相隔的…

Python 2023年9月5日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas操作excel之groupby

大家都在看