数据分析—pandas的高级操作

2023年6月11日上午10:29 • 人工智能 • 阅读 61

一、替换操作(replace)

替换操作可以同步作用与Series和DataFrame中

df.replace(to_replace , value , replace , …) #将所有 to_replace 替换成value
df.replace(to_replace={4:5},value=’five’ ) #将指定列的元素进行替换，re_place{列索引：被替换的值}
df.replace(to_replace={1:’one’} ) #字典形式的替换，将1替换成’One’

二、映射操作(map)

概念：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定（给一个元素值提供不同的表现形式）——字典形式的映射关系表
创建一个df，两列分别是姓名和薪资，然后给其名字起对应的英文名

Series_data. map( dic) #只能给Series数据进行映射(dic)
map只能是Series的方法，只能被Series调用

三、运算工具(map)

需求：超过3000部分的钱需要缴纳50%的税，计算每个人的税后薪资

四、排序实现的随机抽样

take([隐式索引]，axis=1) #将原始数据按隐式索引打乱（列打乱）
np.random.permutation(n) #产生0~n的随机数

将原始数据的列打乱（axis=1）

在此基础上将原始数据的行进行打乱（axis=0）

随机取样

五、数据的分类处理

数据分类处理的核心
groupby(by , )函数
groups属性查看分组情况

对原始数据的水果进行分类并查看分组情况

为什么要进行分组呢？为了进行聚合【分组聚合】——计算每一种说过的平均价格

将计算出的每种颜色的平均重量汇总到源数据，需要用到映射——map(dic),字典数据。

六、高级数据聚合

当我们分好组之后，想进行一个聚合操作，但是这个聚合操作并没有被pandas封装，那么就需要我们自己封装一个聚合操作，例如mean()。

transform( ) #返回映射后的结果
apply( ) #返回没有映射的结果

七、数据加载

读取type-.txt文件

读取数据库中的数据

八、透视表

透视表是一种可以对数据动态排列并且分类汇总的表格格式。在Excel中常用，而在pandas中被称作pivot_table。
透视表优点：
灵活性高，可以随意定制你的分析计算要求
脉络清晰易于理解数据
操作性强，报表神器
导入数据

参数index

参数values

参数aggfunc

参数columns

九、交叉表

是一种用于计算分组的特殊透视表，对数据进行汇总
pd.crosstab(index,columns)
index：分组数据，交叉表的行索引
columns：交叉表的列索引
原始数据

求出各个性别（列）抽烟（行）的人数

求出各个年龄段（行）抽烟（列）人的情况

Original: https://blog.csdn.net/S1406793/article/details/123497393
Author: S1406793
Title: 数据分析—pandas的高级操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/599838/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

手把手教你使用LabVIEW人工智能视觉工具包快速实现图像读取与采集

文章目录前言一、工具包位置二、图像采集与色彩空间转换 * 1.文件读写 2.实现图片读取 3.使用算子cvtColor实现颜色空间转换三、从摄像头采集图像 * 1.Came…

人工智能 2023年6月17日
0055
知识图谱 (1)基本概念

1 . 定义知识图谱是由一些相互连接的实体和它们的属性构成的，是用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。用来揭示实体之间关系的语…

人工智能 2023年6月1日
0061
Softmax回归识别验证码（手写数字）

我们首先来学习softmax regression和one-hot encoding。这次本次实验需要学习和机器学习相关的两个重要概念。我们之前学过逻辑回归。由于Logistic …

人工智能 2023年6月17日
0079
读入一幅图像，对图像分别进行高斯低通、巴特沃兹低通、高斯高通和巴特沃兹高通频域滤波，比较其锐化和平滑效果。

↵ 1、高斯低通二维高斯低通滤波器定义如下： D0为截止频率与原点的距离，D(u,v)是点(u,v)与原点的距离。图像表示：读入图片并得到频谱图，后续搭建高斯低通滤波器如下…

人工智能 2023年6月18日
00107
数字图像处理：实验三图像增强

实验三图像增强图像增强是数字图像处理过程中常采用的一种方法。为了改善视觉效果或便于人和机器对图像的理解和分析，根据图像的特点或存在的问题采取的改善方法或加强特征的措施称为图像增…

人工智能 2023年6月17日
0077
讯飞tts语音引擎_讯飞输入法A.I.语音引擎再升级更强大更实用！

时代在进步，用手打字已OUT，眼下是语音的大时代。近日，讯飞输入法Android版和iOS版更新A.I.语音引擎，进一步优化通用语音识别效果，同时还基于说话人和使用场景，重点提升 …

人工智能 2023年5月27日
00110
基于区域生长的图像分割算法！

图像分割的目的是将图像划分为多个不同的区域，所以我们可以直接从寻找图像中的区域来设计分割算法。区域生长正是一种基于区域寻找的传统图像分割算法。区域生长基本原理区域生长（Regi…

人工智能 2023年6月18日
0070
数学建模-分类模型（基于logistic回归）

基于logistic回归的分类模型：对于二分类模型，采用基础逻辑回归(logistic regression) 对于多分类模型，采用多分类逻辑回归模型要求（针对01 logis…

人工智能 2023年6月30日
0078
Python Pandas读取文件和DataFrame、Series的基本使用

1.读取文件和数据属性的基本查看方法数据类型读取方法csv,tsv,txtpd.read_csv(filepath)excelpd.read_excel(filepath)mys…

人工智能 2023年7月16日
0071
【医学图像处理】融合 Transformer 和 CNN 进行医学图像分割

标题：TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation作者：Yundong Zhang，…

人工智能 2023年6月17日
00159
pandas 数据类型之 Series

这里，才 python 前沿。可惜是英文原版。所以，我要练习英文阅读。🧐🧐 我的CSDN主页 My Python 学习个人备忘录我的_HOT_ 博老齐教室自学并不是什么神秘的…

人工智能 2023年7月8日
0060
面向过程程序设计——循环结构程序设计（2）

N元钱买 N只鸡，公鸡每只5元，母鸡每只3元，小鸡1元3只， N元钱必须刚好买 N只鸡，而且鸡必须整只买，不能劈开买。有几种买法呢？这就是N鸡问题。在一行中输入一个正整数 N。…

人工智能 2023年6月27日
0094
Transformers训练和微调：Training and Fine-tuning

Transformers种的模型类旨在兼容 Pytorch和 Tensorflow2，并且可以无缝地在其中使用。本节，会展示如何使用标准的训练工具从头开始训练或微调一个模型。此外，…

人工智能 2023年5月27日
0058
没有二十年功力，写不出 Thread.sleep(0) 这一行“看似无用”的代码

这篇文章要从一个奇怪的注释说起，就是下面这张图：我们可以不用管具体的代码逻辑，只是单单看这个 for 循环。在循环里面，专门有个变量 j，来记录当前循环次数。第一次循环以及往…

人工智能 2023年7月31日
0072
CUDA升级和版本切换方法

1.查看CUDA版本 echo $PATH 输出:/usr/local/cuda-11.1/bin:/usr/local/cuda-10.1/bin:… 哪个在前面哪个…

人工智能 2023年7月4日
0083
《知识图谱》赵军目录

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据分析—pandas的高级操作

大家都在看