【Python系列专栏】第六十五篇 Python中 Pandas 数据转换

2023年8月8日上午10:38 • Python • 阅读 61

7.2 数据转换

Pandas 另一类重要操作是过滤、清理以及其他的转换工作。

7.2.1 移除重复数据

DataFrame的 duplicated方法返回一个布尔型 Series，表示各行是否是重复行（前面出现过的行）。还有一个与此相关的 drop_duplicates方法，它会返回一个 DataFrame，重复的数组会标为False。【这两种方法默认会判断全部列，也可以指定部分列进行重复项判断。例如，只希望根据某一列过滤重复项，只需要传参到上面的方法中。】

duplicated和drop_duplicates默认保留的是第一个出现的值组合。传入keep=’last’则保留最后一个。

7.2.2 利用函数或映射进行数据转换

希望根据数组、Series或DataFrame列中的值来实现转换工作。

Series的 map方法可以 接受一个函数或含有映射关系的字典型对象，但是如果碰到一些映射的对象中有些值的首字母大写了，而有些则没有，就需要使用 Series的 str.lower方法，将各个值转换为小写。

例如：

lowercased=data['food'].str.lower()

data['animal']=lowercased.map(meat_to_animal)

使用map是一种实现 元素级转换以及 其他数据清理工作的便捷方式。

7.2.3 替换值

使用 fillna方法填充缺失数据可以看做值替换的一种特殊情况。

replace产生一个新的Series（除非传入inplace=True）

data=pd.Series([1,-999,2.,-999,-1000,3.])
data.replace(-999,np.nan)
data.replace([-999,-1000],np.nan)
data.replace([-999,-1000],[np.nan,0])

data.replace({-999:np.nan,-1000:0})

注意： data.replace方法与 data.str.replace不同，后者做的是字符串的元素级替换。

7.2.4 重命名轴索引

将重命名的值赋给index，可以对DataFrame进行就地修改：

data.index=data.index.map(transform)

如果想要创建数据集的转换版（不是修改原始数据），采用 rename方法：rename可以集合字典型对象实现对部分轴标签的更新。

data.rename(index=str.title,columns=str.upper)

rename可以实现复制DataFrame并对其索引和列标签进行赋值。如果希望就地修改某个数据集，传入inplace=True即可：

data.name(index={'ohho':'OHHO'},inplace=True)

7.2.5 离散化和面元划分

为了便于分析， 连续数据常常被 离散化或拆分为” 面元“。

比如希望划分不同的年龄组：

import numpy as np
import pandas as pd
from numpy import nan as NA

ages=[20,22,25,27,21,23,37,31,61,45,41,32]

将上面这些数据划分为不同的年龄段，如18~ 25，26~35…

需要使用pandas的 cut函数：

bins=[18,25,35,60,100]
cats=pd.cut(ages,bins)

输出结果：

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

返回的是一个特殊的Categories对象，结果展示了pandas.cut划分的面元。codes属性中有年龄数据的标签。

pd.value_counts(cats)是pandas.cut结果的 面元计数。

pd.value_counts(cats)

(18, 25]     5
(35, 60]     3
(25, 35]     3
(60, 100]    1
dtype: int64

修改面元名称：

传递一个列表或数组到 labels。

例如，labels=group_names；

如果向 cut传入的是 面元的数量而不是确切的面元边界，则会根据数据的最小值和最大值 计算等长面元。

pd.cut(data,4,precision=2)

qcut是类似于 cut的函数，可以根据 样本分位数对数据进行面元划分，得到 大小基本相等的面元。

cut和 qcut函数均是离散化函数，对分位和 分组分析非常重要。

7.2.6 检测和过滤异常值

过滤或变换异常值（outlier）实质是 数组运算。

7.2.7 排列和随机采样

利用 numpy.random.permutation函数可以实现Series或DataFrame的列的排列工作（permuting，随机重排序）。通过需要排列的轴的长度调用permutation，产生一个表示新顺序的整数数组。

df=pd.DataFrame(np.arange(5*4),reshape((5,4)))
sampler=np.random.permutation(5)

df.take(sampler)

sample方法：可以不用替换的方式选取随机子集。

7.2.8 计算指标/哑变量

用于统计建模或机器学习的转换方式是：将 分类变量（categorical variable）转换为” 哑变量“或” 指标矩阵“。

    >&#x5982;&#x679C;DataFrame&#x7684;&#x67D0;&#x4E00;&#x5217;&#x4E2D;&#x542B;&#x6709;k&#x4E2A;&#x4E0D;&#x540C;&#x7684;&#x503C;&#xFF0C;&#x5219;&#x53EF;&#x4EE5;&#x6D3E;&#x751F;&#x51FA;&#x4E00;&#x4E2A;k&#x5217;&#x77E9;&#x9635;&#x6216;DataFrame&#xFF08;&#x5176;&#x503C;&#x5168;&#x4E3A;1&#x548C;0&#xFF09;&#x3002;
    >
    >pandas&#x7684;get_dummies&#x51FD;&#x6570;&#x53EF;&#x4EE5;&#x5B9E;&#x73B0;&#x3002;

df=pd.DataFrame({'key':['b','b','a','c','a','b'],
                'datal':range(6)})
pd.get_dummies(df['key'])

原数据中有3个不同的值，转换后就派生出3列，其值为0或1；

get_dummies的 prefix参数可以实现在指标DataFrame的列加上一个前缀，便于跟其他数据合并。

dummies=pd.get_dummies(df['key'],prefix='key')

df_with_dummy=df[['data1']].join(dummies)

Original: https://blog.csdn.net/Mrrunsen/article/details/116525862
Author: Mrrunsen
Title: 【Python系列专栏】第六十五篇 Python中 Pandas 数据转换

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/742049/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytest fixture及conftest详解

前言 fixture是在测试函数运行前后，由pytest执行的外壳函数。fixture中的代码可以定制，满足多变的测试需求，包括定义传入测试中的数据集、配置测试前系统的初始状态、为…

Python 2023年9月13日
0040
[python]为指定目录下的文件名批量加前缀

使用python为指定目录下的文件批量加前缀前言功能描述：批量重命名指定目录下的文件，文件名加前缀，默认格式为”目录名_原文件名”。示例代码 impo…

Python 2023年6月12日
0055
16. vue3合成API,setup,reactive,toRef,toRefs,Ref,watchEffect,watch,project,inject

合成API 就是是相对应选项API。将相关联的数据和方法放置在一起编排。方便查看修改。setup函数在创建组件之前执行，所以不能用this。它跟data有点类似，都是有返回值，…

Python 2023年8月4日
0046
【数模之数据分析-2】

数据分析之Numpy 四则运算: * 相关程序运行如下：随机模块： * 相关程序运行如下：文件读写： * 相关程序运行如下：数组保存： * 相关程序运行如下： Numpy练习…

Python 2023年8月30日
0042
强化学习-学习笔记13 | 多智能体强化学习

这一篇介绍重头戏：多智能体强化学习。多智能体要比之前的单智能体复杂很多。但也更有意思。 13. Multi-Agent-Reiforcement-Learning 13.1 多智能…

Python 2023年10月29日
0050
41、flask–Restful详解

网络应用程序，分为前端和后端两个部分。当前的发展趋势，就是前端设备层出不穷（手机、平板、桌面电脑、其他专用设备…）。因此，必须有一种统一的机制，方便不同的前端设备与后端…

Python 2023年8月13日
0045
pytest的测试用例标记

在pytest中，有时候我们并不需要对所有的用例全部执行。pytest提供了一种机制：有选择的挑选用例去执行，即标记测试函数。下面详细介绍几种方法给函数标记。 1.使用pytest…

Python 2023年9月11日
0037
pandas 提取大于某值的数据_如何扫描pandas数据帧中所有大于某个值的值，并返回对应于该值的行和列号？…

In [186]: df = pd.DataFrame(np.triu(df, 1), columns=df.columns, index=df.index) In [187]: …

Python 2023年8月8日
0082
【机器学习】手写数字识别

前言 logistic回归，是一个分类算法，可以处理二元分类，多元分类。我们使用sklearn中的logistic对手写数字识别进行实践。数据集 MNIST数据集来自美国国家标准…

Python 2023年5月23日
0098
python数据分析之pandas数据清洗（数据查看、空值的处理）

文章目录 * – 一、准备工作（导入数据） – 二、数据查看 – + 1、查看数据表的基本信息 + 2、空值的与缺失值概念（NAN、NAT） +…

Python 2023年8月2日
0043
Python：对程序做性能分析及计时统计

1.对整个程序的性能分析如果只是想简单地对整个程序做计算统计，通常使用UNIX下的 time命令就足够了。 (base) ➜ Learn-Python ti…

Python 2023年10月30日
0029
Google Earth Engine（GEE）——Python 干旱指标PDSI和植被指数NDVI之间的关系

散点图是可视化两个变量之间关系的好方法。在这里，PDSI（干旱指标）将绘制在 x 轴上，NDVI（植被生产力）绘制在 y 轴上。为此，两个变量必须存在于同一个 DataFrame …

Python 2023年8月7日
0083
python测试开发django-174.模板中include传递参数

前言模板标签语法 {% include %} ,该标签允许在（模板中）包含其它的模板的内容。在多个模板中出现相同的代码时，就应该考虑是否要使用 {% include %} 来减少…

Python 2023年8月5日
0031
Python如何搭建疫苗管理系统

Original: https://www.cnblogs.com/123456feng/p/16026839.htmlAuthor: 蚂蚁ailingTitle: Python如…

Python 2023年5月24日
0061
Python & Django 问题记录

Python & Django 问题记录文章目录 Python & Django 问题记录 * Python MySQL gone away 问题排查 Pytho…

Python 2023年8月6日
0052
使用Django搭建博客网站（一）（超全超细）

可以分为以下几个步骤： 1. 安装首先需要安装，可以通过 pip 命令进行安装： pip install</p> <p> 2. 创建项目在命令行中进…

Python 2023年8月6日
0033

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30