Pandas使用操作(二)

2023年7月6日下午5:39 • 人工智能 • 阅读 46

获取列名

1、df.columns

df.columns[0]

2、list(df)

list(df)[0]

3、df.keys()

df.keys()[0]

将空字符串替换为nan

dataframe.iloc[:,0].str.split(',',expand=True).replace('',np.nan)

将NaN替换成None

df = df.where(df.notnull(), None)

查找输出，不改变原本内容

tps_name.DESC_out.fillna('')

几列数据合并成一列

方法1：+

使用 + 直接将多列合并为一列（合并列较少）；

dataframe["newColumn"] = dataframe["age"].map(str) + dataframe["phone"] + dataframe["address"]

方法2：str.cat

使用 pandas.Series.str.cat方法，将多列合并为一列（合并列较多）；

dataframe["newColumn"] = dataframe["age"].map(str).str.cat([dataframe["phone"],dataframe["address"]],sep='-',na_rep='?')

Series.str.cat(others=None, sep=None, na_rep=None, join=None)

others ： 准备合并的字符串列表，其数据类型可以为：Series, Index, DataFrame, np.ndarrary（N元数组） or list-like（类似列表）
备注：由于默认join=None，所以欲合并的两个（多个）字符串列表必须具有相同的长度，否则需设置参数join= {‘left’, ‘right’, ‘outer’, ‘inner’}，来控制多个字符串列表的合并方式。
（1）如果others=None（即：字符串列表df[col_1]不与其他字符串列表合并），结果将不传递其他值，而是将df[col_1]的所有值都连接成一个字符串；（详见范例1-1）
（2）如果others≠None（即：指定了与字符串列表df[col_1]合并的其他字符串列表df[col_2]），结果将用分隔符把df[col_1]与df[col_2]对应的行值连接在一起，返回Series。（详见范例1-2）
sep：合并结果中不同元素/列之间的分隔符。默认情况下，使用空字符串’ ‘ 。
na_rep：为所有缺失值插入的内容，其数据类型可以为：str或None，默认na_rep=None
备注：
（1）如果na_rep=None，则多个合并列中只要有一列的对应行元素为NaN，合并结果中该行元素将为NaN；
（2）如果na_rep=’str'(str需自定义)，则合并列中各缺失行元素将被填充为’str’，合并结果将保留合并列的所有行元素；
join ：确定连接方式，其可能的取值为：{‘left’, ‘right’, ‘outer’, ‘inner’}，默认join=None

注意事项：

参与合并的列的数据类型 必须为str类型，int和float等数值类型需先转化为str；
参与合并的 列的长度必须相同（即：行数），否则报错，但使用pandas.Series.str.cat方法，可通过指定参数join={‘left’, ‘right’, ‘outer’, ‘inner’}，实现长度不相等的列合并；
参与合并的 列的各行元素均不为NaN，否则，只要有一列的对应行元素为NaN，则合并结果中该行将为NaN，但使用pandas.Series.str.cat方法，可通过指定参数na_rep=’-‘，将各列中缺失行元素填充为’-‘，从而保留合并列的所有行元素；

分列split

Series.str.split(pat=None, n=-1, expand=False)

– pat 分隔符 – n 指定分割次数 -1代表全部 – expand=True 分列返回多列

df = pd.DataFrame({'id':[1, 2],'code':['A,B,C', 'B,C']})
df.code.str.split(',')

df.code.str.split(',')
'''
0    [A, B, C]
1       [B, C]
Name: code, dtype: object
'''

df.code.str.split(',', expand=True)
'''
   0  1     2
0  A  B     C
1  B  C  None
'''

df.code.str.split(',', expand=True, n=1)
'''
   0    1
0  A  B,C
1  B    C
'''

s = pd.Series(["1+1=2"])
s.str.split(r"\+|=", expand=True)
'''
   0  1  2
0  1  1  2
'''

从右往左寻找分列依据，使用语法类似 split。

df['code'].str.rsplit(',', expand=True, n=1)
'''
     0  1
0  A,B  C
1    B  C
'''

分组Grop

分组运算过程：split->apply->combine

拆分：进行分组的根据
应用：每个分组运行的计算规则
合并：把每个分组的计算结果合并起来

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)

聚合函数

; 分组聚合

import pandas as pd
df = pd.DataFrame({'A': ['a', 'b', 'a', 'c', 'a', 'c', 'b', 'c'], 'B': [2, 8, 1, 4,
3, 2, 5, 9], 'C': [102, 98, 107, 104, 115, 87, 92, 123], 'D': [2, 98, 17, 14, 15, 7, 92,
 13]})

df.groupby(by='A').sum()
    B    C    D
A
a   6  324   34
b  13  190  190
c  15  314   34

df.groupby(by=['A','B']).sum()
       C   D
A B
a 1  107  17
  2  102   2
  3  115  15
b 5   92  92
  8   98  98
c 2   87   7
  4  104  14
  9  123  13

df.groupby(by=['A','B'])['C','D'].sum()
       C   D
A B
a 1  107  17
  2  102   2
  3  115  15
b 5   92  92
  8   98  98
c 2   87   7
  4  104  14
  9  123  13

import numpy as np
df.groupby(by=['A']).agg({'C':[np.mean, 'sum'], 'D':['count',np.std]})
            C          D
         mean  sum count       std
A
a  108.000000  324     3  8.144528
b   95.000000  190     2  4.242641
c  104.666667  314     3  3.785939

df.groupby(by=['A']).agg({'C':[np.mean]})
            C
         mean
A
a  108.000000
b   95.000000
c  104.666667
type(df.groupby(by=['A']).agg({'C':[np.mean]}))
<class 'pandas.core.frame.DataFrame'>

df.groupby(by=['A'])['C'].mean()
A
a    108.000000
b     95.000000
c    104.666667
Name: C, dtype: float64
type(df.groupby(by=['A'])['C'].mean())
<class 'pandas.core.series.Series'>

遍历分组

import pandas as pd
import numpy as np
ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
         'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
         'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
         'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
         'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)
grouped = df.groupby('Year')

使用 groupby对象，可以遍历类似 itertools.obj的对象。

for name,group in grouped:
    print (name)
    print (group)

print (grouped.get_group(2014))

print (grouped['Points'].agg(np.mean))
grouped = df.groupby('Team')
agg = grouped['Points'].agg([np.sum, np.mean, np.std])
print (agg)

grouped = df.groupby('Team')
score = lambda x: (x - x.mean()) / x.std()*10
print (grouped.transform(score))

filter = df.groupby('Team').filter(lambda x: len(x) >= 3)
print (filter)

排序sort_index


df.sort_index(ascending=False)

df.sort_values(by="A",ascending=False)
df.sort_values(by=["B","A"],ascending=False)

两个DataFrame操作

df1=pd.DataFrame([[1,2,3],[2,3,4]],columns=['a','b','c'])
df2=pd.DataFrame([[2,3,4],[3,4,5]],columns=['d','e','f'])
df3=pd.DataFrame([[1,2,3],[2,3,4]],columns=['a','b','d'])

1.合并

concat函数

pandas中concat函数的完整表达，包含多个参数，常用的有axis,join,ignore_index.

concat函数的第一个参数为objs，一般为一个list列表，包含要合并两个或多个DataFrame，多个Series

pandas.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
           keys=None, levels=None, names=None, verify_integrity=False,
           copy=True)

axis表示合并方向，默认axis=0，两个DataFrame按照索引方向纵向合并,axis=1则会按照columns横向合并。

pd.concat([df1,df2],axis=1)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-plDhbfTm-1640228340389)(C:\Users\21000123\AppData\Roaming\Typora\typora-user-images\image-20211223100947051.png)]
2. join表示合并方式，默认join=’outer’，另外的取值为’inner’,只合并相同的部分，axis=0时合并结果为相同列名的数据，axis=1时为具有相同索引的数据

pd.concat([df2,df3],axis=0,join='inner')
pd.concat([df2,df3],axis=1,join='inner')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RmYemBvd-1640228340391)(C:\Users\21000123\AppData\Roaming\Typora\typora-user-images\image-20211223101046171.png)]
3. ignore_index表示索引的合并方式，默认为False，会保留原df的索引，如果设置ignore_index=True，合并后的df会重置索引。

pd.concat([df1,df2],ignore_index=True)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4a4t9Wn2-1640228340392)(C:\Users\21000123\AppData\Roaming\Typora\typora-user-images\image-20211223101143385.png)]

merge函数

merge函数是pandas提供的一种数据库式的合并方法。
on可以指定合并的列、索引，how则是与数据库join函数相似，取值为left,right,outer,inner.left,right分别对应left outer join, right outer join.

pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
          left_index=False, right_index=False, sort=False,
          suffixes=('_x', '_y'), copy=True, indicator=False,
          validate=None):

merge函数可以通过pandas.merge(df1,df2)、df1.merge(df2)两种形式来实现两个DataFrame的合并,df1.merge(df2)是默认left=self的情况

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VYOOaWlz-1640228340392)(C:\Users\21000123\AppData\Roaming\Typora\typora-user-images\image-20211223101533161.png)]

append函数

append函数是pandas针对DataFrame、Series等数据结构合并提供的函数。

df1.append(self, other, ignore_index=False, verify_integrity=False)

f1.append(df2)与pd.concat([df1,df2],ignore_index=False)具有相同的合并结果

df1.append(df2)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Teap9Xtw-1640228340393)(C:\Users\21000123\AppData\Roaming\Typora\typora-user-images\image-20211223101626042.png)]

2.并集/合集/差集

df1 = pd.DataFrame([[1,11,111],[2,22,222],[3,33,333]],columns=['id','data','comment'])
df2 = pd.DataFrame([[0,00,000],[1,11,111],[2,22,222],[4,44,444]],columns=['id','data','comment'])

intersection_result = pd.merge(df1, df2)
print(intersection_result)

union_result = pd.merge(df1, df2, how='outer')
print(union_result)

df1 = df1.append(df2)
df1 = df1.append(df2)
differenct_set_result = df1.drop_duplicates(['id'],keep=False)
print(differenct_set_result)

Original: https://blog.csdn.net/ErnestW/article/details/122102111
Author: ErnestW
Title: Pandas使用操作(二)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674447/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

kylin学习记录总结

文章目录概述 * 主要特点核心概念注意事项 * 在hive中准备数据星形模型维度表的设计 hive表的分区了解维度的基数 – 维度基数的计算设计cube …

人工智能 2023年7月17日
0048
推荐系统笔记：决策树&回归树

决策树和回归树经常用于数据分类。决策树是为那些因变量（target，label）是分类的情况而设计的，而回归树是为那些因变量（target，label）是数值的情况而设计的。在…

人工智能 2023年6月18日
0069
@Valid和@Validated注解校验以及异常处理

文章目录前言一、@Valid注解 * 1、源码解析 2、所属的包 3、参数校验使用注解 – （1）空校验（2）Boolean校验（3）长度校验（4）日期校验 …

人工智能 2023年6月30日
0093
OpenCV-Python实战（18）——深度学习简介与入门示例

[ _OpenCV_是一款非常强大的计算机视觉库，其中包含了很多功能强大的图像处理和计算机视觉算法。而在这个系列的第三篇文章中，我们将重点介绍如何在 _OpenCV_中绘制图形和文…

人工智能 2023年6月17日
00108
点云配准–gicp原理与其在pcl中的使用

文章目录 gicp统一模型（Generalized-ICP） plane to plane ICP(gicp：相对于点到点和点到面加入概率模型（协方差阵）) PCL中GICP代码应…

人工智能 2023年6月15日
0065
大三学生HTML期末作业,网页制作作业——HTML+CSS+JavaScript饮品饮料茶(7页)

🎀 精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月27日
0084
不好好作图的NCS系列(五)：从这篇Cell学习GSEA的R语言分析及作图

之前我们在讲转录组系列的时候，说过差异基因的功能富集，用的是GO和KEGG分析。但是这远远不够，很多研究者更喜欢使用GSEA，全名是Gene Set Enrichment Anal…

人工智能 2023年7月18日
0049
Outlier Detection Based on Fuzzy Rough Granules in Mixed Attribute Data论文精读

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0071
全是狠活！SpringBoot文档也太那个了，图文并茂详尽讲解

前沿 SpringBoot是由Pivotal团队提供的在Spring框架基础之上开发的框架，其设计目的是用来简化应用的初始搭建以及开发过程。SpringBoot本身并不提供Spri…

人工智能 2023年6月27日
0069
批量多开独立Google浏览器

批量多开独立Google浏览器背景需求：每个浏览器上收藏的书签、增加的拓展程序都可以实现独立性。实现思路使用命令行参数 –user-data-dir=D:\myChrom…

人工智能 2023年6月30日
00300
Glcm 灰度共生矩阵，保姆级别教程，获取图片的Glcm和基于Glcm的纹理特征,附讲解思路,python代码的实现

保姆级别教程，获取图片的Glcm和基于Glcm的纹理特征,附讲解思路,python代码的实现网络上Glcm的原理很多,但是实现的python代码我确实没找到,讲的也不是很清楚此文介…

人工智能 2023年5月26日
00150
kaldi中文语音识别(一)：multi_cn

网上有很多用kaldi中的aishell,thchs30来做语音识别的。这两个方案的语音数据量都比较少，所以效果可能不够好。这里采用multi_cn方案，它集合了所有opensl…

人工智能 2023年5月25日
0062
tensorflow调用并实现注意力机制

1 什么是注意力机制当我们看一张图片时，我们会直接聚焦到我们最关心的事情上，比如我们只会看到兔子，而忽略了兔子嘴里的草和蓝天白云。注意力机制是你模仿人脑自动捕捉最重要的信息的能力…

人工智能 2023年5月23日
0078
DIY界的新宠儿：一款风靡开发者人群的“改装神器”

随着智能家居概念的流行，越来越多的人想把自己的家改造成智能家居。但智能家电的价格普遍偏高，如何亲力亲为，以低成本的方式快速体验智能家居的便利？ [En] With the popu…

人工智能 2023年5月27日
0074
金融数据挖掘Jupyter—北京市二手房数据分析—课设

基于北京市各区二手房的数据分析（1）房源数据分析与可视化 1.北京二手房房源分布2.户型分布关系3.楼层与房源的分布关系 ; （2）房价数据分析与可视化 1.房价与房屋户型的关系…

人工智能 2023年6月11日
0081
吴恩达深度学习课程第一章第四周编程作业

文章目录声明一、任务描述二、编程实现 * 1.数据处理 2.初始化神经网络参数 3.前向传播 – 3.1线性前向传播 3.2非线性+线性前向传播 3.3 前向传播…

人工智能 2023年7月14日
0056

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30