10个Pandas的小技巧

2023年7月8日上午12:09 • 人工智能 • 阅读 77

pandas是数据科学家必备的数据处理库，我们今天总结了10个在实际应用中肯定会用到的技巧

1、Select from table where f1=’a’ and f2=’b’

使用AND或OR选择子集

 dfb = df.loc[(df.Week == week) & (df.Day == day)]

OR的话是这样

 dfb = df.loc[(df.Week == week)|(df.Day == day)]

2、Select where in

从一个df中选择一个包含在另外一个df的数据，例如下面的sql

 select * from table1 where field1 in (select field1 from table2)

我们有一个名为”days”的df，它包含以下值。

如果有第二个df:

可以直接用下面的方式获取

 days = [0,1,2]
 df[df(days)]

3、Select where not in

就像IN一样，我们肯定也要选择NOT IN，这个可能是更加常用的一个需求，但是却很少有文章提到，还是使用上面的数据：

 days = [0,1,2]
 df[~df(days)]

使用

操作符就可以了

4、select sum(*) from table group by

分组统计和求和也是常见的操作，但是使用起来并不简单

 df(by=['RepID','Week','CallCycleDay']).sum()

如果想保存结果或稍后使用它们并引用这些字段，请添加 as_index=False

 df.groupby(by=['RepID','Week','CallCycleDay'], as_index=False).sum()

使用as_index= false，可以表的形式保存列

5、从一个表更另外一个表的字段

我们从一个df中更改了一些值，现在想要更新另外一个df，这个操作就很有用。

 dfb = dfa[dfa.field1='somevalue'].copy()
 dfb['field2'] = 'somevalue'
 dfa.update(dfb)

这里的更新是通过索引匹配的

6、使用apply/lambda创建新字段

我们创建了一个名为address的新字段，它是几个字段进行拼接的。

 dfa['address'] = dfa.apply(lambda row: row['StreetName'] + ', ' +
              row['Suburb'] + ', ' + str(row['PostalCode']),axis=1)

7、插入新行

插入新数据的最佳方法是使用concat。我们可以用有pd. datafframe .from_records一将新行转换为df。

 newRow = row.copy()
 newRow.CustomerID = str(newRow.CustomerID)+'-'+str(x)
 newRow.duplicate = True
 df = pd.concat([df,pd.DataFrame.from_records([newRow])])

8、更改列的类型

可以使用astype函数将其快速更改列的数据类型

 df = pd.read_excel(customers_.xlsx')
 df['Longitude'] = df['Longitude'].astype(str)
 df['Latitude'] = df['Longitude'].astype(str)

9、删除列

使用drop可以删除列

 def cleanColumns(df):
   for col in df.columns:
     if col[0:7] == "Unnamed":
       df.drop(col, inplace=True, axis=1)
   return df

10、地图上标注点

这个可能是最没用的技巧，但是他很好玩

这里我们有一些经纬度的数据

现在我们把它根据经纬度在地图上进行标注：

 df_clustercentroids = pd.read_csv(centroidFile)
 lst_elements = sorted(list(dfm.cluster2.unique()))
 lst_colors = ['#%06X' % np.random.randint(0, 0xFFFFFF) for i in range(len(lst_elements))]
 dfm["color"] = dfm["cluster2"]
 dfm["color"] = dfm["color"].apply(lambda x:lst_colors[lst_elements.index(x)])

 m = folium.Map(location=[dfm.iloc[0].Latitude,dfm.iloc[0].Longitude], zoom_start = 9)

 for index, row in dfm.iterrows():
   folium.CircleMarker(location=[float(row['Latitude']), float(row['Longitude'])],radius=4,popup=str(row['RepID']) + '|' +str(row.CustomerID),color=row['color'],fill=True,fill_color=row['color']
 ).add_to(m)

 for index, row in df_clustercentroids.iterrows():
   folium.Marker(location=[float(row['Latitude']), float(row['Longitude'])],popup=str(index) + '|#=' + str(dfm.loc[dfm.cluster2==index].groupby(['cluster2'])['CustomerID'].count().iloc[0]),icon=folium.Icon(color='black',icon_color=lst_colors[index]),tooltip=str(index) + '|#=' + str(dfm.loc[dfm.cluster2==index].groupby(['cluster2'])['CustomerID'].count().iloc[0])).add_to(m)

 m

结果如下

https://avoid.overfit.cn/post/5165608a2a274f9e9c0f6ba0db92f42d

作者：Shaun Enslin

Original: https://blog.csdn.net/m0_46510245/article/details/127404921
Author: deephub
Title: 10个Pandas的小技巧

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677373/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

动物数据集+动物分类识别训练代码(Pytorch)

Pytorch实现动物识别(含动物数据集和训练代码) 目录动物数据集+动物分类识别训练代码(Pytorch) 1. 前言 2. Animals-Dataset动物数据集说明（1…

人工智能 2023年7月21日
0064
卷积神经网络中卷积核的参数为什么是四个

卷积神经网络的卷积核参数笔者最近在学卷积神经网络，想起来我的某位同学问了我一个问题：为什么卷积神经网络中卷积核的参数是四个，为什么要把输出output也写入，即为什么与输出有关？…

人工智能 2023年7月13日
0052
代码随想录算法训练营day52||674. 最长连续递增序列||718. 最长重复子数组||1143.最长公共子序列

思路：动规五部曲： 1.确定dp数组及其下标的含义： dp[i]: 以下标i为结尾的数组的连续递增的子序列长度为dp[i]。注意这里定义，一定是以下标i为结尾，并不是一定以下标…

人工智能 2023年6月30日
0074
比你更了解你，浅谈用户画像（二）

作者介绍 @王志杰明略科技的大数据架构师；毕业于北京大学计算机科学与技术专业。往期回顾：比你更了解你，浅谈用户画像（一） 02 为什么要做用户画像？前面所讲的内容，是对于…

人工智能 2023年7月18日
0059
pandas两个数据结构Series与DataFrame使用

seires 对象 1.创建一个series对象 Series() 语法：s=pd.Series(data,index=index) 参数说明： data：表示数据，支持Pytho…

人工智能 2023年7月6日
0054
python 最小外接矩形笔记

目录最小外接矩形角度计算： opencv生成最小外接矩形：最小外接矩形修正版：最小外接矩形角度计算： rect = cv2.minAreaRect(merged_contou…

人工智能 2023年7月19日
0050
应用案例| FDISYSTEMS公司DETA10系列产品为3000台运动体提供导航

近期FDISYSTEMS公司向机器人企业出货了3000余套DETA10芯片级惯性组合导航系统，为其移动机器人提供精确的运动感知和导航。真空防静电铝箔包装带有干燥剂防潮色卡 BGA…

人工智能 2023年6月2日
0090
QT+OSG/osgEarth编译之十六：libxml2+Qt编译（一套代码、一套框架，跨平台编译，版本：libxml2-2.10.3）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月29日
0066
动手学强化学习（一）：多臂老虎机 Multi-armed Bandit

动手学强化学习（一）：多臂老虎机 Multi-armed Bandit 1. 简介 2. 问题介绍 * 2.1 问题定义 2.2 形式化表述 2.3 累积懊悔 2.4 估计期望奖励…

人工智能 2023年7月13日
0074
写Python爬虫又被屏蔽了，你现在需要一个稳定的代理IP

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月4日
0069
【Python八股文系列】：100个Python的面试/笔试高频考点

Python的100个面试/笔试高频考点本文主要整理了关于Python的面试/笔试的一些考点，可用于查漏补缺。涉及到的一些Python进阶知识，可以查看专栏学习：《Python…

人工智能 2023年7月3日
0047
机器学习-第2关：信息熵与信息增益

import numpy as np def calcInfoGain(feature, label, index): ”’ 计算信息增益 :param f…

人工智能 2023年7月28日
0068
pandas填充空数组_python – 创建一个空的Pandas DataFrame,然后填充它？

这里有几个建议： import datetime import pandas as pd import numpy as np todays_date = datetime.dat…

人工智能 2023年7月8日
00116
Unity游戏开发：对话系统的实现

在解谜类游戏中，与npc的对话是一个基础且常用的功能。通常来说，在与npc的对话中玩家可以获取一些有价值的信息并对之后的游戏有一定的导向作用。此外，在玩家获取对应物品前后，与npc…

人工智能 2023年7月29日
0095
PIL.image保存图片

1.原图 1.首先PIL保存图片的时候,图片类型一定要是ndarray类型,不能是tensor类型,否则报错 img=cv2.imread("./epoch034_ite…

人工智能 2023年7月30日
0043
【配置环境】RTX3050安装pytorch（安装CUDA11.3版本）

目录参考链接 0 查询NVIDIA GPU算力（可跳过） 1 创建虚拟环境 2 在线安装GPU版本参考链接强力推荐👉Pytorch1.10安装记录（CUDA11.3） RTX…

人工智能 2023年7月21日
0045

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31