python模块pandas库常用操作小结

2023年8月16日上午8:23 • Python • 阅读 43

记录一些个人在python的pandas库常用的操作的小结，方便后续开发记录，同时助人助己。

持续更新中

按数据格式，读取excel、csv等，输出列名、获取总量。

import os
import pandas as pd
import numpy as np
from progressbar import ProgressBar

if __name__ == "__main__":
    folderpath = os.getcwd()  # 获取当前工作目录路径
    pathfile = folderpath + '\\' + '文件.xlsx'
    types_path = {'源端':str, '宿端':str}
    pathlist = pd.read_excel(pathfile,sheet_name=0,usecols=[1,6,8],dtype=types_path)
    #其中sheet_name=0表示第一张sheet表，usecols=[1,6,8]表示只读取其中第2,7,9列，dtype表示按照某指定格式读入
    tilte = pathlist.columns #获取列名
    count = len(pathlist) #获取总量

获得某一行某一列的元素

print(df.at[a,'B']) #获取第a行，列名为B的元素

2.1 删除

删除某一行（注：删除后index不会自动变化）

df= df.drop(a) #删除index=a的一行

按某几列为关键词，删除重复项

df.drop_duplicates(subset=['AA','BB','CC'],keep='first',inplace=True)
#删除AA,BB,CC列都一样的重复项，keep=first保留第一条，inplace=True更改原有df

删除空白行，并订正index索引

df=df.dropna().reset_index(drop=True)

删除符合特定条件的行

resultlist = resultlist.drop(resultlist[resultlist['A'].str.contains('A列中需要删除')].index)
resultlist = resultlist.drop(resultlist[].index)

2.2 字典

生成字典，并对应字典查找

'''
字典形如：
celname celid
谢晋  1042500
崔嵬  1031007
祝希娟 1305487
陈强  1043190
王苹  1322505
张良  1316341

需要生成：
{'谢晋':'1042500','崔嵬':'1031007'}

'''
if __name__ == "__main__":
    folderpath = os.getcwd()  # 获取当前工作目录路径
    prizelistfile = folderpath + '\\' + 'pri.xlsx'
    mapfile = folderpath + '\\' + 'celurl.xlsx'
    targetpath = folderpath + '\\' + 'year.xlsx'
    types = {'celname':str, 'celid':int}
    prilist = pd.read_excel(prizelistfile)
    maplist = pd.read_excel(mapfile, dtype=types)
    maplist.set_index('celname',drop=True, append=False, inplace=True)
    count = prilist.shape[1]
    celmap=maplist.to_dict('dict')['celid']
    celmap = dict(celmap) #生成字典
    for i in range(0,count) :
        prilist.iloc[:, i] = prilist.iloc[:, i].map(celmap) #在字典中查找对应
    print("**************")
    print(prilist)
    prilist.to_excel(targetpath,index=False)

使用字典替换代换内容

vc = {'VC1': 1, 'VC2':2, 'VC3':3}
pathlist['list'] = pathlist['list'].map(vc)

2.3 生成新dataframe并导出

arr = []
for i in range(0,len(pf_source)):
        source = str(pf_source['源'][i])
        des = str(pf_source['宿'][i])
        path = get_path(source,des)
        arr.append([source, path])
pf_target = pd.DataFrame(arr,columns = ['源','路径'])

2.4 合并

pf3= pd.concat([pf1,pf2],ignore_index=True)
#将pf1与pf2联合，重新生成index

2.5 修改

按照某一列数值生成内容

#方法1: np.where
apl['涨跌'] = np.where(apl[3]>0,'涨',np.where(apl[3]==0,'平','跌'))

#方法2: np.select
conditions = [apl[3]>0,apl[3]==0,apl[3] 0:
        return '涨'
    elif number == 0:
        return '平'
    else:
        return '跌'

 df['涨跌'] = df['p_change'].map(number_to_flag)

#方法4: lambda
def do_merchant(x,y):
    return y/x
A_2Vehicle_count['vehicle_count']=map(lambda x,y:do_merchant(x,y),A_2Vehicle_count['ave_time'],A_2Vehicle_count['sum_time'])

2.6 分类汇总

分类汇总

total = df.groupby(by=['a'])['b'].sum()
意思是对字段a进行分组然后通过字段B进行求和汇总
返回Series类型对象。 a会变成index b则成为值
total=total.to_frame().reset_index()
#转换为dataframe

3.1 Series转换为dataFrame并修改索引

total=total.to_frame().reset_index()

Original: https://blog.csdn.net/weixin_40173467/article/details/123367853
Author: SilverSofa
Title: python模块pandas库常用操作小结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/750968/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Scrapy问题总结

1.问题一问题：使用scrapy crawl spider -o spider.csv命令保存为csv文件时输出的结果没有按照items的顺序来，网上搜了很多解决方法，都是要新建…

Python 2023年10月1日
0055
基于Java+Springboot+Vue+elememt社区疫情返乡管控系统设计实现

博主介绍： ✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技…

Python 2023年8月2日
0074
需求建设原则

软件测试行业从2000年到2010年随着互联网信息产业的迅速掘起，经历了十年初始累积阶段。2010年后开始迅速发展，直到现在2020年，各种培训机构迅速扩张、高校课程开展、企业在软…

Python 2023年6月3日
0068
JavaScript基础(15)_数组

对象分为三种：内建对象、宿主对象、自定义对象。内建对象内建对象是指由ECMAScript事先提供的、不依赖于宿主环境的对象，这些对象在程序运行之前就已经存在，并可以直接在程序中…

Python 2023年9月29日
0045
【Flask实战】Flask知识点总结（一）

📃内容主要来自《Flask Web开发实战：入门、进阶与原理解析》作者：李辉😏面向群体： flask初学者可用来复习知识点已经有flask开发经验可用来收藏备查 📱有问题随时与我…

Python 2023年8月13日
0042
Model-based learning 简单实践

从样本集进行归纳的方法是建立这些样本的模型，然后使用这个模型进行预测，这叫作基于模型学习（Model-based learning）。例如，你想知道钱是否能让人快乐？下面是一个简…

Python 2023年10月28日
0052
python plot函数的功能和使用方法_Python关于Matplotlib的绘图功能（包括Matplotlib的安装方法）,python,之,matplotlib,画图,函数,含…

题目：使用matplotlib库里的相关函数，完善图表要求： 1、给图表添加标题 “Results of 500 slot machine pulls”；…

Python 2023年9月5日
0078
【26】地图可视化：基于 Echarts + Flask 的动态实时地图组件 – 点&气泡&流向&组合&区域&三级下钻地图

目录一、大屏整体架构?Echarts + Flask + Bootstrap 1. 效果展示动态效果 ?鼠标右键切换主题 2. 前端布局?Bootstrap 3. HTTP 服…

Python 2023年8月12日
0069
python row column_python的pandas模組實用dataFrame技巧- 新增一行(column)或一列(row)資料…

版本資訊: Spyder->python3.7 pandas版本0.23.4 假設我們用pandas的dataFrame來存學生的成績資料表: import pandas a…

Python 2023年8月8日
0050
导入csv文件python并打印_读取csv文件并打印其结果

In [5]: import pandas as pd rogramming/master/2014/Python/Numerical-Descriptions-of-the-Da…

Python 2023年8月8日
0060
Django笔记-实现用户退出登录(logout)

测试 from django.contrib.auth import login, authenticate, logout from django.views import Vi…

Python 2023年8月4日
00122
【强烈推荐】Python中JSON的基本使用（超详细）

Python中JSON的基本使用 1. JSON简介 2. JSON语法规则 3. JSON数据类型 4. JSON对象 5. JSON数组 6. JSON中常用的方法 * 6.1…

Python 2023年8月1日
0067
turtle画蟒蛇

import turtle turtle.setup(650,350,200,200) turtle.penup() turtle.fd(-250) turtle.pendown(…

Python 2023年9月19日
0054
Python 周期任务神器，太实用了

前言如果你想在Linux服务器上周期性地执行某个 Python 脚本，最出名的选择应该是 Crontab 脚本，但是 Crontab 具有以下缺点： 1.不方便执行秒级的任务。 …

Python 2023年5月24日
0070
pytest框架–前后置（setup/teardown+fixture装饰器)

pytest前后置处理有2种方法一、通过setup/teardown实现添加setup和teardown方法，作用于每个方法执行前后添加setup_class/teardown_…

Python 2023年9月11日
0050
pandas分析数据常用代码【自用】

目录 * – 列批量处理 – 替换列内容 – 改变列顺序 – 去除前三列 – pd.concat 数据拼接 &#8211…

Python 2023年8月21日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31