python合并根目录下所有表格文件并增加文件名索引

2023年7月8日下午4:13 • 人工智能 • 阅读 54

前言

遇到了批量合并根目录下大量不同格式文件并进行简单处理的需求，在网上没有搜到完全相同的处理，谨在此分享自己不成熟的代码，请大佬们批评指正。

一、代码展示

import os
import pandas as pd
import numpy as np

path =r"文件路径"
#文件所在的根目录

file_name = []
frames = []

print('以下文件未进行合并：\n')

for root,dirs,files in os.walk(path):
    #遍历根目录下的每一个文件
    for file in files:
        if file[-3:]== 'xls' or file[-4:]== 'xlsx':
            file_name.append(file)
            df = pd.read_excel(os.path.join(root,file),skiprows = 0)
            #将excel导入数据库，如需跳过行在skiprows中体现
            df['数据批次'] = file[:-5]
            #为数据库增加以文件名命名的数据批次列
            frames.append(df)
        else:
            print(file,'未合并')
            continue

print("-"*50)
print("已合并的文件为{}".format(file_name))
df1 = pd.concat(frames,sort=True,ignore_index=True)#重新设置索引
print("-"*50)
print("合并后数据的前五行：\n" ,df1.head())
print("-"*50)
print("合并后数据的行数和列数：",df1.shape)
print("-"*50)

df1.to_excel(r"文件保存路径")
print('——————合并完成——————')

二、主要函数

1.os.walk()

遍历根目录下的所有文件，输出文件名。格式如下：

os.walk(top[, topdown=True[, οnerrοr=None[, followlinks=False]]])

top — 是你所要遍历的目录的地址, 返回的是一个三元组(root,dirs,files)。
root 所指的是当前正在遍历的这个文件夹的本身的地址
dirs 是一个 list ，内容是该文件夹中所有的目录的名字(不包括子目录)
files 同样是 list , 内容是该文件夹中所有的文件(不包括子目录)
topdown –可选，为 True，则优先遍历 top 目录，否则优先遍历 top 的子目录(默认为开启)。如果 topdown 参数为 True，walk 会遍历top文件夹，与top 文件夹中每一个子目录。
onerror — 可选，需要一个 callable 对象，当 walk 需要异常时，会调用。
followlinks — 可选，如果为 True，则会遍历目录下的快捷方式(linux 下是软连接 symbolic link )实际所指的目录(默认关闭)，如果为 False，则优先遍历 top 的子目录。

os.walk() 可以用于遍历多层文件夹下的所有文件，与 os.listdir(path) 只能用于一层文件列表不同。

与 os.path.isdir() 和 os.path.isfile() 结合使用，可分别输出根目录下文件夹名称列表和文件名称列表。

2.pd.concat()

pandas中著名的数据合并函数之一，格式如下：

pd.concat(
        objs,
        axis=0,
        ignore_index=False,
        join='outer',
        keys=None,
        levels=None,
        names=None,
        verify_integrity=False,
        copy=True
        sort=sort，
)

主要参数：

objs — 表达方式为[df1,df2,df3…]
axis — 默认axis = 0，指拼接方式为横向或纵向，axis = 1时不会合并相同列。
join — 默认’outer’，意为两者取并集，’inner’意为两者取交集。
ignore_index — 是否统一重设索引，默认为False
keys — 为每个合并项添加数据来源，但此项表达形式与数据列不同，如下图所示：

与 pd.merge() 作为区分的是， pd.concat()功能侧重于合并，可以对多个数据源进行操作，而pd.merge() 侧重于比对，按照一列中的关键字进行拼接，因此只能用于两个数据源之间

Original: https://blog.csdn.net/qq_45614048/article/details/125608624
Author: goose_is_null
Title: python合并根目录下所有表格文件并增加文件名索引

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678841/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SpringBoot+Mybaits搭建通用管理系统实例六：登录健权框架实现下

; 一、本章内容接上一章实现系统登录功能，本章实现短信验证码登录、二维码扫码登录、图片验证码生成等。完整课程地址源码下载地址 ; 二、开发视频 SpringBoot+Myba…

人工智能 2023年6月29日
00116
【计量经济学导论】14. 定性响应回归模型

线性概率模型当我们在用多元线性回归模型去解释一个二值结果时，该模型就成为线性概率模型。为什么是线性概率，我们在后面的分析中便可以看到。对于线性概率模型，其模型设定为：Y = β…

人工智能 2023年6月18日
0061
机器学习入门：第三章逻辑(Logistic)回归 TensorFlow 回归计算(7)

接下来使用 TensorFlow 学习框架实现逻辑分类， TensorFlow的框架也在后面会有介绍，通过逻辑回归算法，对 TensorFlow了解也会更加深刻，在 Tensor…

人工智能 2023年6月17日
0093
基于眼底照片的病理性近视眼及识别

摘要在临床医学上，眼科医生依据眼底疾病患者的眼底彩照图像进行详细的筛查与诊断并给出具体的治疗方案。然而，由于每位眼科医生的临床诊断经验存在差异，这将会严重影响人工诊断的效率与效…

人工智能 2023年6月21日
0058
分类-对数几率回归（逻辑回归）算法

文章目录简介激活函数损失函数优化算法代码前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。简介对数几率回归（Logi…

人工智能 2023年6月18日
00119
【OpenCV】车辆识别 C++ OpenCV 原理介绍 + 案例实现

目录前言一、图像处理 💻二值化处理 💻膨胀、腐蚀 💻开运算、闭运算二、案例实现 Step1：灰度处理 Step2：对视频进行帧差处理 Step3：二值化处理 Step4：腐蚀…

人工智能 2023年6月22日
0079
如何处理有监督学习算法中的缺失数据

如何处理有监督学习算法中的缺失数据在有监督学习算法中，数据集中的缺失值是一个常见的问题。缺失值可能会导致模型的性能下降甚至无法正常工作。因此，我们需要一种方法来处理缺失数据，以确…

人工智能 2024年1月2日
0041
给BP神经网络设置初始权重(matlab)

关于《老饼讲解-BP神经网络》：本网结构化讲解神经网络的知识，原理和代码。重现matlab神经网络工具箱的算法，是学习神经网络的好助手。 01.问题 02. 思路 03. Demo…

人工智能 2023年6月15日
0077
时空图卷积网络：一种用于交通预测的深度学习框架

由于交通流的高度非线性和复杂性，传统方法不能满足中长期预测任务的要求，其往往忽略了空间和时间依赖性。在本文中，我们提出了一种新的深度学习框架，时空图卷积网络（STGCN），以解决交…

人工智能 2023年6月15日
0053
达观知识图谱, 辅助企业智能运营和决策

一、知识图谱的含义每个领域都有自己的行业经验、规则、分类、约定俗成的做法等，这些都可以视为行业的”知识”，这些知识汇总在一起，相互联通，构成的一个知识网络…

人工智能 2023年6月4日
0069
安卓第五次作业

1. 实验环境： Windows系统，Android Studio 近场通信的介绍 2.1 三种主要近场通信技术的特点 NFC：NFC是Near Field Communicati…

人工智能 2023年5月27日
00100
使用Mongoose populate实现多表关联存储与查询，内附完整代码

文章目录使用Mongoose populate实现多表关联与查询 * 一、数据模型创建 – 1. 创建一个PersonSchema 2. 创建一个StorySche…

人工智能 2023年7月29日
0046
Python图像读写方法对比

训练视觉相关的神经网络模型时，总是要用到图像的读写。方法有很多，比如matplotlib、cv2、PIL等。下面比较几种读写方式，旨在选出一个最快的方式，提升训练速度。因为训练使…

人工智能 2023年6月3日
0067
【亲测通过】MaskRcnn_tf1.x如何升级到MaskRcnn_tf2.x，实现RTX3090环境训练自定义数据集模型。

一、背景: 之前一篇博文中已经实现了maskrcnn_tf1.15.0环境的win10+cpu模型训练，但cpu训练实在是非常的耗时，据说tf1.x是支持RTX1060的（本人未测…

人工智能 2023年7月9日
0064
【camera】1. 相机硬件组成

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月22日
0055
OpenAI对强化学习环境的汇总

文章目录 * – 视频游戏类 – + 飞行小鸟 + gym-derk + MineRL + Procgen + Slime Volleyball + ML-…

人工智能 2023年6月10日
0082

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python合并根目录下所有表格文件并增加文件名索引

1.os.walk()

2.pd.concat()

大家都在看