用 Python 开发了一个 PDF 抽取Excel表格的小工具

2023年6月4日下午2:43 • 人工智能 • 阅读 114

大家好哇
从 PDF 里 copy 表格时，粘贴出来后格式都是错乱的。这麻烦事交给 Python 再合适不过里，我开发了一个从 PDF 抽取表格另存为 Excel 文件的应用，我把它部到 huggingface 了,同学可以直接去感受一下：

https://huggingface.co/spaces/beihai/PDF-Table-Extractor

使用方法

准备一个PDF（暂不支持扫描版）

页面中上传PDF，也不支持过大的200M以上的文件，如果太大，大家可以先去压缩一下，我记得adobe官网有就类似小工具。

上传完成后，选择表格所在PDF的页码，等待片刻就会出现”提起完成，点击下载”

下载Excel，格式还需要微调，不过比直接复制出来的要好很多了，能节省一些时间。

目前这个工具我还在完善，比如直接梭哈，抽取PDF中所有表格，敬请期待。

实现方法之后再公布吧，其实经常看我文章的同学应该都很熟悉了吧。
之前在腾讯的这个算法，我搬到了网上，随便玩！一文中有介绍

本文代码能在huggingface看到，其实也是刚刚调试好，觉得有用，期待三连。

Original: https://www.cnblogs.com/jpld/p/16441296.html
Author: 机器学习算法与Python
Title: 用 Python 开发了一个 PDF 抽取Excel表格的小工具

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568530/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

视觉机器学习20讲-MATLAB源码示例（18）-深度学习算法

视觉机器学习20讲-MATLAB源码示例（18）-深度学习算法 1. 深度学习算法 2. Matlab仿真 3. 仿真结果 4. 小结 ; 1. 深度学习算法深度学习(DL, D…

人工智能 2023年6月22日
0065
学习笔记13–障碍物检测之基于图像障碍物检测

本系列博客包括6个专栏，分别为：《自动驾驶技术概览》、《自动驾驶汽车平台技术基础》、《自动驾驶汽车定位技术》、《自动驾驶汽车环境感知》、《自动驾驶汽车决策与控制》、《自动驾驶系统设…

人工智能 2023年6月2日
0068
MYSQL 主从复制 — binlog

一个MYSQL数据库存在的问题在谈主从复制之前，应该都会有一个疑问，那么就是一个MYSQL数据库存在的问题呢？读和写所有压力都由一台数据库承担，压力大数据库服务器磁盘损坏则数…

人工智能 2023年7月31日
0053
深度学习目标检测模型测试评价指标的选取及介绍

文章目录测试指标的选取 * 一、精度评价指标 – 1. MAP（平均准确度均值） + 1.1 mAP定义及相关概念 1.2 mAP的具体计算 2. 准确率（Acc…

人工智能 2023年6月17日
0076
python_DataFrame的loc和iloc取数据基本方法总结

文章目录 1.准备一组DataFrame数据 2.loc 标签索引 * 2.1 loc 获取行 – 2.1.1 loc 获取一行 2.1.2 loc 获取多行 2.1….

人工智能 2023年7月4日
0051
统计学习：模型评估与选择–查准率与查全率（python代码）

对于模型的性能度量存在多种方式，评价分类器性能的指标一般是分类准确率，其定义是：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。对于二分类问题常用的评价指标是精确率(p…

人工智能 2023年7月1日
0075
R语言使用factor函数将字符串向量转化为因子向量、使用levels函数查看因子的水平

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月11日
0076
sklearn基础篇（三）– 鸢尾花(iris)数据集分析和分类

后面对Sklearn的学习主要以《Python机器学习基础教程》和《机器学习实战基于scikit-learn和tensorflow》，两本互为补充进行学习，下面是开篇的学习内容。 …

人工智能 2023年6月30日
00110
【PIE-Engine Studio学习笔记06】图像分类——监督分类

一、图像分类含义图像分类是将图像中每个像元根据其在不同波段的光谱亮度、空间结构特征或者其他信息，按照某种规则或算法划分为不同的类别。基于光谱特征的遥感影像分类方法主要包括：非监…

人工智能 2023年6月30日
0092
视频字幕识别（百度AI开放平台OCR | python | opencv）

目标：提取位于视频下方的字幕机缘：某些要写报告的学习视频太长了orz，弄字幕来参考一下难点：基本策略：具体代码如下：定义调用百度开放平台OCR的函数百度官方的ocr可以…

人工智能 2023年7月20日
00132
人脸表情识别系统的设计与实现(含UI界面，有完整代码)

人脸表情识别系统的设计与实现(含UI界面，有完整代码) 这是之前本科做的毕设，当时使用的是keras搭建了一个简单的神经网络作为入门实现了在fer2013人脸表情数据集上的表情分类…

人工智能 2023年6月17日
00173
通俗易懂的机器学习——python手动实现DBSCAN聚类算法（不依赖已有框架）

手动实现DBSCAN算法 DBSCAN的工作原理 DBSCAN手动实现 * 依赖包手写DBSCAN类代码参数分析代码测试 DBSCAN的特点以及应用场景 DBSCAN的工作原…

人工智能 2023年5月31日
0070
基于决策树算法对良/恶性乳腺癌肿瘤预测

本人数据结构课程设计如题所示，现给出该课设的具体设计思路及代码演示，供大家学习，交流，共同学习（部分代码借鉴GitHub大佬）内容简介：决策树(Decision Tree）是在…

人工智能 2023年7月27日
0075
Python遍历目录下的文件（os.walk 、os.listdir的用法）

最近想从一个目录转移一些文件到另外一个目录，因为文件有指定的后缀，所以想着用python来转移，不做cv工程师，那就涉及到如何遍历目录（子目录）？下面主要介绍两种方式，os.wa…

人工智能 2023年7月4日
0045
决策树之基尼指数理解

基尼指数和信息熵都是用来描述系统混乱度的量数学形式不一样，干的事是一样的不纯度（impurity）–GINI系数：（不纯度就是混乱度）公式例子（与信息熵干的是一…

人工智能 2023年6月15日
0094
图像分类算法篇——LeNet-5

LeNet-5为卷积神经网络架构的鼻祖，它是由Yann Lecun于1998年创建，已经被广泛应用于手写体数字识别一、网络架构 LeNet-5架构层类型特征图大小内核大小步幅激…

人工智能 2023年6月20日
0088

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

用 Python 开发了一个 PDF 抽取Excel表格的小工具

使用方法

大家都在看