Python实现增值税发票OCR(带源码)

2023年6月17日上午3:14 • 人工智能 • 阅读 63

发票识别日常生活中经常能用到，之前浏览博客发现类似的文章，但源码只给了一小部分，所以决定自己来实现。

1.原始图片视角变换及裁剪：

现实中，我们拍照不可能像扫描那样端正，图片中的票据总会有这样那样的视角上的歪斜，使用这样的图片直接来识别极易出错，为了提高识别的准确性，我们需要先将图片预处理为扫描样式的正视图，并将不属于票据的图片部分剪切掉。

针对这一过程，参考相关资料本项目采用”整体图片边缘检测”（采用cv2.Canny函数）、”票据轮廓检测”（采用cv2.findContours函数），得到所需处理票据的轮廓，之后确定票据的四个顶点，最后使用cv2.getPerspectiveTransform和cv2.warpPerspective对于原始图片进行透视变换得到相应的票据的正视图。

2.根据已知位置识别相应文字：

作为第一个版本，简单起见，这里采用了提前找到感兴趣的如发票代码、销售方名称、备注等条目的位置，直接在上述正视图图片中截取对应的区域的方式找到相应信息的图片，通过cnocr库对于得到的区域图片进行文字识别。

3.将识别到的信息保存到相应excel文件中：

import cv2import numpy as npfrom cnocr import CnOcrimport pandas as pdfrom pandas import DataFrameimport os#后续生成票据图像时的大小，按照标准增值税发票版式240mmX140mm来设定height_resize = 1400width_resize = 2400# 调整原始图片尺寸def resizeImg(image, height=height_resize):h, w = image.shape[:2]pro = height / hsize = (int(w * pro), int(height))img = cv2.resize(image, size)return img# 边缘检测def getCanny(image):# 高斯模糊binary = cv2.GaussianBlur(image, (3, 3), 2, 2)# 边缘检测binary = cv2.Canny(binary, 60, 240, apertureSize=3)# 膨胀操作，尽量使边缘闭合kernel = np.ones((3, 3), np.uint8)binary = cv2.dilate(binary, kernel, iterations=1)return binary# 求出面积最大的轮廓def findMaxContour(image):# 寻找边缘contours, _ = cv2.findContours(image, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)# 计算面积max_area = 0.0max_contour = []for contour in contours:currentArea = cv2.contourArea(contour)if currentArea > max_area:max_area = currentAreamax_contour = contourreturn max_contour, max_area# 多边形拟合凸包的四个顶点def getBoxPoint(contour):# 多边形拟合凸包hull = cv2.convexHull(contour)epsilon = 0.02 * cv2.arcLength(contour, True)approx = cv2.approxPolyDP(hull, epsilon, True)approx = approx.reshape((len(approx), 2))return approx# 适配原四边形点集def adapPoint(box, pro):box_pro = boxif pro != 1.0:box_pro = box/probox_pro = np.trunc(box_pro)return box_pro# 四边形顶点排序，[top-left, top-right, bottom-right, bottom-left]def orderPoints(pts):rect = np.zeros((4, 2), dtype=”float32″)s = pts.sum(axis=1)rect[0] = pts[np.argmin(s)]rect[2] = pts[np.argmax(s)]diff = np.diff(pts, axis=1)rect[1] = pts[np.argmin(diff)]rect[3] = pts[np.argmax(diff)]return rect# 计算长宽def pointDistance(a, b):return int(np.sqrt(np.sum(np.square(a – b))))# 透视变换def warpImage(image, box):w, h = pointDistance(box[0], box[1]), \pointDistance(box[1], box[2])dst_rect = np.array([[0, 0],[w – 1, 0],[w – 1, h – 1],[0, h – 1]], dtype=’float32′)M = cv2.getPerspectiveTransform(box, dst_rect)warped = cv2.warpPerspective(image, M, (w, h))return warped# 统合图片预处理def imagePreProcessing(path):image = cv2.imread(path)# 转灰度、降噪#image = cv2.cvtColor(image, cv2.COLOR_RGB2GRAY)#image = cv2.GaussianBlur(image, (3,3), 0)# 边缘检测、寻找轮廓、确定顶点ratio = height_resize / image.shape[0]img = resizeImg(image)binary_img = getCanny(img)max_contour, max_area = findMaxContour(binary_img)boxes = getBoxPoint(max_contour)boxes = adapPoint(boxes, ratio)boxes = orderPoints(boxes)# 透视变化warped = warpImage(image, boxes)# 调整最终图片大小height, width = warped.shape[:2]#size = (int(width*height_resize/height), height_resize)size = (width_resize, height_resize)warped = cv2.resize(warped, size, interpolation=cv2.INTER_CUBIC)return warped# 截取图片中部分区域图像，测试阶段使用，包括显示与保存图片，实际使用时不使用这个函数，使用下面的正式版函数def cropImage_test(img, crop_range, filename=’Undefined’):xpos, ypos, width, height = crop_rangecrop = img[ypos:ypos+height, xpos:xpos+width]if filename==’Undefined’: #如果未指定文件名，采用坐标来指定文件名filename = ‘crop-‘+str(xpos)+’-‘+str(ypos)+’-‘+str(width)+’-‘+str(height)+’.jpg’cv2.imshow(filename, crop) #展示截取区域图片—测试用#cv2.imwrite(filename, crop) #imwrite在文件名含有中文时会有乱码，应该采用下方imencode—测试用# 保存截取区域图片—测试用cv2.imencode(‘.jpg’, crop)[1].tofile(filename)return crop# 截取图片中部分区域图像def cropImage(img, crop_range):xpos, ypos, width, height = crop_rangecrop = img[ypos:ypos+height, xpos:xpos+width]return crop# 从截取图片中识别文字def cropOCR(crop, ocrType):if ocrType==0:text_crop_list = ocr.ocr_for_single_line(crop)elif ocrType==1:text_crop_list = ocr_numbers.ocr_for_single_line(crop)elif ocrType==2:text_crop_list = ocr_UpperSerial.ocr_for_single_line(crop)text_crop = ”.join(text_crop_list)return text_cropif name == ‘main‘:# 实例化不同用途CnOcr对象ocr = CnOcr(name=”) #混合字符ocr_numbers = CnOcr(name=’numbers’, cand_alphabet=’0123456789′) #纯数字ocr_UpperSerial = CnOcr(name=’UpperSerial’, cand_alphabet=’0123456789ABCDEFGHIJKLMNPQRSTUVWXYZ’) #编号，只包括大写字母(没有O)与数字# 截取图片中部分区域图像-名称crop_range_list_name = [‘发票代码’, ‘发票号码’, ‘开票日期’,’校验码’, ‘销售方名称’, ‘销售方纳税人识别号’,’销售方地址电话’, ‘销售方开户行及账号’, ‘价税合计’,’备注’]# 截取图片中部分区域图像-坐标crop_range_list_data = [[1870, 40, 380, 38], [1867, 104, 380,38], [1866, 166, 380, 50],[1867, 230, 450, 50], [421, 1046, 933, 46], [419, 1091, 933, 48],[420, 1145, 933, 47], [421, 1193, 933, 40], [1892, 976, 414, 48],[1455, 1045, 325, 38]]# 截取图片中部分区域图像-使用ocr的类型，0：混合字符，1：纯数字，2：编号crop_range_list_type = [1, 1, 0,1, 0, 2,0, 0, 0,0]# 预处理图像path = ‘test.jpg’warped = imagePreProcessing(path)# 展示与保存预处理的图片—测试用#cv2.imshow(‘warpImage’, warped)cv2.imwrite(‘result.jpg’,warped)# 处理预处理图像并将结果保存到text_ocr列表中text_ocr = []for i in range(len(crop_range_list_data)):#filename = crop_range_list_name[i]+’.jpg’ #测试阶段保存截取图片时使用的文件名，实际使用时不需要crop = cropImage(warped, crop_range_list_data[i])crop_text = cropOCR(crop, crop_range_list_type[i])crop_text = crop_text.replace(‘o’,’0′) #发票中不会有小写字母o，凡是出现o的都使用0替代print(crop_range_list_name[i],’:’,crop_text)text_ocr.append(crop_text)# 按年月来保存结果到xlsx文件中，计算文件名date_temp = text_ocr[2].split(‘年’)year_num = date_temp[0]month_num = date_temp[1].split(‘月’)[0]filename = year_num+’-‘+month_num+’.xlsx’# 如果文件还没建立，新建文件if not os.path.exists(filename):dic = {}for i in range(len(crop_range_list_name)):dic[crop_range_list_name[i]] = []df = pd.DataFrame(dic)df.to_excel(filename, index=False)data = pd.read_excel(filename)if not int(text_ocr[1]) in data[‘发票号码’].values.tolist():new_line_num = data.shape[0]data.loc[new_line_num] = text_ocrDataFrame(data).to_excel(filename, index=False, header=True)else:print(path,’is already in’,filename,’!’)cv2.waitKey(0)

Original: https://blog.csdn.net/egowell/article/details/126626760
Author: egowell
Title: Python实现增值税发票OCR(带源码)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/628149/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【机器学习】聚类算法——DBSCAN算法（理论+图解）

🌠 『精品学习专栏导航帖』 🐳最适合入门的100个深度学习实战项目 🐳 🐙【PyTorch深度学习项目实战100例目录】项目详解 + 数据集 + 完整源码 🐙 🐶【机器学习入门项目…

人工智能 2023年6月2日
00149
GMX 命令分类列表

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0070
【python】pandas的excel处理：员工薪水分析

导入数据并把数据读出 import pandas as pd data = pd.read_csv("salaries.csv") data.head() 删除…

人工智能 2023年7月17日
0041
Pyltp的安装使用笔记

Pyltp的安装使用笔记 LTP（Language Technology Platform）提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、…

人工智能 2023年5月28日
00100
Framework对于不同硬件平台如CPU、GPU、FPGA等有何不同的适配支持

概述在计算机科学领域，硬件平台的快速发展使得软件框架对于不同硬件平台的适配支持变得非常重要。本文将重点讨论软件框架在不同硬件平台（如CPU、GPU、FPGA等）上的适配支持。首先…

人工智能 2024年1月1日
0023
自然语言处理之词性标注（POS）

一、概念：词性标注（Part-of-Speech tagging 或POS tagging)，又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确…

人工智能 2023年5月31日
00103
Regression回归数据分析的步骤

一、前言利用回归进行数据分析，在现实中具有广泛的应用，用于发现事物之间的关系。假设你是一个制造工程师，老板要求你对某化学产品的合成产出率进行分析，以便用于优化设备参数。此时，由于…

人工智能 2023年6月18日
0035
多模态融合 2022|DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection阅读笔记

论文题目：DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection（前融合）单位：googl…

人工智能 2023年5月28日
0075
【毕业设计】基于python与大数据的旅游景点数据分析与可视化

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月14日
0075
【网络编程套接字】基于TCP协议的网络程序

本节知识所需代码已同步到gitee –》https://gitee.com/ZMZZZhao/linux-git/tree/master/tcp 本文收录于专栏：Lin…

人工智能 2023年6月26日
0060
给课题组师弟师妹们的开荒手册

0 写在前面掐指算算，掐头去尾还有半年就要结束我的研究生生活了。翻看自己整个博客，每一篇都记录了自己跌跌撞撞的轨迹。犹记得研一时，由于gap一年导致丧失学习能力，计算机视觉课程大…

人工智能 2023年7月28日
0071
[笔记]Pytorch框架下的入门应用：resnet34实现分类

导师的课题需要用到图片分类；入门萌新啥也不会，只需要实现这个功能，给出初步效果，不需要花太多时间了解内部逻辑。经过一周的摸索，建好环境、pytorch，终于找到整套的代码和数据集，…

人工智能 2023年7月1日
00104
人工智能总结笔记

文章目录 * – 二、知识表示 – + 1、产生式表示 + 2、产生式系统 + 3、产生式表示法的特点 + * 3.1、表示法法的优点 * 3.2、表示法的…

人工智能 2023年6月28日
0067
使用OpenCV进行特征（颜色、形状）提取

图像处理图像处理所做的只是从图像中提取有用的信息，从而减少数据量，但保留描述图像特征的像素。下面从图像中提取颜色、形状和纹理特征的方法开始 1. 颜色每次处理图像项目时，图像…

人工智能 2023年5月26日
0095
替换骨干网络之后使用预训练模型进行训练

最近看了几篇使用transformer的文章，于是想用其中的一个transformer模块来替换另一个方法的骨干网络(backbone)，替换完之后跑起来感觉没有什么效果，想着可能…

人工智能 2023年7月23日
0055
平方预测误差(Squared prediction error，SPE)和霍特林统计量（Hotelling’s T2）原理

读Paper读的头炸（原因：太菜），坚持每天简单通俗总结一下！故障检测是多变量过程监控的第一步。通常，SPE（或Q-统计量）和霍特林的T2指数分别用于监测RS和PCS的正常变异…

人工智能 2023年7月15日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python实现增值税发票OCR(带源码)

2.根据已知位置识别相应文字：

3.将识别到的信息保存到相应excel文件中：

大家都在看