import math

import cv2
import easyocr
import numpy as np
from matplotlib import pyplot as plt

img = cv2.imread('bill.png')
img_gray = cv2.imread('bill.png', 0)
show('result', img)
show('res', img_gray)
img_blur = cv2.GaussianBlur(img_gray, (5, 5), 1)
show('gauss', img_blur)

本段代码实现了图片的读取和灰度转换，并按照一个5*5的卷积核进行高斯滤波操作。高斯滤波的意义在于滤除图像中的噪声点，有利于在提取边界时获得更准确有用的信息。

2.对图片进行canny边缘检测，进一步处理

edges = cv2.Canny(img_blur, 50, 200)
show('canny', edges)
kernel = np.ones((2, 2), np.uint8)
rectKernel = cv2.getStructuringElement(cv2.MORPH_RECT, (15, 15))
edges_close = cv2.morphologyEx(edges, cv2.MORPH_CLOSE, rectKernel)
edges_dilate = cv2.dilate(edges_close, kernel, iterations=3)
show('dilate', edges_dilate)

show('close', edges_close)
show('dilate', edges_dilate)

本段代码对滤波之后的图片实施了canny边缘检测，构建了一个2*2的卷积核并执行了闭操作和膨胀操作。

canny后的结果如图

闭操作结果

膨胀操作结果

可以看出，只进行一次Canny之后图片的边界信息都完整地呈现了出来，但由于我们下一步需要筛选出最外层边界，过多的边界信息会对筛选造成困难，所以加以闭操作和膨胀操作。闭操作使得文字的边界连在了一起，减少了边界的数量，增加了筛选的可靠性。膨胀操作使得边界变粗，增加了轮廓识别的可靠性。

3.轮廓识别，轮廓排序，轮廓近似得到最外层轮廓角点

contours, hierarchy = cv2.findContours(edges_dilate, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
contours = sorted(contours, key=lambda cnts: cv2.arcLength(cnts, True), reverse=True)

img_copy = img.copy()
res = cv2.drawContours(img_copy, contours, 0, (0, 0, 255), 2)
show('res', res)
img_copy = img.copy()
cnt = contours[0]
epsilon = 0.03 * cv2.arcLength(cnt, True)  # epsilon占周长的比例
approx = cv2.approxPolyDP(cnt, epsilon, True)
res2 = cv2.drawContours(img_copy, [approx], -1, (0, 0, 255), 5)
print(approx)
show('res2', res2)
[[lt], [lb], [rb], [rt]] = approx
print(lt, lb, rb, rt)
[ltx, lty] = lt
[lbx, lby] = lb
[rbx, rby] = rb
[rtx, rty] = rt
print(ltx, lty, lbx, lby, rbx, rby, rtx, rty)
lt = (ltx, lty)
lb = (lbx, lby)
rb = (rbx, rby)
rt = (rtx, rty)
print(lt, lb, rb, rt)

本段代码实现了轮廓检测，对检测到的所有轮廓按照长度排序，找出了长度最长的轮廓（小票的外边界）对这个轮廓进行了近似，得到了一个矩形，而且获得了它四个角点的坐标，为下一步进行仿射变换做准备。

cnt画在原图中的效果如下：

4.仿射变换，二值处理

仿射变换
width = max(math.sqrt((rtx - ltx) ** 2 + (rty - lty) ** 2), math.sqrt((rbx - lbx) ** 2 + (rby - lby) ** 2))
height = max(math.sqrt((ltx - lbx) ** 2 + (lty - lby) ** 2), math.sqrt((rtx - rbx) ** 2 + (rty - rby) ** 2))
pts1 = np.float32([[ltx, lty], [rtx, rty], [lbx, lby], [rbx, rby]])
pts2 = np.float32([[0, 0], [width, 0], [0, height], [width, height]])
M = cv2.getPerspectiveTransform(pts1, pts2)
width = int(width)
height = int(height)
dst = cv2.warpPerspective(img, M, (width, height))

plt.subplot(121), plt.imshow(img), plt.title('Input')
plt.subplot(122), plt.imshow(dst), plt.title('Output')
plt.show()
print(dst)
resu = cv2.threshold(dst, 120, 255, cv2.THRESH_BINARY)[1]
plt.imshow(resu), plt.title('Result')
plt.show()
cv2.imwrite('OCR.jpg', resu)

这段代码实现了对小票的”摆正”。前两行求出了小票的宽和高，由于之前获得的角点围成的图形不一定是矩形，这里取了对应边长的最大值。pts1和pts2分别表示四个角点在原图中的坐标和其对应目标位置的坐标。M矩阵是原坐标向目标坐标的变换矩阵，这里可以通过cv自带的getPerspectiveTransform方法计算得出。最后通过warpPerspective方法将M与原图片相乘得到目标图片，另外还进行了二值化处理，保存，以便下一步进行OCR。

运行结果如图

5.文字识别

ocr
创建reader对象

reader = easyocr.Reader(['ch_sim', 'en'])

读取图像

result = reader.readtext('OCR.jpg')
print(result)
for i in result:
    print(i[1])

这段代码调用了easyocr里的方法进行OCR，由于result列表的特殊结构，文字被储存在了每个列表元素的第二项。

运行结果

可以看出easyocr库对中文的支持度还是比较差的，但是基本达到了我们的目的。读者可以通过使用其他的OCR库来达到更高的识别成功率。另外，还可以对仿射变换后的图片进行更加优化的图形学处理来达到更好的效果。

此外，easyocr库需要利用CUDA来实现GPU加速，由于笔者使用的电脑为M1Pro芯片，并非nvadia显卡，故无法使用CUDA，而用CPU跑这段代码需要花一些时间，请大家务必注意。

Original: https://blog.csdn.net/m0_51378142/article/details/123721539
Author: 知欧zhou
Title: OpenCV OCR实战文档扫描与文字检测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638109/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

海康工业相机SDK+OpenCV实例(2)：RawDataFormatConvert详解

海康工业相机SDK+OpenCV实例(2)： RawDataFormatConvert详解文章目录海康工业相机SDK+OpenCV实例(2)： RawDataFormatCon…

人工智能 2023年5月28日
0095
Paddleseg安装

文章目录 PaddlePaddle安装 * CPU版本 GPU版本 – 检查GPU版本是否安装成功 CUDA安装教程 2.下载PaddleSeg代码 3.安装Paddl…

人工智能 2023年5月24日
0053
基于python的语音识别毕业设计_基于matlab的语音识别系统的设计本科毕设毕业论文…

语音识别的主要目的是让机器理解人们在说什么，也就是在各种情况下准确识别语音的内容。 [En] The main purpose of speech recognition is t…

人工智能 2023年5月25日
0061
【python数据分析】-数据清洗与整理python数据分析-数据清洗与整理

python数据分析-数据清洗与整理又开始我的好好学习之旅，这周学习数据分析,居老师日常动力！今天要跟着罗罗攀（公众号：luoluopan1）学pandas数据清洗、合并、重塑…

人工智能 2023年7月8日
0072
YOLOv7——训练自己的数据集

论文地址：https://arxiv.org/abs/2207.02696 源码地址：https://github.com/WongKinYiu/yolov7 下载好代码包，解压后…

人工智能 2023年7月21日
0065
Swin Transformer做主干的 Faster RCNN 目标检测网络（mmdetection）

文章目录 * – + 一、所需软件（包）介绍 + 二、环境搭建 + 三、Swin Transformer Faster RCNN 网络结构图 + 四、Swin Tran…

人工智能 2023年7月9日
00103
【回归预测】MATLAB 实现基于BP神经网络的多变量回归预测

（1）神经元激活函数: 线性激活函数purelin、对数S型激活函数logsig、双曲线正切S型激活函数tansig。（2）BP神经网络生成函数newff 它是用来生成BP神经网…

人工智能 2023年6月12日
0081
Matlab数字图像处理 02 灰度变化（图像直方图、直方图均衡化、直方图匹配）

第二章灰度变化 2.1 图像的亮度、对比度和动态范围 * 2.1.1 亮度 2.1.2 对比度 2.1.3 动态范围 2.2 线性灰度变换 * 2.2.1 具有饱和处理的线性灰度…

人工智能 2023年6月18日
0075
opencv 插值方式

一、插值方式与resize()的关系 resize()函数里面包含插值的几种方式： void resize(InputArray src, OutputArray dst, Siz…

人工智能 2023年7月19日
0063
【深度学习】第三章：卷积神经网络

文章目录 1. 为什么要使用卷积神经网络？ 2. 卷积 * 2.1 数学上的卷积 2.2 深度学习的卷积 3. 卷积的构成 4. 卷积的特征 5. 卷积的计算 * (1) 一维卷积…

人工智能 2023年6月28日
0068
计算机视觉与图形学-神经渲染专题-TensoRF

（说明：如果您认为下面的文章对您有帮助，请您花费一秒时间点击一下最底部的广告以此来激励本人创作，谢谢!!!）摘要我们提出了TensoRF ，一种建模和重建辐射场的新方法。与…

人工智能 2023年6月16日
0070
【目标检测】使用TensorRT加速YOLOv5

前言今天是程序员节，当然是以程序员的方式来度过节日。很早就听说TensorRT可以加速模型推理，但一直没时间去进行实践，今天就来把这个陈年旧坑填补一下。背景知识在实践之前有必…

人工智能 2023年6月17日
0097
【语义分割】类别不平衡损失函数合集

在语义分割领域，我们会常常遇到类别不平衡的问题。比如要分割的目标（前景）可能只占图像的一小部分，因此负样本的比重很大，导致网络倾向于将所有样本判断为负样本。本文介绍了在数据不平衡时…

人工智能 2023年7月27日
0050
K-Means聚类算法

K-Means聚类算法 k-means算法又名k均值算法，K-means算法中的k表示的是聚类的k个簇，means代表取每一个聚类中数据值的均值作为该簇的中心，或者称为质心，即…

人工智能 2023年5月31日
00153
注意力机制(Attention)原理详解

文章结构 1. 为什么需要Attention 2. Attention的基本原理 3.自注意力机制（Self-Attention） 4.总结为什么需要Attention 在了解A…

人工智能 2023年5月30日
0091
机器学习之为什么要数据预处理？如何预处理数据？

在现实生活问题中，我们得到的原始数据往往非常混乱、不全面，机器学习模型往往无法从中有效识别并提取信息。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已，在采集完数据…

人工智能 2023年6月15日
0098

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

OpenCV OCR实战 文档扫描与文字检测

知识准备

项目概述

实现过程

代码讲解

1.读入图片并进行预处理（灰度转换，高斯滤波）

2.对图片进行canny边缘检测，进一步处理

3.轮廓识别，轮廓排序，轮廓近似得到最外层轮廓角点

4.仿射变换，二值处理

5.文字识别

大家都在看

OpenCV OCR实战文档扫描与文字检测