基于改进EAST算法的文本检测

2023年6月20日下午4:41 • 人工智能 • 阅读 72

这段时间阅读研究了EAST算法以及在EAST算法上的改进并完成了复现运用到其他场景中去。

当今社会已进入图像大数据时代，图像数量庞大种类繁多，包含大量的有用知识。从图像中高效、精准、全面地提取文本和地理信息坐标等有用知识这一课题，也成为图像处理的一个重要方向。

随着近些年来深度学习技术不断进步发展，对于一些特定场景的图像文本定位任务成为国内外计算机视觉、模式识别研究方向相关学者的研究方向之一。解决特定场景图像文本信息提取问题依赖于各种神经网络模型算法。需要考虑到各种因素，一般将场景文本提取拆分为两个主要任务：文本定位和文本识别。特定场景图像文本检测算法的大体框架也基于文本定位和文本识别这两大任务.

其中， 文本定位算法主要通过计算机自动框定出文本在图像中的位置，作为后续文本识别过程的先行条件，在图像的知识提取中起着重要作用。目前基于深度学习的文本检测算法主要分为两类，一类是基于预选框的文本检测算法，另一类是使用全卷积神经网络直接预测目标位置。文献中提出的EAST(An Efficient and Accurate Scene Text Detector)算法是直接预测文本字符位置的定位算法，算法运行速度快，在基准数据集上准确率高。核心思想是直接预测单词或文本行的倾斜角度及多边形形状，消除多层神经网络中复杂的运算过程，在各种公开的数据集中取得了良好的成果。

同时， 文本识别算法主要是通过文本定位的结果定位到文本的位置，然后通过端到端的转录算法将该位置的信息转换为中文文本。

EAST算法是旷世科技在2017年CVPR上提出的一种十分简洁高效的文本检测模型。论文全称是《 EAST: An Efficient and Accurate Scene Text Detector 》。作者在文中提出，过去的文本检测方法虽然实现了不错的效果，但这些方法基本上都是多阶段、多组件的联合作用。换句话说，就是作者认为以往的方法设计的步骤和组件过多，导致它们在一些具有挑战性的场景中表现不够好，速度也不够快。

因此，作者设计了一种十分简洁高效的方法，可以直接通过一个FCN网络来得到字符级或文本行的预测结果。且不论是精度还是速度，在各大基准数据集上都有杰出的表现（在ICDAR2015上得到了0.782的F值和13.2的fps）。方法的整体思路是通过一个FCN直接得到文本框预测，之后将预测通过NMS得到最终结果（two stage）。下面是这项工作的主要贡献：

提出了一个两阶段的场景文本检测方法，FCN+NMS，不需要其他多余耗时的步骤。
该方法可灵活生成字符级或文本行的预测，几何形状可以是旋转框或者矩形框。
在精度和速度都优于当时其他的方法。

那么该算法的优势在于消除传统算法中间冗余而又慢速的步骤，只包含两个主要流程: 一是使用全卷积网络( fully convolutional networks，FCN) 模型直接生成单词或文本行级别预测; 二是将生成的文本预测( 可以是旋转的矩形或四边形) 输入到非极大值抑制 NMS( non-maximum suppression) 中以产生最终结果。而传统的文本检测方法和一些基于深度神经网络的文本定位方法由若干组件构成，包含多个步骤且在训练时需要对其分别进行调优，耗费时间较多。

我打算先介绍一下EAST算法，然后再详细讲述基于EAST算法的改进。

https://github.com/argman/EAST

这是原作者参与的一份tensorflow版本代码，网上还有其他的实现。

开源代码一般都是在linux环境下编写、测试、运行。

首先是下载源码：

git clone https://github.com/argman/EAST.git

然后就是下载好模型文件放到指定的位置测试。

第一次运行肯定会报错，windows和Linux毕竟不同。

参考博客：https://www.jianshu.com/p/c5a9e1ecf790

报错：import lanms

File "D:\work\Chepai\License-Plate-Recognition-master1\EAST-master\lanms\__init__.py", line 10, in <module></module>

解决问题的办法是:

注释掉__init__.py中的下面这两行

 # if subprocess.call(['make', '-C', BASE_DIR]) != 0:  # return value
        # raise RuntimeError('Cannot compile lanms: {}'.format(BASE_DIR))

注释掉这两行还是会报错：

File "eval.py", line 162, in main
    boxes, timer = detect(score_map=score, geo_map=geometry, timer=timer)
  File "eval.py", line 100, in detect
    boxes = lanms.merge_quadrangle_n9(boxes.astype('float32'), nms_thres)
  File "D:\Github\EAST\lanms\__init__.py", line 12, in merge_quadrangle_n9
    from .adaptor import merge_quadrangle_n9 as nms_impl
ImportError: No module named 'lanms.adaptor'

解决办法是：

结果发现报eval.py中的100行错误，所以把这一行注释掉，换成上一句。

  boxes = nms_locality.nms_locality(boxes.astype(np.float64), nms_thres)
    # boxes = lanms.merge_quadrangle_n9(boxes.astype('float32'), nms_thres)

结果不再报错了。

另外，我自己使用的是windows,所以源码中给出的test方法对我并不适用，会报错找不到模型文件路径。

  File "eval.py", line 147, in main
        model_path = os.path.join(FLAGS.checkpoint_path, os.path.basename(ckpt_state.model_checkpoint_path))
    AttributeError: 'NoneType' object has no attribute 'model_checkpoint_path'

原因是这个代码在windows下是用不了相对路径，换成绝对路径就可以了。

github 源码中给出的test脚本是：

python eval.py --test_data_path=/tmp/images/ --gpu_list=0 --checkpoint_path=/tmp/east_icdar2015_resnet_v1_50_rbox/ --output_dir=/tmp/

我在windows下使用的脚本是：

（我把下面的脚本写到一个test.bat文件中，这样每次执行就不用敲代码了，双击一下就可以执行）

python eval.py --test_data_path=D:/Github/EAST/tmp/images/ --gpu_list=0 --checkpoint_path=D:/Github/EAST/tmp/east_icdar2015_resnet_v1_50_rbox/ --output_dir=D:/Github/EAST/tmp/
    pause

在windows下的训练脚本train.bat：

python multigpu_train.py --gpu_list=0 --input_size=512 --batch_size_per_gpu=8 --checkpoint_path=D:/Github/EAST/tmp/east_icdar2015_resnet_v1_50_rbox/ --text_scale=512 --training_data_path=D:/Github/EAST/data/ocr/icdar2015/ --geometry=RBOX --learning_rate=0.0001 --num_readers=24 --pretrained_model_path=D:/Github/EAST/tmp/resnet_v1_50.ckpt
    pause

第一次跑也是跑不不通，报错：

 Generator use 10 batches for buffering, this may take a while, you can tune this yourself.

    Traceback (most recent call last):
      File "multigpu_train.py", line 180, in <module>
        tf.app.run()
      File "D:\Anaconda3\envs\py35\lib\site-packages\tensorflow\python\platform\app.py", line 126, in run
        _sys.exit(main(argv))
      File "multigpu_train.py", line 153, in main
        data = next(data_generator)
      File "D:\Github\EAST\icdar.py", line 726, in get_batch
        enqueuer.start(max_queue_size=10, workers=num_workers)
      File "D:\Github\EAST\data_util.py", line 81, in start
        thread.start()
      File "D:\Anaconda3\envs\py35\lib\multiprocessing\process.py", line 105, in start
        self._popen = self._Popen(self)
      File "D:\Anaconda3\envs\py35\lib\multiprocessing\context.py", line 212, in _Popen
        return _default_context.get_context().Process._Popen(process_obj)
      File "D:\Anaconda3\envs\py35\lib\multiprocessing\context.py", line 313, in _Popen
        return Popen(process_obj)
      File "D:\Anaconda3\envs\py35\lib\multiprocessing\popen_spawn_win32.py", line 66, in __init__
        reduction.dump(process_obj, to_child)
      File "D:\Anaconda3\envs\py35\lib\multiprocessing\reduction.py", line 59, in dump
        ForkingPickler(file, protocol).dump(obj)
    AttributeError: Can't pickle local object 'GeneratorEnqueuer.start.<locals>.data_generator_task'</locals></module>

问题出现在上面的提示 enqueuer.start(max_queue_size=10, workers=num_workers)

参考：https://blog.csdn.net/weixin_41437855/article/details/90259922 的评论stoneboy1211

解决办法：

将icdar.py 724行开始的部分改为（改动部分 True改为False,10改为1，numworks改为1）：

enqueuer = GeneratorEnqueuer(generator(**kwargs), use_multiprocessing=False)
            print('Generator use 10 batches for buffering, this may take a while, you can tune this yourself.')
            enqueuer.start(max_queue_size=1, workers=1)

接着还会报错：

Traceback (most recent call last):
      File "D:\Github\EAST\icdar.py", line 609, in generator
        text_polys, text_tags = load_annoataion(txt_fn)
      File "D:\Github\EAST\icdar.py", line 56, in load_annoataion
        for line in reader:
    UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence

解决办法：将icdar.py的54行由

with open(p, ‘r’) as f:

改为：

with open(p, ‘r’, encoding=’utf-8′) as f:

接下来训练也可以跑通了。

EAST源码主要包含3个功能模块：

icdar.py此部分主要是对数据进行预处理；
model.model()函数，该函数在model.py中，主要是完成网络结构搭建，特征图的生成；
model.loss()函数，该函数在model.py中，主要是计算损失。
其他代码说明：

下面介绍基于EAST算法的改进。

改进后的EAST算法相比基于候选框的目标检测算法更加准确。对于大比例尺，文本尺度多样的图像中的文本检测更加准确。但仍然存在一些问题。如化学符号等特别密集的区域检测准确率较低。存在改进方向如下：提高更加清晰的训练样本，优化网络结构，进一步提升检测算法的准确性。改进后的EAST算法主要包含5个部分：算法神经网络结构、基于focal-loss[29]优化的损失函数、倾斜的局部感知非极大值抑制网络（NMS）、基于可变尺度的图像分割优化、按比例尺切割训练样本。

改进后的神经网络结构主要由特征提取分支、特征合并分支和输出层三个部分构成。

特征提取分支包含Conv1、Conv2、Conv3、Conv4四组卷积层，使用EAST算法在ImageNet数据集上进行训练，摘取其中部分的卷积神经网络层。其中f1、f2、f3为卷积层中的特征图。大小为原始输入图像的1/32、1/16、1/8、1/4。

在特征合并分支在每个合并阶段，将特征提取分支f1阶段的特征图输入到反池化层(unpool)中，输出图像为上一阶段输入图像的2倍；然后逐步合并，这一步操作会产生一部分计算代价。为提升算法效率，本文通过减少Conv1的通道数，接着合并局部卷积特征，通过Conv3进行操作输出到f3阶段中。在经过所有的特征合并阶段之后，将特征提取分支f4的输入结果输出到输出层当中。

输出层包含置信度、文本区域和文本区域旋转角度、包含8个坐标的矩形文本区域三个部分。最终的输出结果是1×1的卷积提取特征。

L为EAST算法的损失函数：

为了简化训练过程，分类损失使用平衡的交叉熵[31]，公式如下：

非极大值抑制简称NMS，简单理解就是局部最大搜索，主要应用于目标识别、目标检索、回归分析等方向。在图像文本定位过程中，分类器训练结束后会输出多个预测出来的文本矩形框，每个预测框都会有一个分数，但是绝大多数预测框会出现重叠的情况，所以NMS的主要作用就是在文本范围内去输出面积最大的矩形文本框，同时面积较小的文本预测框会收到抑制，得到最终结果。

标准NMS是直接取分数最高的预测框，而局部感知NMS则是基于邻近几个多边形是高度相关的假设，在标准NMS的基础上加了权重覆盖，就是将2个IoU（Intersection Over Union，交并比即重叠区域面积比例）[32]进行比较，首先设定一个面积为S的阈值，然后求两个预测框的交集，如果大于S则合并，反之则删除。经过合并后的预测框，其坐标位置相对于文本区域更加准确，不会浪费每一个预测框的信息，防止误差过大。

由于两个矩形文本框重叠的部分可以是任意多边形，计算重叠区域面积的难度较大。所以局部感知NMS一般采取简化的计算方式，将相交部分近似为一个矩形，每计算一次相当于计算矩形的顶点和坐标轴组成的梯形的面积。图中绿色的面积有四个点的坐标很容易求得。

使用的图像数据集中包含有大量的倾斜文本(文本与水平形成夹角)，所以本文在局部感知NMS的基础上增加了倾斜的NMS来处理这些倾斜文本，其基本步骤如下：

（1）对网络输出的旋转矩形文本检测框按照得分进行降序排列，并存储到一个降序列表里。

（2）依次遍历上述的降序列表，将当前的文本框和剩余的其它文本框进行交集计算的到相应的相交点集合。

（3）根据判断相交点集合组成的凸多边形的面积，计算每两个文本检测框的IOU(重叠区域面积比例)；对于大于阈值的文本框进行过滤，保留小于阈值的文本框，并得到最终的文本矩形检测框。

最近实在疲惫不堪了对于这两天发的博客会进行完完全全认认真真地重新修改复现代码也会展示最后如何运用到火车证身份证等新的场景。之后我会在此补充关于EAST和基于改进的EAST的文本检测的代码解释。

参考：https://blog.csdn.net/juluwangriyue/article/details/107295393

Original: https://blog.csdn.net/m0_51330713/article/details/121178564
Author: AstheHollowman
Title: 基于改进EAST算法的文本检测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/641626/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【基础推导】MPC控制器及其车辆模型详细推导（附代码链接及详细推导说明）

来源参考3.aPID，pure pursuit方法，Stanley方法都只是利用当前的系统误差来设计控制器。人们对这些控制器的设计过程中都利用了构建模型对无人车未来状态的估计（或…

人工智能 2023年6月26日
00113
音频数据的SD/Flash读取与DAC播放

文章目录一、实验要求二、使用步骤 * （一）预备实验 – 1. STM32的内部 FLASH 简介 + 内部 FLASH 的构成 2. 对内部 FLASH 的写入过…

人工智能 2023年5月23日
0063
win10安装neo4j社区版(十分钟ok)

亲不要再踩坑啦来这里啦 1 安装jdk11 1.1 why neo4j是用Java语言编写的图形数据库，运行时需要启动JVM进程。neo4j和java版本要匹配，截止文章发布时…

人工智能 2023年6月4日
00115
熬夜整理了2021年Python最新学习资料，分享给学弟学妹们【大学生必备】

Python最新学习资料和视频一、Python软件安装教程视频教程二、学习规划阶段一：Python基础阶段二：Python核心编程阶段三：web前端开发阶段四：数据…

人工智能 2023年7月27日
0070
图像处理之图像的几何变换

一、前言图像的几何变换是将一幅图像中的坐标映射到另外一幅图像中的新坐标位置，它不改变图像的像素值，只是改变像素所在的几何位置，使原始图像按照需要产生位置、形状和大小的变化。本文主…

人工智能 2023年6月22日
0076
Kaggle图像识别竞赛 Plant Seedlings Classification（植物幼苗分类）具体实现

目录 0. 前言 1. 总体设计 2. import部分 3. 具体实现步骤 * 一、数据预处理 – （一）均衡化（二）提取图片中叶子（绿色）的部分二、提取特征 &…

人工智能 2023年7月1日
0065
保姆级教程：个人深度学习工作站配置指南

作者丨稚晖@知乎来源丨https://zhuanlan.zhihu.com/p/336429888 0 前言工作原因一直想配置一台自己的深度学习工作站服务器，之前自己看完pap…

人工智能 2023年7月28日
0066
cuda版pytorch兼容问题

在下载GPU版pytorch前必须先下载cuda和cudnn。建议cuda11.3+cudnn8.2.1.3+pytorch1.10(目前官网首页)，这样我运行下来没有任何问题。 …

人工智能 2023年7月22日
0059
MAE实现及预训练可视化（CIFAR-Pytorch）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月26日
0049
CUDA的卸载（v10.0）与安装（v10.2）

文章目录 CUDA v10.0的卸载 CUDA v10.2的安装 * 首先查看CUDA驱动的版本：在cmd中输入nvidia-smi 下载CUDA 配置环境变量：安装CUDNN …

人工智能 2023年7月27日
00167
灰色关联分析，Python实现GRA(gray relation analysis)

灰色关联分析法：对于两个系统之间的因素，其随时间或不同对象而变化的关联性大小的量度，称为关联度。在系统发展过程中，若两个因素变化的趋势具有一致性，即同步变化程度较高，即可谓二者关联…

人工智能 2023年6月15日
0094
基于skimage的数字图像处理（一）——基础

数字图像处理基础前言一、skimage是什么？ * 1.模块内容 2.安装skimage包二、图片显示三、图片的基本属性信息四、图像通道总结前言简单了解数字图像处…

人工智能 2023年6月17日
0071
相机模型、相机标定及基于yolov5的单目测距实现

相机模型、相机标定及基于yolov5的单目测距实现 * – 1 前言 – 2 相机模型及单目测距原理 – 3 相机参数标定 – + …

人工智能 2023年7月26日
0067
关于Faster Rcnn的一些理解

Paper:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 1.整体网…

人工智能 2023年7月10日
0064
机器学习评估指标 – f1, precision, recall, acc, MCC

1 介绍 TP, TF, FP, FN TP, TF, FP, FN 是针对二分类任务预测结果得到的值，这四个值构成了混淆矩阵；如下图的混淆矩阵：左侧表示真实的标签，human…

人工智能 2023年7月27日
0056
QQ能把语音转文字！为啥微信确没有？很难吗？十行Python代码就行

QQ和微信这两款都是非常受人喜欢的聊天交友软件！可能大家平时没有留意到，也或者是大家可能很少用微信，或者很少用QQ吧！所以可能没有留意这些小细节！就是QQ上面发的语音消息是可以直接…

人工智能 2023年5月25日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于改进EAST算法的文本检测

大家都在看