CRNN——文本识别算法

2023年7月28日下午9:20 • 人工智能 • 阅读 72

常用文字识别算法主要有两个框架：

CNN+RNN+CTC(CRNN+CTC)

文章认为文字识别是对序列的预测方法，所以采用了对序列预测的RNN网络。通过CNN将图片的特征提取出来后采用RNN对序列进行预测，最后通过一个CTC的翻译层得到最终结果。说白了就是CNN+RNN+CTC的结构。

CRNN 全称为 Convolutional Recurrent Neural Network，主要用于端到端地对不定长的文本序列进行识别，不用先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题，就是基于图像的序列识别。

整个CRNN网络结构包含三部分，从下到上依次为：

CNN（卷积层），使用深度CNN，对输入图像提取特征，得到特征图；

RNN（循环层），使用双向RNN（BLSTM）对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签（真实值）分布；

因为 RNN 有梯度消失的问题，不能获取更多上下文信息，所以 CRNN 中使用的是 LSTM，LSTM 的特殊设计允许它捕获长距离依赖。

LSTM 是单向的，它只使用过去的信息。然而，在基于图像的序列中，两个方向的上下文是相互有用且互补的。将两个LSTM，一个向前和一个向后组合到一个双向LSTM中。此外，可以堆叠多层双向LSTM，深层结构允许比浅层抽象更高层次的抽象

这里采用的是两层各256单元的双向 LSTM 网络：

CTC loss（转录层），使用 CTC 损失，把从循环层获取的一系列标签分布转换成最终的标签序列。

LSTM是一种特核事故的RNN，主要是解决长序列的训练过程中的梯度消失和梯度爆炸问题，简单来说，LSTM在更长序列表现好。

*创新点
使用双向BLSTM 来提取图像特征，对序列特征识别效果明显
将语音识别领域的CTC—LOSS 引入图像，这是质的飞越
*不足点
网络复杂，尤其是BLSTM 和CTC 很难理解，且很难计算。
由于使用序列特征，对于角度很大的值很难识别。

CTC 的核心思路主要分为以下几部分：

它扩展了RNN 的输出层，在输出序列和最终标签之间增加了多对一的空间映射，并在此基础上定义了CTC Loss 函数
它借鉴了HMM （Hidden Markov Model ）的Forward-Backward 算法思路，利用动态规划算法有效地计算CTC Loss 函数及其导数，从而解决了RNN 端到端训练的问题
最后，结合CTC Decoding 算法RNN 可以有效地对序列数据进行端到端的预测

CTC 的特征

条件独立：CTC 的一个非常不合理的假设是其假设每个时间片都是相互独立的，这是一个非常不好的假设。在OCR 或者语音识别中，各个时间片之间是含有一些语义信息的，所以如果能够在CTC 中加入语言模型的话效果应该会有提升。
单调对齐：CTC 的另外一个约束是输入X XX 与输出Y YY 之间的单调对齐，在OCR 和语音识别中，这种约束是成立的。但是在一些场景中例如机器翻译，这个约束便无效了。

Original: https://blog.csdn.net/l15201/article/details/126906392
Author: l15201
Title: CRNN——文本识别算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/721168/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于Matlab利用移动目标指示雷达抑制地面杂波（附源码）

目录一、构建雷达系统二、定义目标三、杂波四、仿真接收到的脉冲和匹配滤波器五、使用三脉冲消除器执行六、使用交错PRF模拟接收到的脉冲七、对交错的 PRF 执行八、总结…

人工智能 2023年6月26日
00113
常用正则表达式

1.提取字符串中所有数字字符 1 // convert text to int ignoring all non-numerical characters 2 public str…

人工智能 2023年6月12日
0095
libcurl与分片传输、断点续传相关研究

分片传输、断点续传相关研究场景，构建一个下载类组件，基于libcurl，达到正常下载、分片传输、断点续传等功能，同时保证组件的健壮性、对极限情况的兼容性、对上层业务回抛信息的完善…

人工智能 2023年6月28日
00115
使用Mongoose populate实现多表关联存储与查询，内附完整代码

文章目录使用Mongoose populate实现多表关联与查询 * 一、数据模型创建 – 1. 创建一个PersonSchema 2. 创建一个StorySche…

人工智能 2023年7月29日
0067
数据挖掘-模型的评估（四）

🤵‍♂️ 个人主页：@Lingxw_w的个人主页✍🏻作者简介：计算机科学与技术研究生在读🐋 希望大家多多支持，我们一起进步！😄如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂…

人工智能 2023年7月18日
0063
别再无脑wwm了，在下游任务中不一定有效

本文转载自公众号 ” 夕小瑶的卖萌屋“，专业带逛互联网算法圈的神操作 —–》我是传送门关注后，回复以下口令：回复【789】：领取深…

人工智能 2023年5月28日
00117
OpenCV——图像细化算法

图像细化算法 1.基础概念 2.细化过程 3.代码实现 4.实验结果 1.基础概念图像细化（Image Thinning），一般指二值图像的骨架化（Image Skeletoni…

人工智能 2023年6月18日
0097
【OpenCV 例程 300篇】242. 加速稳健特征检测算法（SURF）

『youcans 的 OpenCV 例程300篇 – 总目录』【youcans 的 OpenCV 例程 300篇】242. 加速稳健特征检测算法（SURF）加速稳健…

人工智能 2023年7月19日
0063
MMSS代码阅读笔记（5）

1.Bleu测评算法： BLEU 的全称是 Bilingual evaluation understudy，BLEU 的分数取值范围是 0～1，分数越接近1，说明翻译的质量越高。B…

人工智能 2023年5月28日
00101
sigmoid、softmax函数/交叉熵损失函数/二分类、多分类详细推导过程

一、交叉熵损失函数 1、离散变量i i i的概率分布为P ( i ) P(i)P (i )，熵的公式：E n t r o p y = − ∑ i P ( i ) l o g P (…

人工智能 2023年7月2日
0096
深度学习实战6-卷积神经网络(Pytorch)+聚类分析实现空气质量与天气预测

文章目录一、前期工作导入库包导入数据主成分分析(PCA) 聚类分析(K-means) 二、神经网络模型建立三、检验模型大家好，我是微学AI，今天给大家带来一个利用卷积神经…

人工智能 2023年6月16日
0096
【计算机视觉 · OpenCV】使用 OpenCV 调用手机摄像头

一、前言 Droidcam 是一款可以将手机变成网络摄像头的工具，我们可以利用 Droidcam 让 OpenCV 拥有调用手机摄像头的能力。 ; 二、步骤 2.1 安装 Droi…

人工智能 2023年6月19日
00105
【Python】Python寻找多维数组（numpy.array）中最大值的位置（行和列）

最近需要从热力图中找出关键点的坐标，也就是极大值的行和列。搜寻了网上的一些方法，在这里总结一下。使用numpy进行多维数组中最大值的行和列搜寻非常的灵活，有以下几种方法可供参考。 …

人工智能 2023年7月25日
00133
用PyTorch搭建卷积神经网络

用PyTorch搭建卷积神经网络本篇是加拿大McGill本科，Waterloo硕士林羿实习时所作的工作。发文共享，主要是面对PyTorch的初学者。本篇文章是一篇基础向的PyT…

人工智能 2023年7月23日
0078
kaggle 在无网络的环境下安装packages的方法

kaggle 在无网络的环境下安装packages的方法在kaggle可以直接使用pip命令去安装需要的库。只需要将setting中的internet选项打开在侧边栏打开int…

人工智能 2023年7月23日
00100
mplfinance 一个堪称完美python量化金融可视化工具详析

文章目录 1.mplfinance安装 2.获取数据（从tushare接口） 3. 获取数据（从本地csv） 4. mplfinance可视化 5. 自定义风格样式 6. 添加其他…

人工智能 2023年7月26日
0099

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

CRNN——文本识别算法

大家都在看