【论文笔记】SVTR: Scene Text Recognition with Single Visual Model

2023年5月26日上午9:05 • 人工智能 • 阅读 87

文章目录

SVTR: Scene Text Recognition with Single Visual Model
基本信息
摘要
模型结构
*
Patch Embedding
Mixing Block
Combining and Prediction
其他细节
实验
总结

SVTR: Scene Text Recognition with Single Visual Model

基本信息

论文链接：arxiv
发表时间：2022 – IJCAI
应用场景：自然场景文字识别

摘要

存在什么问题解决了什么问题1. 目前自然场景文字识别的SOTA模型一般都会包含一个vision model（抽取视觉特征）和一个sequence model（用于文字转录），甚至还会带上一个language model。这些模型往往设计比较复杂，因此也导致了性能差的缺陷。1. 提出了一个仅依靠视觉特征就能够完成文字识别任务的SVTR场景文字识别模型，精度高（部分dataset达到SOTA），速度快等优点。

中文场景下识别任务表现出色，也达到了SOTA。

模型结构

【论文笔记】SVTR: Scene Text Recognition with Single Visual Model

; Patch Embedding

输入图片shape=[h,w,3]，patch embedding的作用是输出一个shape=[h//4,w//4,d]的patches。

鉴于文字识别是一个细粒度任务，对图像细节的描述有一定的要求，这里作者摒弃了VIT中直接用大卷积核生成这些pathes，而采用了ResNetv1d中的stem结构来产生这些patch，比较简单，不再赘述。后面作者也做了消融实验验证了这样做是最优的。

; Mixing Block

经过Patch Embedding后shape=[h//4w//4,d]，即token的长度为h//4w//4。

送入1d position embedding模块（作者用的是可学习position embedding）。

现在可以输入给transformer encoder了，并且做了一些优化，pipeline如下：

整体上采用 先局部特征抽取，再全局特征抽取的思想（局部特征抽取在我看来其实就是在encoder mask上做了一点点文章。。。类似于LongFormer，根据先验知识，赋予attention map上每个点人为设定的若干个特定响应点）
局部特征抽取(Local Mixing)：attentoion map上的每个token只和其作为中心的h=7（沿query方向）, w=11（沿key方向）的局部box内像素点响应，其余token全部mask掉。后面再接FFN。
全局特征抽取(Global Mixing)：就是普通的transformer encoder（MHSA+FFN)，不知道为啥还要单独取个名。
注意不论是Local Mixing还是Global Mixing，都会堆叠若然次构成级联后再进入mergeing模块。
接着就是merging模块了，先reshape成4d图像，然后做conv3x3(stride_w=1,stride_h=2)下采样操作，降低token数量为原先的1/2，且只在高度方向降采样，保留了图像宽度上的信息的完整性，融合了临近token的信息，另外由于token数量减少了，类似于卷积神经网络，此时会让channel增大，补偿丢失的信息。最后再reshap回序列。

Combining and Prediction

在完成2个完整的stage后，此时高度降采样为原先的1/16，宽度仍然保持1/4。最后的merging被替换成了pool2d(将高度变为1，宽度仍然不变)+全连接+非线性激活函数。

作者说这里不继续用merging的原因是高度此时为2（输入高度32，32/16=2），高度太小对卷积操作不太友好。所以这么做。。。

最后再接一个输出channel= 预测字符数+1的FC，用于识别，此时shape=[w//4,char_num+1]

其他细节

采用CTC Loss进行训练，所以输出channel=预测字符数+1。因此预测的时候也就自然的依照CTC的解码规则。
网络最前面有TPS变换。

实验

若干个benchmark上取得SOTA，小模型速度最快，大模型精度高。

PatchEmbedding上的消融实验，验证了当前方案是最好的。

Merging上的消融实验，验证了conv不仅能够降低token数量，而且还能提升精度。

关于Local Mixing和Global Mixing如何堆叠的实验，验证了先Local重复若干次，再Global重复若干次是最优的。

SVTR和各主流场景文字识别模型在精度和速度上的比较，SVTR差不多是当前综合来看最好的？

; 总结

基于VIT，提出了一个仅用单一视觉模型完成场景文字识别的方案，并且在精度和速度上取得了优秀的trade-off，若干个数据集上达到SOTA，中文场景识别效果优秀。
论文读下来感觉有一些失望：
一个transformer encoder的冷饭能讲一大堆。。。
7×11的window size也没有做实验，直接说了7×11是最好的，但是这个7×11和图像上我们常说的7×11可不是一回事啊。
最关键的STN没有做消融实验，因为模型最后将高度downsample到1了，已经变成序列，没有了2d空间特征，按常理来说对于irregular text的识别效果应该是有限的。这就不得不去怀疑是不是STN正确的矫正了图像，但是没有做实验验证呀！
另外贴的图还能出现标记错误也是醉了。。
不过有一说一，从指标上看确实不错，能被PaddleOCR收录作为PPOCRv3的核心算法也是很厉害了。就是论文干货确实不多啊啊啊啊！

Original: https://blog.csdn.net/OneYearIsEnough/article/details/124878882
Author: 每天想peach
Title: 【论文笔记】SVTR: Scene Text Recognition with Single Visual Model

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/518957/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

XGBoost模型及LightGBM模型案例（Python）

1 XGBoosting案例：金融反欺诈模型 1.1 模型搭建 1.1.1 读取数据 1.1.2 特征变量与目标变量提取、划分数据集与测试集 1.1.3 模型搭建及训练 1.2 模…

人工智能 2023年6月15日
0078
论文阅读《KnowPrompt: Knowledge-aware Prompt-tuning withSynergistic Optimization for Relation Extractio》

论文链接KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation E…

人工智能 2023年6月10日
0069
❄️全网最详细的Python入门基础教程，Python最全教程（非常详细，整理而来）

📢前言前两天闲来无事唠嗑，听朋友说Python是世界上最好的语言~🤡 我内心很疑惑，最好的语言不是 “C酷” 🙈吗 (狗头保命) 于是想要学一学他说的这个…

人工智能 2023年7月3日
0073
语音增强–谱减法介绍及MATLAB实现

语音增强——谱减法原理介绍假设 x ( n ) x\left( n \right)x (n )为噪声污染的语音信号，其由纯净语音信号s ( n ) s\…

人工智能 2023年5月25日
0067
车路协同自动驾驶数据集DAIR-V2X

一、DAIR-V2X数据集简介自动驾驶安全面临巨大挑战，单车智能存在驾驶盲区、中远距离感知不稳定等问题，导致自动驾驶车辆可运行设计域（ODD）受限，单车智能自动驾驶落地受阻。车路…

人工智能 2023年6月10日
0089
对于神经网络参数初始化的一些理解

参数初始化 * – 动机 – 1. 预训练初始化 – 2. 随机初始化 – + 2.1 高斯（Gaussian）分布初始化 + 2….

人工智能 2023年7月16日
0055
记录：TensorFlow2.6版本环境搭建cuda11.2 anaconda python3.9 ++++ pytorch环境安装

我用的是CUDA11.2+TensorFlow2.6 因此，让我们正式开始安装过程： [En] So let’s officially begin the instal…

人工智能 2023年5月23日
00104
使用Tansformer分割三维腹部多器官–UNETR实战

不会 transformer 没关系，本教程开箱即用。 Tina姐总算对transformer下手了，之前觉得难，因为刚开始学序列模型的时候就没学会。然后就一直排斥学transfo…

人工智能 2023年6月16日
0073
如何用DETR（detection transformer）训练自己的数据集

DETR(detection transformer)简介 DETR是Facebook AI的研究者提出的Transformer的视觉版本，是CNN和transformer的融合，…

人工智能 2023年6月16日
00132
[毕业设计] 基于大数据B站数据分析项目 – 情感分析

文章目录 0 数据分析目标 1 B站整体视频数据分析 * 1.1 数据预处理 1.2 数据可视化 1.3 分析结果 2 单一视频分析 * 2.1 数据预处理 2.2 数据清洗 2….

人工智能 2023年7月6日
0075
Java 进阶多线程(一)

文章目录一、多线程 * 1、继承Thread类(方式一) – 1）实现多线程 2）优缺点 2、实现Runnable接口(方式二) – 1）实现多线程 2）…

人工智能 2023年5月30日
0085
基于点云的深度学习方法综述

我们生活在一个三维世界里，自从1888年相机问世以来，三维世界的视觉信息就通过相机被映射到二维图象上。但是二维图像的缺点也是显而易见的，那就是缺少深度信息以及真实世界中目标之间的相…

人工智能 2023年6月15日
00137
Failed to get convolution algorithm. This is probably because cuDNN failed..(TensorFlow和keras显存不足报错)

在跑深度学习程序时，用到TensorFlow或者keras时候，经常会报一个错误： tensorflow.python.framework.errors_impl. Unknown…

人工智能 2023年5月25日
0076
挑灯夜战800个小时，终从外包成功上岸字节！入职那一天我眼眶湿润了

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月30日
0040
如何使用批量标准化（batc

问题背景批量标准化（Batch Normalization）是一种常用的深度学习中的技术，用于加速神经网络的训练过程。在神经网络的训练中，随着层数的增加，每一层的输入分布会发生变…

人工智能 2024年1月1日
0032
第五天：了解越疆dobot机械臂，使用python，编写通过ros服务控制机械臂运动程序

一、了解越疆dobot机械臂详细信息可以查看用户手册和API开发手册，以及其它官方提供资料，这里我只列出我在开发过程中遇到的问题，以及需要了解的知识点。（1）坐标系我们可以看…

人工智能 2023年6月2日
0068

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30