论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能

2023年10月29日上午4:29 • Python • 阅读 25

摘要：本文提出了一种针对文字识别的半监督方法。区别于常见的半监督方法，本文的针对文字识别这类序列识别问题做出了特定的设计。

本文提出了一种针对文字识别的半监督方法。区别于常见的半监督方法，本文的针对文字识别这类序列识别问题做出了特定的设计。具体来说，本文首先采用了teacher-student的网络结构，然后采用字符级别的一致性约束对teacher和student网络的预测进行对齐。此外，考虑到文字识别是step-by-step，每一个字符的预测都和之前时刻的预测结果相关。为了避免student网络在当前时刻的预测结果受到之前时刻错误预测的影响，本文将当前时刻之前，teacher的预测结果作为student当前时刻之前的预测结果，这样可以得到比较鲁棒的一致性约束，从而提升性能。

近年来，场景文本识别（STR）因其广泛应用而备受关注。大多数识别模型需要大量的有标注数据进行强监督训练。虽然合成数据可以缓解识别模型对数据量的需求，但是合成数据和真实场景的域间差距极大地限制了识别模型在真实场景下的性能。在本文中，作者希望通过同时利用有标注的合成数据以及无标注的真实数据来提升STR模型的性能，完全不需要任何人工标注。本文提出了一种鲁棒的基于一致性约束的半监督方法，可以有效解决合成数据与真实数据域不一致导致的不稳定问题。字符级的一致性约束旨在减轻序列识别过程中错误识别导致的不对齐问题。在标准文字识别数据集上，大量实验证明了所提出方法的有效性。该方法能够稳步提升现有的STR模型，并得到最先进的结果。此外，本文也是第一个将一致性约束应用到文字识别领域的工作。

方法：

本框架包括两个分支，一个是输出有标签合成数据的强监督分支，一个是输入无标签真实数据的半监督分支。强监督分支和一般的识别模型一样。关于半监督分支，采用teacher-student进行一致性约束。具体来说，将强监督得到的预训练模型作为teacher和student网络的初始化模型，然后对同一张输入图像进行弱数据扩增和强数据扩增，并分别输入到teacher和student网络中；将teacher网络的预测结果作为伪标签对student的输出进行监督。

由于文字识别是一个序列识别问题，当前时刻的预测结果和之前时刻的预测结果相关。为了尽可能减少target和online模型在同一时刻预测结果的不对齐问题，online分支之前时刻的预测结果会和target分支之前时刻的预测结果保持一致，然后再进行当前时刻的字符预测。字符级别的一致性loss如下公式所示，Dist()可以是交叉熵，KL-Div或者MSE，本文采用的是KL-Div。

此外，为了减轻合成数据与真实数据之间的域间差别，本文还使用了字符级别的域对齐模块。该模块首先分别将合成数据和真实数据每个时刻的视觉特征收集起来构成一个集合H

，然后计算他们各自的协方差矩阵cov()。

最终，整个框架的loss由强监督识别loss，一致性约束loss和域适应loss构成：

实验：

在引入无标签数据之后，当前识别模型的性能能够得到稳定的提升。

相比于其他利用无标签数据的方法而言，本文提出的基于一致性约束的方法能够优于其他几种方法。

该实验主要证明了online model中的projection layer，使用EMA更新的target model和domain adaptation模块的有效性。

该实验证明了在online model中使用和target model相同的之前时刻预测结果的有效性。

该实验主要讨论了一致性loss的类型对最终性能的影响，可以看到交叉熵和KL-Div性能差不多，且优于MSE。

Original: https://www.cnblogs.com/huaweiyun/p/16994256.html
Author: 华为云开发者联盟
Title: 论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/807309/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用python+django+pyecharts制作数据可视化大屏

随着信息化技术在政府、企业管理上应用的进一步发展，大数据技术兴起，数据可视化大屏随之进进入大众视线。下面是用python+django+pyecharts实现大屏的演示。 1，vi…

Python 2023年8月4日
00113
torch.hub.load()函数的使用——联网加载权重以及如何加载本地权重

torch.hub.load()函数可以通过两种方式加载模型。 pytorch官方文档函数原型： torch.hub.load(repo_or_dir, model, *args…

Python 2023年8月2日
0068
Go语言基础

一、Go的基本介绍 Go（Golang）语言是Google开发的一种静态强类型、编译型、并发型，并具有垃圾回收功能的编程语言，Go的语法接近C语言，但对于变量的声明有所不同。Go支…

Python 2023年6月3日
0069
量化交易米筐使用Alphalens因子分析

; 4、因子分析工具-Alphalens 官网说明书收益率分析 Returns Analysis 信息IC分析 Information Coefficient Analysis …

Python 2023年8月6日
0076
国庆假期看了一系列图像分割Unet、DeepLabv3+改进期刊论文，总结了一些改进创新的技巧

关于图像分割方面的论文改进目前深度学习图像处理主流方向的模型基本都做到了很高的精度，你能想到的方法，基本上前人都做过了，并且还做得很好，因此越往后论文越来越难发，创新点越来越…

Python 2023年10月10日
0045
Python数据分析训练营——Python数据分析之Numpy

Python有着大量功能强大的第三方库。这些第三方库可以大大地扩充Python的功能，我们在实际使用中往往也离不开这些第三方库。 NumPy是Python的一种开源的数值计算扩展…

Python 2023年8月29日
0052
pd.merge实现数据的合并

pd.merge(left, right, how=’inner’, on=None) Merge methodSQL Join NameDescripti…

Python 2023年8月17日
0041
【Python爬虫】数据解析之bs4解析和xpath解析

🔥一个人走得远了，就会忘记自己为了什么而出发，希望你可以不忘初心，不要随波逐流，一直走下去🎶🦋 欢迎关注🖱点赞👍收藏🌟留言🐾🦄 本文由程序喵正在路上原创，CSDN首发！💖 系列…

Python 2023年8月1日
0046
用户行为分析的背景以及几种模型分析、实例分析——淘宝用户行为分析

这里写目录标题 1. 绪论 * 1.1了解用户行为分析 1.2用户行为分析的目的 2.用户行为分析的具体内容 * 2.1用户行为分析的指标 2.2用户行为分析模型 – …

Python 2023年8月29日
0051
Pandas&numpy常用方法

目录 Pandas numpy numpy中的数据类型数字超出指定的dtype范围，numpy没有报错数组的组合垂直组合 vstack 水平组合 hstack 深度组合dst…

Python 2023年8月7日
0079
使用GitHub Actions自动构建DockerHub镜像

DockerHub开启付费功能后，自动构建的功能不再免费开放了，这样Github的项目就不能再免费自动构建docker镜像并自动发布到DockerHub上。前言这里记录下使用 …

Python 2023年6月3日
0077
AI医疗高精尖！基于AI的新药研发！⛵

💡 作者：韩信子@ShowMeAI📘 机器学习实战系列：https://www.showmeai.tech/tutorials/41📘 深度学习实战系列：https://www.s…

Python 2023年10月24日
0068
python必知必会的数据处理知识2(pandas))

本节重点是统计运算。通常用pandas做事情，涉及数值运算的少。一、数值运算数值运算只对数值列起作用。可以直接使用 +，也可以使用函数 add() DataFrame.add…

Python 2023年8月21日
0065
ZZA的项目学习开发文档4/29

Pygame环境的配置： Win + R在 cmd页面中输入 pip install pygame命令后，安装 pygame开发环境游戏的开发过程需要用到Pygame的语法相关的内…

Python 2023年9月15日
0076
论文复现｜Panoptic Deeplab(全景分割PyTorch)

摘要：这是发表于CVPR 2020的一篇论文的复现模型。本文分享自华为云社区《Panoptic Deeplab(全景分割PyTorch)》，作者：HWCloudAI 。这是发表…

Python 2023年10月29日
0070
Python库Numpy中的数据类型与OpenCV中数据类型的对应关系以及改写相关代码时需注意的地方

我们知道，C++—OpenCV中的MAT类的对象相当于Python的Numpy库中的ndarray对象。事实上，在Python-OpenCV中也就是把Numpy库中的ndarray…

Python 2023年8月26日
00100

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能

方法：

实验：

大家都在看