论文阅读：HMER via Attention Aggregation based Bi-directional Mutual Learning

2023年7月14日上午11:44 • 人工智能 • 阅读 69

论文阅读：HMER via Attention Aggregation based Bi-directional Mutual Learning

一、简介

本文提出了一个新的具有注意聚集和双向相互学习(ABM)的HMER框架，如图所示。模型包括三个模块：特征提取、注意聚合和双向促进学习。

（1）在特征提取模块（FEM）中，使用DenseNet作为特征提取器，因为它在WAP中被证明是有效的，从数学表达式图像中提取特征信息。

（2）在注意聚合模块（AAM）中，提出了多尺度覆盖注意，对齐历史注意信息，在解码阶段有效地聚合不同大小的尺度特征，来识别数学表达式中不同大小的字符，从而提高了当前的识别精度，缓解了误差积累的问题。

（3）在双向相互学习模块（BML）中，提出了一种新的解码器框架，有两个方向相反的并行解码器分支(L2R和R2L)，并使用相互蒸馏来促进彼此学习。在训练过程中，每个解码器分支不仅可以学习ground truth的latex序列，还可以学习另一个分支的预测，提高解码能力.

二、方法

Feature Extraction Module

使用密集连接的卷积网络(DenseNet)作为编码器，从输入图像中提取特征。输出H×W×D的三维特征图F。值得注意的是，这里将输出特征视为M维的向量a={a1，a2，…，aM}，其中ai∈RD，M=H×W。

Attention Aggregation Module

注意机制引导解码器聚焦于输入图像的特定区域，基于覆盖的注意力可以更好地跟踪对齐信息，并指导一个模型，将更高的注意力概率分配给未翻译区域。本文提出了注意聚集模块(AAM)，在覆盖注意力上聚合不同的感受野。与传统的注意力机制相比，AAM不仅关注局部区域的详细特征，而且还关注更大的感受野的全局信息。因此，AAM能产生更精细的信息对齐，并帮助模型捕获更准确的空间关系。与DWAP-msa相比，本文的注意机制需要更少的参数和计算。使用隐藏状态ˆht、特征图F和覆盖注意βt来计算上下文向量，过程如下：首先，

U_s和U_l分别表示小核和大核的卷积运算，βt表示过去所有注意概率之和，初始化为零向量，然后计算覆盖注意力

αl为第l步时的注意力得分。当前的注意力图αt为

Wˆh，Ws和Wl是可训练的权值矩阵，Uf是1×1卷积运算，hˆt表示等式中GRU生成的隐藏状态。上下文向量记为ct，是特征内容信息a的加权和：论文阅读：HMER via Attention Aggregation based Bi-directional Mutual Learning

其中αt，i是在步骤t时F的第i个特征的权重。

Bi-directional Mutual Learning Module

给定一个输入的数学表达式图像，传统的HMER方法从左到右解码(L2R)，没有充分考虑长距离依赖性。因此，提出利用双流解码器将输入图像分成两个相反方向(L2R和R2L)的LaTex序列，然后相互学习解码信息。这两个分支具有相同的架构，只是在其解码方向上有所不同。L2R和R2L分支在步骤t处预测符号的概率计算如下：

其中f1和f2分别代表单向的GRU单元。

对于两个分支输出的概率分布，作者引入自蒸馏思想，将两解码分支通过Kullback-Leibler (KL) 损失函数在每个时间步上对预测的软概率作为标签进行交互学习。对于k个字符类别，L2R的软概率分布定义为：

其中S是生成概率标签的温度参数。

由此可以得到L2R和R2L分支的KL距离为：

最终整体网络的目标为最小化两个分支的交叉熵损失与交互学习的KL损失之和：

三、实验与代码

两个不同的解码器分支被设置为不同的权重初始化方法。对于解码器，n=256，d=512，d=684和K=113(在111个标签基础上添加开始和结束符号)。损失函数λ=0.5。使用Adadelta优化器进行优化，其学习率从1开始，当WER在15个周期内不下降时，衰减幅度会小2倍。当学习率下降10倍时，训练就会停止。batchsize = 16。

与以前方法的比较，在训练过程中都没有使用数据增强。

消融实验，两个模块都可以提升准确率，并且两个模块的整体识别率相互促进。

文章所提出的两个方向（L2R 和 R2L）的 LaTeX 序列的覆盖注意力可视化过程。蓝色框表示当前时间步中正在解码的字符。

作者使用t-SNE进一步可视化CROHME 2014测试数据集上10个字符的特征分布。作者输入了所有之前的正确符号来解码当前的符号，并将分类器第一个全连接层之前的特征进行了可视化。可以看出，此方法的聚类效果更好。

python = 3.6 numpy = 1.19.4 torch = 1.6.0

除此之外，将双向交互学习应用在其他的解码器如GRU、LSTM、Transformer上，都可以在推理时不增加额外参数的前提下，很有效的提高它们的性能。

Original: https://blog.csdn.net/handsome_lionet/article/details/124101127
Author: Ashleyyyi
Title: 论文阅读：HMER via Attention Aggregation based Bi-directional Mutual Learning

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/691986/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

JavaCV合并音频到视频封装成MP4

有两种方法可以将音频合并到视频中： [En] There are two ways to merge audio into video: 一)音频的播放时长大于视频的播放时长这种…

人工智能 2023年5月27日
00104
第三章回归分析

一、回归分析相关概念 1.1回归分析是研究变量间函数关系的一种方法。变量之间的关系可以表示为方程的形式。大数据分析中，回归分析是一种预测性的建模技术。这种技术通常用于预测分析、时…

人工智能 2023年6月17日
0060
TensorFlow Estimator 中的模型保存为Checkpoints格式

本文介绍了 Estimators 模型的保存和恢复。 TensorFlow提供了两种模型格式： checkpoints：这种格式依赖于创建模型的代码。 SavedModel：这种格…

人工智能 2023年5月25日
0072
聚类树图(dendrogram)绘制(matplotlib与scipy)

聚类树图是层次聚类的图形表示方法，可以直观地体现各组数据或变量之间的关系聚类图在诸多领域具有广泛应用。聚类树图也称为聚类树状图、聚类图、聚类树。在生物学中称其为系统树图。一：基本…

人工智能 2023年7月15日
0042
基于AIC评价指标的向后回归法Python语言实现

常用评价指标简介当前统计学以计算机科学作为支撑，机器于人工的优势是计算速度，但机器无法自行判断运算何时退出，因此需要定量指标作为运算退出的标志。对于预测类的统计模型来说，常见的指…

人工智能 2023年6月18日
00109
AI遮天传 ML-KNN

我们之前学习的方法如决策树、回归分析、贝叶斯分析都可以看作是三步走的学习方法，即：估计问题的特征(如分布) 做出模型假设(LSE、Decision、Tree、MAP、MLE …

人工智能 2023年6月15日
0092
主客观语音质量评估

在语音降噪、盲源分离和语音合成等任务中，我们将使用语音质量评价指标来解释我们的算法的效果。今天，我们将对这些方法进行详细梳理。 [En] In the tasks of speec…

人工智能 2023年5月27日
0093
机器学习的分类

机器学习的一般分类为：监督学习、无监督学习、半监督学习和强化学习。下面分别对其进行简要的介绍。监督学习是从有标签的数据中学习统计规律，即找到一个映射函数来映射输入变量（x…

人工智能 2023年6月30日
00152
【备考】计算机python二级过考指南（考点+典例）

python操作题题型分类整理：Python计算机二级过考指南_一只自力更生的芋圆的博客-CSDN博客_输入一个非空字符串此条整理Python计算机二级等级考试的程序设计题，但也基…

人工智能 2023年7月5日
0091
python数据处理—-数据对象常用的属性、方法

读取CSV文件为DataFrame对象使用read_csv()方法读取csv数据成为DataFrame对象： import pandas as pd data = pd.read…

人工智能 2023年7月9日
0062
说说我用python每天自动抢图书馆座位这点事

这学期疫情比较严重，学校一直处于封闭管理状态，去图书馆学习自然成为了大多数人的选择，尤其是考试周图书馆更是一座难求，为了能够抢到一个比较好的座位甚至需要每天早上6点半准时登录系统去…

人工智能 2023年7月6日
0093
数据中台建设（六）：数据体系建设

### 回答1：电信和互联网行业数据_安全标准 _体系建设_指南，是一份提供行业标准和指导的文件，旨在帮助企业和组织建立和实施有效的 _数据_安全措施，以应对现代数字环境中不…

人工智能 2023年7月16日
0074
tensorflow2.0训练目标检测模型

1.环境搭建与软件安装操作系统：win10 64位内存：8G Anaconda3-5.0.1 (自带python3.6.5) tensorflow2.5.0 VS 2015 …

人工智能 2023年5月26日
0088
多头注意力机制的通俗式理解

各位都很忙，废话不多说直接上图。首先 Q K V 均来自同一个数据，假设我们有同一个输入数据 a,则Q = Linear（a）K = Linear（a）V = Linear（…

人工智能 2023年7月13日
0059
【爬虫+可视化】Python爬取疫情并可视化处理数据（爬虫入门案例）

大家好，我是一只小白鼠，一只爱吃饼干的小白鼠。今天给大家讲讲关于爬取，以及如何爬取疫情数据并可视化。上篇说到python绘制数码管，今天说如何用python简单爬虫。知识点爬…

人工智能 2023年7月14日
0077
matlab的find()函数的一些用法(快速查找符合条件的值)

有些时候，有一组数据，而任务呢，则是需要我们在这一组数据中找到符合某种规则的数据的位置，比如大于一个数，或者是等于一个数，或者是某个数的倍数等等。诸如此此类的问题有时也会令我们…

人工智能 2023年7月6日
00118

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31