论文解读：Spelling Error Correction with Soft-Masked BERT

2023年5月30日下午9:13 • 人工智能 • 阅读 60

论文解读：Spelling Error Correction with Soft-Masked BERT（2020ACL）

拼写错误纠错是一个比较重要且挑战的任务，非常依赖于人类的语言理解能力。本文关注中文的拼写错误纠错任务（Chinese Spelling Error Correction）。目前SOTA的方法是给予BERT模型，为句子中的每一个词，从候选的字符列表中挑选一个作为纠错的结果，然而这类方法容易陷入局部最优。然而，因为 BERT 没有足够的能力来检测每个位置是否有错误，显然是由于使用掩码语言建模对其进行预训练的方式。、
本文解决上述提到的问题，提出一种基于BERT端到端的新方法，包括error detection network和error correction network，这两个模块前后之间通过我们提出的soft-masking technique。

Our method of using ‘Soft-Masked BERT’ is general, and it may be employed in other language detection- correction problems.

拼写错误纠错任务可以用于搜索、OCR识别等下游任务中，本文关注与字符级别的纠错任务。

简要信息：

序号属性值1模型名称SoftMasked BERT2所属领域自然语言处理、中文拼写检测3研究内容预训练语言模型4核心内容BERT应用5GitHub源码
https://github.com/hiyoung123/SoftMaskedBert

6论文PDF
https://aclanthology.org/2020.acl-main.82.pdf

一、挑战：

世界知识（World Knowledge）需要应用到拼写错误纠错上；
需要一定的推理（Inference）

二、相关工作与动机：

先前的拼写错误纠错方法可以分为传统的机器学习方法和深度学习方法：
BERT目前常用于拼写检错上，但是其错误检测能力还不够好。作者认为可能Masked Langauge Model模型只有15%的字符被mask，因此其可能只学习到mask的分布情况，并不会尝试进行纠错。

the way of pre-training BERT with mask language modeling in which only about 15% of the characters in the text are masked, and thus it only learns the distribution of masked tokens and tends to choose not to make any correction.

本文提出Soft-Masked BERT，包括detection network和correction network：

detection network：使用Bi-GRU用于预测每个位置的字符是否存在错误；概率则作为soft-masking
correction network：使用BERT预测纠正的词的概率；

soft-masking是hard-masking的一种拓展：

hard-masking，0/1向量，0表示不纠错，1表示纠错；
soft-masking：小数，每个位置的字符代表一个embedding向量，并喂入correction network中

三、方法

Soft-Masked BERT is composed of a detection network based on Bi-GRU and a correction network based on BERT. The detection network predicts the probabilities of errors and the correction network predicts the probabilities of error corrections, while the former passes its prediction results to the latter using soft masking.

模型架构如下图所示：

论文解读：Spelling Error Correction with Soft-Masked BERT

; Detection Network

输入每个token，每个token的input embedding为word embedding、position embedding以及segment embedding，经过双向GRU网路，每个位置将会输出一个二分类标签（1表示该token是错的，0表示正确），并输出对应的标签为1的概率（即存在错误的概率）
soft masking：对input embedding和mask embedding进行加权求和：
e i ′ = p i ⋅ e m a s k + ( 1 − p i ) ⋅ e i e_i’ = p_i\cdot e_{mask} + (1 – p_i)\cdot e_i e i ′=p i ⋅e m a s k +(1 −p i )⋅e i

最终获得的 e i ′ e_i’e i ′ 表示每个位置的soft masking embebding。

Correction Network

输入soft masking emebdding，喂入到BERT的Masked Langauge Modeling模型中
其中 p i p_i p i 是该位置是错误的概率，得到最后一层的隐向量，同时通过残差连接方法与input embedding进行结合：
h i ′ = h i c + e i h_i’ = h_i^c + e_i h i ′=h i c +e i
每个位置的token进行多类分类，得到纠错后的结果。
learning
训练目标：detection network和correction network分别对应loss function：

L d = − ∑ i = 1 n log ⁡ P d ( g i ∣ X ) \mathcal{L}d = – \sum{i=1}^{n}\log P_d(g_i|X)L d =−i =1 ∑n lo g P d (g i ∣X )

L c = − ∑ i = 1 n log ⁡ P c ( y i ∣ X ) \mathcal{L}c = – \sum{i=1}^{n}\log P_c(y_i|X)L c =−i =1 ∑n lo g P c (y i ∣X )

最后两者线性相加，得到总体的训练损失：
L = λ ⋅ L c + ( 1 − λ ) ⋅ L d \mathcal{L} = \lambda\cdot\mathcal{L}_c + (1-\lambda)\cdot\mathcal{L}_d L =λ⋅L c +(1 −λ)⋅L d

四、实验：

4.1 数据集

SIGHAN：1100texts、461种错误；
News Title：15730texts，其中5423texts存在错误，一共3441种类型错误

训练集：在中文新闻app上爬取5,000,000左右新闻title，并为每个字符根据发音（homophonous）构建来confusion table。

We also created a confusion table in which each character is associated with a number of homophonous characters as potential errors.

随机将15%的token替换为其他错误的token，所有替换中的80%来自于对应的confusion table，20%则来自于其他任意的token。作者认为中文的80%的拼写错误都是来自于发音问题。

4.2 Baseline：

NTOU：词袋模型+分类器；
NCTU-NTUT：词向量+CRF
HanSpeller++：隐马尔可夫模型+重排序；
Hybrid：BiLSTM；
Confusionset：指针网络+copy机制；
FASpell：BERT+seq2seq模型；
BERT-Pretrain：直接使用预训练BERT；
BERT-Finetune：使用finetune bert

4.3 评价指标：

sentence-level accuracy、precision、recall、F1

4.4 预训练

对于BERT模型，先在5,000,000个语料上进行微调，再在SIGHAN的训练集上微调。

we first fine-tuned the model with the 5 million training examples and then contin- ued the fine-tuning with the training examples in SIGHAN.

4.5 实验结果

; 改进点

需要推理：上下文语境；
需要常识知识：一些领域词的预测错误；

Original: https://blog.csdn.net/qq_36426650/article/details/121533938
Author: 华师数据学院·王嘉宁
Title: 论文解读：Spelling Error Correction with Soft-Masked BERT

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545157/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

已解决xlrd.biffh.XLRDError: Excel xlsx file：not supported

已解决（pandas读取Excel表格报错）raise XLRDError(FILE_FORMAT_DESCRIPTIONS[file_format]+’; not s…

人工智能 2023年7月8日
0091
Pytorch学习笔记–SEResNet50搭建

目录 1–ResNet50介绍 1-1–Stem Block环节 1-2–Stage环节 1-3–ResNet50核心代码： 2&#…

人工智能 2023年7月21日
0075
【一起啃西瓜书】机器学习-期末复习（不挂科）

【一起啃西瓜书】机器学习-期末复习（不挂科）前言试卷题型第一章：绪论 * 一般过程任务数据训练集验证集监督学习无监督学习半监督学习第二章：模型评估与选择 * …

人工智能 2023年6月15日
0070
人工神经网络的发展现状,神经网络未来发展趋势

人工神经网络的发展现代意义上对神经网络（特指人工神经网络）的研究一般认为从1943年美国芝加哥大学的生理学家W.S.McCulloch和W.A.Pitts提出M-P神经元模型开始…

人工智能 2023年7月26日
0061
学习笔记-Python-DataFrame常见操作总结

DataFrame的创建 1.1. 从已有数据集创建 1.1.1. 从excel文件中读取 import numpy as np import pandas as pd df1 =…

人工智能 2023年7月7日
0040
python重建索引函数()_Python Pandas 重建索引

重新索引会更改DataFrame的行标签和列标签。重新索引意味着符合数据以匹配特定轴上的一组给定的标签。可以通过索引来实现多个操作 – 重新排序现有数据以匹配一组新的…

人工智能 2023年7月7日
0041
R语言相关性的显著性检验

在计算好相关系数以后，如何对它们进行统计显著性检验呢？常用的原假设为变量间不相关（即总体的相关系数为0）。你可以使用cor.test()函数对单个的Pearson、Spearman…

人工智能 2023年6月17日
0088
(二)匈牙利算法简介

1.历史匈牙利算法是一种在多项式时间内求解任务分配问题的组合优化算法，广泛应用在运筹学领域，美国数学家哈罗德·库恩于1955年提出该算法，之所以被称作匈牙利算法是因为算法很大一…

人工智能 2023年7月26日
0062
64位系统树莓派部署yolo-fatestv2—超多坑

最近在研究yolo-fastest，开始面对作者大大的一堆部署的指令在pycharm的终端里面一顿操作，然后一路报错，后来才发现原来都是linux的指令…后来在虚拟机上…

人工智能 2023年5月28日
0095
【FMCW雷达人体行为识别——多普勒谱提取】

雷达回波的多普勒谱提取之前写过一个基于FMCW雷达的目标轨迹的提取，感觉看的人还是蛮多的，这周准备写一下关于多普勒谱提取的相关内容。主要内容为英国格拉斯哥大学公开的一个人体行为的…

人工智能 2023年6月16日
0051
SpringBoot+Mybaits搭建通用管理系统实例六：登录健权框架实现下

; 一、本章内容接上一章实现系统登录功能，本章实现短信验证码登录、二维码扫码登录、图片验证码生成等。完整课程地址源码下载地址 ; 二、开发视频 SpringBoot+Myba…

人工智能 2023年6月29日
00116
【YOLO系列】YOLO.v2算法原理详解

YOLO(You Only Look Once)系列算法原理前言：详细介绍了yolo系列目标检测算法的原理和发展过程。系列：【YOLO系列】YOLO.v1算法原理详解【YOLO…

人工智能 2023年7月12日
0058
ros安装配置为清华源（镜像）方法步骤

经常记不住，网站，也找不到地方，也就记下来吧，也帮助过来者。 https://mirrors.tuna.tsinghua.edu.cn/help/ros/ 首先如果你是新安装的Ub…

人工智能 2023年6月11日
0078
【youcans 的图像处理学习课】11. 形态学图像处理（下）

专栏地址：『youcans 的图像处理学习课』文章目录：『youcans 的图像处理学习课 – 总目录』【youcans 的图像处理学习课】11. 形态学图像处理（上）…

人工智能 2023年6月20日
0077
《游戏数据分析实战》总结&思考

对于一个游戏行业的门外汉，这本书对于了解游戏业务具有很强的指导性，通过大量的案例说明了游戏这一具有特殊行业逻辑的行业，如何针对性地进行数据分析。一、游戏关键数据指标 1、转化率—…

人工智能 2023年7月15日
0042
竞争性自适应重加权算法-CARS-python版

竞争性自适应重加权采样法（competitive adapative reweighted sampling， CARS）是一种结合蒙特卡洛采样与PLS模型回归系数的特征变量选择方…

人工智能 2023年6月15日
0096

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30