标点恢复–Incorporating External POS Tagger for Punctuation Restoration

Incorporating External POS Tagger for Punctuation Restoration

标点恢复是自动语音识别中一个重要的后处理步骤,使得输出的文本加入标点符号更充分表达语义信息。这篇论文中标点恢复结合了词性标注信息使得模型有更好的效果。
亮点
(1)加入词性标注,并将词性标签融合到模型中
(2)提出序列边界采样(SBS)来更有效地学习标点位置作为序列标记任务
标点恢复任务可以看作一个序列标注任务。

模型

标点恢复--Incorporating External POS Tagger for Punctuation Restoration
模型分为两个部分,左边部分是一个加载预训练语言模型得到的特征表示,右边部分是P O S T a g g e r POS ~Tagger P O S T a g g e r得到每一个token的词性的embedding 特征,最后将得到的特征进行拼接经过F u s i o n L a y e r L Fusion~Layer~L F u s i o n L a y e r L和S o f t m a x L a y e r S Softmax ~Layer~S S o f t m a x L a y e r S得到最后的标点符号。这里实际上是一个序列标注问题。

; Fusing POS tags into LM representations

(1) LM representations
一个长度为n n n的文本X X X经过预训练模型表征得到隐藏状态H H H,这里预训练模型模型用F F F表示
H = F θ ( X ) ∈ R n × d H = F_{\theta}(X)\in\boldsymbol{R}^{n \times d}H =F θ​(X )∈R n ×d
(2) Fusing POS tags
加载词性标注预训练模型F W F_{W}F W ​得到X X X中的每一个token的词性标注结果T ^ \hat{T}T ^
T ^ = F W ( X ) ∈ R n \hat{T} = F_{W}(X)\in \boldsymbol{R}^{n}T ^=F W ​(X )∈R n
其中W ∈ R b × e W\in\boldsymbol{R}^{b\times e}W ∈R b ×e 是S o f t m a x L a y e r W Softmax ~Layer W S o f t m a x L a y e r W,b b b是embedding size, e e e是词性的tag数量。S o f t m a x L a y e r W Softmax~Layer~W S o f t m a x L a y e r W得到P O S T a g g e r POS Tagger P O S T a g g e r的embedding特征,简单来说,初始话一个embedding矩阵,我们使用 T ^ \hat{T}T ^中的元素来查找 W W W 中的对应列,并形成 POS 嵌入 E ∈ R n × b E\in\boldsymbol{R}^{n\times b}E ∈R n ×b
(3) Self-attention Fusion Layer L
将H H H和E E E进行拼接得到C ∈ R n × ( b + d ) C\in\boldsymbol{R}^{n\times(b+d)}C ∈R n ×(b +d ),采用self-attention 多头encode layer L γ L_{\gamma}L γ​高效的表征C C C,最后加一层S o f t m a x L a y e r S S η Softmax~Layer~S~S_{\eta}S o f t m a x L a y e r S S η​得到标点符号
tags Y ^ \hat{Y}Y ^
Y ^ = S η ( L γ ( C ) ) \hat{Y} = S_{\eta}(L_{\gamma}(C))Y ^=S η​(L γ​(C ))
其中γ \gamma γ和η \eta η表示相关的参数。

Sequence boundary sampling

由于原始 ASR 输出中的句子边界不明确,因此整个训练集的原始输出可以被视为连续的词流。 由于内存限制,它必须被截断以与最大序列长度 L 对齐。

实验结果

(1)数据标注格式
这里采用序列标注任务的格式进行标注

it  O
can O
be  O
a   O
very    O
complicated O
thing   COMMA
the O
ocean   PERIOD
and O
it  O
can O
be  O
a   O
very    O
complicated O
thing   COMMA
what    O
human   O
health  O
is  PERIOD
and O
bringing    O
......

(2)实验结果

标点恢复--Incorporating External POS Tagger for Punctuation Restoration
如有错误,欢迎大家指证。

Original: https://blog.csdn.net/weixin_42223207/article/details/125569998
Author: xuanningmeng
Title: 标点恢复–Incorporating External POS Tagger for Punctuation Restoration

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/528458/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球