【文本分类】《融合后验概率校准训练的文本分类算法》

·阅读摘要:
本文主要提出 后验概率校准负例监督两个创新点,提升了实验精度。
·参考文献:
[1] 融合后验概率校准训练的文本分类算法

参考论文信息

论文名称:《融合后验概率校准训练的文本分类算法》

发布期刊:《计算机应用》

期刊信息:CSCD扩展

【文本分类】《融合后验概率校准训练的文本分类算法》

; [0] 摘要

目前文本分类存在一定问题:

1、随着模型的准确率越来越高,其预测结果的置信度就不再能匹配高准确率;

2、模型的分类器在为语义相似的文本分配不同标签的情况下性能下降。

论文提出 后验概率校准负例监督模型(PosCal-negative) 来解决以上问题。

【注】:后验概率校准为了解决第一个问题,负例监督为了解决第二个问题。

[1] 相关工作

后验概率校准要解决的问题

神经网络中预测结果的置信度就是分类类别的后验概率。

在某些情况下,随着神经网络分类性能的提高,模型盲目自信的问题也越来越严重。单方面的增加网络的深度和宽度均会使得模型的分类错误降低,但是同时模型准确率和置信度越加不匹配。

在大规模的二分类神经网络模型上进一步进行实验,因为模型足够复杂,大多数样本都以极接近于1或极接近于0的后验概率判定为正类,很少有样本的预测后验概率落入0.1到0.9区间内。

为了校准后验概率,提出了许多 后处理方法,Zadrozny提出了 Histogram binning方法;Naeini提出了贝叶斯分位数方法(Bayesian Binning into Quantiles,BBQ);Platt提出了 Platt scaling方法。

本文提出了PosCal,一个简单但有效的端到端后验概率校准模块,不同于后处理的校准方法,PosCal在训练过程中动态地对预测后验概率和经验后验概率之间的差异进行惩罚。

负例监督要解决的问题

在文本分类任务中,当分类标签分配的标准与语义相似性不一致时,由于语义相似性的过多影响,分类器往往容易出错。这是因为编码器将文本转换为表示文本语义的特征向量,语义相似的文本具有相近的特征向量表示,这时分类器可能区分不出相似文本间导致标签分配不同的细微差别。

[2] 模型

如下图:

【文本分类】《融合后验概率校准训练的文本分类算法》

· 首先是嵌入层,论文用的是BERT。

· 接着是分类器(Classifier),这里其实相当于BERT的下游任务,接什么模型都可以。损失函数用的是交叉熵损失,设为L x e n t L_{xent}L x e n t ​。

· 经过分类器(Classifier)之后,到了PosCal后验概率校准模块,在训练过程中将分类器初始输出的预测后验概率和经验后验概率之间的差异最小化,达到校准误差最小化的目标。这种面向数据的校准因为考虑到了数据集的分布特点,比单纯面向任务的模型更加可靠。与之前的在固定且通常很小的验证集上的后处理校准方法相比,PosCal模块在训练迭代过程中根据训练集动态估计校准所需的数据统计信息。 这里的损失设为L c a l L_{cal}L c a l ​。

· 最后是负例监督模块,通过选取负例样本进行共同监督学习,以达到不同标签的文本拥有不相似的向量表示的目的。损失主要是计算两个样本间的余弦相似度,损失设为L n e g L_{neg}L n e g ​。

· 最终模型的损失函数为:L = L x e n t + a 1 ∗ L c a l + a 2 ∗ L n e g L = L_{xent} + a_1 * L_{cal} + a_2 * L_{neg}L =L x e n t ​+a 1 ​∗L c a l ​+a 2 ​∗L n e g ​。

Original: https://blog.csdn.net/qq_43592352/article/details/124541219
Author: 征途黯然.
Title: 【文本分类】《融合后验概率校准训练的文本分类算法》

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/664949/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球