【文本分类】《融合后验概率校准训练的文本分类算法》

2023年7月2日上午7:09 • 人工智能 • 阅读 38

·阅读摘要：
本文主要提出 后验概率校准、 负例监督两个创新点，提升了实验精度。
·参考文献：
[1] 融合后验概率校准训练的文本分类算法

参考论文信息

论文名称：《融合后验概率校准训练的文本分类算法》

发布期刊：《计算机应用》

期刊信息：CSCD扩展

; [0] 摘要

目前文本分类存在一定问题：

1、随着模型的准确率越来越高，其预测结果的置信度就不再能匹配高准确率；

2、模型的分类器在为语义相似的文本分配不同标签的情况下性能下降。

论文提出 后验概率校准负例监督模型（PosCal-negative） 来解决以上问题。

【注】：后验概率校准为了解决第一个问题，负例监督为了解决第二个问题。

[1] 相关工作

后验概率校准要解决的问题

神经网络中预测结果的置信度就是分类类别的后验概率。

在某些情况下，随着神经网络分类性能的提高，模型盲目自信的问题也越来越严重。单方面的增加网络的深度和宽度均会使得模型的分类错误降低，但是同时模型准确率和置信度越加不匹配。

在大规模的二分类神经网络模型上进一步进行实验，因为模型足够复杂，大多数样本都以极接近于1或极接近于0的后验概率判定为正类，很少有样本的预测后验概率落入0.1到0.9区间内。

为了校准后验概率，提出了许多 后处理方法，Zadrozny提出了 Histogram binning方法；Naeini提出了贝叶斯分位数方法（Bayesian Binning into Quantiles，BBQ）；Platt提出了 Platt scaling方法。

本文提出了PosCal，一个简单但有效的端到端后验概率校准模块，不同于后处理的校准方法，PosCal在训练过程中动态地对预测后验概率和经验后验概率之间的差异进行惩罚。

负例监督要解决的问题

在文本分类任务中，当分类标签分配的标准与语义相似性不一致时，由于语义相似性的过多影响，分类器往往容易出错。这是因为编码器将文本转换为表示文本语义的特征向量，语义相似的文本具有相近的特征向量表示，这时分类器可能区分不出相似文本间导致标签分配不同的细微差别。

[2] 模型

如下图：

· 首先是嵌入层，论文用的是BERT。

· 接着是分类器（Classifier），这里其实相当于BERT的下游任务，接什么模型都可以。损失函数用的是交叉熵损失，设为L x e n t L_{xent}L x e n t 。

· 经过分类器（Classifier）之后，到了PosCal后验概率校准模块，在训练过程中将分类器初始输出的预测后验概率和经验后验概率之间的差异最小化，达到校准误差最小化的目标。这种面向数据的校准因为考虑到了数据集的分布特点，比单纯面向任务的模型更加可靠。与之前的在固定且通常很小的验证集上的后处理校准方法相比，PosCal模块在训练迭代过程中根据训练集动态估计校准所需的数据统计信息。这里的损失设为L c a l L_{cal}L c a l 。

· 最后是负例监督模块，通过选取负例样本进行共同监督学习，以达到不同标签的文本拥有不相似的向量表示的目的。损失主要是计算两个样本间的余弦相似度，损失设为L n e g L_{neg}L n e g 。

· 最终模型的损失函数为：L = L x e n t + a 1 ∗ L c a l + a 2 ∗ L n e g L = L_{xent} + a_1 * L_{cal} + a_2 * L_{neg}L =L x e n t +a 1 ∗L c a l +a 2 ∗L n e g 。

Original: https://blog.csdn.net/qq_43592352/article/details/124541219
Author: 征途黯然.
Title: 【文本分类】《融合后验概率校准训练的文本分类算法》

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664949/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

算法模型之分类模型(无监督学习K-means)

什么是无监督学习没有目标值的时候，采用无监督学习。因为不存在学习的对象。无监督学习包含算法聚类算法： K-means(K均值聚类) 降维： PCA 3.K-means的原理（…

人工智能 2023年5月31日
0076
java计算机毕业设计二手车交易平台源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月26日
0041
知识图谱:网络攻击回溯方案

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0051
机器学习自然语言处理之英文NLTK（代码+原理）

目录 * – 什么是自然语言处理？ – + 常用的自然语言处理技术 + NLTK简介 + NLTK的功能 + 分词 + 过滤掉停用词 – 词汇规…

人工智能 2023年5月30日
0059
Google最新开源机器学习框架，Github已超18万Stars！

Google最新开源机器学习框架，Github已超18万Stars！前言 * 1、JAX是什么 2、 JAX能够用来做什么？ 3、什么环境下可以使用JAX? 前言近年来深度学…

人工智能 2023年5月26日
0074
YOLOX模型导出笔记

安装OpenVINO runtime 2021.4，在Ubuntu18上安装OpenVINO，官网在此 wget https://apt.repos.intel.com/openv…

人工智能 2023年5月28日
0077
【Python数据分析】实践编写篇1：用Python程序完成描述性统计分析需求

目录一、前言 1.1 关于描述性统计分析 1.2 本篇目的 1.3 提示二、程序内容的编写 2.1 导入数据与前期处理 2.2 描述性统计分析所要计算的数据 2.3 数据可视化…

人工智能 2023年7月16日
0061
语音识别实践、Kaldi下跑清华30小时例程（thchs30）笔记

这一周在kaldi下跑thchs30例程，做了些笔记，记录一下（黑体字是要运行的命令，实际上是从run.sh分离出来的）如果自行下载语料的话，推荐一个openslr的镜像网址，速…

人工智能 2023年5月27日
0088
机器学习全面知识点总结（小白入门！）

** 机器学习相关总结（小白入门！） ** 目录机器学习的特点机器学习的研究对象机器学习的应用大家好，这篇博文主要介绍机器学习相关的基本理论和部分应用，目的是帮助初学者对机…

人工智能 2023年7月18日
0039
【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践：part6基于图谱的问答实现

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月10日
0074
自动驾驶工程师的进阶之路

欢迎关注公众号：内推君SIR，加微信：neituijunsir 加入自动驾驶交流群：聚焦自动驾驶行业招聘信息 /技术发展 /行业动态。作者：叶小飞，UCLA PhD，前奔驰…

人工智能 2023年6月1日
0076
plt.imshow显示cv2读取的图像颜色不对的解决方案

plt.imshow显示cv2读取的图像颜色不对的解决方案 (plt.imshow与cv2.imshow显示同一图像颜色不一致) 原理 Opencv: cv2.imread( ) …

人工智能 2023年6月19日
0094
Python机器学习14——聚类分析

本系列所有的代码和数据都可以从陈强老师的个人主页上下载：Python数据程序参考书目：陈强.机器学习及Python应用. 北京：高等教育出版社, 2021. 本系列基本不讲数学原…

人工智能 2023年5月31日
0089
机器视觉实验二：道路车流量计数实验（OpenCV-python代码）

一、实验目的用OpenCV编写一个车辆计数程序，强化对课堂讲授内容如图像腐蚀、轮廓提取、边缘检测、视频读写等知识的深入理解和灵活应用。二、实验要求 1、用OpenCV编写一个车…

人工智能 2023年6月19日
00115
基

基于colab的yolov3-tensorflow训练自己的数据集（全小白教程） 1.站在巨人的肩上 2.colab的使用 * 1. 创建谷歌账号； 2. 创建云盘； 3.挂载云盘…

人工智能 2023年5月26日
0057
【Pytorch】torch_dct中解决AttributeError: module ‘torch‘ has no attribute ‘irfft‘

问题背景在使用 torch_dct时报错，经调研，是torch版本过高，dct中调用的旧的fft相关函数已经更新。探索过程参考[2]中说的对应关系如下：旧版新版 torch…

人工智能 2023年6月16日
0082

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【文本分类】《融合后验概率校准训练的文本分类算法》

大家都在看