Taming Pretrained Transformers for Extreme Multi-label Text Classification

2023年5月28日下午2:24 • 大数据 • 阅读 71

In this paper, we propose X-Transformer, the first scalable approach to fine-tuning deep transformer models for the XMC problem. The proposed method achieves new state-of-the-art results on four XMC benchmark datasets. In particular, on a Wiki dataset with around 0.5 million labels, the prec@1 of X-Transformer is 77.28%, a substantial improvement over state-of-the-art XMC approaches Parabel (linear) and Attention XML (neural), which achieve 68.70% and 76.95% precision@1, respectively. We further apply X-Transformer to a product2query dataset from Amazon and gained 10.7% relative improvement on prec@1 over Parabel.

We further applied X-Transformer to a real-life application, product2query prediction, showing significant improvement over the competitive linear models, Parabel

2.3 Transfer Learning Failed in XMC

极端多标签文本分类（Extreme Multi-label Classification, XMC）

Words2vec, Glove: 文本表示之后是固定的不能根据上下文本具体改变。

Elmo，GPT-2：基于Autoregressive的一阶段PTM，即不用finetune，可以直接用于下游任务，更便于迁移学习，但是代价之一就是失去了模型表达能力。

BERT：基于Auto-Encoder的两阶段PTM，需要finetune之后进行下游任务。

XLNET：基于Auto-Regressive的两阶段PTM，且是排列语言模型和双流自注意力机制。

BERT强于Elmo和GPT-1最重要的一个原因就是采用了Auto-Encoder的结构，根据上下文单词来预测输入X中被随机Mask掉的单词。（其中Elmo是个假”上下文”，是LSTM自左向右的隐节点状态简单拼接了自右向左的，本质上还是Auto-Regressive的，并未同时用到上下文。）

但Mask的方法也是限制BERT地方，在下游微调时不允许文本被MASK，所以造成了预训练阶段和微调阶段数据不统一。；且如果一个句子中多个token被mask掉，预测其中一个token时不能利用其它被mask掉的token的显式语义。

XLNET就针对如何用单向AR结构结合上下文以及消除MASK做出了创新。

3.2 Semantic Label Indexing

利用聚类方法将标签聚类

例如wiki-500K的数据集，将L=500000聚类到了K=8000，99.4% 的clusters里都超过了100个样本数，压缩比率低至1.6%

编码具体用了以下两种形式

1.Label embedding via label text（利用对于标签的描述进行embedding，内部）

2.Label embedding via embedding of positive instances（利用例子进行embedding，外部）

3.3 Deep Transformer as Neural Matcher

为了解决exposure bias的问题，选择使用了Matcher-aware Negatives的方法

3.4 Ranking

用一个线性排序器对所属簇类标签进行排序

两个tricks

1.Teacher Forcing Negatives (TFN)

2.Matcher-aware Negatives (MAN)

数据集

XMC Benchmark Data

Eurlex-4K,Wiki10-31K, AmazonCat-13K, Wiki-500K

Amazon Prod2Query-1M

评估指标

Precision@k(k=1,3,5)

Recall@K(k=1,3,5)

实验设置

PTM: BERT, RoBERTa, XLNET

PTM layers: 24

input seq len: 128

batch size: 16

lr: { 4 , 5 , 6 , 8 } x 1 0 − 5 {4,5,6,8}x10^{-5} {4,5,6,8}x10−5

实验结果

ID={0,1,2}实验结果证明：TFN+MAN更有效

ID={2,3,4}实验结果证明：XLNET≈RoBERTa>BERT

ID={4,5,6}实验结果证明：在Eurlex-4K中，text_emb更好；在Wiki-500K中，xlnet_emb更好。与Eurlex-4K相比，Wiki-500K标签文本的噪声更大

ID={7,8,9}实验结果证明： ϕ fnt-xlnet ⊕ ϕ tfidf ⊕ ϕ text-emb \phi_{\text {fnt-xlnet }} \oplus \phi_{\text {tfidf }}\oplus\phi_{\text{text-emb}} ϕfnt-xlnet ⊕ϕtfidf ⊕ϕtext-emb更有效

RNN Teacher Forcing学习

如果预测错误，给序列输入真实值ground truth进行下一步的预测

Teacher-Forcing 训练过程

假如如今模型生成了一个”a”，咱们能够在计算了error以后，丢弃这个输出，把”Marry”做为后续的输入。若是要继续预测下一个单词的话，那么如今的情形就变成了:

X X X

y ^ \hat{y} y^

“[START]” , “Marry”

以此类推，全部训练步骤情形为:

X X X

y ^ \hat{y} y^

“[START]”

“[START]” , “Marry”

“[START]”, “Marry”, “had”

“[START]”, “Marry”, “had”, “a”

该模型将更正模型训练过程当中的统计属性，更快地学会生成正确的序列。

reference

https://www.shangmayuan.com/a/6f970a10514e4376be2faa52.html#_Teacher_Forcing_12

https://blog.csdn.net/weixin_43557139/article/details/110448700

Original: https://blog.csdn.net/weixin_48185819/article/details/121911618
Author: 还卿一钵无情泪
Title: Taming Pretrained Transformers for Extreme Multi-label Text Classification

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/532049/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

HBase 性能优化方法总结（一）：表的设计

1.Pre-Creating Regions 默认情况下，在创建 HBase 表的时候会自动创建一个 region 分区，当导入数据的时候，所有的 HBase客户端都向这一个re…

大数据 2023年5月25日
0044
基于 iframe 的微前端框架 —— 擎天

vivo 互联网前端团队- Jiang Zuohan 一、背景 VAPD是一款专为团队协作办公场景设计的项目管理工具，实践敏捷开发与持续交付，以「项目」为核心，融合需求、任务、缺陷…

大数据 2023年6月2日
0073
Flask框架——Flask-SQLite数据库

目录 SQLite数据库安装SQLite 创建SQLite数据库使用SQLite 上篇文章我们学习了Flask框架——Flask-Mail邮件，这篇文章我们学习Flask-SQ…

大数据 2023年11月11日
0035
分布式事务(Seata)

前言 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopp…

大数据 2023年6月3日
00121
Linux网络基础

一、网络协议和管理 1 网络基础 1.1 网络概念计算机网络是一组计算机或网络设备通过有形的电缆或无线等无形介质，按照一定的规则连接起来，进行通信的集合。 [En] Comput…

大数据 2023年5月27日
0062
BigData：数仓/数据仓库的定义、特点、意义之详细攻略

大数据 2023年11月13日
0046
查看Redis信息和状态

大数据 2023年11月15日
0026
Improving Language Understandingby Generative Pre-Training

1 摘要目前大多数深度学习方法依靠大量的人工标注信息，这限制了深度学习在很多领域的应用。此外，即使在可获得相当大的监督语料情况下，以无监督学习的方式学到的表示也可以让性能显著的提…

大数据 2023年5月28日
0093
常用Hive命令合集

大数据 2023年11月13日
0035
db2常用命令 1

1.数据库的启动、停止 db2start –启动 db2stop [force] –停止 2.与数据库的连接、断开 db2 CONNECT TO DBN…

大数据 2023年5月24日
0072
置信学习寻找噪音样本(noisy label)在NLP任务中的实践

1.背景之前看到吴恩达举办了一个以数据为中心的比赛，使用统一的模型，选手们通过改良扩展训练数据集以改进训练的效果，很感兴趣。今年有幸找到了中文语言理解测评基准CLUE，有一个nl…

大数据 2023年5月28日
0051
Python数据库ORM框架SQLALchemy操作数据库简单封装表关系(一对一、一对多、多对多)增删改查crud工具

SQLALchemy SQLALchemy是python下操作数据库的工具包,是一个数据库ORM(对象关系映射)框架,使用SQLALchemy可以极大的简化对数据库和数据的操作,使…

大数据 2023年11月12日
0049
云服务器部署前后端分离项目（若依）详细教程

镜像下载、域名解析、时间同步请点击阿里云开源镜像站第一次在Linux云服务器上部署前后端分离项目，查了很多资料和视频，踩了许多坑。成功实现部署若依的前后端分离项目后，想记录一下前…

大数据 2023年5月27日
00147
移动项目实战

目录前言实验一、环境安装及Git实验二、创建远程仓库实验三、创建数据库和表总结前言实验一环境安装及Git 实验二创建远程仓库实验三创建数据库和表实验一、环境安装及…

大数据 2023年11月10日
0046
移动云使用 JuiceFS 支持 Apache HBase 增效降本的探索

作者简介：陈海峰，移动云数据库 Apache HBase 开发人员，对 Apache HBase、RBF、Apache Spark 有浓厚兴趣。背景 Apache HBase 是…

大数据 2023年6月3日
0072
R语言进行主成分分析（PCA）、使用prcomp函数进行主成分分析：碎石图可视化（scree plot）、R通过条形图（bar plot）来可视化主成分分析的碎石图（scree plot）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

大数据 2023年5月28日
0065

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Taming Pretrained Transformers for Extreme Multi-label Text Classification

大家都在看