Taming Pretrained Transformers for Extreme Multi-label Text Classification

In this paper, we propose X-Transformer, the first scalable approach to fine-tuning deep transformer models for the XMC problem. The proposed method achieves new state-of-the-art results on four XMC benchmark datasets. In particular, on a Wiki dataset with around 0.5 million labels, the prec@1 of X-Transformer is 77.28%, a substantial improvement over state-of-the-art XMC approaches Parabel (linear) and Attention XML (neural), which achieve 68.70% and 76.95% precision@1, respectively. We further apply X-Transformer to a product2query dataset from Amazon and gained 10.7% relative improvement on prec@1 over Parabel.

We further applied X-Transformer to a real-life application, product2query prediction, showing significant improvement over the competitive linear models, Parabel

2.3 Transfer Learning Failed in XMC

极端多标签文本分类(Extreme Multi-label Classification, XMC)

Words2vec, Glove: 文本表示之后是固定的不能根据上下文本具体改变。

Elmo,GPT-2:基于Autoregressive的一阶段PTM,即不用finetune,可以直接用于下游任务,更便于迁移学习,但是代价之一就是失去了模型表达能力。

BERT:基于Auto-Encoder的两阶段PTM,需要finetune之后进行下游任务。

XLNET:基于Auto-Regressive的两阶段PTM,且是排列语言模型和双流自注意力机制。

BERT强于Elmo和GPT-1最重要的一个原因就是采用了Auto-Encoder的结构,根据上下文单词来预测输入X中被随机Mask掉的单词。(其中Elmo是个假”上下文”,是LSTM自左向右的隐节点状态简单拼接了自右向左的,本质上还是Auto-Regressive的,并未同时用到上下文。)

但Mask的方法也是限制BERT地方,在下游微调时不允许文本被MASK,所以造成了预训练阶段和微调阶段数据不统一。;且如果一个句子中多个token被mask掉,预测其中一个token时不能利用其它被mask掉的token的显式语义。

XLNET就针对如何用单向AR结构结合上下文以及消除MASK做出了创新。

3.2 Semantic Label Indexing

利用聚类方法将标签聚类

例如wiki-500K的数据集,将L=500000聚类到了K=8000,99.4% 的clusters里都超过了100个样本数,压缩比率低至1.6%

编码具体用了以下两种形式

1.Label embedding via label text(利用对于标签的描述进行embedding,内部)

2.Label embedding via embedding of positive instances(利用例子进行embedding,外部)

3.3 Deep Transformer as Neural Matcher

为了解决exposure bias的问题,选择使用了Matcher-aware Negatives的方法

3.4 Ranking

用一个线性排序器对所属簇类标签进行排序

两个tricks

1.Teacher Forcing Negatives (TFN)

2.Matcher-aware Negatives (MAN)

数据集

XMC Benchmark Data

Eurlex-4K,Wiki10-31K, AmazonCat-13K, Wiki-500K

Amazon Prod2Query-1M

评估指标

Precision@k(k=1,3,5)

Recall@K(k=1,3,5)

实验设置

PTM: BERT, RoBERTa, XLNET

PTM layers: 24

input seq len: 128

batch size: 16

lr: { 4 , 5 , 6 , 8 } x 1 0 − 5 {4,5,6,8}x10^{-5} {4,5,6,8}x10−5

实验结果

ID={0,1,2}实验结果证明:TFN+MAN更有效

ID={2,3,4}实验结果证明:XLNET≈RoBERTa>BERT

ID={4,5,6}实验结果证明:在Eurlex-4K中,text_emb更好;在Wiki-500K中,xlnet_emb更好。与Eurlex-4K相比,Wiki-500K标签文本的噪声更大

ID={7,8,9}实验结果证明: ϕ fnt-xlnet ⊕ ϕ tfidf ⊕ ϕ text-emb \phi_{\text {fnt-xlnet }} \oplus \phi_{\text {tfidf }}\oplus\phi_{\text{text-emb}} ϕfnt-xlnet ​⊕ϕtfidf ​⊕ϕtext-emb​更有效

RNN Teacher Forcing学习

如果预测错误,给序列输入真实值ground truth进行下一步的预测

Teacher-Forcing 训练过程

假如如今模型生成了一个”a”,咱们能够在计算了error以后,丢弃这个输出,把”Marry”做为后续的输入。若是要继续预测下一个单词的话,那么如今的情形就变成了:

X X X

y ^ \hat{y} y^

“[START]” , “Marry”

以此类推,全部训练步骤情形为:

X X X

y ^ \hat{y} y^

“[START]”

“[START]” , “Marry”

“[START]”, “Marry”, “had”

“[START]”, “Marry”, “had”, “a”

该模型将更正模型训练过程当中的统计属性,更快地学会生成正确的序列。

reference

https://www.shangmayuan.com/a/6f970a10514e4376be2faa52.html#_Teacher_Forcing_12

https://blog.csdn.net/weixin_43557139/article/details/110448700

Original: https://blog.csdn.net/weixin_48185819/article/details/121911618
Author: 还卿一钵无情泪
Title: Taming Pretrained Transformers for Extreme Multi-label Text Classification

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/532049/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球