In this paper, we propose X-Transformer, the first scalable approach to fine-tuning deep transformer models for the XMC problem. The proposed method achieves new state-of-the-art results on four XMC benchmark datasets. In particular, on a Wiki dataset with around 0.5 million labels, the prec@1 of X-Transformer is 77.28%, a substantial improvement over state-of-the-art XMC approaches Parabel (linear) and Attention XML (neural), which achieve 68.70% and 76.95% precision@1, respectively. We further apply X-Transformer to a product2query dataset from Amazon and gained 10.7% relative improvement on prec@1 over Parabel.
We further applied X-Transformer to a real-life application, product2query prediction, showing significant improvement over the competitive linear models, Parabel
2.3 Transfer Learning Failed in XMC
极端多标签文本分类(Extreme Multi-label Classification, XMC)
Words2vec, Glove: 文本表示之后是固定的不能根据上下文本具体改变。
Elmo,GPT-2:基于Autoregressive的一阶段PTM,即不用finetune,可以直接用于下游任务,更便于迁移学习,但是代价之一就是失去了模型表达能力。
BERT:基于Auto-Encoder的两阶段PTM,需要finetune之后进行下游任务。
XLNET:基于Auto-Regressive的两阶段PTM,且是排列语言模型和双流自注意力机制。
BERT强于Elmo和GPT-1最重要的一个原因就是采用了Auto-Encoder的结构,根据上下文单词来预测输入X中被随机Mask掉的单词。(其中Elmo是个假”上下文”,是LSTM自左向右的隐节点状态简单拼接了自右向左的,本质上还是Auto-Regressive的,并未同时用到上下文。)
但Mask的方法也是限制BERT地方,在下游微调时不允许文本被MASK,所以造成了预训练阶段和微调阶段数据不统一。;且如果一个句子中多个token被mask掉,预测其中一个token时不能利用其它被mask掉的token的显式语义。
XLNET就针对如何用单向AR结构结合上下文以及消除MASK做出了创新。
3.2 Semantic Label Indexing
利用聚类方法将标签聚类
例如wiki-500K的数据集,将L=500000聚类到了K=8000,99.4% 的clusters里都超过了100个样本数,压缩比率低至1.6%
编码具体用了以下两种形式
1.Label embedding via label text(利用对于标签的描述进行embedding,内部)
2.Label embedding via embedding of positive instances(利用例子进行embedding,外部)
3.3 Deep Transformer as Neural Matcher
为了解决exposure bias的问题,选择使用了Matcher-aware Negatives的方法
3.4 Ranking
用一个线性排序器对所属簇类标签进行排序
两个tricks
1.Teacher Forcing Negatives (TFN)
2.Matcher-aware Negatives (MAN)
数据集
XMC Benchmark Data
Eurlex-4K,Wiki10-31K, AmazonCat-13K, Wiki-500K
Amazon Prod2Query-1M
评估指标
Precision@k(k=1,3,5)
Recall@K(k=1,3,5)
实验设置
PTM: BERT, RoBERTa, XLNET
PTM layers: 24
input seq len: 128
batch size: 16
lr: { 4 , 5 , 6 , 8 } x 1 0 − 5 {4,5,6,8}x10^{-5} {4,5,6,8}x10−5
实验结果
ID={0,1,2}实验结果证明:TFN+MAN更有效
ID={2,3,4}实验结果证明:XLNET≈RoBERTa>BERT
ID={4,5,6}实验结果证明:在Eurlex-4K中,text_emb更好;在Wiki-500K中,xlnet_emb更好。与Eurlex-4K相比,Wiki-500K标签文本的噪声更大
ID={7,8,9}实验结果证明: ϕ fnt-xlnet ⊕ ϕ tfidf ⊕ ϕ text-emb \phi_{\text {fnt-xlnet }} \oplus \phi_{\text {tfidf }}\oplus\phi_{\text{text-emb}} ϕfnt-xlnet ⊕ϕtfidf ⊕ϕtext-emb更有效
RNN Teacher Forcing学习
如果预测错误,给序列输入真实值ground truth进行下一步的预测
Teacher-Forcing 训练过程
假如如今模型生成了一个”a”,咱们能够在计算了error以后,丢弃这个输出,把”Marry”做为后续的输入。若是要继续预测下一个单词的话,那么如今的情形就变成了:
X X X
y ^ \hat{y} y^
“[START]” , “Marry”
以此类推,全部训练步骤情形为:
X X X
y ^ \hat{y} y^
“[START]”
“[START]” , “Marry”
“[START]”, “Marry”, “had”
“[START]”, “Marry”, “had”, “a”
该模型将更正模型训练过程当中的统计属性,更快地学会生成正确的序列。
reference
https://www.shangmayuan.com/a/6f970a10514e4376be2faa52.html#_Teacher_Forcing_12
https://blog.csdn.net/weixin_43557139/article/details/110448700
Original: https://blog.csdn.net/weixin_48185819/article/details/121911618
Author: 还卿一钵无情泪
Title: Taming Pretrained Transformers for Extreme Multi-label Text Classification
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/532049/
转载文章受原作者版权保护。转载请注明原作者出处!