ACL’22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下…

每天给你送来NLP技术干货!

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下...

论文:Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks

录取:ACL2022

链接:https://arxiv.org/pdf/2202.13840.pdf

大家都知道,数据增强的方法有很多,比如EDA方法(增删改插),回译(Back Translation,就是翻译到一种语言,再翻译回来),CBERT(通过BERT寻找语义相关的替换词),GPT2context(给一个提示(prompt)生成相关文本)等。

比如一个情感分类的一个例子:

The quality of this shirt is average

这里average就起决定性作用,但是针对于训练数据量少的任务来说,像normal、middle等词汇不会都能出现在训练集里的,那么怎么办呢?之前的数据增强方法感觉有点hard,有没有稍微soft的方法,于是作者通过label smoothing的灵感想到了text是否也可以来做smoothing?

于是作者提出了一种Text Smoothing的方法,具体如下:

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下...

其实该方法借鉴了CBERT的灵感,就是通过mask language model (MLM)的方法,将文本输入并得到每一个token对应的在vocab size维度预测的概率,这里区别于CBERT的是没有mask任何一个token,以及不是选择最佳候选token来替换,而是通过mixup的方法,将所有的概率融合到一起,具体如下:

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下...

其中mixup融合公式为:

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下...

其中ti为BERT的正常的one-hot输入,最后将所有概率归一为新的embedding形成新的representation,最终参与训练的每条文本只使用其洗呢representation即可。

实验

本文在低资源的公开数据集上得到了非常好的效果,远高于其他方法。

使用的数据统计:

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下...

纯Text Smoothing方法:

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下...

Text Smoothing方法结合其他方法:

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下...

效果非常好吧?

总之,该方法非常适用于数据量较小的任务,感兴趣的可以尝试下~

最近文章

下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注: 昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下...

记得备注呦

整理不易,还望给个在看!

Original: https://blog.csdn.net/qq_27590277/article/details/124487067
Author: zenRRan
Title: ACL’22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下…

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/544783/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球