ACL’22 | 快手+中科院提出一种数据增强方法：Text Smoothing，非常简单且有效尤其在数据不足的情况下…

2023年5月30日下午7:46 • 人工智能 • 阅读 60

每天给你送来NLP技术干货！

ACL'22 | 快手+中科院提出一种数据增强方法：Text Smoothing，非常简单且有效尤其在数据不足的情况下...

论文：Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks

录取：ACL2022

链接：https://arxiv.org/pdf/2202.13840.pdf

大家都知道，数据增强的方法有很多，比如EDA方法(增删改插)，回译(Back Translation，就是翻译到一种语言，再翻译回来)，CBERT(通过BERT寻找语义相关的替换词)，GPT2context(给一个提示(prompt)生成相关文本)等。

比如一个情感分类的一个例子：

The quality of this shirt is average

这里average就起决定性作用，但是针对于训练数据量少的任务来说，像normal、middle等词汇不会都能出现在训练集里的，那么怎么办呢？之前的数据增强方法感觉有点hard，有没有稍微soft的方法，于是作者通过label smoothing的灵感想到了text是否也可以来做smoothing？

于是作者提出了一种Text Smoothing的方法，具体如下：

其实该方法借鉴了CBERT的灵感，就是通过mask language model (MLM)的方法，将文本输入并得到每一个token对应的在vocab size维度预测的概率，这里区别于CBERT的是没有mask任何一个token，以及不是选择最佳候选token来替换，而是通过mixup的方法，将所有的概率融合到一起，具体如下：

其中mixup融合公式为：

其中ti为BERT的正常的one-hot输入，最后将所有概率归一为新的embedding形成新的representation，最终参与训练的每条文本只使用其洗呢representation即可。

实验

本文在低资源的公开数据集上得到了非常好的效果，远高于其他方法。

使用的数据统计：

纯Text Smoothing方法：

Text Smoothing方法结合其他方法：

效果非常好吧？

总之，该方法非常适用于数据量较小的任务，感兴趣的可以尝试下~

最近文章

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！  后台回复【五件套】
下载二：南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习，备注： 昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易，还望给个在看！

Original: https://blog.csdn.net/qq_27590277/article/details/124487067
Author: zenRRan
Title: ACL’22 | 快手+中科院提出一种数据增强方法：Text Smoothing，非常简单且有效尤其在数据不足的情况下…

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544783/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SPSS学习（五）独立样本t检验

参考书籍：《SPSS其实很简单》应用场景：当对两个独立分组中感兴趣的一个连续因变量的均值进行比较时使用。目标：检验两个组别中关于某些感兴趣的因变量的均值是否存在显著差异数据要…

人工智能 2023年7月16日
00102
bp神经网络模型的优缺点,bp神经网络缺点及克服

BP神经网络的核心问题是什么?其优缺点有哪些? 。人工神经网络,是一种旨在模仿人脑结构及其功能的信息处理系统,就是使用人工神经网络方法实现模式识别.可处理一些环境信息十分复杂,背…

人工智能 2023年6月15日
0084
【论文精读】Natural Image Stitching Using Depth Maps

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月20日
0063
〖Python接口自动化测试实战篇⑨〗- 实战 – 某旅游网经典流程的接口测试

### 回答1： Python Web 自动化测试实战_篇是一本介绍如何使用 _Python_语言进行Web _自动化测试_的实用指南。本书从基础概念入手，详细讲解了Web …

人工智能 2023年7月5日
0054
Java实现darknet+yolov4的目标检测

目录 1、darknet 简介 2、yolov4 3、java 如何实现 3.1、OpenCV 原理和内存管理 3.2、实现详解 3.3、完整代码 4、结语 1、darknet 简…

人工智能 2023年7月10日
0066
tensorflow基础之——tf.feature_column, tf.estimator, pre_estimator

1. tf feature_column的使用 1.1 构造训练数据集 1.2 对训练数据集的每个特征有一个大致的了解 1.3 使用feature_columns将离散特征进行编码…

人工智能 2023年5月26日
0058
目标检测 YOLOv5 – 基于瑞芯微 Rockchip RKNN C API 实现

目标检测 YOLOv5 – 基于瑞芯微 Rockchip RKNN C API 实现 flyfish 基于rknn的YOLOv5推理类环境开发语言：C++YOLO…

人工智能 2023年7月9日
0098
one-hot编码

one-hot编码什么是one-hot编码 one-hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任…

人工智能 2023年7月25日
0041
城市系统应用其一-表征城市交通模式

墨西哥城的案例研究摘要：无缝访问有价值的目的地，如工作场所、学校、公园或医院，影响着全世界人民的生活质量。第一个规划和改善服务邻近度的步骤是估计出行次数由城市的不同部分组成。具有…

人工智能 2023年7月17日
0053
CVPR 2022 | 从自注意力中学习语义Affinity，用于端到端弱监督语义分割

©PaperWeekly 原创 · 作者 |邵琪钧研究方向 | 计算机视觉、深度学习论文标题： Learning Affinity from Attention: End-to-…

人工智能 2023年7月12日
0075
Python:计算机视觉实现视频的AI换脸（最基础）

一、实验要求 1、手动点击关键点进行替换 2、利用光流对相邻的视频帧进行关键点的追踪二、实验结果三、实验代码 1、手动进行图像关键点的点击 import cv2 import …

人工智能 2023年5月28日
0068
树莓派4B使用NCNN部署Yolov5-lite

目录文章目录前言一、树莓派配置NCNN 1.安装依赖 2.下载NCNN并编译二、Yolov5-lite模型训练 1.源码地址 2.安装所需要的包 3.训练自己的数据集(YO…

人工智能 2023年6月17日
0088
python数据分析之pandas数据预处理（数据合并与数据提取、loc、iloc、ix函数详解）

文章目录 * – 一、准备工作 – 二、数据合并 – + 1、merge数据表连接 + 2、添加数据 – 三、数据提取 &#8211…

人工智能 2023年6月11日
0066
动手学深度学习–softmax回归和MLP的pytorch实现

目录 softmax从零开始实现导包导入数据初始化模型参数定义softmax操作定义模型损失函数优化函数分类精度训练函数训练预测 softmax简洁实现初始…

人工智能 2023年6月17日
0077
七月总结&八月计划

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月4日
0074
美团外卖美食知识图谱的迭代及应用

菜品是外卖交易过程的核心要素，对菜品的理解也是实现外卖供需匹配的重点。今天我们将一次推送三篇文章，系统地介绍了美团外卖美食知识图谱的构建和应用。《美团外卖美食知识图谱的迭代及应用》…

人工智能 2023年6月1日
0062

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

ACL’22 | 快手+中科院提出一种数据增强方法：Text Smoothing，非常简单且有效尤其在数据不足的情况下…

实验

大家都在看