【论文阅读-对比学习】SimCSE Simple Contrastive Learning of Sentence Embeddings

2023年5月31日上午2:27 • 人工智能 • 阅读 84

今天分享下Danqi大佬的SimCSE。文章首发于https://zhuanlan.zhihu.com/p/477334784

Title: SimCSE: Simple Contrastive Learning of Sentence Embeddings

From: EMNLP 2021

Link: https://arxiv.org/abs/2104.08821

【论文阅读-对比学习】SimCSE Simple Contrastive Learning of Sentence Embeddings

论文提出了基于对比学习框架的SimCSE，来是提升句向量的嵌入表示。在有监督和无监督的语义相似度任务上取得了SOTA效果。

; 背景知识

先介绍一下背景知识。

1. 对比学习

对比学习的思想很简单，就是拉近语意相似的样本，把不相似的样本拉远。假设有一个数据集D = { ( x i , x i + ) } i = 1 m D={(x_i,x_i^+)}_{i=1}^m D ={(x i ,x i +)}i =1 m ，其中，x i x_i x i 和x i + x_i^+x i +是语意相关的。h i h_i h i 和h i + h_i^+h i +分别是x i x_i x i 和x i + x_i^+x i +的向量表示。优化目标是在大小为N N N的mini batch 中：

s i m ( h 1 , h 2 ) sim(h_1,h_2)s i m (h 1 ,h 2 )是余弦相似度，τ \tau τ是温度超参数。

; 2. 构建正例

在图像领域，一张图片进行随机变换，比如裁剪、翻转、扭曲、旋转，就可以得到这张图片的正例了，但是在NLP领域，就比较难做了。之前的工作有利用删除部分词、单词的重排序、同义词替换等方式来做，但都是在离散层面上去做数据增强。这篇文章的方法是用dropout来表征层来生成对应的正样本。

3. 对齐和均匀（Alignment and uniformity）

Alignment和Uniformity是来衡量对比学习获得的表征质量的两个关键指标。

Alignment是计算x i x_i x i 和x i + x_i^+x i +在空间中的距离。

Uniformity是计算向量整体分布的均匀程度。

; Unsupervised SimCSE

在无监督任务上，正例就直接就是dropout，负例在batch中随机选一个其他的句子。

Supervised SimCSE

对于监督学习任务，文章以NLI任务来构建构建正负例。对于原标签中的”蕴含”关系，则他们互为正例，他们的句向量在空间中的距离应该是比较近的；对于原标签中的”矛盾”关系，则明显是互为反例，彼此的句向量在空间中的距离也比较远。所以直接用了NLI中的蕴含句和矛盾句来生成正负例。

; 小结

这篇论文很精彩，一是用dropout来生成文本的正例，这在NLP领域生成相似样本是一个大的跨越。方法非常简单，但是又很work，不得不说奇思妙想。二是在做监督学习的正负例时，直接用已有标签做了一个转换，这种思路我也没想到，读完有种”还能这么干”的感觉。三是实验部分很扎实，分析也很充分，不仅告诉你这个work ,还告诉你为什么work。真的是高水平论文。虽然这是第二遍读了，但是有些地方还是没有细细读透。第一遍读还是在去年，但是不总结一下，好多地方都记不清了，另外对各向异性的研究需要再总结下，今天就先到这里吧。

Original: https://blog.csdn.net/weixin_42294274/article/details/123394002
Author: 春天
Title: 【论文阅读-对比学习】SimCSE Simple Contrastive Learning of Sentence Embeddings

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/547963/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python类的定义和使用

Python类的定义和使用一、前言二、定义类三、创建类的实例四、”魔术”方法—— init () 五、创建类的成员并访问 * 1.创建实例方法并访问…

人工智能 2023年7月3日
0098
K-Means聚类与DBSCAN的区别

一家之言，仅作分享，如有不合理或需要改进的地方，欢迎各位讨论。聚类是无监督机器学习中的一种技术，它根据数据集中数据点可用信息的相似性将数据点分组到集群中。属于同一簇的数据点在某些…

人工智能 2023年5月31日
00119
腾讯-NCNN简介

ncnn 是一个为手机端极致优化的高性能神经网络前向计算框架。ncnn 从设计之初深刻考虑手机端的部署和使用。无第三方依赖，跨平台，手机端 cpu 的速度快于目前所有已知的开源框架…

人工智能 2023年7月14日
0072
什么是Embedding？

说起 Embedding，我想你肯定不会陌生，至少经常听说。事实上，Embedding 技术不仅名气大，而且用 Embedding 方法进行相似物品推荐，几乎成了业界最流行的做法，…

人工智能 2023年6月16日
0084
缺陷检测公开数据集大全

一、弱监督学习下的工业光学检测（DAGM 2007）数据下载链接：https://hci.iwr.uni-heidelberg.de/node/3616 数据集简介：主要针对纹…

人工智能 2023年7月27日
0075
计算机视觉(多目标跟踪)算法中卡尔曼滤波算法详解

目录一、背景详解二、卡尔曼滤波(Kalman)原理 * 代码实践三、总结参考文献一、背景详解卡尔曼滤波（Kalman filter）是一种高效的自回归滤波器，它能在存…

人工智能 2023年5月26日
00110
SwinUnet官方代码训练自己数据集

SwinUnet官方代码训练自己数据集训练流程参考（单通道灰度图像的分割）：https://blog.csdn.net/qq_37652891/article/details/12…

人工智能 2023年6月15日
0083
数字系统的信息表示

数字系统的信息表示 * – + 1、什么是信息 + 2、数字系统是如何表示一个连续值的信息 + 3、使用数字信号的优势 + 4、将模拟信号表示成数字信号形式过程 + 5…

人工智能 2023年5月27日
00108
无法安装opencv-python 3.4.2.16版本的解决方法（Could not find a version that satisfies the requirement opencv-py）

问题简述与原因分析问题简述：使用 pip install opencv-python==3.4.2.16 安装 SIFT等算法可免费使用的版本的opencv时遇到 ‘…

人工智能 2023年6月22日
0085
Python索引index常用的8种操作

原始数据为 csv 文件。 data ”’ date,temperature,humidity 07/01/21,95,50 07/02/21,94,55 07/03/21,94…

人工智能 2023年7月7日
0061
天玑9200领跑背后，高端芯片掀起蝴蝶效应

过去一年，天玑9000让联发科在高端旗舰机市场掀起了一场”旋风”。全球知名市场调研机构Counterpoint Research发布的报告显示，联发科在全球…

人工智能 2023年6月28日
0077
YOLOPose：除了目标检测，YOLO还能不花代价地估计人体姿态，对实时性能有要求必看!

导读： YOLO，是一种流行的目标检测框架。如果将YOLO引入姿态检测任务中，将取得什么结果呢？这篇文章实现了单阶段的2D人体姿态检测，与自上而下或自下而上的方法不同，该方法将人体…

人工智能 2023年6月17日
0092
【预测模型-SVM分类】基于算术优化算法优化支持向量机SVM实现数据分类附matlab代码

1 内容介绍支持向量机(Support Vector Machine,简称SVM)是借助于最优化方法解决数据挖掘中若干问题的有力工具,它不仅有着统计学习理论的坚实基础,而且具有直…

人工智能 2023年7月3日
0077
GB28181流媒体服务LiveGBS实现web浏览器直接与摄像头语音对讲的配置简介

GB28181流媒体服务国标流媒体服务，支持本地|内网部署，下载试用入口国标设备语音对讲支持语音对讲的设备，可以直接接入LiveGBS，这样就可以从控制中心和您关注的设备间，…

人工智能 2023年5月27日
0076
yolov5实现小数据集的目标检测–kolektor缺陷数据集

要求： Python>=3.7.0 PyTorch>=1.7 我直接在colab上运行，直接不用管这些。数据集：可以使用自己做的数据集，我用的是kolektor数据…

人工智能 2023年5月28日
0090
985大学新增专业，考数据结构+自然语言处理！中央民族大学新增语言信息安全…

中央民族大学是一所985大学，位于北京市。虽然是一所985，但是计算机学科评估C-，软件工程学科评估没有，计算机实力在985中非常弱，即使放到211大学中也不强。前段时间，这样一…

人工智能 2023年5月27日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31