文本匹配之SimCSE模型

2023年5月27日下午7:20 • 人工智能 • 阅读 126

前言

论文全名：SimCSE: Simple Contrastive Learning of Sentence Embeddings

论文地址：https://aclanthology.org/2021.emnlp-main.552.pdf

论文收录于EMNLP2021。

论文提供的代码（pytorch）：GitHub – princeton-nlp/SimCSE: EMNLP’2021: SimCSE: Simple Contrastive Learning of Sentence Embeddings

苏神的代码（bert4keras）： GitHub – bojone/SimCSE: SimCSE在中文任务上的简单实验

模型结构

SimCSE模型是一种简单的对比句向量表征的框架，包含无监督和有监督两种方法。

无监督学习：会采用Dropout技术，对原始文本进行数据增强，构造出正样本，用于对比学习训练；

监督学习：由于本身有正样本（相近样本），故无需使用Dropout技术，直接训练即可。

模型结构如下：

模型原理

SimCSE模型的核心是对比学习，对比学习是通过拉近相似数据的距离，拉远不相似数据的距离为目标，更好地学习数据的表征。使得其在文本匹配任务中产生更好的效果。

论文中，在一个batch中，样本

的训练目标如下：

是一个控制 softmax 分布的一个超参数，通常设为0.05，（

越大，分布越平滑；

越小，正负样本差距就越大），可以加快收敛。

为一个batch的大小，

函数表示的是余弦相似度计算，

表示

的增强样本（不同dropout得到的）。

但上面的训练目标的分母仅仅是对原样本和所有的增强样本进行了累加，但没有将一个batch中不同的原样本进行累加，因此还是比较喜欢苏神提供的训练目标，如下：

再来一个图就更清楚了，下图中 a 表示的是原句子，p 表示的是增强后的句子。

上图中的红色区域没有计算，因为计算你和你之间的相似度是没有意义的。

[En]

The red area in the image above is not calculated, because it is meaningless to calculate the similarity between yourself and yourself.

模型训练

无监督训练

无监督训练过程，究竟是如何对句子进行dropout的呢？

首先，将原句子直接复制一份，得到 sent_a 与 sent_b输入到 Bert 中，得到pool_output，然后通过下面代码将形状为torch.Size ([16, 768])的 pooler_output 被重新整形为torch.Size([ 8, 2, 768])，其中8是batch_size。

pooler_output = pooler_output.view((batch_size, args.num_sent, pooler_output.size(-1)))

原文中提供的代码适用于英文数据集。如果你想做中文数据集任务，可以使用苏深提供的代码。

[En]

The code provided in the original paper is suitable for English data set. If you want to do the Chinese data set task, you can use the code provided by Su Shen.

要使用SimCSE模型的话，可以直接加载预训练好的模型，如’BERT’, ‘RoBERTa’, ‘WoBERT’, ‘RoFormer’, ‘BERT-large’, ‘RoBERTa-large’, ‘SimBERT’, ‘SimBERT-tiny’, ‘SimBERT-small’ 等等，具体效果可以看苏神博客的效果对比；

然后得到数据对应预训练模型的encoder向量表示， 注意苏神虽然用的是有监督的数据，只用了句子，没有用标签，还是无监督的。

经过SimCSE模型无监督训练后，得到对应的embedding表示。

有监督训练

论文中，有监督学习是三个句子为一组（x, x+, x-），其中 x+ 作为正样本，x- 与其他句子的x +, x-作为负样本。

特别说明

在使用无监督训练时，dropout 通常取较小的数，如0.1，0.05等，也可以参考苏神取的0.3。

随机选了1万条任务数据训练，效果就很好，不一定需要使用所有的数据。(随机选取的样本量也可以作为一个参数来进行调整，例如选取8000 ~ 12000不等的数据)

batch_size取64（或128），学习率取1e5，供参考。

模型效果

关于SimCSE模型的对比实验

该实验选用SNLI和STS-B数据，对比了有监督和无监督、4种不同的预训练模型、4种不同的向量表示，进行了共计 32次训练（2 * 4 * 4）。

预训练模型如下：

BERT
BERT-wwm-ext
RoBERTa-wwm-ext
SimBert

4种不同的向量表示如下：

cls：取 output 最后一层hidden_state第0个位置的hidden，也就是CLS的hidden

pooler：pooler表示的是对[CLS]过了一层nn.Linear层，又过了tanh激活函数，得到的hidden

last-avg：取 output 最后一层hidden_state，先进行位置变换，然后对最后一个维度进行平均池化

first-last-avg：取 output 的第一层和最后一层hidden_state，先分别进行位置变换，然后分别对最后一个维度进行平均池化，池化后进行拼接，拼接后再进行一次池化。

测评指标为spearman相关系数

有监督对比实验

训练集数据为SNLI，测试集和验证集数据为STS-B。

参数设置：batch_size=64，lr=1e-5，droupout_rate=0.3

（设置100个 batch 作为早停）

模型向量表示STS-B dev/test/sampleBERTcls0.8017/
0.7589/

25600pooler0.7734/0.7272/43520last-avg0.8004/0.7521/11520first-last-avg0.7985/0.7577/26240BERT-wwm-extcls0.8088/0.7608/11520pooler0.7714/0.7193/20480last-avg0.8087/
0.7690

/26240first-last-avg0.8064/0.7580/27520RoBERTa-wwm-extcls0.8073/
0.7693

/27520pooler0.7755/0.7296/28160last-avg0.8047/0.7675/26240first-last-avg0.8031/0.7650/46080SimBertcls0.8173/
0.7675

/15360pooler0.8148/0.7574/4480last-avg0.8154/0.7630/15360first-last-avg0.8117/0.7582/15360

无监督对比实验

STS-B 数据的训练数据为SNLI 的’origin’ + STS-B的第一句话，测试集和验证集为 STS-B数据。

参数设置：batch_size=64，lr=1e-5，droupout_rate=0.3，pooling=cls，随机抽样100000样本

设置100个batch早停。

模型向量表示STS-B dev/test/sampleBERTcls0.7324/
0.6776

/24320pooler0.6331/0.5797/39040last-avg0.7272/0.6769/7680first-last-avg0.7136/0.6707/4480BERT-wwm-extcls0.7260/0.6683/7680pooler0.6395/0.5864/1280last-avg0.7270/
0.6693

/4480first-last-avg0.7056/0.6540/7680RoBERTa-wwm-extcls0.7552/
0.7139

/640pooler0.6840/0.6549/640last-avg0.7140/0.6641/1920first-last-avg0.6988/0.6522/2560SimBertcls0.7930/
0.7278

/640pooler0.7868/0.7208/640last-avg0.7739/0.7155/5760first-last-avg0.7597/0.7056/6400

由上面数据看出，一般CLS效果要比其他三种向量表示方法好，对于BERT-wwm-ext模型，last-avg的效果更好一些。有监督下，RoBERTa-wwm-ext模型效果更好，无监督下，SimBert模型效果更好。（当然，这只是对当前数据集下的情况，对于不同数据集，效果可能不一样）。

参考

苏神博客：中文任务还是SOTA吗？我们给SimCSE补充了一些实验 – 科学空间|Scientific Spaces 文本匹配之SimCSE模型 https://spaces.ac.cn/archives/8348 ;

刘聪大佬：SimCSE论文精读 – 知乎「句向量表征技术」一直都是NLP领域的热门话题，在BERT前时代，一般都采用word2vec训练出的word-embedding结合pooling策略进行句向量表征，或者在有训练数据情况下，采用TextCNN/BiLSTM结合Siamese network策略进… 文本匹配之SimCSE模型 https://zhuanlan.zhihu.com/p/452761704 ;

特别推荐一篇文章： 在 Pytorch 中为无监督方法实现 SimCSE，描述的很详细。

https://bhuvana-kundumani.medium.com/implementation-of-simcse-for-unsupervised-approach-in-pytorch-a3f8da756839 文本匹配之SimCSE模型 https://bhuvana-kundumani.medium.com/implementation-of-simcse-for-unsupervised-approach-in-pytorch-a3f8da756839 ; GitHub – bhuvanakundumani/SimCSE_unsupervised Contribute to bhuvanakundumani/SimCSE_unsupervised development by creating an account on GitHub.https://github.com/bhuvanakundumani/SimCSE_unsupervised ;

simcse损失函数源码解读：SimCSE的loss实现源码解读 – 知乎

Original: https://blog.csdn.net/dzysunshine/article/details/124493089
Author: dzysunshine
Title: 文本匹配之SimCSE模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527391/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

CVer想知道的都在这里了，一起分析下《中国计算机视觉人才调研报告》吧！

最近闲来无事，老潘以一名普通算法工程师的角度，结合自身以及周围人的情况，理性也感性地分析一下极市平台前些天发布的 2020年度中国计算机视觉人才调研报告。以下的”计…

人工智能 2023年6月4日
00125
pytorch官方教程（详细版）

由于在写DQN代码时发现对细节不够了解，因此又详细学习了一下pytorch相关内容，以下内容来自官网教程，此前的pytorch笔记： pytorch训练分类器pytorch基础入门…

人工智能 2023年6月16日
0060
Google Earth Engine 教程——栅格矢量数据转化和导出

本教程提供了将栅格要素转换为矢量并导出美国科罗拉多州落基山国家公园的栅格和矢量要素的工作流程函数： reduceToVectors(reducer, geometry, scal…

人工智能 2023年6月26日
0059
「数据标注」训练数据与测试数据：为什么要拆分？丨曼孚科技

众所周知，机器处理和存储知识的速度比人类快很多，且对”知识”的需求量也远超过人类，对于机器学习模型，通过数十甚至数百张图像可能仍无法准确识别一种物体。因此如…

人工智能 2023年7月17日
0046
【信号与系统】（一）信号与系统概述——信号的基本概念与分类

文章目录第一章信号与系统概述 * 1.1 信号的基本概念与分类 – 1.1.1 消息、信息、信号 1.1.2 信号的描述 1.1.3 信号的分类 + 1.1.3.1…

人工智能 2023年5月25日
0072
多模态深度学习综述总结与目标检测多模态融合领域论文推荐

文章目录一、多模态学习定义及应用二、模态表示 * 2.1 单模态表示 – 2.1.1 语句模态表示 2.1.2 视觉模态表示 2.1.3 声音模态表示（略） 2.2…

人工智能 2023年6月15日
0057
vivada平台创建项目

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0059
目标检测：Faster-RCNN算法细节及代码解析

** Faster-RCNN是多阶段目标检测算法RCNN系列中的集大成者，下面来看看分别看看这个系列的算法细节。代码github地址：https://github.com/che…

人工智能 2023年6月17日
0055
机器学习（周志华）学习笔记（二）

目录学习内容：三、线性模型 3.1 基本形式 3.2 线性回归 3.3 对数几率回归 3.4 线性判别分析(LDA) 3.5 多分类问题 3.6 类别不平衡学习时间：学习内…

人工智能 2023年6月17日
0091
ARIMA基本概念和流程讲解

基本概念 p: 自回归阶数q: 滑动平均阶数d: 时间序列成为平稳时所做的差分次数 AR – Auto Regression, 自回归模型：AR可以解决当前数据与后期数…

人工智能 2023年7月5日
0095
睿智的目标检测57——Tensorflow2 搭建YoloV5目标检测平台

睿智的目标检测57——Tensorflow2 搭建YoloV5目标检测平台学习前言源码下载 YoloV5改进的部分（不完全） YoloV5实现思路 * 一、整体结构解析二、网…

人工智能 2023年5月26日
00127
20. Python的字典嵌套

嵌套是我们迄今为止最强大的概念之一。嵌套涉及将列表或字典放在另一个列表或字典中。通过嵌套，可以在程序中建模信息的能力大大扩展。字典嵌套：我们在这里看两个例子，一个是字典中的列…

人工智能 2023年7月5日
0035
【数据集】目标检测常用数据集||权威数据–持续更新

一个性能优良，极度完美的数据集，具有较小偏差的大数据集，对于计算机视觉领域算法的研究是很重要的，具体非常重要的作用！在目标检测中，知名的数据集一个接着一个的被发布，被公开，被广大…

人工智能 2023年7月27日
0048
使用PyTorch进行小样本学习的图像分类

近年来，基于深度学习的模型在目标检测和图像识别等任务中表现出色。像ImageNet这样具有挑战性的图像分类数据集，包含1000种不同的对象分类，现在一些模型已经超过了人类水平上。但…

人工智能 2023年6月29日
0074
一文看懂流程挖掘是如何工作的？

随着数字化转型的日益深化，越来越多的工作需要通过IT系统来完成。这使得企业的绝大多数工作都被完整地记录下来，并以事件日志的形式存储在各个系统中，成为各大企业宝贵的数字资产之一。每个…

人工智能 2023年7月18日
0095
解析PR曲线与目标检测中的mAP指标

文章目录 * – 前言 – 1. PR曲线的绘制 – 2. AP的计算 – 3. 完整代码 – 4. 补充前言本篇博…

人工智能 2023年7月12日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

文本匹配之SimCSE模型

无监督训练

有监督训练

有监督对比实验

无监督对比实验

大家都在看