文本匹配之SimCSE模型

2023年6月15日上午10:20 • 人工智能 • 阅读 160

前言

论文全名：SimCSE: Simple Contrastive Learning of Sentence Embeddings

论文地址：https://aclanthology.org/2021.emnlp-main.552.pdf

论文收录于EMNLP2021。

论文提供的代码（pytorch）：GitHub – princeton-nlp/SimCSE: EMNLP’2021: SimCSE: Simple Contrastive Learning of Sentence Embeddings

苏神的代码（bert4keras）： GitHub – bojone/SimCSE: SimCSE在中文任务上的简单实验

模型结构

SimCSE模型是一种简单的对比句向量表征的框架，包含无监督和有监督两种方法。

无监督学习：会采用Dropout技术，对原始文本进行数据增强，构造出正样本，用于对比学习训练；

监督学习：由于本身有正样本（相近样本），故无需使用Dropout技术，直接训练即可。

模型结构如下：

模型原理

SimCSE模型的核心是对比学习，对比学习是通过拉近相似数据的距离，拉远不相似数据的距离为目标，更好地学习数据的表征。使得其在文本匹配任务中产生更好的效果。

论文中，在一个batch中，样本

的训练目标如下：

是一个控制 softmax 分布的一个超参数，通常设为0.05，（

越大，分布越平滑；

越小，正负样本差距就越大），可以加快收敛。

为一个batch的大小，

函数表示的是余弦相似度计算，

表示

的增强样本（不同dropout得到的）。

但上面的训练目标的分母仅仅是对原样本和所有的增强样本进行了累加，但没有将一个batch中不同的原样本进行累加，因此还是比较喜欢苏神提供的训练目标，如下：

再来一个图就更清楚了，下图中 a 表示的是原句子，p 表示的是增强后的句子。

上图红色区域是不计算的部分，因为自己和自己计算相似度是没有意义的。

模型训练

无监督训练

无监督训练过程，究竟是如何对句子进行dropout的呢？

首先，将原句子直接复制一份，得到 sent_a 与 sent_b输入到 Bert 中，得到pool_output，然后通过下面代码将形状为torch.Size ([16, 768])的 pooler_output 被重新整形为torch.Size([ 8, 2, 768])，其中8是batch_size。

pooler_output = pooler_output.view((batch_size, args.num_sent, pooler_output.size(-1)))

原论文提供的代码适合英文数据集，如果是要做中文数据集任务，可以使用苏神提供的代码。

要使用SimCSE模型的话，可以直接加载预训练好的模型，如’BERT’, ‘RoBERTa’, ‘WoBERT’, ‘RoFormer’, ‘BERT-large’, ‘RoBERTa-large’, ‘SimBERT’, ‘SimBERT-tiny’, ‘SimBERT-small’ 等等，具体效果可以看苏神博客的效果对比；

然后得到数据对应预训练模型的encoder向量表示， 注意苏神虽然用的是有监督的数据，只用了句子，没有用标签，还是无监督的。

经过SimCSE模型无监督训练后，得到对应的embedding表示。

有监督训练

论文中，有监督学习是三个句子为一组（x, x+, x-），其中 x+ 作为正样本，x- 与其他句子的x +, x-作为负样本。

特别说明

在使用无监督训练时，dropout 通常取较小的数，如0.1，0.05等，也可以参考苏神取的0.3。

随机选了1万条任务数据训练，效果就很好，不一定需要使用所有的数据。(随机选取的样本量也可以作为一个参数来进行调整，例如选取8000 ~ 12000不等的数据)

batch_size取64（或128），学习率取1e5，供参考。

模型效果

关于SimCSE模型的对比实验

该实验选用SNLI和STS-B数据，对比了有监督和无监督、4种不同的预训练模型、4种不同的向量表示，进行了共计 32次训练（2 * 4 * 4）。

预训练模型如下：

BERT
BERT-wwm-ext
RoBERTa-wwm-ext
SimBert

4种不同的向量表示如下：

cls：取 output 最后一层hidden_state第0个位置的hidden，也就是CLS的hidden

pooler：pooler表示的是对[CLS]过了一层nn.Linear层，又过了tanh激活函数，得到的hidden

last-avg：取 output 最后一层hidden_state，先进行位置变换，然后对最后一个维度进行平均池化

first-last-avg：取 output 的第一层和最后一层hidden_state，先分别进行位置变换，然后分别对最后一个维度进行平均池化，池化后进行拼接，拼接后再进行一次池化。

测评指标为spearman相关系数

有监督对比实验

训练集数据为SNLI，测试集和验证集数据为STS-B。

参数设置：batch_size=64，lr=1e-5，droupout_rate=0.3

（设置100个 batch 作为早停）

模型向量表示STS-B dev/test/sampleBERTcls0.8017/
0.7589/

25600pooler0.7734/0.7272/43520last-avg0.8004/0.7521/11520first-last-avg0.7985/0.7577/26240BERT-wwm-extcls0.8088/0.7608/11520pooler0.7714/0.7193/20480last-avg0.8087/
0.7690

/26240first-last-avg0.8064/0.7580/27520RoBERTa-wwm-extcls0.8073/
0.7693

/27520pooler0.7755/0.7296/28160last-avg0.8047/0.7675/26240first-last-avg0.8031/0.7650/46080SimBertcls0.8173/
0.7675

/15360pooler0.8148/0.7574/4480last-avg0.8154/0.7630/15360first-last-avg0.8117/0.7582/15360

无监督对比实验

STS-B 数据的训练数据为SNLI 的’origin’ + STS-B的第一句话，测试集和验证集为 STS-B数据。

参数设置：batch_size=64，lr=1e-5，droupout_rate=0.3，pooling=cls，随机抽样100000样本

设置100个batch早停。

模型向量表示STS-B dev/test/sampleBERTcls0.7324/
0.6776

/24320pooler0.6331/0.5797/39040last-avg0.7272/0.6769/7680first-last-avg0.7136/0.6707/4480BERT-wwm-extcls0.7260/0.6683/7680pooler0.6395/0.5864/1280last-avg0.7270/
0.6693

/4480first-last-avg0.7056/0.6540/7680RoBERTa-wwm-extcls0.7552/
0.7139

/640pooler0.6840/0.6549/640last-avg0.7140/0.6641/1920first-last-avg0.6988/0.6522/2560SimBertcls0.7930/
0.7278

/640pooler0.7868/0.7208/640last-avg0.7739/0.7155/5760first-last-avg0.7597/0.7056/6400

由上面数据看出，一般CLS效果要比其他三种向量表示方法好，对于BERT-wwm-ext模型，last-avg的效果更好一些。有监督下，RoBERTa-wwm-ext模型效果更好，无监督下，SimBert模型效果更好。（当然，这只是对当前数据集下的情况，对于不同数据集，效果可能不一样）。

参考

苏神博客：中文任务还是SOTA吗？我们给SimCSE补充了一些实验 – 科学空间|Scientific Spaces 文本匹配之SimCSE模型 https://spaces.ac.cn/archives/8348 ;

刘聪大佬：SimCSE论文精读 – 知乎「句向量表征技术」一直都是NLP领域的热门话题，在BERT前时代，一般都采用word2vec训练出的word-embedding结合pooling策略进行句向量表征，或者在有训练数据情况下，采用TextCNN/BiLSTM结合Siamese network策略进… 文本匹配之SimCSE模型 https://zhuanlan.zhihu.com/p/452761704 ;

特别推荐一篇文章： 在 Pytorch 中为无监督方法实现 SimCSE，描述的很详细。

https://bhuvana-kundumani.medium.com/implementation-of-simcse-for-unsupervised-approach-in-pytorch-a3f8da756839 文本匹配之SimCSE模型 https://bhuvana-kundumani.medium.com/implementation-of-simcse-for-unsupervised-approach-in-pytorch-a3f8da756839 ; GitHub – bhuvanakundumani/SimCSE_unsupervised Contribute to bhuvanakundumani/SimCSE_unsupervised development by creating an account on GitHub.https://github.com/bhuvanakundumani/SimCSE_unsupervised ;

simcse损失函数源码解读：SimCSE的loss实现源码解读 – 知乎

Original: https://blog.csdn.net/dzysunshine/article/details/124493089
Author: dzysunshine
Title: 文本匹配之SimCSE模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614435/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

电子元器件采购，你翻车过吗

大家好。我叫小哈，程序员。 [En] Hello, everyone. I’m Xiao Ha, a programmer. 哈哥的网文都是关于一些模块的使用，所以他经…

人工智能 2023年5月25日
0076
bp神经网络算法的优缺点,bp神经网络缺点及克服

前馈神经网络、BP神经网络、卷积神经网络的区别与联系一、计算方法不同1、前馈神经网络：一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，…

人工智能 2023年7月13日
0053
R语言机器学习Caret包（Caret包是分类和回归训练的简称）、数据划分、数据预处理、模型构建、模型调优、模型评估、多模型对比、模型预测推理

好的，下面是用R 语言_进行环境 _数据_集建模、验证、 _评估、 _优_化和 _预测_的步骤： 1. _数据_准备首先，需要将环境 _数据_集导入到R中。如果 _数据_集是以c…

人工智能 2023年7月1日
0098
【Pytorch神经网络理论篇】 39 Transformers库中的BERTology系列模型

同学你好！本文章于2021年末编写，获得广泛的好评！故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现…

人工智能 2023年5月28日
0090
Python实现Canny边缘检测

文章目录一、Canny边缘检测二、具体步骤 * 1. 高斯平滑滤波 Noise Reduction 2. Sobel Kernel 3. NMS (Non-Maximum Su…

人工智能 2023年6月18日
0067
《机器学习算法的数学解析与Python实现》读书笔记：第10章神经网络分类算法

第10章神经网络分类算法 10.1 用神经网络解决分类问题 10.1.1 神经元的”内心世界” 10.1.2 从神经元看分类问题 10.1.3 神经网络的…

人工智能 2023年7月2日
0051
DINO 论文精度，并解析其模型结构 & DETR 的变体

截止2022年7月25日，DINO是目标检测的SOTA。本人根据源码的复现感受和DINO论文的精读心得，撰写本篇博客，希望对你有所帮助。目录一、摘要二、结论三、解析DINO…

人工智能 2023年6月24日
00172
python、pytorch中的常见的浅拷贝、深拷贝问题总结

本文将介绍在python编程过程中遇到的各种赋值、浅拷贝、深拷贝之间的差异，同时介绍pytorch中的浅拷贝、深拷贝操作提示：以下是本篇文章正文内容，下面案例可供参考 1. 赋值…

人工智能 2023年7月22日
0050
ChangeFormer(A Transformer-based Siamese Network for Change Detection)

ChangeFormer 论文地址：A Transformer-based Siamese Network for Change DetectionChangeFormer的三个主…

人工智能 2023年5月28日
0077
pandas的基本函数

实验目的熟练掌握pandas基本函数使用方法实验原理列转行方法stack函数：pandas.DataFrame.stack(self, level=-1, dropna=Tru…

人工智能 2023年7月7日
00110
中国新冠疫情数据可视化

文章目录 * – 一、结果及源码展示 – 二、项目准备 – + * 1、第三方库 * 2、知识点概况 * 3、推荐视频 – 三、数据…

人工智能 2023年7月3日
0087
无人机生态环境监测、图像处理与GIS数据分析

构建”天空地”一体化监测体系是新形势下生态、环境、水文、农业、林业、气象等资源环境领域的重大需求，无人机生态环境监测在一体化监测体系中扮演着极其重要的角色。…

人工智能 2023年6月20日
0096
【机器学习】DBSCAN聚类算法

DBSCAN聚类算法 DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类…

人工智能 2023年5月31日
0085
Vue 小白踩坑之路

使用Vue遇到的一些问题汇总一、[Vue warn]: You are using the runtime-only build of Vue where the templat…

人工智能 2023年6月4日
0085
安装pytorch和其他库的常见问题及解决办法

1.背景我在安装pytorch的过程中，出现了不少问题，不过在自己的不懈努力之下，虽然花费不少时间，但最终都得以解决。现在我按照自己安装pytorch的整个流程，来梳理一下如何解…

人工智能 2023年7月23日
0058
中国模拟芯片行业商业模式分析与投资机会评估报告2022-2028年

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月11日
0072

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

文本匹配之SimCSE模型

无监督训练

有监督训练

有监督对比实验

无监督对比实验

大家都在看