SimCSE初步使用且和Bert的简单对比

2023年7月1日上午2:18 • 人工智能 • 阅读 77

在很多 NLP 任务中都会用到句子向量，例如文本检索、文本粗排、语义匹配等任务。现在有不少基于 Bert 的方式获取句子向量，例如 Bert-flow 和 Bert-whitening 等，这些方法会对预训练 Bert 的输出进行变换从而得到更好的句子向量。本文介绍 SimCSE，SimCSE 通过对比学习的方法训练模型，取得 SOTA 的效果。

模型下载

huggingface这个网站真的是太棒了。提供了封装好后的SimCSE。其实SimCSE也是在Bert基础上进行了修改。所以使用方式和Bert没有什么区别。

可以去这个网址下载 https://huggingface.co/princeton-nlp/sup-simcse-bert-base-uncased模型文件。我是预先下载到本地了。

简单使用

import torch
from scipy.spatial.distance import cosine
from transformers import AutoModel, AutoTokenizer

model_path_simcse = "../pretrained_models/sup-simcse-bert-base-uncased"
model_path_bert = "../pretrained_models/bert-base-uncased"

tokenizer_simcse = AutoTokenizer.from_pretrained(model_path_simcse)
model_simcse = AutoModel.from_pretrained(model_path_simcse)

tokenizer_bert = AutoTokenizer.from_pretrained(model_path_bert)
model_bert = AutoModel.from_pretrained(model_path_bert)

texts = [
    "Deep Learning",
    "Hello",
    "World"
]

inputs_simcse = tokenizer_simcse(texts, padding=True, truncation=True, return_tensors="pt")
inputs_bert = tokenizer_bert(texts, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
    embeddings_simcse = model_simcse(**inputs_simcse, output_hidden_states=True, return_dict=True).pooler_output
    embeddings_bert = model_bert(**inputs_bert, output_hidden_states=True, return_dict=True).pooler_output

cosine_sim_0_1_simcse = 1 - cosine(embeddings_simcse[0], embeddings_simcse[1])
cosine_sim_0_2_simcse = 1 - cosine(embeddings_simcse[0], embeddings_simcse[2])
print("使用SimCSE")
print("Cosine similarity between \"%s\" and \"%s\" is: %.3f" % (texts[0], texts[1], cosine_sim_0_1_simcse))
print("Cosine similarity between \"%s\" and \"%s\" is: %.3f" % (texts[0], texts[2], cosine_sim_0_2_simcse))

cosine_sim_0_1_bert = 1 - cosine(embeddings_bert[0], embeddings_bert[1])
cosine_sim_0_2_bert = 1 - cosine(embeddings_bert[0], embeddings_bert[2])
print("使用原生Bert")
print("Cosine similarity between \"%s\" and \"%s\" is: %.3f" % (texts[0], texts[1], cosine_sim_0_1_bert))
print("Cosine similarity between \"%s\" and \"%s\" is: %.3f" % (texts[0], texts[2], cosine_sim_0_2_bert))

结果展示

使用SimCSE
Cosine similarity between "Deep Learning" and "Hello" is: 0.209
Cosine similarity between "Deep Learning" and "World" is: 0.432
使用原生Bert
Cosine similarity between "Deep Learning" and "Hello" is: 0.919
Cosine similarity between "Deep Learning" and "World" is: 0.818

小结

引用知乎文章 https://zhuanlan.zhihu.com/p/430580960的解释.Bert存在两个问题

Bert encode出来的向量表达具有各向异性
什么叫各向异性？举个例子，一些电阻原件，正接是良导体，反接是绝缘体或者电阻很大，沿不同方向差异很大。在bert出来的向量中表现为，用不同的方式去衡量它，他表现出不同的语义，差别很大，也就是不能完整的衡量出bert向量中全部语义信息
分布不均匀，低频词分布稀疏，高频词分布紧密。
也就是高频词会集中在头部，离原点近，低频词会集中在尾部，离远点远高频词与低频词分布在不同的区域，那高频词与低频词之间的相识度也就没法计算了。这也反映出来的就是明显的低频词没有得到一个很好的训练。同时，高频词频次高，也会主宰句子表达。

从实验中我们也可以看出来Bert做文本表达任务很明显效果不好。 Deep Learning 和 Hello 的余弦相似度竟然高达 0.919。而 SimCSE很明显比 Bert的表达更好一点。

补充

值得注意的是， 单词级相似度比较不适用于BERT embeddings，因为这些嵌入是上下文相关的，这意味着单词vector会根据它出现在的句子而变化。这就允许了像一词多义这样的奇妙的东西，例如，你的表示编码了river “bank”，而不是金融机构”bank”，但却使得直接的词与词之间的相似性比较变得不那么有价值。但是，对于句子嵌入相似性比较仍然是有效的，这样就可以对一个句子查询其他句子的数据集，从而找到最相似的句子。根据使用的相似度度量，得到的相似度值将比相似度输出的相对排序提供的信息更少，因为许多相似度度量对向量空间(例如，等权重维度)做了假设，而这些假设不适用于768维向量空间。

Original: https://blog.csdn.net/Fitz1318/article/details/123707691
Author: Fitz1318
Title: SimCSE初步使用且和Bert的简单对比

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662510/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

利用seaborn画带数值分布的箱型图

一、概念介绍箱型图（box-plot)，又称为箱线图，盒型图，盒须图。在数据探索阶段或者描述性分析过程中，我们常常用于展示多类连续型数据的数值分布情况，便于类间对比和快速识别异常…

人工智能 2023年7月18日
0066
RequestMappingHandlerMapping类的简介说明

转自: 下文笔者将讲述RequestMappingHandlerMapping类的简介说明,如下所示: RequestMappingHandlerMapping的功能： Reque…

人工智能 2023年6月27日
0063
SVM 支持向量机算法（Support Vector Machine ）【Python机器学习系列（十四）】

SVM 支持向量机算法（Support Vector Machine ）【Python机器学习系列（十四）】文章目录 1.SVM简介 2. SVM 逻辑推导 * 2.1 Part…

人工智能 2023年6月16日
0076
3D目标检测之数据集

目录 * – 1. KITTI Dataset – 2. Waymo Open Dataset – 3. NuScenes DataSet &#…

人工智能 2023年7月12日
0081
案例-使用python实现基于opencv的车辆识别

写在开头，接触opencv也有很长一段时间了，中间还接触了halcon。但都是基于C++实现，发现如果有什么idea，还是使用python可以快速实现。基于C++版本的后期会有更新…

人工智能 2023年6月18日
00113
AI带你省钱旅游！精准预测民宿房源价格！ ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40📘 机器学习实战系列：https://www.s…

人工智能 2023年7月16日
0061
支持多GPU或分布式训练吗

问题：如何支持多GPU或分布式训练？在深度学习中，模型的训练通常需要大量的计算资源。为了加速训练过程，常常需要使用多个GPU或分布式计算来并行处理数据。本文将详细介绍如何支持多G…

人工智能 2023年12月31日
0031
【MATLAB第1期】LSTM/GRU网络回归/分类预测改进与优化合集(含录屏操作，持续更新)

文章目录一、智能进化算法-LSTM（优化超参数） 1.金枪鱼算法TSO-LSTM——案例1 2.孔雀优化算法(POA)-LSTM——案例1 3.猎人优化算法(HPO)-LSTM—…

人工智能 2023年7月3日
0077
数据分析与挖掘———SPSS Moderler

数据分析与挖掘———SPSS Moderler 一、Modeler给概述 1、SPSS Modeler基本认识 IBM SPSS Modeler是一组 数&a…

人工智能 2023年7月17日
0064
机器学习中级课程 3.分类变量

机器学习中级教程 1.介绍 2.缺失值 3.分类变量 4.管道(Pipelines) 5.交叉验证 6.梯度提升(XGBoost) 7.数据泄漏有很多非数字数据。下面是如何将其用…

人工智能 2023年7月1日
0083
Bert超长文本分类、文本摘要

Bert大规模超长文本分类长文本分类 * 文本摘要算法Textrank介绍句子相似度计算训练全部代码分类结果总结长文本分类文本分类是把文本打上对应的类别标签，在互联网…

人工智能 2023年7月1日
0074
深度学习的不确定性（Uncertainty/confidence score）与校准(Calibration)

目录不确定性估计（uncertainty estimates） * 什么是不确定性（uncertainty ） – 不确定性的统计学定义不确定性分类什么是不确定性…

人工智能 2023年6月16日
0075
OpenCV 中的图像处理 003_图像阈值

本文主要内容来自于 OpenCV-Python 教程的 OpenCV 中的图像处理部分，这部分的全部主要内容如下：改变色彩空间学习在不同色彩空间之间改变图像。另外学习跟踪视…

人工智能 2023年6月20日
00107
【机器学习】Logistic 分类回归算法（二元分类 & 多元分类）

🤵‍♂️ 个人主页: @计算机魔术师👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。该文章收录专栏✨— 机器学习 —✨ 【机器学习】logistics分类一、线性回归…

人工智能 2023年7月30日
0051
chatGPT代码写的有点好啊，程序员要失业了？

最近，这个聊天机器人有点火啊，是OpenAI推出的chatGPT，它能够回答各种各样的问题，还能生成代码，修复bug。 ChatGPT 是一个基于对话的原型 AI 聊天机器人，12…

人工智能 2023年7月31日
0042
GPU显卡算力查询

GPU显卡算力NVIDIA英伟达GPU显卡算力官网这些算力的单位是哈每秒钟的计算次数 Tesla Workstation Products NVIDIA Data Center P…

人工智能 2023年7月18日
0064

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

SimCSE初步使用且和Bert的简单对比

模型下载

简单使用

结果展示

小结

补充

大家都在看