BERT句向量(一)：Sentence-BERT

2023年5月27日下午8:22 • 人工智能 • 阅读 98

前言

句向量：能够表征整个句子语义的向量，目前效果比较好的方法还是通过bert模型结构来实现，也是本文的主题。

有了句子向量，我们可以将其用于聚类，处理大规模的文本相似度比较，或基于语义搜索的信息检索。

[En]

With sentence vector, we can use it for clustering, dealing with large-scale text similarity comparison, or information retrieval based on semantic search.

例如搜索系统中的输入query和匹配文档document、Q&A任务的问题和答案等等，都可以转化为计算两个句子的语义相似/相关度，相关度最高的n个作为模型的返回结果。

题外话

这种类似的模型一般称为passage retrieval models，即段落检索，有两个代表：

sparse models：BM25、TF-IDF等；
dense models（DPR，Dense Passage Retrieval）：将query和doc（question和passage/answer）都转化为稠密向量，然后通过faiss等工具进行相关召回。

原生Bert

原生的BERT模型在诸多句子分类和句子对的回归任务上都取得了state-of-the-art的表现，它使用一种 cross-encoder的结构：将两个句子拼接输入到模型，经过带有self attention的transformer网络得到最终的预测值。

但这种做法不适用于大量句子对的回归任务，例如给定10000个句子，找出每个句子最相似的句子，那么每个句子就得需要与其他所有句子进行两两组合，才能得到与所有句子的相似度，即需要进行n*(n-1)/2= 49995000次的推理计算，这显然是不合理的。

这其实 与推荐场景类似，采用这种结构的话，query需要与所有的doc进行分别计算，才能分数相关度最高的doc，这是不现实。所以这种做法一般是放在后面的 排序阶段。

而在此之前，一般会先经过 召回阶段，则是需要事先将所有doc输入到bert模型，提取出句向量进行存储，实际使用时，实时计算query的句向量，然后通过faiss等ann工具，来从所有doc中召回相关度最高的n个。

因此，sentence-bert此时就派上用场，它使得bert模型能够提取表征句子语义的句向量。

Sentence-BERT

相关论文：《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》

pooling strategies

其实原生bert模型本身是具备句向量提取的能力，一般是以下3种方法，sentence-bert也是采用相同的方法：

CLS：使用[CLS]字符最后一层的输出向量，作为句向量；
MEAN：使用句子的所有字符的最后一层输出向量，计算它们的均值，作为句向量；
MAX：使用句子的所有字符的最后一层输出向量，所有字符向量对应位置提取最大值，作为句向量。

但是，如果直接使用原生bert模型来提取句向量，效果十分不理想，甚至不如GloVe提取的句向量。

fine-tune

所以，作者提出一种针对句向量，对bert模型进行微调的方法，包括无监督和监督训练。

fine-tune的三种结构：

1. Classification Objective Function

如图1的分类结构，句子A和句子B输入到 同个bert模型（参数绑定），然后使用[CLS]向量或者所有字符的向量均值得到A的句向量u、B的句向量v，然后拼接u、v和 element-wise的 |u-v|，最后通过softmax做一个k分类，loss为cross-entropy；

2. Regression Objective Function

如图2的回归结构，同样的方法得到u和v，再经过cosine函数得到u和v的相似度，使用MSE（ mean-squared-error）作为loss；

3. Triplet Objective Function

最后一种为三元组结构，如下式，句子a和p为负例，a和n为正例，s a s_a s a 为句子a的句向量，方法同上。这个结构是让负例句子的距离要尽量比正例的大

其中|| · ||是距离度量，例如欧式距离，

ξ \xi ξ为 margin ，控制负例和正例句子的距离差最小为ξ \xi ξ

; inference

推理阶段，按照上图2的做法，两个句子u和v输入到Sentence-BERT结构微调后的模型，选择一种pooling策略，得到句子的向量，然后使用cosine函数来计算两个句子的相似/相关度。

无监督训练

作者使用 SNLI(Bowman et al., 2015) 和Multi-Genre NLI(Williams et al., 2018)两个公开的数据集，带有三种标签 contradiction、eintailment、neutral的句子对。

使用Classifification Objective Function来对bert模型进行微调，详细参数为：batch_size为16、Adam optimizer、2e-5的学习率、10%的线性学习率warmup，采用MEAN的pooling策略。

然后在STS数据集上进行验证， 由于未使用到目标数据集，因此可以认为是无监督训练，具体效果如下：

（ STS12-STS16:SemEval 2012-2016, STSb: STSbenchmark, SICK-R: SICK relatedness dataset，这些数据集带有0-5级的相关程度）

明显看出微调后的sentence-bert比原生bert的句向量效果提升了许多，并且使用RoBERTa可以进一步提升效果。

（作者也是做了实验，才得出原生bert句向量甚至不如GloVe的结论）

; 监督训练

上面提到，STS数据的标签是0-5级的相关程度，作者使用了regression objective function的结构进行微调SBERT。

对两种监督培训方案进行了测试。

[En]

Two kinds of supervision training schemes were tested.

仅使用STSb数据进行监督训练；
先在NLI数据进行训练，然后再使用STSb数据

结果如下：

监督训练比无监督训练效果进一步提升，并且BERT的模型大小影响较大，BERT-large比base提升3-4点；

但使用RoBERTa未没有明显的效果提升。

代码实现

tensorflow1.x：https://github.com/QunBB/DeepLearning/tree/main/NLP/sentence_bert/sbert

pytorch推荐使用：Sentence-Transformers

Original: https://blog.csdn.net/sgyuanshi/article/details/124415436
Author: 我就算饿死也不做程序员
Title: BERT句向量(一)：Sentence-BERT

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527583/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

常用激活函数activation function（Softmax、Sigmoid、Tanh、ReLU和Leaky ReLU) 附激活函数图像绘制python代码

激活函数是确定神经网络输出的数学方程式。激活函数的作用：给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数。 1、附加到网络中的每个神经元，并根据每个神经元的输入来…

人工智能 2023年6月16日
00103
Pandas学习笔记

1.常用的数据结构有：Series，DataFrame Series的创建： import pandas as pd series1=pd.Series([1,2,3,4],ind…

人工智能 2023年7月6日
0090
网络参数量、输出特征图大小、FLOPs计算及pytorch代码统计网络参数量

文章目录 * – 计算理论 – + 卷积层： + * 参数量（注意包括weight和bias)： * 输出特征图尺寸： * FLOPs + BN层： + *…

人工智能 2023年7月22日
0065
深度学习系列27：VAE生成模型

AE AE（Autoencoder），自动编码器。自编码器的初衷是为了数据降维，假设原始特征x维度过高，那么我们希望通过编码器E将其编码成低维特征向量z=E(x)，编码的原则是尽可…

人工智能 2023年6月16日
0089
【OpenCV 例程 300 篇】104. 运动模糊退化模型

专栏地址：『youcans 的 OpenCV 例程 300篇 – 总目录』【第 7 章：图像复原与重建】104. 运动模糊退化模型105. 湍流模糊退化模型【you…

人工智能 2023年6月20日
0078
anaconda安装tensorflow2，报错cannot import name ‘secure_write‘

Anaconda安装tensorflow2 我们在使用anaconda创建虚拟环境，安装tensorflow2及各种相关的依赖时，可能由于各种依赖的安装顺序不同，而导致出现各种奇怪…

人工智能 2023年5月25日
0072
NVIDA-TensorRT部署（一）

TensorRT是一个高性能的深度学习推理(Inference)优化器，可以为深度学习应用提供低延迟、高吞吐率的部署推理。TensorRT可用于超大规模数据中心、嵌入式平台或自动驾…

人工智能 2023年6月26日
00102
树莓派通过RF443MHz收发控制家庭灯

背景：家中随意贴开关损坏(一种通过443MHz控制的远程开关)，且关灯后到卧室需要摸黑，萌生了搞远程控制灯的想法，因为有吃灰的树莓派，所以考虑了最低成本的方案，只需购买价值几元钱的…

人工智能 2023年7月30日
0035
YOLOV7开源代码讲解–训练参数解释

目录训练参数说明： –weights: — cfg: –data: –hpy: –epoch: –batc…

人工智能 2023年7月29日
0083
BP神经网络学习总结

目录 0前言 1 神经网络 2 BP神经网络 3正向传播 4 反向传播 4.1损失函数和代价函数 4.2 梯度下降法 4.3 反向传播 5 编程思路 6 应用 6.1 应用1-是猫…

人工智能 2023年7月13日
0071
使用TensorFlow编程实现一元逻辑回归

内容回顾逻辑回归是在线性模型的基础上，再增加一个Sigmoid函数来实现的。输入样本特征，经过线性组合之后，得到的是一个连续值，经过Sigmoid函数，把它转化为一个0-1之间的…

人工智能 2023年5月25日
0061
FPN (特征金字塔) 的原理和代码

文章结构 1. 为什么会使用金字塔式的representation以及它存在的问题。 2. 原理和特点。 3. 如何基于resnet实现（思路）。 4. 小总结为什么会使用金字塔…

人工智能 2023年5月28日
00118
双十一到了，当我用Python采集了电商平台所有商品后发现….

Python采集电商平台写在前面环境及模块案例实现思路代码展示效果展示最后写在前面这不是双十一快到了，为了以最优惠的价格买到自己想买的商品，我不惜用Python把y…

人工智能 2023年6月28日
0085
Seaborn的简述

Seaborn（seaborn是python中的一个可视化库，是对matplotlib进行二次封装而成，既然是基于matplotlib，所以seaborn的很多图表接口和参数设置与…

人工智能 2023年7月5日
0083
定序回归模型

定序回归的因变量是定序变量，数据类型是顺序数据。比如不满意，一般，满意；不合格，合格，优秀等。假设因变量是评分，先由单变量回归说起，则普通的线性回归模型为：s c o r e =…

人工智能 2023年6月17日
00114
MotionNet 工程复现

MotionNet 工程复现 1. 下载工程和数据 1）通过下面的网站，注册下载software即可 https://www.merl.com/research/?research…

人工智能 2023年7月9日
00100

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

BERT句向量(一)：Sentence-BERT

题外话

pooling strategies

fine-tune

; inference

大家都在看