【NLP基础技术】浅谈词法分析之短文本语义相似度

2023年5月30日下午8:16 • 人工智能 • 阅读 67

一、短文本语义相似度匹配的应用场景

1、背景介绍（举例说明）

2、文本相似度的应用

二、文本语义相似度技术拆解：语义表示和训练模式

1、语义表示

2、SimNet框架

3、两个训练模式：pointwise 和 pairwise

三、使用EasyDL通过BOW算法网络训练模型

一、短文本语义相似度匹配的应用场景

1、背景介绍（举例说明）

问题：在百度知道场景下，如何根据用户搜索语句推荐相似问题及其答案？

问题描述：用户在百度知道中，搜索一个问题：什么是省内流量？ 接着我们会把词问题与库中的问题进行匹配，计算相似度并且进行排序。假设库中有三个问题可以进行匹配，分别是：请问省内流量咋回事？省内流量在天津市里能用吗？天津省内流量在河北唐山能用吗？这三个句子会分别和”什么是省内流量？ “进行相似度的计算并得到分数，并且从高到低进行排序。最后会筛选出相似度分数最高的语句，这里以”请问下省内流量咋回事？”为例，假设此句与用户搜索的问题句子的相似度是最高的， 我们就会把这个问题句子以及这个问题句子的答案推荐给用户，让用户参考其回答。 这其实是一个完整的”问题搜索–匹配排序–推荐答案”的过程。

2、文本相似度的应用

文本相似度在各种产品应用场景中都有普及，并且都已经取得的很好的效果。

例如入在百度知道的信息检索中，用户每时每刻都会检索各种各样的问题，问题也涉及各种领域，包含生活、娱乐、科技等等。同时问题的表达形式多种多样，不可能完全是库中的问题。这时候就需要语义匹配技术来对用户输入的问题进行匹配，把库中最相似的问题找出并且把答案推荐给用户。

实际应用场景：

比如说：用户检索的问题可能是人来在海洋中到低产生了多少垃圾？海洋中的垃圾有多少是人类产生的？等等。这些都和海洋中有多少人类产生的垃圾相似，找到最相似的进行推荐。

再比如百度浏览器的新闻推荐，这也是相同的逻辑。浏览器会根据用户之前的新闻浏览历史来运用语义匹配技术来推荐相似的新闻给用户。涵盖体育、财经、娱乐等领域，来达到精准推送目的。

在比如智能客服，许多电商和通信运营商中的智能客服都会用到智能客服。在我们与智能客服聊天或者提问题的时候，智能客服总是可以我们的输入语句与库中的语句进行匹配，把相似度最高的语句呈现给用户。涵盖交通、购物、金融等行业，极大的促进了行业的发展。

二、文本语义相似度技术拆解：语义表示和训练模式

1、语义表示

句子的语义表示，以BOW(词袋)模型为例。首先对文本进行分词操作，对每一个词赋予一个词向量（由浮点数组成的固定维度的向量）来代表当前词的语义，词向量可以随着训练的进行来更新参数，最后使得相似的单词具有较高的余弦相似度。我们把句子中所有的词向量相加得到句子的向量。

句子语义表示：BOW(词袋)模型

如何计算两个句子的相似分数？这里使用百度语义匹配模型-SimNet框架来进行展示。SimNet是一种有监督的神经网络语义匹配模型，它大幅度提升了语义匹配的效果。

2、 SimNet框架

SimNet框架介绍：

SimNet 框架
SimNet 框架如上图所示，主要分为输入层、表示层和匹配层。
1.输入层
该层通过 look up table 将文本词序列转换为 word embedding 序列。
2.表示层
该层主要功能是由词到句的表示构建，或者说将序列的孤立的词语的 embedding 表示，转换为具有全局信息的一个或多个低维稠密的语义向量。最简单的是 Bag of Words（BOW）的累加方法，除此之外，我们还在 SimNet 框架下研发了对应的序列卷积网络（CNN）、循环神经网络（RNN）等多种表示技术。当然，在得到句子的表示向量后，也可以继续累加更多层全连接网络，进一步提升表示效果。
3.匹配层
该层利用文本的表示向量进行交互计算，根据应用的场景不同，我们研发了两种匹配算法。
1）Representation-based Match
该方式下，更侧重对表示层的构建，尽可能充分地将待匹配的两端都转换到等长的语义表示向量里。然后在两端对应的两个语义表示向量基础上，进行匹配度计算，我们设计了两种计算方法：一种是通过固定的度量函数计算，实际中最常用的就是 cosine 函数，这种方式简单高效，并且得分区间可控意义明确；还有就是将两个向量再过一个多层感知器网络（MLP），通过数据训练拟合出一个匹配度得分，这种方式更加灵活拟合能力更强，但对训练的要求也更高。

2）Interaction-based Match
该方式更强调待匹配两端更充分的交互，以及交互基础上的匹配。所以不会在表示层将文本转换成唯一的一个整体表示向量，而一般会保留和词位置相对应的一组表示向量。下面介绍该方式下我们实际应用的一种的 SimNet 模型变体。首先基于表示层采用双向 RNN 得到的文本中间位置表示，和词位置对应的每个向量体现了以本词语为核心的一定的全局信息；然后对两段文本按词对应交互，由此构建两段文本之间的 matching matrix（当然也可以构建多组 matrix，形成 tensor），这里面包括了更细致更局部的文本交互信息；基于该局部匹配特征矩阵，我们进一步使用卷积来提取高级的从单词到 N-Gram 多层次的匹配特征，再经过 pooling 和 MLP 得到最终匹配得分。

Interaction-based match 方法
Interaction-based Match 匹配方法匹配建模更加细致、充分，一般来说效果更好一些，但计算成本会增加非常多，适合一些效果精度要求高但对计算性能要求不高的应用场景。大部分场景下我们都会选择更加简洁高效的 Representation-based 匹配方式。

Pair-wise 的 SimNet 训练框架
采用了pair-wise Ranking Loss 来进行 SimNet 的训练。以网页搜索任务为例，假设搜索查询文本为 Q，相关的一篇文档为 D+，不相关的一篇文档为 D-，二者经过 SimNet 网络得到的和 Q 的匹配度得分分别为 S(Q,D+) 和 S(Q,D-)，而训练的优化目标就是使得 S(Q,D+)>S(Q,D-)。实际中，我们一般采用 Max-Margin 的 Hinge Loss：
max⁡{0,margin-(S(Q,D+)-S(Q,D-))}
这种 loss 简洁、高效，还可以通过 margin 的不同设定，来调节模型得分的区分度。
文本任务下的特色改进：
SimNet 的匹配框架非常普适。特别是 Representation-based 模式，其实很早在图像中就有类似应用。九十年代即有利用 Siamese Networks 来进行签名真伪匹配的工作。但对于文本任务来讲，语言的一些特殊性还是需要我们有一些更多针对性的考虑。
针对文本的一维序列的特性，在表示层需要有更针对性的建模。比如我们实现的一维序列卷积网络和长短时记忆网络 LSTM，都充分考虑到了文本的特性。
此外，从输入信号角度我们也充分考虑到文本的特点。SimNet 作为一种 End-to-End 的语义匹配框架，极大地降低了特征设计的代价，直接输入文本的词序列即可。但对中文而言，由于基本语言单位是字，所以仍需要切词这个步骤，但切词本身就是个难题，而且词语的粒度本身也没有严格的定义，所以 SimNet 框架下需要降低对精准切词的依赖，或者说要考虑如何从切词角度来进一步提升匹配效果。另一方面，虽然不再需要进一步的复杂的特征设计，但一些基本的 NLP 技术的产出，如高频共现片段和句法结构信息，能否作为先验知识融入 SimNet 框架发挥作用，也是值得探索的方向。
SimNet模型：实现代码

3、两个训练模式：pointwise 和 pairwise

在这个网络框架下如何学习训练和学习语义匹配呢 ？这里讲两个训练模式：pointwise 和 pairwise 。

在pointwise模式中，相似的句子叫做正例，不相似的句子叫做负例。句子和正例（或者负例）的训练通过Simnet网络分别通过词向量的表示以及BOW上下的表示得到两个句子的向量后，通过对两个句子向量进行拼接，最后通过全连接FC,把神经网络输出概率作为分数。损失函数为常见的二分函数交叉熵。Y是label,1表示相似，0表示不相似，P表示相似度分数。pointwise模式训练的目的是使得相似句子分数接近于1，不相似句子分数接近于0，更加适合一个分类的场景。

pairwise训练模式和pointwise训练模式的不同是：pairwise需要三段输入的文本，分别是句子、相似的句子–正例，不相似的句子–负例。通过BOW可以得到三个句子的句向量表示。接着我们会先把句子和正例的句向量计算cos余弦相似度得到一个分数是s1，再计算句子和负例的句向量计算cos余弦相似度得到一个分数s2.最后把s1 和 s2 做一个比较，可以查看出损失函数的形式可以通过训练使得相似句子分数 > (不相似句子分数 + 区分度)。pairwise训练模式的目的是使得正例的句子分数尽可能的大于负例的句子分数，更加适合排序的场景。

pointwise和pairwise的总结：
pointwise训练模式pairwise训练模式输入样本query+正例（或负例）query+正例+负例目的正例分数接近1，负例分数接近0正例分数尽可能的高于负例分数适合场景分类排序

训练完毕后，如何进行评估？

对于总体：

准确率：预测正确的样本数/总样本数

对于某一类：

精确率：该类预测正确的样本数 / 模型预测出该类的数量
召回率：该类预测正确的样本数 / 该类数量
F1- score : 2 * 精确率 * 召回率 / （精确率 + 召回率）

三、使用EasyDL通过BOW算法网络训练模型

首先准备训练数据，数据分为三部分：训练集、验证集、测试集。

数据集格式：

一条数据集分为三列，分别是句子、正例（或负例）、label.

例如：

其中数据集是不需要分词的，因为 EasyDL 可使用内部分词功能，可以使用权威公开相似度数据集lcqmc数据集（原始lcqmc数据集训练数据量有23万，实践时为了训练效果只截取了2万少量数据量，地址：链接：https://pan.baidu.com/s/1Nfw45I3hL3WjE3EHIMnhzg 提取码：x352）。目前EasyDL（百度官网提供：EasyDL-零门槛AI开发平台）仅支持pointwise训练。

具体的训练方法可以使用下面手册（链接直达）。

Original: https://blog.csdn.net/qq_38587650/article/details/120879914
Author: 已退游，勿扰
Title: 【NLP基础技术】浅谈词法分析之短文本语义相似度

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544880/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【科研分享】如何切换GPU以及如何在Tensorflow实验中节约GPU资源

大家跑深度学习进行科研的时候，单机的算力往往无法支持我们进行例如图神经网络、强化学习网络等复杂模型的训练任务。所以常常需要使用服务器的GPU来训练模型，但是多人共用的服务器该如何避…

人工智能 2023年5月25日
00102
目标检测算法——YOLOV7——详解

1、主要贡献主要是现有的一些trick的集合以及模块重参化和动态标签分配策略，最终在 5 FPS 到 160 FPS 范围内的速度和准确度都超过了所有已知的目标检测器。当前目标…

人工智能 2023年6月16日
0080
Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D

最近两年自动驾驶领域有很多在bev视角下做3D检测的工作，纯视觉的bev下检测一个难点就是深度信息的缺失，本篇论文中提供了可选的离散深度值，让2D像素寻找在3D世界中最合理的位置，…

人工智能 2023年6月17日
0066
git branch 分支管理

在多人协作的情况下,master通常是稳定的分支.可以再建一些”develop”,”testing”等名称的分支.主管master的…

人工智能 2023年6月4日
0082
《基于Tensorflow的知识图谱实战》 — 有趣的词嵌入–word embedding（二）| fastText和预训练词向量

⚽开发平台：jupyter lab 🎈运行环境：python3、TensorFlow2.x 第7章有趣的词嵌入–word embedding（二）| 更多的word …

人工智能 2023年6月1日
0079
Jetson AGX Orin上部署YOLOv5_v5.0+TensorRT8

一．首先是捋请思路 ①刷机后的Orin上环境是：CUDA11.4+CUDNN8.3.2使得后续需要的部署环境只能为TensorRT8.x（这是根据cuda和cudnn的版本确定的，…

人工智能 2023年6月26日
0065
并联四足机器人项目开源教程（五） — 四足机器人相关书籍&论文研读

这个是本人在大三期间做的项目 —- 基于MIT的Cheetah方案设计的十二自由度并联四足机器人，这个项目获得过两个国家级奖项和一个省级奖项。接下来我会将这个机器人的控…

人工智能 2023年7月27日
0089
【基于Matlab，svm的农作物叶片的识别与分类】GUI,源代码

关于SVM 20世纪90年代，支持向量机SVM被Cortes和Vapnik率先研究出，它可在小样本中得到较为精确的训练样本，在非线性中通过转换计算出分类间隔，并能够进行有效的机器学…

人工智能 2023年7月1日
0087
【Paper Reading】VAFL: a Method of Vertical Asynchronous Federated Learning

VAFL: a Method of Vertical Asynchronous Federated Learning 原文来源：[Arxiv2020] VAFL: a Method…

人工智能 2023年6月29日
0073
python 多分类 recall_多分类如何根据混淆矩阵求准确率、精准率、和召回率？

对于多分类问题，首先，对于每一个类的精准率(Precision)和召回率(Recall)，定义和二分类问题一致，但是计算上不再需要TP,FP,FN等量了：) 比如对A, B, C三…

人工智能 2023年7月3日
0084
protege和neo4j联系_Neo4j | 实体和关系的合并

实体消歧图数据存储的过程中有时会遇到这样一类问题，对于实体和关系数据而言，在数据预处理或者数据清洗时可以做到实体间是不会重复的(去除重复的数据)；虽然实体不重复，但可能两个实体所…

人工智能 2023年6月1日
00129
yolov5网络结构代码解读

文章目录前言 1.项目介绍 2.yolov5的网络结构 * 1.yolov5s的配置文件 2.网络模型的初始化和训练过程 3.backbone 4.head – 1….

人工智能 2023年7月28日
0067
2022 计算机视觉顶会论文—-目标检测

1.Dual Cross-Attention Learning for Fine-Grained Visual Categorization and Object Re-Ident…

人工智能 2023年6月24日
0090
用离线语音做个简易版智能家居系统（stm32）

最近课程项目要求自己动手做个东西，美其名曰融合平时所学，最后想了半天准备先做个低配版的天猫精灵，也算实现个小项目吧，目前实现了简单的语音交互，能播报温湿度以及感知环境光照的功能，当…

人工智能 2023年5月25日
0093
Pytorch深度学习加载数据集的方式

数据集有官方数据集和自己的数据集两种，对于不同的数据集加载方式有差别，大致如下： 1.对于官方数据集，即可以通过torchvision.datasets后面加点的方式获取数据集名…

人工智能 2023年7月1日
0070
百度Apollo控制模块基础及控制算法介绍。

文章目录一、控制理论基础 * 1、概述 2、控制基础二、PID控制器 * 1、基本知识三、进阶控制器设计 * 1、LQR控制器 2、 MPC 四、MATLAB控制工具箱 ; …

人工智能 2023年6月2日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【NLP基础技术】浅谈词法分析之短文本语义相似度

一、短文本语义相似度匹配的应用场景

1、背景介绍（举例说明）

2、文本相似度的应用

二、文本语义相似度技术拆解：语义表示和训练模式

1、语义表示

2、 SimNet框架

3、 两个训练模式：pointwise 和 pairwise

三、使用EasyDL通过BOW算法网络训练模型

大家都在看

3、两个训练模式：pointwise 和 pairwise