判断两个颜色相似度_计算两个语句相似度的WMD算法实现

2023年6月5日上午11:05 • 人工智能 • 阅读 93

在完成第二篇论《From Word Embeddings To Document Distances》文阅读之后，需要完成相应论文词数据的测试计算，另外这个文章中涉及线性规划的一部分内容，所以就趁着算法细节没有忘记，完成了相关算法的实现。由于年底很忙，这个简单的文档也拖了很久还没有写完，趁没有遗忙的时候赶紧记录下来，尽管很简单。

假设有三个句子，需要通过WMD来判断句子之间的相似度，具体三个句子分别为：

(1)sentence1: “Boys like eating apples”

(2)sentence2: “He wants some fruits”

(3)sentence3: “A boy speaks French”

为完成上述目标，具体的算法实现流程如图1所示。

图1 利用WMD计算不同语句相似度的算法流程

1、获取词embedding向量文件

为了完成每个单词的词向量特征提取，需要利用公共数据进行预训练，形成了embedding向量文件。目前英文文档中较常用的是斯坦福大学提供的Glove(Golobal Vectors for word Representation）词embedding文件，便于映射形成各个单词的多维度词向量，该文件包括了50维、100维、200维、300维等四种词向量维度。一般而言，维度越多，越能够表现出每个词之间的差异。上述embeeding向量文件，一般是读取之后用dictionary的方式进行存储。

常规英文对应embedding向量文件下载链接为：Global Vectors for Word Representation常规英文对应embedding向量文件下载链接为：

Global Vectors for Word Representationnlp.stanford.edu

2、 句子单词分析与nBow构建

由于英文单词跟中文单词有典型的差异，因此直接利用空格对单词进行分割，然后利用nBow进行统计，并计算每一个单词在该句子中的占比概率。

这个概率后面在进行句子间的比例计算时，需要用来衡量与之对应的那个新词对应的占比，是计算WMD最短距离的重要约束。

3、句子单词embedding向量预处理

参照embedding向量文件对应的dictionary，获取每一个单词对应的词向量。本文实验部分利用的是50维的词向量特征进行评估。例如单词boys与he对应的50维词向量为：

boys: [-0.74203 0.6797 -0.56667 -1.1968 0.3358 0.29851 -0.70912 -0.14211 -0.40529 0.097625 -0.082705 -0.21598 -0.33956 -0.63261 0.54714 -0.32945 -0.037783 0.88213 -0.36467 -0.0061634 -0.39807 1.2246 0.66922 1.3295 -0.56906 -1.0283 -0.3655 -0.18287 -0.13597 -1.1708 2.2974 0.626 -0.015633 -0.32109 0.88654 0.4967 0.45373 -0.82939 0.28069 -0.92905 -0.60766 -0.74002 0.12943 0.2404 1.0691 -0.27271 0.29008 -1.2301 -0.091389 -0.2003 ]
he: [-0.20092 -0.060271 -0.61766 -0.8444 0.5781 0.14671 -0.86098 0.6705 -0.86556 -0.18234 0.15856 0.45814 -1.0163 -0.35874 0.73869 -0.24048 -0.33893 0.25742 -0.78192 0.083528 0.1775 0.91773 0.64531 -0.19896 0.37416 -2.7525 -0.091586 0.040349 -0.064792 -0.31466 3.3944 0.044941 -0.55038 -0.65334 0.10436 0.016394 0.24388 1.0085 0.31412 -0.33806 -0.16925 0.10228 -0.62143 0.19829 -0.36147 -0.24769 -0.38989 -0.33317 -0.041659 -0.013171]

4、求解两个句子之间最短WMD距离约束

参照《From Word Embeddings To Document Distances》文档，利用单词对应的50维的单词向量计算两个单词的距离。第

个词与第

个词之间的距离可表示为：

。其中

与

分别为两个单词在embedding空间的两个词向量，而

则表示为两个词向量之间的word travel cost。

在完成任何两个词之间的travel cost计算之后，需要计算文档

与文档

时，首先要利用nBow表示两段文本。在开始计算两个文档的距离，需要有三个假设：

假设1：文档中任何一个词都可以转化为文档中任何词，且每个单词都要完成转移；
假设2：从文档中的转移出来的词的总和等于文档中词的总数；
假设3：转移进入文档中转化为的数量总各等于文档中词总数。

在完成上述三个假设之后，定义一个转移矩阵

，其中每个元素

表示有多少词

从

转移成了

中的词

。最终本文定义两个文档之间的距离为即为两个文档中词的积累Total travel cost，具体表达式为

。因此在求解Documnet distance的过程即转化为一个
典型的整数规划求解问题

，具体表达示可写为：

5、调用求解器进行求解

参照第4阶段中涉及整数规划求解原理，完成两个句子距离计算的算法逻辑。本文在完成最小移动距离的计算时，涉及的软件包为pulp，最终具体的实现代码如下：

import numpy as np
from pulp import *

&#x8BB0;&#x5F55;&#x8BCD;&#x5411;&#x91CF;&#x5B57;&#x5178;
w2v = {}
word2id = {}
id2word = {}
word_list = []

&#x8BFB;&#x53D6;&#x539F;&#x59CB;&#x8BCD;&#x5411;&#x91CF;&#x6587;&#x4EF6;
with open("raw_data/glove.6B.50d.txt", "r", encoding="utf-8") as glovefile:
    for i, each_line in enumerate(glovefile):
        each_wc = each_line.strip().split(' ')
        w2v[each_wc[0]] = np.array([float(i) for i in each_wc[1:]])
        word_list.append(each_wc[0])
        id2word[i] = each_wc[0]
        word2id[each_wc[0]] = i

&#x5C06;&#x4E00;&#x53E5;&#x82F1;&#x6587;&#x5355;&#x8BCD;&#x62C6;&#x5206;&#x4E3A;&#x5355;&#x8BCD;
def cleanup_line(sent):
    splitted_list = []
    for each in sent.strip().split():
        if word2id.get(each.strip()):
            splitted_list.append(each.strip())
    return splitted_list

&#x5229;&#x7528;&#x8BCD;&#x5411;&#x91CF;&#x5B57;&#x5178;&#x63D0;&#x53D6;&#x6BCF;&#x4E2A;&#x53E5;&#x5B50;&#x4E2D;&#x5355;&#x8BCD;&#x7684;&#x8BCD;&#x5411;&#x91CF;
def encode_line(sent_splitted, w2v, word2id):
    encoded = {}
    for each in sent_splitted:
        encoded[word2id[each]] = w2v[each]
    return encoded

&#x9488;&#x5BF9;&#x6BCF;&#x4E00;&#x4E2A;&#x53E5;&#x5B50;&#x8BA1;&#x7B97;&#x76F8;&#x5E94;&#x7684;nBow&#x7684;&#x8BCD;&#x5360;&#x6BD4;&#x6982;&#x7387;
def calculated_d_stat(sent_splitted, word2id):
    d = np.zeros(len(word2id))
    for each_w in sent_splitted:
        d[word2id[each_w]] += 1
    return d/(d.sum())

&#x8BA1;&#x7B97;&#x4E24;&#x4E2A;&#x8BCD;&#x7684;&#x8BCD;&#x5411;&#x91CF;&#x8DDD;&#x79BB;
def cost(v1, v2):
    dist = np.linalg.norm(v1 - v2)
    return dist

&#x57FA;&#x4E8E;&#x4E24;&#x4E2A;&#x53E5;&#x5B50;&#x4E2D;&#x5404;&#x5355;&#x8BCD;&#x7684;&#x8BCD;&#x5411;&#x91CF;&#xFF0C;&#x6C42;&#x89E3;&#x6700;&#x5C0F;&#x7684;wmd&#x7EC4;&#x5408;
def solve_lp(sent_splitted_1,  sent_splitted_2, d1, d2, encod1, encod2):
    sent_id1 = [word2id[e] for e in set(sent_splitted_1)]
    sent_id2 = [word2id[e] for e in set(sent_splitted_2)]

    problem = LpProblem("wmp_lp", LpMinimize)
    T = LpVariable.dicts('T', (sent_id1, sent_id2), lowBound=0, upBound=1)
    problem += lpSum([(T[i][j] * cost(encod1[i], encod2[j])) for i in sent_id1 for j in sent_id2])

    for i in sent_id1:
        problem += lpSum(T[i][j] for j in sent_id2) == d1[i]
    for j in sent_id2:
        problem += lpSum(T[i][j] for i in sent_id1) == d2[j]
    problem.solve()
    return problem.objective.value()

def WMD(sent1, sent2):
"""
    &#x8FD9;&#x662F;&#x4E3B;&#x8981;&#x7684;&#x51FD;&#x6570;&#x6A21;&#x5757;&#x3002;&#x53C2;&#x6570;sent1&#x662F;&#x7B2C;&#x4E00;&#x4E2A;&#x53E5;&#x5B50;&#xFF0C; &#x53C2;&#x6570;sent2&#x662F;&#x7B2C;&#x4E8C;&#x4E2A;&#x53E5;&#x5B50;&#xFF0C;&#x53EF;&#x4EE5;&#x8BA4;&#x4E3A;&#x6CA1;&#x6709;&#x7ECF;&#x8FC7;&#x5206;&#x8BCD;&#x3002;

    step1: &#x5BF9;&#x53E5;&#x5B50;&#x505A;&#x5206;&#x8BCD;&#xFF1A; &#x8C03;&#x7528; .split() &#x51FD;&#x6570;&#x5373;&#x53EF;
    step2: &#x83B7;&#x53D6;&#x6BCF;&#x4E2A;&#x5355;&#x8BCD;&#x7684;&#x8BCD;&#x5411;&#x91CF;&#x3002;&#x8FD9;&#x9700;&#x8981;&#x8BFB;&#x53D6;&#x6587;&#x4EF6;&#x4E4B;&#x540E;&#x6784;&#x5EFA;embedding matrix.

    step3: &#x6784;&#x5EFA;lp&#x95EE;&#x9898;&#xFF0C;&#x5E76;&#x7528;solver&#x89E3;&#x51B3;

    &#x53EF;&#x4EE5;&#x81EA;&#x884C;&#x5B9A;&#x4E49;&#x5176;&#x4ED6;&#x7684;&#x51FD;&#x6570;&#xFF0C;&#x4F46;&#x52A1;&#x5FC5;&#x4E0D;&#x8981;&#x6539;&#x5199;WMD&#x51FD;&#x6570;&#x540D;&#x3002;&#x6D4B;&#x8BD5;&#x65F6;&#x4FDD;&#x8BC1;WMD&#x51FD;&#x6570;&#x80FD;&#x591F;&#x6B63;&#x786E;&#x8FD0;&#x884C;&#x3002;
"""
    splitted_line_1 = cleanup_line(sent1)
    splitted_line_2 = cleanup_line(sent2)

    d1 = calculated_d_stat(splitted_line_1, word2id)
    d2 = calculated_d_stat(splitted_line_2, word2id)

    encoded_1 = encode_line(splitted_line_1, w2v, word2id)
    encoded_2 = encode_line(splitted_line_2, w2v, word2id)
    return solve_lp(splitted_line_1, splitted_line_2, d1, d2, encoded_1, encoded_2)

6、句子之间相似度度量验证

完成了上述代码的撰写与实践，具体计算sentence1至sentence3之间的距离，通过WMD函数的计算，具体的距离即为：

(1)sentence1: “Boys like eating apples”

(2)sentence2: “He wants some fruits”

(3)sentence3: “A boy speaks French”

具体而言，sentenc1与sentence2的WMD值为4.37，而sentence1与sentence3的WMD值为5.43。因此，sentence1与sentence2的相似性更高。

Original: https://blog.csdn.net/weixin_36164538/article/details/113366836
Author: 化学小辣鸡toto
Title: 判断两个颜色相似度_计算两个语句相似度的WMD算法实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568969/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

二、自然语言处理发展历程

1.自然语言处理发展历程自然语言处理的发展历程经历了兴起阶段、符号主义、连接主义和深度学习阶段。兴起阶段：自然语言处理的萌芽期，代表人物包括图灵和香农。符号主义：自然语言处理…

人工智能 2023年5月31日
0098
科大讯飞语音接口调用实现语音识别

申请账号及获得AppID等控制台填写资料语音听写的文档和界面描述 [En] Documentation and interface description of voice d…

人工智能 2023年5月25日
0070
【OpenCV】OpenCV基础教程（3）—— 对比度增强

3. 对比度增强 3.1 灰度直方图获取灰度直方图的函数如下： void cv::calcHist(const cv::Mat *images, int nimages, con…

人工智能 2023年6月18日
0070
task1-3:第一章：第三节探索性数据分析

task1-3:第一章：第三节探索性数据分析 * – 1 第一章：探索性数据分析 – + * 开始之前，导入numpy、pandas包和数据 + 1.6 了…

人工智能 2023年7月6日
0080
用Python来表白，把情书写进她的照片里

前言这不已经十一月了，22年马上就过完了，各位兄弟有对象了吗，现在就是缺钱还缺对象退一步来说，有心仪的人吗啊，如果有的话，看看这篇程序员的表白小妙招吧 ; 实现步骤想要实现…

人工智能 2023年6月20日
0098
R数据分析：潜在转化分析LTA的做法和解释（一）

之前给大家写了很多潜在类别分析的教程Mplus教程：如何做潜在类别分析LCA R数据分析：用R语言做潜类别分析LCA Mplus数据分析：潜在类别分析（LCA）流程（详细版） R数…

人工智能 2023年6月11日
0099
十五 C# 操作数据库（SqlServer技术）

1、Sql Server 基本操作 1.1Sql Server安装默认新建四个系统数据库 Sql Server安装默认新建四个系统数据库 – Master数&…

人工智能 2023年6月18日
0085
深度学习环境tensorflow和GPU(cuda、cudnn)库对应关系2021.11

1.tensorflow版本和GPU对应关系 1.1 X86 1.2 macOS 2.tensorflow1和tensorflow2兼容性问题 2.1 改造方法 2.2 测试代码 …

人工智能 2023年5月25日
0055
AT6928 BT蓝牙串口控制适合单片机控制蓝牙芯片内置音频文件

承接方案 单片机&…

人工智能 2023年5月25日
00116
知识追踪入门系列-论文资料汇总

Paper ：知识追踪相关论文下载论文和代码见reference第一个链接 Deep Knowledge Tracing: 首次提出将RNN用于知识追踪，并能够基于复杂的知识联…

人工智能 2023年6月10日
00131
使用Python进行多个机器学习模型、多个评价指标表格绘制（AUC、敏感度、特异度、F1值、约登指数、MCC、Kappa等）

混淆矩阵是真实值和预测值的交叉表通过混淆矩阵可以构建出其他多个模型评价指标。 ClassPositive PredictionNegative PredictionPositive…

人工智能 2023年6月15日
0084
卷积神经网络学习—Resnet50（论文精读+pytorch代码复现）

前言一、Resnet论文精读 * 引入残差残差块 ResNet50模型基本构成 BN层 Resnet50总体结构二、Resnet50代码复现 * 完整代码前言如果说在CN…

人工智能 2023年7月12日
0060
Android端实现多人视频语音聊天｜音视频开发

1 多人视频通话功能本文展示了如何使用即构实时音视频SDK ZEGO Express SDK 构造多人视频通话场景，即实现多对多实时音视频互动。用户可在房间内与其余用户进行实时…

人工智能 2023年6月3日
00113
编译原理：CH4 静态语义分析

CH4 静态语义分析文章目录 * – CH4 静态语义分析 – + 4.1 语法制导翻译 + * 4.1.1 语法与语义 * – （1）语法与…

人工智能 2023年6月1日
0085
机器学习之逻辑回归算法

机器学习之逻辑回归算法前言什么是逻辑回归? 逻辑回归求解 * Sigmoid 函数总结前言最近在学习深度学习，一下是对学习内容的一些记录，本文主要讲述逻辑回归中涉及得数学…

人工智能 2023年6月18日
0078
Python-Pytorch框架-实现AI自动瞄准(下)

OpenCV与Ptorch框架搭建一个利用目标骨骼关键点检测实现AI自动瞄准的娱乐项目（该项目仅供学习OpenCV、Ptorch框架、游戏自动化等参考）。该项目思路大致分为如下步…

人工智能 2023年7月22日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

判断两个颜色相似度_计算两个语句相似度的WMD算法实现

大家都在看