python短文本相似度计算_预训练Bert句向量_flask

2023年5月28日上午6:07 • 人工智能 • 阅读 73

1. 任务介绍(预训练模型sentence_transformers来做文本相似度匹配任务)

从一堆 候选短文本数据集中筛选出与输入问句最相似的短文本（即短文本相似度匹配）

候选文本数据外国人出入境证签发新增年生产能力500万吨及以上煤矿项目核准对完成关系国家利益或者公共利益并有重大应用价值的植物新品种育种的单位或者个人的奖励法律职业资格认定戒毒医疗机构或医疗机构从事戒毒治疗业务许可城乡居民基本养老保险关系转移接续申请涉及敏感国家和地区、敏感行业的境外投资项目核准外国人对国家重点保护陆生野生动物进行野外考察或野外拍摄电影、录像审批广播电台、电视台设立、终止审批普通高等学校教师资格认定法律职业资格认定

1.3 最终输出相似度最高的文本，如下：

外国人出入境证签发

附录一：代码实现：

from sentence_transformers import SentenceTransformer, util
import pandas as pd
from flask import Flask, request, jsonify
import json
import numpy as np
import time

app = Flask(__name__)
model = SentenceTransformer('bert-base-chinese')
model.eval()
content = pd.read_table("data.txt", header=None)[0].values.tolist()
passage_embedding = model.encode(content, convert_to_numpy=True)

def cosine_similarity(x, y):
    num = x.dot(y.T)
    denom = np.linalg.norm(x) * np.linalg.norm(y, axis=1)
    return num / denom

def sim(ask, level):
    time1 = time.time()
    ask = model.encode([ask])
    time2 = time.time()
    spend_time = time2 - time1
    print(spend_time)
    cos_matrix = cosine_similarity(ask, passage_embedding)[0]
    index = np.argsort(-cos_matrix)[level]
    return [content[index], cos_matrix[index]]

@app.route('/top_ask', methods=['GET', 'POST'])
def get_synonyms():
    json_data = request.get_data()
    comment_json = json.loads(json_data)
    ask = comment_json['ask']
    json_data = sim2(ask, 0)
    return jsonify({"text": str(json_data[0]), "&#x76F8;&#x4F3C;&#x5EA6;": str(json_data[1])})

if __name__ == '__main__':  #
    app.run(host="0.0.0.0", port=1089, debug=True)

Original: https://blog.csdn.net/qq_28905087/article/details/122964819
Author: dunwuh
Title: python短文本相似度计算_预训练Bert句向量_flask

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530123/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

梯度下降实例：一元线性回归

前言梯度下降作为一种求解函数局部最小值的方法，在机器学习的许多方面都有所体现，本文主要通过介绍一元线性回归进而引入梯度下降。 1.一元线性回归首先要理解回归的概念。回归的目的就…

人工智能 2023年6月18日
0081
Pytorch定义模型、修改模型、保存与读取模型保存

PyTorch的模型定义 1.1 PyTorch模型定义的方式 PyTorch中有三种模型定义方式，三种方式都是基于 nn.Module建立的，我们可以通过 Sequential，…

人工智能 2023年7月22日
0047
【图像分类】YOLOv5-6.2全新版本：支持图像分类

前言众所周知，YOLOv5是一款优秀的目标检测模型，但实际上，它也支持图像分类。在6.1版本中，就暗留了 classify这个参数，可以在做检测的同时进行分类。官方仓库地址：h…

人工智能 2023年6月16日
0072
python pandas 分割DataFrame中的字符串及元组

python pandas 分割DataFrame中的字符串类型数据的方法文章目录 1.使用str.split()方法 2.使用join()与split()方法结合 3. 使用a…

人工智能 2023年6月19日
0049
R语言矩阵数据初始化：创建全为0的矩阵、全为NA的矩阵、使用byrow参数指定数据排布方式（按行、按列）、dim参数指定矩阵维度信息

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0066
为什么要有机器学习，机器学习能够做什么

之后将创作多篇与机器学习相关的文章，简单总结机器学习的回归、分类与评估模型的相关内容 1. 机器学习的兴起计算机能够高效地做大量重复性的工作，能够从数据中学习到数据的特征、模式。…

人工智能 2023年6月2日
0052
保研笔记八——YOLOV5项目复习

学习转载自：睿智的目标检测56——Pytorch搭建YoloV5目标检测平台_Bubbliiiing的博客-CSDN博客_睿智yolo Pytorch 搭建自己的YoloV5目标检…

人工智能 2023年7月21日
0073
(二)匈牙利算法简介

1.历史匈牙利算法是一种在多项式时间内求解任务分配问题的组合优化算法，广泛应用在运筹学领域，美国数学家哈罗德·库恩于1955年提出该算法，之所以被称作匈牙利算法是因为算法很大一…

人工智能 2023年7月26日
0065
制作PointNet以及PointNet++点云训练样本

目录一、明确问题： 1.1、标准数据集参考： 1.2 、HDF5数据组织形式：二、开始制作数据集 2.1、数据标注，本人使用了Arcgis软件进行标注 2.2、样本点云提取，…

人工智能 2023年6月16日
0084
Paddle安装是遇到 Error: Can not import avx core while this file exists:

Error: Can not import avx core while this file exists: D:\Python\lib\site-packages\paddle\…

人工智能 2023年6月16日
0087
深度神经网络的matlab实现,深度神经网络代码matlab

为什么不用matlab做深度学习？ matlab可以做深度学习，但是从实用性的角度来讲matlab的实现效率相对较低，训练耗时较长。初次学习计算机语言就选择matlab不是一个明智…

人工智能 2023年7月13日
0044
图像分割实战之基于Hough变换提取图像中的直线

图像分割的依据是基于图像中各区域具有不同的特性(比如，灰度、颜色、纹理)。图像分割的目的是将图像划分成若干具有相近或相同特性的子区域，以便继续在分割成的相关区域中提取目标，并进而根…

人工智能 2023年6月22日
0085
模型部署入门教程（五）：ONNX 模型的修改与调试

模型部署入门系列教程持续更新啦，在前两期教程中，我们学习了 PyTorch 模型转 ONNX 模型的方法，了解了如何在原生算子表达能力不足时，为 PyTorch 或 ONNX 自定…

人工智能 2023年6月24日
0058
《数字图像处理》题库1：选择题

前言这是我在学习数字图像处理这门课程时，从网络上以及相关书籍中搜集到的一些题目，这些题目主要是针对期末考试的，这篇文章将会按照考试常见的题型进行分类，主要分为以下5大题型：选择…

人工智能 2023年6月17日
0075
Python 爬虫案例

一、用cookie池模拟登录在网络请求交互中，为了维持用户的登录状态，引入了cookie的概念。当用户第一次登录某个网站时，网站服务器会返回维持登录状态需要用到的信息，这些信息就…

人工智能 2023年7月5日
0064
细读informer与项目学习

文章目录摘要一. 细读informer * 1.1 背景与回顾 – 1.1.1 Transformer类模型的Challenges以及形成的原因 1.1.2 如何改…

人工智能 2023年7月27日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python短文本相似度计算_预训练Bert句向量_flask

1. 任务介绍(预训练模型sentence_transformers来做文本相似度匹配任务)

大家都在看