blog14 launch.py

2023年5月30日下午9:04 • 人工智能 • 阅读 105

2021SC@SDUSC

EmbedRank方法提取关键词的启动，在launch.py函数中。

引入项目中的其它模块：

import argparse
from configparser import ConfigParser

from swisscom_ai.research_keyphrase.embeddings.emb_distrib_local import EmbeddingDistributorLocal
from swisscom_ai.research_keyphrase.model.input_representation import InputTextObj
from swisscom_ai.research_keyphrase.model.method import MMRPhrase
from swisscom_ai.research_keyphrase.preprocessing.postagging import PosTaggingCoreNLP
from swisscom_ai.research_keyphrase.util.fileIO import read_file

提取关键词的函数：def extract_keyphrases(embedding_distrib, ptagger, raw_text, N, lang, beta=0.55, alias_threshold=0.7):
参数说明：
embedding_distrib：嵌入分发器对象请参见@嵌入分发器。
ptagger：位置标记对象请参见@PosTagger。
raw_text：一个包含要提取的行文本的字符串。
N：提取的关键词的数量。
lang：语言。
beta：MMR的测试系数（权衡信息性/多样性）
alias_threshold：将候选词组合为别名的阈值
返回值：包含三个元素的元组：
1）前N候选列表（如果没有足够的候选词，则更少）（字符串列表）2）关联相关性分数列表（浮点列表）3）列表，每个关键短语包含别名列表（字符串列表列表）

def extract_keyphrases(embedding_distrib, ptagger, raw_text, N, lang, beta=0.55, alias_threshold=0.7):
    tagged = ptagger.pos_tag_raw_text(raw_text)
    text_obj = InputTextObj(tagged, lang)
    return MMRPhrase(embedding_distrib, text_obj, N=N, beta=beta, alias_threshold=alias_threshold)

def load_local_embedding_distributor():
    config_parser = ConfigParser()
    config_parser.read('config.ini')
    sent2vec_model_path = config_parser.get('SENT2VEC', 'model_path')
    return EmbeddingDistributorLocal(sent2vec_model_path)

def load_local_corenlp_pos_tagger():
    config_parser = ConfigParser()
    config_parser.read('config.ini')
    host = config_parser.get('STANFORDCORENLPTAGGER', 'host')
    port = config_parser.get('STANFORDCORENLPTAGGER', 'port')
    return PosTaggingCoreNLP(host, port)

main函数：

if __name__ == '__main__':
    parser = argparse.ArgumentParser(description='Extract keyphrases from raw text')

    group = parser.add_mutually_exclusive_group(required=True)
    group.add_argument('-raw_text', help='raw text to process')
    group.add_argument('-text_file', help='file containing the raw text to process')

    parser.add_argument('-tagger_host', help='CoreNLP host', default='localhost')
    parser.add_argument('-tagger_port', help='CoreNLP port', default=9000)
    parser.add_argument('-N', help='number of keyphrases to extract', required=True, type=int)
    args = parser.parse_args()

    if args.text_file:
        raw_text = read_file(args.text_file)
    else:
        raw_text = args.raw_text

    embedding_distributor = load_local_embedding_distributor()
    pos_tagger = load_local_corenlp_pos_tagger(args.tagger_host, args.tagger_port)
    print(extract_keyphrases(embedding_distributor, pos_tagger, raw_text, args.N, 'en'))

通过使用句子嵌入，嵌入秩将文档和候选短语都嵌入到相同的嵌入空间中。利用候选对象与文档之间的余弦相似度，利用最大边际相关性选择N个候选对象作为关键词，利用候选对象之间的余弦相似度来建模多样性。一个超参数，beta(default=0.55)，控制着在提取关键短语时对信息性和多样性的重要性。(beta=1仅信息性，仅=0多样性)当调用extract_keyphrases时，您可以更改beta超参数值：

kp1 = launch.extract_keyphrases(embedding_distributor, pos_tagger, raw_text, 10, 'en', beta=0.8)

如果想复制论文的结果，必须将beta设置为1或0.5，并通过指定alias_threshold=1到extract_keyphrases方法来关闭别名特性。

Original: https://blog.csdn.net/qq_46765753/article/details/121939409
Author: gh冲
Title: blog14 launch.py

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545098/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

KNN、图像分类、曼哈顿距离、图片像素、python、opencv、最近邻图片分类

KNN、图像分类、曼哈顿距离、图片像素、python、opencv、最近邻图片分类自己实现使用曼哈顿距离计算图像之间的距离，采用最近邻算法对图片经行分类，没有使用sklearn里…

人工智能 2023年7月20日
0049
yolov5中的Focus模块的理解

序言 v5出来这么久，一直搜不到网上对Focus的理解，还想着白嫖一下结论，但是发现搜出来的都是一知半解，讲的全都是Focus做了什么，愣是没说为什么要这么做。没办法只好自己花点时…

人工智能 2023年5月26日
0084
浅谈股价预测模型（二）：全能大明星——神经网络模型

1：本文主要讨论将神经网络的理念运用在股价预测或估值上； 2：本文主要为理念的讲解，模型也是笔者自建，因此不涉及任何主流机器学习框架，如果有读者是为了学习使用thensorflow…

人工智能 2023年7月13日
0048
数据分析之卡方检验

1、卡方检验定义卡方检验，是用途非常广的一种假设检验方法，它在分类资料统计推断中的应用，包括两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分…

人工智能 2023年6月19日
00169
【Pytorch学习笔记】10.如何快速创建一个自己的Dataset数据集对象（继承Dataset类并重写对应方法）

文章目录 * – 继承Dataset类，并重写对应方法创建自己的Dataset – 实例：用自己的图片数据集创建 – + 图片数据集长什么样 +…

人工智能 2023年7月21日
0095
Alexnet论文介绍（超详细）——ImageNet Classification with Deep Convolutional Neural Networks

近期开始阅读cv领域的一些经典论文，本文整理计算机视觉的奠基之作—— Alexnet 论文原文：ImageNet Classification with Deep Convolut…

人工智能 2023年7月3日
00106
人体姿态估计——Python+OpenCV+OpenPose

目录前言技术难点人体姿态估计方法类别 * 单人姿态估计多人姿态估计人体姿态跟踪 3D人体姿态估计技术原理 * 神经网络的实现相关代码参考文献运行过程 * 注意前…

人工智能 2023年5月28日
00137
MATLAB实现智能计算方法实验：实验三 BP神经网络

资源链接 MATLAB实现智能计算方法课程所有实验代码资源链接为：MATLAB实现智能计算方法课程所有实验代码资源本实验代码和excel文件可在GitHub仓库和gitee仓库中进…

人工智能 2023年6月16日
0065
论文导读 | 基于查询图生成的复杂知识图谱问答

复杂问题往往具有在知识图谱上的多跳，聚合，比较，判断等多种特点中的一个甚至多个。对于这些自然语言问题，基于知识库的复杂问答系统可以给出传统的搜索引擎等方式无法给出的答案。该方面研究…

人工智能 2023年6月10日
00128
C1 – week1 – Neural Networks and Deep Learning

可居住人口 + 步行化程度 + 周围学校质量 -> 房价图示如下，蓝色连线表示某种相关性，灰色圆圈表示映射关系。这个例子中，x是房屋大小、卧室数量、邮政编码、富裕程度四个…

人工智能 2023年7月14日
0070
利用FFmpeg将HLS直播列表.m3u8格式转为mp4保存

利用FFmpeg将HLS直播列表.m3u8格式转为mp4保存将直播流转为mp4保存是最近需要完成的一个小功能。我们知道javacv是java里一个处理音视频的高效依赖包。然而扫…

人工智能 2023年5月23日
0066
SpringCloud–链路追踪之Sleuth的简单使用

Sleuth分布式请求链路跟踪简单使用文章目录 * – Sleuth分布式请求链路跟踪简单使用 – + 一、简介 + * 1. 什么是Sleuth？ * …

人工智能 2023年6月27日
0079
Python数模笔记-StatsModels 统计回归（2）线性回归

1、背景知识 1.1 插值、拟合、回归和预测插值、拟合、回归和预测，都是数学建模中经常提到的概念，而且经常会被混为一谈。插值，是在离散数据的基础上补插连续函数，使得这条连续曲线…

人工智能 2023年6月17日
0052
6. 手写数字图片数据集MNIST

MNIST数据集（http://yann.lecun.com/exdb/mnist/）手写数字图片数据集，存在60000个训练样本，10000个测试样本。每个样本为一个28X28…

人工智能 2023年6月30日
0067
读取视频文件python-opencv

由于cv.imread()函数只能读取图像的数据，不能读取视频文件，所以对于数据需要从摄像头加载的要求，需要使用cv.VideoCapture()函数，通过该函数可以对摄像头进行调…

人工智能 2023年5月28日
0050
【金猿产品展】亚信科技AISWare Onta KG知识图谱工具——一站式全流程知识计算管理平台…

亚信科技产品本项目由亚信科技投递并参与”——2021大数据产业创新服务产品榜单及奖项”评选。数据智能产业创新服务媒体 ——聚焦数智 · 改变商业亚信科…

人工智能 2023年6月1日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

blog14 launch.py

大家都在看