【知识图谱】哈工大ltp工具包的安装和使用

2023年5月28日上午9:20 • 人工智能 • 阅读 98

LTP（Language Technology Platform）提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。
官方教程：https://github.com/HIT-SCIR/ltp/blob/master/docs/quickstart.rst
官方文档：http://ltp.ai/docs/appendix.html

安装

与pyltp不同，ltp4无需安装繁琐的vc环境，也不用考虑python版本对轮子兼容的问题。
pip install ltp

在github源代码中可以发现作者主要使用了Electra预训练模型，并使用了transformers库调用模型。所以在安装pyltp之前我们要确保本机上安装的库与ltp中使用的库版本一致，当然如果本机环境并没有安装相应库，安装ltp时会自动安装。

torch>=1.2.0
transformers>=4.0.0,

下载预训练模型参数

模型下载地址：https://github.com/HIT-SCIR/ltp/blob/master/MODELS.md
在使用ltp时需要选择适合任务大小的模型，将下载下来的压缩文件解压放入文件夹中即可

ltp的使用

加载模型

ltp = LTP(path='pretrained_model')

path中填入模型参数放入的文件夹

分句

sents = ltp.sent_split(["该僵尸网络包含至少35000个被破坏的Windows系统，攻击者和使用者正在秘密使用这些系统来开采Monero加密货币。该僵尸网络名为" VictoryGate"，自2019年5月以来一直活跃。"])
print('分句:')
for sent in sents:
    print(sent)

分词

sent =[sents[0]]
print('分词:')
seg, hidden = ltp.seg(sent)
print(seg[0])

词性标注

print('词性标注:')
pos = ltp.pos(hidden)
print(pos[0])

语义角色标注

print('语义角色标注:')
srl = ltp.srl(hidden, keep_empty=False)
print(srl[0])

句法分析

print('句法分析:')
dep = ltp.dep(hidden)
print(dep[0])

使用语义角色标注构造关系抽取

通过语义角色标注任务可以将句子中各实体以及其关系表示出来，我们以主谓宾关系为例，构建一个（主，谓，宾）的三元组：

def srl_AtoA(sent):
    seg, hidden = ltp.seg([sent])
    seg = seg[0]
    srl = ltp.srl(hidden, keep_empty=False)[0]

    results = []
    for s in srl:
        key = s[0]
        values = s[1]
        result_A0 = ''
        result_A1 = ''
        for value in values:
            if value[0] == 'A0':
                result_A0 = ''.join(seg[value[1]:value[2]+1])
            if value[0] == 'A1':
                result_A1 = ''.join(seg[value[1]:value[2]+1])
        if result_A0 != '' and result_A1 != '':
            results.append((result_A0,seg[key],result_A1))
    print(results)

通过词性和语义角色标注构建的三元组可以大致获取到实体与实体之间的联系，但是在实际的任务中我们需要结合需求构造相应的实体与相应的关系（例如在医疗系统中，我们的实体不再是名词这么简单，可能包括药物名称，症状等等，这些需要我们通过命名实体识别构建特定的实体集。）

通过最后获取的三元组我们便可以轻松的完成知识图谱了。

Original: https://blog.csdn.net/chengshunhang/article/details/115199026
Author: shun-ripking
Title: 【知识图谱】哈工大ltp工具包的安装和使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530763/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

卷积层中的填充（padding）是什么？为什么要使用填充

问题描述卷积层（Convolutional Layer）是卷积神经网络（Convolutional Neural Network，简称CNN）的核心组件之一。卷积操作根据给定的卷…

人工智能 2024年1月1日
0049
使用Python，OpenCV进行基本的图像处理——提取红色圆圈轮廓并绘制

使用Python，OpenCV进行基本的图像处理——提取红色圆圈轮廓并绘制 * – 1. 效果图 – + 1.1 形态学图像处理效果图 + 1.2 转换HS…

人工智能 2023年6月20日
00109
【自动驾驶多传感器融合+多算法融合】

; 多传感器融合相机内参kalibr IMU内参imu_utils 相机+IMU外参kalibr 雷达+相机外参autoware原理是选取不同时刻的激光雷达扫描点云以及对应最为接…

人工智能 2023年6月2日
00101
知识蒸馏算法汇总

知识蒸馏有两大类：一类是logits蒸馏，另一类是特征蒸馏。logits蒸馏指的是在softmax时使用较高的温度系数，提升负标签的信息，然后使用Student和Teacher在高…

人工智能 2023年6月26日
0062
UE4碰撞射线检测2

UE4内置的函数：UWorld::LineTraceSingleByChannel 该线轨迹将光线射入空间，并根据选定的轨迹通道进行碰撞 void AFirstPawn::line…

人工智能 2023年6月29日
0079
使用Python-OpenCV实时测量物体的尺寸大小（仅供参考）

目录前言 * 一、开发前准备二、需要的库三、程序主体 – 3.0 mian() 3.1设置被调用的摄像头类型 3.2调用相机 3.3图像处理（轮廓端点查找） 3….

人工智能 2023年7月18日
0066
【人工智能】Fisher 线性分类器的设计与实现（QDU）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月28日
0068
[深度学习] fast-reid入门教程

fast-reid入门教程 ReID，全拼为Re-identification，目的是利用各种智能算法在图像数据库中找到与要搜索的目标相似的对象。ReID是图像检索的一个子任务，本…

人工智能 2023年6月23日
0095
【吴恩达机器学习2022学习笔记】课程1 — 机器学习基础

吴恩达大佬又重新录了机器学习视频，借此机会重温并做笔记简单记录一下。课程共分成三门，首先是机器学习基础。课程链接：https://www.bilibili.com/video/B…

人工智能 2023年6月26日
00100
win10+Anaconda+VSCode搭建深度学习环境

提示：写完文章后，目录可以自动生成，如何生成右侧的帮助文档。 [En] Tip: after the article is written, the directory can b…

人工智能 2023年5月25日
0084
pandas DataFrame方法；dataframe 定义一个数值全为1的列；dataframe创建多列；如何拆分嵌套list存为dataframe；在数据集添加一个新的列

主题：记录pandas的常见建立dataframe方法一、pd.DataFrame()方法（创建1列的情景）（1）传入pd.DataFrame()的内容，是一个dict（字典）…

人工智能 2023年7月16日
0069
【下班神器】python写自动关机程序并打包成exe文件

文章目录前言实现效果实现步骤 * 💻 模块导入 💻 窗口设置 💻 创建一个文本标签 💻 创建一个文本标签和时间栏框 💻 设置该文件的字体样式和大小 💻 创建一个日期时间文本框…

人工智能 2023年7月3日
0065
数据挖掘专栏三-Python-消费者人群画像信用智能评分

报告和代码都放gitthub上了，github仓库地址：https://github.com/gamblerInCoding/PortraitPython 文章目录实验名称数据…

人工智能 2023年7月16日
0054
文字转语音哪个软件比较好？

随着短视频的发展，人们对文字到语音的需求越来越大。许多短视频爱好者使用文字到语音进行影视剪辑、短视频解说、短视频解说，以及我们在商场里经常听到的一些宣传广播。都是使用文本到语音软件…

人工智能 2023年5月25日
0082
利用pytorch来深入理解CELoss、BCELoss和NLLLoss之间的关系

损失函数为为计算预测值与真实值之间差异的函数，损失函数越小，预测值与真实值间的差异越小，证明网络效果越好。对于神经网络而言，损失函数决定了神经网络学习的走向，至关重要。 pytor…

人工智能 2023年7月12日
0050
「论文阅读」Point Transformer（ICCV_2021_paper_Zhao）

目录背景 Point Transformer Layer Position Encoding Point Transformer Block Network Architectu…

人工智能 2023年6月24日
00145

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31