Pyltp的安装使用笔记

2023年5月28日上午2:01 • 人工智能 • 阅读 111

Pyltp的安装使用笔记

LTP（Language Technology Platform）提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。

“语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台（LTP）” 为基础，为用户提供高效精准的中文自然语言处理云服务。

pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

1.安装python3.6

因为pyltp支持版本的问题l，python的版本我u用到了3.6.1

https://www.python.org/ftp/python/3.6.1/python-3.6.1-amd64.exe

此链接下载python安装，然后在安装界面勾选把路径加到系统变量

在cmd中输入

python -V

出现如图所示，即安装成功

2.安装pyltp2.1

尝试了网上所有的方法pip，以及源码下载，都太麻烦

在此我下载了一个whl

链接：https://pan.baidu.com/s/1ee4IXNxuSFQRnoke0I3aNQ

提取码：9lac

下载之后打开cmd，进到对应下载目录，输入

pip install pyltp-0.2.1-cp36-cp36m-win_amd64.whl

等待安装成功

3.下载ltp模型文件

此连接为pyltp的一个使用文档

https://pyltp.readthedocs.io/zh_CN/latest/api.html

通过百度云可以下载相应的模型文件

https://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569

按照网上查阅来说应该要版本对应一致，但是我下载2.0版本测试失败，所以我试着安装3.4版本的时候就可以，所以我下载了3.4版本的模型文件

解压之后使用的时候发现Ltp3.4.0在windows下进行语义角色标注失败，上网查阅发现原因是ltp3.4.0，3.4.0 版本 SRL模型 pisrl.model 如在windows系统下不可用

所以我到了此链接下下载了可用模型文件”pisrl_win.model”

http://ltp.ai/download.html，

也可以直接用下载链接：在此附http://model.scir.yunfutech.com/server/3.4.0/pisrl_win.model连接。

下载之后吧pisrl_win.model放到ltp模型文件夹与pisrl.model文件同路径即可。

4.代码测试

通过此github的Matt Zheng作者的LtpExtraction（基于ltp的简单评论观点抽取模块）项目中的SRLparsing.py代码运行成功，并成功抽取出评论中的观点

https://github.com/mattzheng/LtpExtraction

此为Matt Zheng作者在github上面的示例代码

-*- coding: utf-8 -*-
ltp模块
import sys, os
from pyltp import SentenceSplitter, Segmentor, Postagger, Parser, NamedEntityRecognizer, SementicRoleLabeller
import pandas as pd
import numpy as np
from tqdm import tqdm
#segmentor.release()  # 释放模型

class ltp_api(object):
    def __init__(self,MODELDIR,exword_path = None):
        self.MODELDIR = MODELDIR
        self.output = {}
        self.words = None
        self.postags = None
        self.netags = None
        self.arcs = None
        self.exword_path = exword_path  #  e.x: '/data1/research/matt/ltp/exwords.txt'
        # 分词
        self.segmentor = Segmentor()
        if not self.exword_path:
            # 是否加载额外词典
            self.segmentor.load(os.path.join(self.MODELDIR, "cws.model"))
        else:
            self.segmentor.load_with_lexicon(os.path.join(self.MODELDIR, "cws.model"), self.exword_path)

        # 词性标注
        self.postagger = Postagger()
        self.postagger.load(os.path.join(self.MODELDIR, "pos.model"))
        # 依存句法
        self.parser = Parser()
        self.parser.load(os.path.join(self.MODELDIR, "parser.model"))
        # 命名实体识别
        self.recognizer = NamedEntityRecognizer()
        self.recognizer.load(os.path.join(self.MODELDIR, "ner.model"))
        # 语义角色
        self.labeller = SementicRoleLabeller()
        self.labeller.load(os.path.join(MODELDIR, "pisrl.model"))

    # 分词
    def ltp_segmentor(self,sentence):
        words = self.segmentor.segment(sentence)
        return words

    # 词性标注
    def ltp_postagger(self,words):
        postags = self.postagger.postag(words)
        return postags

    # 依存语法
    def ltp_parser(self,words, postags):
        arcs = self.parser.parse(words, postags)
        return arcs

    # 命名实体识别
    def ltp_recognizer(self,words, postags):
        netags = self.recognizer.recognize(words, postags)
        return netags

    # 语义角色识别
    def ltp_labeller(self,words,postags, arcs):
        output = []
        roles = self.labeller.label(words, postags, arcs)
        for role in roles:
            output.append([(role.index,arg.name, arg.range.start, arg.range.end) for arg in role.arguments])
        return output

    def release(self):
        self.segmentor.release()
        self.postagger.release()
        self.parser.release()
        self.recognizer.release()
        self.labeller.release()

    def get_result(self,sentence):
        self.words = self.ltp_segmentor(sentence)
        self.postags = self.ltp_postagger(self.words)
        self.arcs = self.ltp_parser(self.words, self.postags)
        self.netags = self.ltp_recognizer(self.words, self.postags)
        self.output['role'] = self.ltp_labeller(self.words,self.postags, self.arcs)

        # 载入output
        self.output['words'] = list(self.words)
        self.output['postags'] = list(self.postags)
        self.output['arcs'] = [(arc.head, arc.relation) for arc in self.arcs]
        self.output['netags'] = list(self.netags)

'''
语义角色的解读
主要定位到动词，然后动词实施者与动作的影响人
A0 - A1 ，A0代表主语，A1代表动作的影响
'''
def FindA0(labelle,word,postags,neg_word = ['就是','是'],n_pos = ['n','ns','nt']):
    '''
    找到是否有A0

    输入:labelle,word,postags相关词类型

    输出：
        A0 是否有A0 bool,True/False
        result:[名词,动词,修饰词（相当于定语）]
    '''
    result = []
    A0 = False
    # 是否有A0，动作实施者，相当于主语
    sign_n = [n for n,la in enumerate(labelle) if la[1] == 'A0']
    if len(sign_n) > 0:
        A0 = True
        la = labelle[sign_n[0]]
        verb_word = word[la[0]]
        if verb_word in neg_word:
            return A0,result
        low = la[2]
        high = la[3] if (la[3] + 1) > len(words) else la[3] + 1
        long_words = [words[n]  for n in range(low,high) if postags[n] in n_pos]
        n_word =  word[la[2]] if la[2] == la[3] else long_words

        # A1 动作影响，想当于宾语
        sign_n_A1 = [n for n,la in enumerate(labelle) if la[1] == 'A1']
        adore_word = []
        if len(sign_n_A1) > 0:
            la2 = labelle[sign_n_A1[0]]
            low = la2[2]
            high = la2[3] if (la2[3] + 1) > len(words) else la2[3] + 1
            adore_word = word[la2[2]] if la2[2] == la2[3] else words[ low : high ]
        result = [n_word,verb_word,adore_word]
    return A0,result

def SRLparsing(labeller,words,postags,ToAfter = ['TMP','A1','DIS'],neg_word = ['就是','是'],n_pos = ['n','ns','nt']):
    '''
    输入:
    ToAfter，指的是这些语义角色的类型，TMP(时间),A1(动作的影响),DIS(标记语),这三个影响的对象在后面

    输出：
    ([['ADV', ('最后', '打')], ['ADV', (['平均', '下来'], '便宜')], ['A0', ('40', '便宜')]], (True, ['40', '便宜', []]))

    '''
    labeller_refine = []
    labeller_A0 = []
    for labelle in labeller:
        #print(labelle)
        for la in labelle:
            if la[2] == la[3]:
                tmp = [la[1],(words[la[0]],words[la[3]])] if la[1] in ToAfter else [la[1],(words[la[3]],words[la[0]])]
                labeller_refine.append(tmp)
                #print('keypoint word :',words[la[0]])
                #print(tmp)
            else:
                low = la[2]
                high = la[3] if (la[3] + 1) > len(words) else la[3] + 1
                tmp = [la[1],(words[la[0]],words[low:high])] if la[1] in ToAfter else [la[1],(words[low:high],words[la[0]])]
                labeller_refine.append(tmp)
                #print('keypoint word :',words[la[0]])
                #print(tmp)
        #print('\n A0A1 ==== > ',FindA0(labelle,words,postags))
        labeller_A0 = FindA0(labelle,words,postags,neg_word = neg_word,n_pos = n_pos)
        #print('-----------\n')
    return labeller_refine,labeller_A0

if __name__=="__main__":
    MODELDIR='ltp-models/ltp_data_v3.4.0'   #  模型文件
    ltp = ltp_api(MODELDIR)
    # ltp.release()
    sentence = '陆丙文很帅！'
    words = ltp.ltp_segmentor(sentence)  # 分词
    postags = ltp.ltp_postagger(words)  # 词性
    arcs = ltp.ltp_parser(words,postags)  #依存
    netags = ltp.ltp_recognizer(words,postags)# 命名实体识别
    labeller = ltp.ltp_labeller(words,postags, arcs) #语义角色
    print(SRLparsing(labeller,words,postags,ToAfter = ['TMP','A1','DIS']))

现在您可以开始你的pyltp使用之旅了，冲冲冲！！

Original: https://blog.csdn.net/weixin_60021697/article/details/123498993
Author: 挖坑自埋歌
Title: Pyltp的安装使用笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528680/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

无监督学习 — — 聚类方法分类

无监督学习 — — 聚类方法分类 * – + * 0. 聚类 * 1. K均值聚类 * – （1）. K均值聚类存在问题： – （2）. K均值…

人工智能 2023年7月1日
0087
OpenMV学习–sensor模块

OpenMV学习–sensor模块文章目录 OpenMV学习–sensor模块 * 一、介绍二、主要函数 – 1.sensor.reset() 2.se…

人工智能 2023年6月19日
0070
克隆真人语音只要1句话，AI问诊超96.4%全科医生！科大讯飞年度黑科技大秀，余承东都来了…

杨净萧箫发自凹非寺量子位报道 | 公众号 QbitAI 企业拥有 265万开发者是一种什么体验？已在最新财报中实现商业变现，开放平台营收增速高达131%？ [En] H…

人工智能 2023年5月27日
0072
【机器学习项目实战】随机森林(random forest)回归(RandomForestRegressor)模型Python实现

说明：这是一个机器学习实战项目（附带数据+代码），如需数据+完整代码可以直接到文章最后获取。 1.定义问题在电子商务领域，现在越来越多的基于历史采购数据、订单数据等，进行销量的预…

人工智能 2023年6月15日
0069
灰色预测模型

目录一、什么是灰色预测二、灰色预测建模流程图三、建模步骤四、代码实现（python）一、什么是灰色预测灰色系统是指系统数据有一些是未知，有一些是已知。白色系统是全都已知…

人工智能 2023年6月12日
0075
【老生谈算法】matlab实现图像放大算法——图像放大算法

图像放大算法总结及MATLAB源程序 1、文档下载：本算法已经整理成文档如下，有需要的朋友可以点击进行下载序号文档（点击下载）本项目文档【老生谈算法】图像放大算法总结及MA…

人工智能 2023年6月18日
0081
(四) 三维点云课程—PointNet-Pytorch运行

三维点云课程—PointNet-Pytorch运行三维点云课程—PointNet-Pytorch运行三维点云课程—PointNet-Pytorch运行 …

人工智能 2023年7月22日
0063
r语言 siar 代码_平滑转换自回归(STAR)模型的R语言编程实现详解

总体讲，ST(Smooth transition)模型，这块的code混乱的比较狗血，文献中的做法也是千奇百怪，单变量的有：STAR, LSTAR， ESTAR，多变量的有：…

人工智能 2023年6月18日
00131
YoloV1

Yolo系列是one-stage算法不同于two-stage，它的速度更快，更适合实时目标检测模型思想 7*7是网格数，每个网格预测2个物体，每个物体需要预测四个坐标和一个co…

人工智能 2023年7月12日
0046
直方图统计与均值化

文章目录直方图统计与直方图均值化： * 1 直方图统计 2 均衡化直方图与图像直方图统计与直方图均值化： ; 1 直方图统计研究：对该图像进行直方图统计，并画出直方图。假设…

人工智能 2023年6月22日
0052
R语言构建xgboost模型：交叉验证（cross validation）训练xgboost模型

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
00104
习题解答chapter09

1. Java中流的分类有哪些? 从流动的方向上看：一般为输入流（InputStream）和输出流（OutputStream）两类。从读取类型上看，一般分为字节流和字符流。字节流是…

人工智能 2023年6月4日
0088
mmdetection教程(使用篇)

mmdetection教程(使用篇)。 mmlab着重于应用层面。不需要对源码进行进行太多操作。上海交通大学和西安交通大学等大学都在用mmlab。 2021年CVPR有35篇论…

人工智能 2023年7月28日
0078
目标检测: 一文读懂 YOLOX

论文：YOLOX: Exceeding YOLO Series in 2021 论文链接：https://arxiv.org/pdf/2107.08430.pdf 代码链接：htt…

人工智能 2023年6月16日
0054
编码标记物智能识别系统（YOLO v5+Opencv实现）

一、环境搭建环境搭建推荐肆十二的文章：手把手教你使用YOLOV5训练自己的目标检测模型-口罩检测-视频教程里面有关YOLO v5前期的环境搭建讲解十分详细，且与本项目的YOLO …

人工智能 2023年5月28日
0072
计算机基础面试(计算机网络)

1、OSI七层模型 ●OSI(Open System Interconnection ，开放系统互连)，7层网络模型被称为开放式系统互联参考模型。 ●把网络从逻辑上分为7层，每一层…

人工智能 2023年6月2日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pyltp的安装使用笔记

1.安装python3.6

2.安装pyltp2.1

3.下载ltp模型文件

4.代码测试

大家都在看