python 知识图谱包_python从零开始构建知识图谱笔记

2023年6月1日上午11:51 • 人工智能 • 阅读 86

教程：https://zhuanlan.zhihu.com/p/243211697

前面都进行的好好的，具体的理论因为我已经了解一点了，就不在赘述，教程里面有，直接开始实践，

前面都没啥问题，直接上代码

image.png

import re

import pandas as pd

import numpy as np

import bs4

import requests

import spacy

from spacy import displacy

nlp = spacy.load(‘en_core_web_sm’)

from spacy.matcher import Matcher

from spacy.tokens import Span

import networkx as nx

import matplotlib.pyplot as plt

from tqdm import tqdm

pd.set_option(‘display.max_colwidth’, 200)

%matplotlib inline

import wikipedia sentences

candidate_sentences = pd.read_csv(“wiki_sentences_v2.csv”,header=0)

candidate_sentences.shape

candidate_sentences.sample(7)

doc = nlp(“the drawdown process is governed by astm standard d823”)

for tok in doc:

print(tok.text, “…”, tok.dep_)

好了接下来重点在这里，接下来的一个函数，怎么也对不起行列，出来的答案为空，很奇怪

def get_entities(sent):

chunk 1

我在这个块中定义了一些空变量。prv tok dep和prv tok text将分别保留句子中前一个单词和前一个单词本身的依赖标签。前缀和修饰符将保存与主题或对象相关的文本。

ent1 = “”

ent2 = “”

prv_tok_dep = “” # dependency tag of previous token in the sentence

prv_tok_text = “” # previous token in the sentence

prefix = “”

modifier = “”

for tok in nlp(sent):

chunk 2

接下来，我们将遍历句子中的记号。我们将首先检查标记是否为标点符号。如果是，那么我们将忽略它并转移到下一个令牌。如果标记是复合单词的一部分(dependency tag = compound)，我们将把它保存在prefix变量中。复合词是由多个单词组成一个具有新含义的单词(例如”Football Stadium”, “animal lover”)。

当我们在句子中遇到主语或宾语时，我们会加上这个前缀。我们将对修饰语做同样的事情，例如”nice shirt”, “big house”

if token is a punctuation mark then move on to the next token

if tok.dep_ != “punct”:

check: token is a compound word or not

if tok.dep_ == “compound”:

prefix = tok.text

if the previous word was also a ‘compound’ then add the current word to it

if prv_tok_dep == “compound”:

prefix = prv_tok_text + ” “+ tok.text

check: token is a modifier or not

if tok.dep_.endswith(“mod”) == True:

modifier = tok.text

if the previous word was also a ‘compound’ then add the current word to it

if prv_tok_dep == “compound”:

modifier = prv_tok_text + ” “+ tok.text

chunk 3

在这里，如果令牌是主语，那么它将作为ent1变量中的第一个实体被捕获。变量如前缀，修饰符，prv tok dep，和prv tok文本将被重置。

if tok.dep_.find(“subj”) == True:

ent1 = modifier +” “+ prefix + ” “+ tok.text

prefix = “”

modifier = “”

prv_tok_dep = “”

prv_tok_text = “”

chunk 4

在这里，如果令牌是宾语，那么它将被捕获为ent2变量中的第二个实体。变量，如前缀，修饰符，prv tok dep，和prv tok文本将再次被重置。

if tok.dep_.find(“obj”) == True:

ent2 = modifier +” “+ prefix +” “+ tok.text

chunk 5

一旦我们捕获了句子中的主语和宾语，我们将更新前面的标记和它的依赖标记。

update variables

prv_tok_dep = tok.dep_

prv_tok_text = tok.text

return [ent1.strip(), ent2.strip()]

get_entities(“the film had 200 patents”)

def get_entities(sent):

chunk 1

ent1 = “”

ent2 = “”

prv_tok_dep = “” # dependency tag of previous token in the sentence

prv_tok_text = “” # previous token in the sentence

prefix = “”

modifier = “”

for tok in nlp(sent):

chunk 2

当我们在句子中遇到主语或宾语时，我们会加上这个前缀。我们将对修饰语做同样的事情，例如”nice shirt”, “big house”

if token is a punctuation mark then move on to the next token

if tok.dep_ != “punct”:

check: token is a compound word or not

if tok.dep_ == “compound”:

prefix = tok.text

if the previous word was also a ‘compound’ then add the current word to it

if prv_tok_dep == “compound”:

prefix = prv_tok_text + ” “+ tok.text

check: token is a modifier or not

if tok.dep_.endswith(“mod”) == True:

modifier = tok.text

if the previous word was also a ‘compound’ then add the current word to it

if prv_tok_dep == “compound”:

modifier = prv_tok_text + ” “+ tok.text

chunk 3

在这里，如果令牌是主语，那么它将作为ent1变量中的第一个实体被捕获。变量如前缀，修饰符，prv tok dep，和prv tok文本将被重置。

if tok.dep_.find(“subj”) == True:

ent1 = modifier +” “+ prefix + ” “+ tok.text

prefix = “”

modifier = “”

prv_tok_dep = “”

prv_tok_text = “”

chunk 4

在这里，如果令牌是宾语，那么它将被捕获为ent2变量中的第二个实体。变量，如前缀，修饰符，prv tok dep，和prv tok文本将再次被重置。

if tok.dep_.find(“obj”) == True:

ent2 = modifier +” “+ prefix +” “+ tok.text

chunk 5

一旦我们捕获了句子中的主语和宾语，我们将更新前面的标记和它的依赖标记。

update variables

prv_tok_dep = tok.dep_

prv_tok_text = tok.text

return [ent1.strip(), ent2.strip()]

get_entities(“the film had 200 patents”)

image.png

在这里因为之前的教程里面的内容数据下载不到，就自己复制了一些，

image.png

因为原来读入进去有两列，是因为自己的文件不是csv的，现在，直接做一个excel，另存为–其他格式，然后就可以保存为csv文件了，读入进去就正常很多了。

因为这里文件没法上传到简书，所以就给大家看看。还是很简单能做出来的。。。

达到了预期效果，我们对数据集中的句子使用这个函数，提取这些句子中的实体对：

image.png

好像和正确的不太一样

image.png

原来是这样，因为我的数据只有五句话，没有人家的多，所以根本没有十个到二十个，所以为空，接着我把他调小，就可以了，看起来还行，

原文中还有，

image.png

“如你所见，在这些实体对中有一些代词，如we, it, she等。我们希望用专有名词或名词来代替。也许我们可以进一步改进get entities()函数来过滤代词。但是指代消解是比较高级的技术，现在，让我们让它保持原样，继续到关系提取部分。”

所以这个后来在看看指代消解技术。

关系抽取Relation / Predicate Extraction

“句子中捕获这样的谓词。在这里，我使用了spaCy的基于规则的匹配”

绝望了，这篇老是对不齐，但是这句还好不难对齐

抽提句子关系，，V

def get_relation(sent):

doc = nlp(sent)

Matcher class object

matcher = Matcher(nlp.vocab)

define the pattern

pattern = [{‘DEP’:’ROOT’},

{‘DEP’:’prep’,’OP’:”?”},

{‘DEP’:’agent’,’OP’:”?”},

{‘POS’:’ADJ’,’OP’:”?”}]

matcher.add(“matching_1”, None, pattern)

matches = matcher(doc)

k = len(matches) – 1

span = doc[matches[k][1]:matches[k][2]]

return(span.text)

函数中定义的模式试图找到句子中的词根或主要动词。一旦确定了词根，该模式就会检查它后面是介词(prep)还是代理词。如果是，则将其添加到根词中。试试一下这个函数：

get_relation(“John completed the task”)

image.png

没得问题了。

用在我们的数据集上：

对了人家的数据有名字sentence所以是这样的：

relations = [get_relation(i) for i in tqdm(candidate_sentences[‘sentence’])]

pd.Series(relations).value_counts()[:50]

但是我是自己做的，所以没有名字，都把这个名字删掉就行。

image.png

relations = [get_relation(i) for i in tqdm(candidate_sentences)]

pd.Series(relations).value_counts()[:2]

image.png

但是这个函数可能需要改改，因为我的数据及的结果只有一个is

以下是我的数据集，可以看出来绝对不止一个is是动词，

image.png

可能因为作者的数据集都是主谓宾这样的形式，但是我们的还加了前置和倒装什么的，不只是主谓宾，还有主谓的，他就识别不好，

5、构建知识图谱Build a Knowledge Graph

最后，我们将从提取的实体(主语-宾语对)和谓词(实体之间的关系)创建知识图。

让我们创建一个实体和谓词的dataframe:

extract subject

source = [i[0] for i in entity_pairs]

extract object

target = [i[1] for i in entity_pairs]

kg_df = pd.DataFrame({‘source’:source, ‘target’:target, ‘edge’:relations})

create a directed-graph from a dataframe

G=nx.from_pandas_edgelist(kg_df, “source”, “target”, edge_attr=True, create_using=nx.MultiDiGraph())

plt.figure(figsize=(12,12))

pos = nx.spring_layout(G)

nx.draw(G, with_labels=True, node_color=’skyblue’, edge_cmap=plt.cm.Blues, pos = pos)

plt.show()

但是因为作者的数据集比较大，所以还需要重新提出来看，但是我的这个哈哈哈就不需要了，太少了实在是。

image.png

END!!!!

Original: https://blog.csdn.net/weixin_29594291/article/details/112829628
Author: zhongxiao.yzx
Title: python 知识图谱包_python从零开始构建知识图谱笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/556723/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

文本匹配任务

要在Linux中添加定时任务，可以使用crontab命令。以下是添加定时任务_的步骤： 1. 打开终端或控制台窗口，输入命令 crontab -e，按回车键。 2. 如果是第一…

人工智能 2023年5月28日
0085
语音识别入门第一节：语音识别概述

目录语音识别的定义语音识别的重要性语音交互语音识别的挑战性语音识别的发展历史语音识别的深度学习时代现代语音识别框架语料库与工具包语音识别的定义语音识别：Auto…

人工智能 2023年5月23日
0079
帕金森造模

为模拟人类PD，理想的动物模型应具备以下一些特点： (1)多巴胺能神经元在出生时数量及形态正常，青年时期开始逐渐选择性地减少，减少量超过50％，且容易通过神经化学和神经生理学的方法…

人工智能 2023年6月1日
0097
（八）学习笔记：动手深度学习（Softmax 回归 + 损失函数 + 图片分类数据集）

目录 1.softmax回归的理论部分 * 1.1 分类问题 1.2 网络架构 1.3 全连接层的参数开销 1.4 softmax运算 1.5 小批量样本的矢量化 1.6 损失函数…

人工智能 2023年6月17日
00129
新版Python所有方向的学习路线图，自学少走弯路秘籍

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月14日
00111
ML之shap：基于boston波士顿房价回归预测数据集利用Shap值对LiR线性回归模型实现可解释性案例

ML之shap：基于boston波士顿房价回归预测数据集利用Shap值对LiR线性回归模型实现可解释性案例目录基于boston波士顿房价回归预测数据集利用Shap值对LiR线性…

人工智能 2023年6月17日
0074
卷积层中的池化操作是什么，它如何帮助减小特征图尺寸

问题描述卷积神经网络 (Convolutional Neural Network, CNN) 是一种广泛应用于图像处理和计算机视觉任务的深度学习模型。在 CNN 中，卷积层是一个…

人工智能 2024年1月3日
0049
一文搞懂时间序列预测模型（2）：ARIMA模型的理论与实践

本文通过一段时间的长江流量数据集来实战演示ARIMA模型的理论、建模及调参选择过程，其中包括数据准备、随机性、稳定性检验。本文旨在通过实践的操作过程，完成ARIMA模型的分享，相信…

人工智能 2023年7月18日
0079
ospf多区域原理和配置

好的，下面是在 Ensp 中配置 OSPF 多区域_的实验步骤： 1. _网络_拓扑： +———–+ +———–+ | R1 | | R2 | | …

人工智能 2023年6月29日
0070
7-2 自注意力机制原理

文章目录 7-2 自注意力机制原理 * 1. 简介 2. NLP中自注意力 3. 图像中的自注意力+代码 4. 问题 7-2 自注意力机制原理上一章已经讲过什么是注意力，注意…

人工智能 2023年6月17日
0090
机器学习实战：《美人鱼》属于爱情片还是动作片？KNN揭晓答案

作者简介：整个建筑最重要的是地基，地基不稳，地动山摇。而学技术更要扎稳基础，关注我，带你稳扎每一板块邻域的基础。博客主页：七归的博客收录专栏：《统计学习方法》第二版——个人笔记南来…

人工智能 2023年6月15日
0079
机器学习（三）：基于LightGBM的分类预测

LightGBM介绍 LightGBM是2017年由微软推出的可扩展机器学习系统，是微软旗下DMKT的一个开源项目，由2014年首届阿里巴巴大数据竞赛获胜者之一柯国霖老师带领开发。…

人工智能 2023年6月15日
00148
文献阅读笔记–深度学习图像修复方法综述

1、基本信息：深度学习图像修复方法综述强振平，何丽波，陈旭，徐丹2018-10中国图像图形学报2、核心内容：（1）基于深度学习的图像修复理论及其发展现状的综述，所使用的方法是对基于…

人工智能 2023年6月22日
0075
论文理解【图像处理

《CycleISP: Real Image Restoration via Improved Data Synthesis》论文地址：https://ieeexplore.ieee…

人工智能 2023年6月22日
0075
kylin学习记录总结

文章目录概述 * 主要特点核心概念注意事项 * 在hive中准备数据星形模型维度表的设计 hive表的分区了解维度的基数 – 维度基数的计算设计cube …

人工智能 2023年7月17日
0062
selenium打开网页被检测，怎么屏蔽和绕过

Selenium 操作被检测屏蔽 selenium打开浏览器模仿人工操作是诸多爬虫小白最万能的网页数据获取方式，但是在做自动化爬虫时，经常被检测到是selenium驱动。前段时间s…

人工智能 2023年7月4日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python 知识图谱 包_python从零开始构建知识图谱笔记

chunk 1

chunk 2

chunk 3

chunk 4

chunk 5

chunk 1

chunk 2

chunk 3

chunk 4

chunk 5

抽提句子关系，，V

define the pattern

大家都在看

python 知识图谱包_python从零开始构建知识图谱笔记